Perfil de Youxin亚马猪BlogListas Herramientas Ayuda

Blog


30 marzo

白铁征友网:增加来自北大未名和天地人大的照片

白铁征友网http://www.better9.com

最近发现其实来访者都是来看照片的,没照片他来看你作甚?之前俺只转了水木社区的照片,今天发现北大未名和天地人大也都有一些照片,所以一并转了,以后也都会实时转的。欢迎来访。

原以为看Apache log就可以统计流量,现在发现这个想法实在是过于天真,Spider们都太牛比了,导致根本看不出来什么访问是人干的,什么访问是机器干的,只好老老实实的写pingback。

btw,俺好像也被下面说的那个“daye”抓过,大爷就是牛比亚。

转载:http://blog.kangkang.org/wordpress/index.php/archives/152

今天无聊看了一下 httpd 的 log, 发现这个地方真是 Bot 的乐园,一眼看去无数行 log 里面一个正常访问的用户都没有,有名的无名的 Bot 哗啦哗啦抓得不亦乐乎。还好我的带宽不要钱,要是虚拟主机用户岂不是要哭死。

简单统计了一下 User-Agent:

cut -d ” ” -f 12- access.log | sort | uniq -c | sort -k 1 -n -r > /tmp/uastat.log

结果见附件。

肉眼观察了一下,大概有如下这些 Bot,按照出现频率排序。

“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)” // 毫无疑问,yahoo china 的是抓的最狠的。
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“Baiduspider+(+http://www.baidu.com/search/spider.htm)” // google 和 baidu 这俩其实不分上下,今天 g 抓的狠,明天 b 抓的狠
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)” // 美国和中国 yahoo 的 spider 明显是分开的。
“Mozilla/4.0 (compatible; MSIE 6.0)” // 这个肯定是什么玩意伪装的, 真正 IE 没有这么沉默,要加很多系统版本号之类。
“msnbot/1.0 (+http://search.msn.com/msnbot.htm)”
“lanshanbot/1.0″ // 这是什么?
“Anothr spider(http://www.anothr.com; RServer 0.5)” // 这个貌似是新冒出来的,以前没有见过。
“lilina 0.9 (+http://lilina.sf.net/)” // 谁家装的这个东东来抓我?
“Bloglines/3.1 (http://www.bloglines.com; 1 subscriber)”
“Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)” // Google 他们家的 Bot 也分好几种
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0 qihoobot@qihoo.net)” // qihoo 也来凑热闹了,以前没有见过
“iaskspider/2.0(+http://iask.com/help/help_index.html)” // 这东西是死灰复燃了么?感觉跟快没了似的。。
“Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )” // yodao 貌似 bot 改过很多次名字了。
“CafeRssCatch1.0″ // 这个是啥?
“Mozilla/5.0 (compatible;YodaoBot-ZZZ/0.2;http://www.yodao.com/help/webmaster/spider/;zzzyzzz@gmail.com)/0.2 http://www.yodao.com/help/webmaster/spider/; zzzyzzz@gmail.com)” // 不能不说 yodao 这个 Bot 描述写的太次了,描述就是简要描述,不是给你在里面写小说用的,要不要把手机号也写里面给大伙看看?
“MagpieRSS/0.72 (+http://magpierss.sf.net) (Tiny Tiny RSS/1.2.5)”
“curl/7.15.1 (i386-redhat-linux-gnu) libcurl/7.15.1 OpenSSL/0.9.8a zlib/1.2.3 libidn/0.6.2″ // 经典且传统
“Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; Rojo 1.0; http://www.rojo.com/corporate/help/agg/; Aggregating on behalf of 3 subscriber(s) online at http://www.rojo.com/?feed-id=2586324) Gecko/20021130″ // 原来除了 yodao 那个,还有更恶心的描述,ft
“NewsGatorOnline/2.0 (http://www.newsgator.com; 2 subscribers)”
“InetURL:/1.0″ // 超赞,这是哪个控件的默认 UA ?
“Zhuaxia.com 9 Subscribers”
“Berrylines-rssbot (Berrylines-rssbot 0.1; 1 users)”
“FeedOnFeeds/0.1.8 (+http://minutillo.com/steve/feedonfeeds/)”
“Liferea/1.2.7 (Linux; zh_CN.UTF-8; http://liferea.sf.net/)” // 懒得看这个是客户端还是 Bot 了,先当 bot 算
“sogou spider”
“sogou js robot” // 有人喋喋不休就有人惜墨如金,加个描述网页的 URL 会被罚款吗?还是怕人找上门来算帐?
“Mozilla/3.0 (compatible; Indy Library)” // Delphi/BCB !
“iearthworm/1.0, iearthworm@yahoo.com.cn” // 又是一个小本经营的啊。没有网页给大家看就放个邮箱。不过这名字听起来有点危险 — worm,,
“TrackBack/1.02″ // 我没有名字,就叫我路人甲好了。。
“Wget/1.9.1″ // wget 明显不行了啊,比 curl 少那么多。。
“larbin_2.6.3 (larbin2.6.3@unspecified.mail)” // 连默认配置都不改一下的一定是个懒人。。
“User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)” // 还有程序写错了的,自己有没有抓包看看啊。。
“P.Arthur 1.1″ // 久仰久仰,不过你到底是啥?
“Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)” // 哇,韩国搜索引擎也对我这中文blog感兴趣么?
“IRLbot/3.0 (compatible; MSIE 6.0; http://irl.cs.tamu.edu/crawler)”
“daye” // 你才大爷,你们全家都大爷,来抓还不说自己是谁。
“libwww-perl/5.79″
“findlinks/1.1.3-beta9 (+http://wortschatz.uni-leipzig.de/findlinks/)”
“CFNetwork/129.20″

29 marzo

进化论 —— 数据分析的幽灵(2)

进化论 —— 数据分析的幽灵(引子)
进化论 —— 数据分析的幽灵(1)

继续上次的话题。

在一次直播中,用户是不断地进入和退出的,随着这些人的进入和退出,在线用户的组成结构也在悄悄地发生变化,那么,他们进入和退出的原因何在?

首先看用户退出,这个比较容易理解一些。用户在看一场火箭队的NBA比赛,那么他为什么要选择退出呢?

(1) 俺要出去吃饭了,跟人约好了的亚,再见。
(2) 姚明越来越弱智了,比赛越来越没看头了,走人。
(3) 太卡了,放一秒卡三秒,没法看。

这是三个特例,总结起来是三种不同类型的原因,(1) 用户本身的原因 (2) 节目内容的吸引力不够 (3) 播放质量差,导致不能忍受

我们现在回到我们的指标:在线用户的平均观看质量。很明显,由于原因(1)和原因(2)而退出的用户,从期望上说,不会对这一指标造成影响;而由于原因(3)退出的用户,会对这一指标起到正面的作用。

或者,用句通俗的话说,“人越多越流畅”的原因之一是:随着直播的进行和人数的增加,观看不流畅的用户在不断离开。

当今的地球上,各种各样的生物都具有很多适应环境的特性,那是因为在漫长的历史过程中,物竞天择,适者生存。

27 marzo

终于把个税申报寄出去了

去银行打了利息清单,去找HR要了公司薪金清单,发了一个挂号信给海淀区税务局,貌似这个办法还是比打车去一趟要好得多,不过就是不知道他们会不会把信给搞丢了,难说呢。

btw,为什么田野同学寄信只要3块8,我寄信要3块9呢?不服啊。 

转贴:

据说税务局的脑袋被驴踢了

昨天看到这个帖子,今天去登录个税申报的网站,发现用一个月前从系统获取的密码果然怎么也进不去。

我需要解释一下,我是绝对不会记错密码的。。因为在系统生成密码给我的第一时间,我就已经把当时的屏幕拷下来粘到OneNote里面去了。。所以除非是我老眼昏花看屏幕看不清楚,或者是帕金森综合症敲键盘敲不出来。。

但是更有可能的原因哪,据我分析,一定是他们的用户密码数据库崩溃了。。他们既没有及时备份,又不敢通知所有用户重新建立档案。。

于是我的状态就是:既没法用它上次生成的密码登录;又没有办法重新登记个人信息(因为我的身份证已经在系统里面了)。于是就只能浪费三块八毛钱寄一份挂号信给海淀区税务局了。。

转贴:个税申报——税务局的脑袋被驴踢了
(以下出自我自己的blog,省略)

25 marzo

白特征友网

发现自己的无聊指数在进一步增加呀。

白特征友网 

自动转贴7个BBS征友版块的文章和图片。

其实我本来是想做个RSS玩的,结果被人撺掇要做成网站,就只好这样了。

地址是http://zy.net9.org,其实上面已经有一个了。


23 marzo

转贴:个税申报——税务局的脑袋被驴踢了

中招了,上次从系统里面获取的密码这次进去怎么都不对,客服电话没人接,按下文4的说法,只好下周一去跑一趟了。

以下为转贴。

=========

单位请普华永道给他们进行了个人所得税申报的培训,会后大家得出的一致意见是,税务局的脑袋被驴踢了!他们竟然能够设计出一个如此荒谬的个人纳税申报规定,而且很多政策在税务局自己都没有搞懂的情况下就出台了,实在是不可思议!

1、申报的范围包括银行利息。

这就意味着我要把家里各个旮旯里的存折、储蓄卡都找出来,每年年初到各个银行去打一次利息,之后把金额加起来再上网申报!搞错没有!除了几笔大额存款之外,我哪个卡里有钱哪个卡里没钱都不清楚,为了申报它我还得一个银行一个银行的去跑,要么选择注销要么每年打一次单子,这不是捣乱吗?你照搬照抄国外没有关系,但人家国外的银行每年自己给你打单子寄过去,数据来源是明明白白的,咱们银行有这服务吗?别说给我寄单子了,我每次去银行能不排队就已经谢天谢地了!

2、银行存款利息计算没有考虑到外币存款。

在利息申报处只有一个单元格,家里如果存点外币的话,回头我得先到银行打出利息,然后再根据利率折算成人民币,接着再和人民币的存款利息相加算出一个总合!额滴神啊!税务局的大哥要不要再查查我申报那天的利率是多少?万一我折算利率是一天,申报是另一天,这是不是也属于我的错啊?

3、纳税金额需要自己推算。

如果只要我申报收入多少还勉强可以接受,上面的不便还可以忍,但接下来这个就强人所难了!个人收入应交多少税款竟然也要自己来算!而且有些收入已经代缴代扣过税款了,那我还得倒推回去,算出代缴代扣了多少钱。每项收入要算出应交税款、已交税款和差额。天哪!税务局的大哥们太高估我们的智商了!虽然我们的智商不差,但是面对他们这种混乱逻辑和思维,正常的智商是没有应对能力的!

4、密码保存严重不便。

在第一次输入个人信息时,系统会给出一个密码,老师再三嘱咐,这个密码千万不能丢!一定一定要记住,因为它只出现这一次,如果不赶快记下来,以后登陆不上系统时,就需要带着自己个人资料到所在公司北京的注册地所属税务局去办理。晕!咱不说顾客是上帝了,设计系统时能略微考虑一下用户的使用习惯吗?税务局的大哥花咱纳税人的钱时咋一点都不替咱纳税人想想呢?感情他们都是灰色收入不用申报的吧!

5、网上申报系统没有加密。

上述问题都不算啥,不就麻烦点吗?咱中国的老百姓早就麻烦惯了,这点麻烦算啥,能忍!但是是可忍孰不可忍的是,在培训的时候,大牛的技术人员评测,这个网上申报系统竟然没有加密,但凡有点黑客知识的人就能拿到上面的所有数据!真不敢相信!难道税务局的大哥们脑袋真的被驴踢了吗?他们难道没有想过这件事情的严重性吗?

6、股票收入申报是为了考虑日后是否收税。

股票收入虽然目前不收税,但仍然要进行申报。从普华永道得来的消息是,股票收入也要申报的目的是,国家要看看现在老百姓的股票收入有多少,将来为征税进行基础数据积累。税务局的大哥们啊,原来你们的脑袋也有离驴腿远一点的时候啊,只可惜没用到地方,有这功夫琢磨这些阴的,做点正经事行不行?

应对之策:

1、据培训时讲,关于银行利息一项,去一家银行打个单子填上就行了,不用每家银行都去,因为在税务局大哥们尚未理清楚思路的情况下,他们不会挨个去查的。但是也不要一点利息都不写,那样目标太明显,容易引起他们警惕。

2、千万不要在网上进行申报,以保证自己的数据安全。

3、少赚点钱,达不到申报的标准就可以免除这些麻烦了!



22 marzo

进化论 —— 数据分析的幽灵(1)

上次写完引子过后,好多朋友都来猜这是怎么一回事情,有的认为是人数继续增多后,系统会不稳定而崩溃掉,导致效果会突降;有的认为我给的数据不足够导致说明不了问题;还有的觉得这些数据从根本上就是给用户看的骗人的东西。

有这么一些朋友关心我写的这个问题,我实在是非常高兴和感动。

这个问题的答案是这样的,人数从5000达到40000,并不是简单的增加了35000人,而是:

(1) 原有的5000人,他们有的发扬了坚持不懈的革命精神,一直把节目看到了最后;有的则会在中途退出掉
(2) 不断的有新的人进来,当然同上,他们有的看到了最后,有的没有

换句话说,在线人数从5000增加到40000的过程,是一个不断有用户进退的动态过程,只是因为进入的用户总是大于退出的用户,才使得人数呈现递增的态势。在该次直播的数据中,从节目开始到结束,总共的用户进入人次为100000,这就是说,在节目结束(即人数最高点)之前,发生了10万人次的用户进入,而由于最高点的在线人数为4万人,即是说在此之前,发生了6万人次的用户退出。

于是,随着这些人的进入和退出,在线用户的组成结构也在悄悄地发生变化,而用户与用户之间的网络条件本身就存在着差异。如果用户已经不是那些用户,那么单纯地讨论在线人数和播放流畅度之间的关系,将不再有意义,而用这个关系来说明是P2P使得“人越多越流畅”,也站不住脚了。

而通过分析用户进入和退出的原因,也许能给“人越多越流畅”这个现象一个更合理的解释。

未完待续。



20 marzo

进化论 —— 数据分析的幽灵(引子)

这是一篇我很早就想写的文章,其灵感出自于我在做PXP直播(Sohu公司P2P流媒体直播的解决方案)期间的一些体会。

数据的收集和分析永远是一个重头戏,上至产品层面上的用户行为和倾向如何,下至技术细节上某个具体的调度策略是否取得了好的效果,都必须用统计数据来说明问题。

“人越多越流畅”,这几乎成了每家P2P流媒体公司宣传自己的产品时所必然要提到的一句话。对于整天玩弄BT、电驴等P2P软件的人来说,理解这句话是非常容易的;但P2P流媒体和P2P下载软件是不同的东西,简单的类比毕竟缺乏可信度,结论需要数据的支撑。

当然对于PXP直播来说,要拿出数据是很容易的。

一次总时长为3小时的直播,其头一个小时,在线人数从0迅速增加到35000,之后的两个小时,人数从35000开始缓缓增加,最终达到40000的峰值。在这个过程中,我们统计每一个用户播放器出现缓冲现象(即播放不流畅)的次数,计算无缓冲的用户占总用户的比例,对照当时的在线人数,可以得到如下的数据:

在线人数 无缓冲比例
5000 87%
10000 90%
15000 92%
20000 94%
30000 96%
40000 97%

当我们很多次地拿到类似的数据时,我们就可以信誓旦旦的说,统计数据证明了“人越多越流畅”。是这样的么?

我想,如果我们老是这样简单地分析数据,也许会比不分析数据增加更多的犯错误的机会。

未完待续。
10 marzo

白特视频搜索

1

首先声明,纯属个人娱乐搞笑作品,花了我昨天(周五)晚上到现在的时间才做到目前这个样子,不想继续做了,免得耽误正事。
地址http://better.net9.org,感谢林总的域名解析。
网页标题“白特视频搜索——全球最小的中文视频搜索引擎”,原本取名为“白特一下,你就不知道”,或者“白特更不懂网络”,想了想,还是现在这个更贴切一些。
对了,俺做的所有事情就是尽可能的把一个连续剧(或者系列视频)放到一起,除此之外什么都没有。

2.

这个玩艺爬了点video.baidu.com的数据,agoii姐姐和其他各位baidu总不要打我……
其实因为baidu的数据不怎么全,本来想直接去爬各个播客网站的,结果发现要针对每个网站单独写spider,太费事了,只好作罢。

3.

另,前段听说在百度敲sb,搜索结果的第一条是Google,上去一试,果然如此。
于是俺又换了中文,结果搜出这么一个网站:www.bigsb.com。
我正在愁首页没有一个合适的图标用,于是捡了它的图标摆着,等哪天有空了自己做个图标换上去。

4.

感谢Leyes同学在俺做这个无聊东东的时候给我的帮助。

5

再贴一下相关网址

白特视频搜索——全球最小的中文视频搜索引擎:
http://better.net9.org

百度视频搜索——全球最大的中文视频搜索引擎:
http://video.baidu.com

大$%^&网
http://www.bigsb.com
06 marzo

明朝那些事儿

1

我们从一份档案开始
  
姓名:朱元璋 别名(外号):朱重八、朱国瑞
性别:男
民族:汉
血型:?
学历:无文凭,秀才举人进士统统的不是,后曾自学过。
职业:皇帝
家庭出身:(至少三代)贫农
生卒:1328-1398
最喜欢的颜色:黄色(这个好像没得选)
社会关系:父亲:朱五四 农民
母亲:陈氏 农民(不好意思,史书中好像没有她的名字。)
座右铭:你的就是我的,我的还是我的
  
主要经历:
1328年--1344年 放牛
1344年--1347年 做和尚,主要工作是出去讨饭(这个。。。)
1347年--1352年 做和尚,主要工作是撞钟
1352年--1368年 造反(这个猛)
1368年--1398年 主要工作是做皇帝

2

显然,以上这一段不是我写的,它是一部网络小说的开场白,这部小说名叫《明朝那些事儿》,口号是“历史应该可以写得好看”,目前还在连载中,是一个广东的公务员在业余时间写成的。看来这公务员就是闲啊。

这部小说用的是一种纯草根的叙述历史的方式,着实给人一种耳目一新的感觉,搞笑和调侃的文笔也能给读者一种轻松的感受。日子何等的苦,一天劳累的工作过后,能读一点这种能不断给人笑料的文字,同时还可以自我安慰地说自己在学习历史,实在是一件天大的美事。

我不太喜欢这部小说内部的那些历史唯物主义的分析,以及对战争过程过于细致的描写,不过,这不会影响我对它的推荐。

3.

贴几个链接。

《明朝那些事儿》全文阅读
http://www.lcread.com/bookPage/10786/10786dr.html

《明朝那些事儿2》全文阅读
http://www.lcread.com/bookPage/10787/10787dr.html

作者Blog:
http://blog.sina.com.cn/dangnianmingyue


04 marzo

爱情专一



听人说《爱情呼叫转移》很好看,没有看过,只是发现它的主题歌《爱情转移》不错,是《富士山下》的国语版。



子曾经曰过,少年戒色,中年戒斗,老年戒得。人生各阶段,都有所禁忌,都有不得为之的事情或者说难以把握的事情。再结合子曾经曰过的其它一些话反省一下自身,发现把自己的心划到哪个阶段都不合适,因为什么优点都没有,同时所有缺点占齐,看来应该赶紧把自个熬汤煮一遍,去去毒素,浪子回头,重新做人。



好久没有看股票了,经朋友提醒,才知道新年的第二天,出了一个大盘几乎跌停的闹剧,号称十余年来的大盘单日最大跌幅。然后我上网翻翻帐,果然账面价值较前一天损失许多。过了几天,又听说涨回来了点,就没再去看了。

回头翻翻还能看见自己在大半年之前忽悠封闭式基金的文章,回想起那个时候“遥望股指已三千”的狂士们,他们的梦居然成了事实,真是无限感慨,那个时候随便买一只股票或者基金拿到现在的,都赚了好多,俺选的封闭式基金都没有翻番,真是没法出来跟人打招呼啊。

从2005年9月进股市到现在一年半了,我发现一个特别有趣的现象:越是指数涨的高,股票越贵的时候,入市的人就越多,买入的人也就越多;指数一旦跌下来,股票便宜了,马上就出来一些人唱空了,卖股票了,想入市的人也不敢入市了。这个现象总结起来就是说,如果把所有发出声音的股民看成一个整体,他们的平均买入价位高于平均卖出价位,那么钱到哪里去了呢?

所以闷声发小财是王道,千万不能人云亦云。

其实,做很多事情都是这样的,不惟股票如此。



徘徊过多少橱窗 住过多少旅馆
才会觉得分离也并不冤枉
感情是用来浏览 还是用来珍藏
好让日子天天都过得难忘

熬过了多久患难 湿了多少眼眶
才能知道伤感是爱的遗产
流浪几张双人床 换过几次信仰
才让戒指义无反顾的交换

把一个人的温暖转移到另一个的胸膛
让上次犯的错反省出梦想
每个人都是这样 享受过提心吊胆
才拒绝做爱情待罪的羔羊

回忆是捉不到的月光握紧就变黑暗
等虚假的背影消失于晴朗
阳光在身上流转 等所有业障被原谅
爱情不停站
想开往地老天荒
需要多勇敢

烛光照亮了晚餐 照不出个答案
恋爱不是温馨的请客吃饭
床单上扑满花瓣 拥抱让它成长
太拥挤就开到了别的土壤

感情需要人接班 接近换来期望
期望带来失望的恶性循环
短暂的总是浪漫 漫长总会不满
烧完美好青春换一个老伴

把一个人的温暖转移到另一个的胸膛
让上次犯的错反省出梦想
每个人都是这样 享受过提心吊胆
才拒绝做爱情待罪的羔羊

回忆是捉不到的月光握紧就变黑暗
等虚假的背影消失于晴朗
阳光在身上流转 等所有业障被原谅
爱情不停站
想开往地老天荒
需要多勇敢

你不要失望
荡气回肠是为了
最美的平凡



你不要失望,荡气回肠是为了最美的平凡。