看日志常使用到的脚本

杨俊华

浏览: 96124 次
性别:
来自: 南京

最近访客更多访客>>

beliefyou8

zaixiayuchen

xiaguangme

zjy_369

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

脚本 Android Office Python F#

为我们的爬虫程序写了个adapter。可是发现adapter存下来的东西比测试脚本dump的文件要少，甚至少了好几G。
之前的测试上看来，不应该有这样的问题。
看了日志，发现后来由于加了断点续传，好多URL只down下来一部分。由于adapter只会将完全download下来的文件存下来。那些断点续传的部分结果，会被dump出来，但是不会被adapter存储。
为了证明这一点，我需要在茫茫日志中搜索了。

先肯定是grep了。
grep " Try to resume a url" honey_crawler.log > resume |cat resume

打印出来
2011-04-20 08:39:52,656 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:135584, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://allqq.dnion.com/dl.sj.91.com/reader/android/91pandareader_for_android_v1.93.apk
2011-04-20 08:39:53,025 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:660615, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://s200.cdcidc.com:80/apps/2011/03/08/4d75dd35009d9_gan_ji_sheng_huo__1.1.2.apk

可是我只想得到url，怎么办

cat resume |awk -F'url:' '{print $2}'

这下干净了很多

http://apka.mumayi.com:80/22738/quanguoyingxun_V1.0.8_mumayi_d3e6a.apk
http://apka.mumayi.com:80/5401/ThinkFree_Office_for_Android_V1.2.1112.0_mumayi_11b35.apk
http://apk.mumayi.com:80/22114/chaojizhayaobuyuSuper_Dynamite_Fishing_FREE_V1.0.3_mumayi_4b4be.apk
http://haorj123.cn:80/download/upload/2010/10/23/13484678.sis
http://apka.mumayi.com:80/15466/fennudexiaoniao_Angry_Birds_qingrenjieban_V1.2.0_mumayi_8939a.apk
http://vgoto.cn:80/djyx/NetQin_P200638_CM_S60OS90_v4.0.sisx
http://static.nduoa.com:80/apk/11/11752/com.kb.Carrom3DFull.apk
http://apka.mumayi.com:80/22719/chengshitiaoyue_DroidHen_V1.1.6_mumayi_8045e.apk
http://static.nduoa.com:80/apk/12/12212/com.rovio.angrybirdsrio.apk
http://58.249.61.62:80/themes/sisdj/1.3/4c/42b/4c42bd54/qd1314.sis
http://apka.mumayi.com:80/8376/woaitoulan_V1.0%20.5_mumayi_a3251.apk

可是有不少重复哦。

去重？开始想到python。其实没必要。
sort resumeurl |uniq -u|wc -l

这样子就知道到底有多少个url还在漫漫等待着断点续传了。

看来断点续传还是要设置一个timeout，真是没完没了的等待。

1
顶

2
踩

分享到：

比较全的hadoop分析，备用 | 抛掉那些该死的边界条件-- 我看云端后台产 ...

2011-04-20 23:20
浏览 1463
评论(0)
分类:操作系统
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论