`
杨俊华
  • 浏览: 96124 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

看日志常使用到的脚本

阅读更多
为我们的爬虫程序写了个adapter。可是发现adapter存下来的东西比测试脚本dump的文件要少,甚至少了好几G。
之前的测试上看来,不应该有这样的问题。
看了日志,发现后来由于加了断点续传,好多URL只down下来一部分。由于adapter只会将完全download下来的文件存下来。那些断点续传的部分结果,会被dump出来,但是不会被adapter存储。
为了证明这一点,我需要在茫茫日志中搜索了。

先肯定是grep了。
grep " Try to resume a url" honey_crawler.log > resume |cat resume

打印出来
2011-04-20 08:39:52,656 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:135584, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://allqq.dnion.com/dl.sj.91.com/reader/android/91pandareader_for_android_v1.93.apk
2011-04-20 08:39:53,025 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:660615, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://s200.cdcidc.com:80/apps/2011/03/08/4d75dd35009d9_gan_ji_sheng_huo__1.1.2.apk

可是我只想得到url,怎么办

cat resume |awk -F'url:' '{print $2}'

这下干净了很多

http://apka.mumayi.com:80/22738/quanguoyingxun_V1.0.8_mumayi_d3e6a.apk
http://apka.mumayi.com:80/5401/ThinkFree_Office_for_Android_V1.2.1112.0_mumayi_11b35.apk
http://apk.mumayi.com:80/22114/chaojizhayaobuyuSuper_Dynamite_Fishing_FREE_V1.0.3_mumayi_4b4be.apk
http://haorj123.cn:80/download/upload/2010/10/23/13484678.sis
http://apka.mumayi.com:80/15466/fennudexiaoniao_Angry_Birds_qingrenjieban_V1.2.0_mumayi_8939a.apk
http://vgoto.cn:80/djyx/NetQin_P200638_CM_S60OS90_v4.0.sisx
http://static.nduoa.com:80/apk/11/11752/com.kb.Carrom3DFull.apk
http://apka.mumayi.com:80/22719/chengshitiaoyue_DroidHen_V1.1.6_mumayi_8045e.apk
http://static.nduoa.com:80/apk/12/12212/com.rovio.angrybirdsrio.apk
http://58.249.61.62:80/themes/sisdj/1.3/4c/42b/4c42bd54/qd1314.sis
http://apka.mumayi.com:80/8376/woaitoulan_V1.0%20.5_mumayi_a3251.apk

可是有不少重复哦。

去重? 开始想到python。其实没必要。
sort resumeurl |uniq -u|wc -l

这样子就知道到底有多少个url还在漫漫等待着断点续传了。

看来断点续传还是要设置一个timeout,真是没完没了的等待。



1
2
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics