为我们的爬虫程序写了个adapter。可是发现adapter存下来的东西比测试脚本dump的文件要少,甚至少了好几G。
之前的测试上看来,不应该有这样的问题。
看了日志,发现后来由于加了断点续传,好多URL只down下来一部分。由于adapter只会将完全download下来的文件存下来。那些断点续传的部分结果,会被dump出来,但是不会被adapter存储。
为了证明这一点,我需要在茫茫日志中搜索了。
先肯定是grep了。
grep " Try to resume a url" honey_crawler.log > resume |cat resume
打印出来
2011-04-20 08:39:52,656 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:135584, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://allqq.dnion.com/dl.sj.91.com/reader/android/91pandareader_for_android_v1.93.apk
2011-04-20 08:39:53,025 DEBUG [crawler.downloader.HttpClient.finished] - Try to resume a url, currentPos:660615, resumeTransmissionTime:5, last error:ENUM_URL_LESS_LENGTH_FAIL, url:http://s200.cdcidc.com:80/apps/2011/03/08/4d75dd35009d9_gan_ji_sheng_huo__1.1.2.apk
可是我只想得到url,怎么办
cat resume |awk -F'url:' '{print $2}'
这下干净了很多
http://apka.mumayi.com:80/22738/quanguoyingxun_V1.0.8_mumayi_d3e6a.apk
http://apka.mumayi.com:80/5401/ThinkFree_Office_for_Android_V1.2.1112.0_mumayi_11b35.apk
http://apk.mumayi.com:80/22114/chaojizhayaobuyuSuper_Dynamite_Fishing_FREE_V1.0.3_mumayi_4b4be.apk
http://haorj123.cn:80/download/upload/2010/10/23/13484678.sis
http://apka.mumayi.com:80/15466/fennudexiaoniao_Angry_Birds_qingrenjieban_V1.2.0_mumayi_8939a.apk
http://vgoto.cn:80/djyx/NetQin_P200638_CM_S60OS90_v4.0.sisx
http://static.nduoa.com:80/apk/11/11752/com.kb.Carrom3DFull.apk
http://apka.mumayi.com:80/22719/chengshitiaoyue_DroidHen_V1.1.6_mumayi_8045e.apk
http://static.nduoa.com:80/apk/12/12212/com.rovio.angrybirdsrio.apk
http://58.249.61.62:80/themes/sisdj/1.3/4c/42b/4c42bd54/qd1314.sis
http://apka.mumayi.com:80/8376/woaitoulan_V1.0%20.5_mumayi_a3251.apk
可是有不少重复哦。
去重? 开始想到python。其实没必要。
sort resumeurl |uniq -u|wc -l
这样子就知道到底有多少个url还在漫漫等待着断点续传了。
看来断点续传还是要设置一个timeout,真是没完没了的等待。
分享到:
相关推荐
####log_correct函数打印正确的输出到日志文件 function log_correct () { DATE=`date “+%Y-%m-%d %H:%M:%S”` ####显示打印日志的时间 USER=$(whoami) ####那个用户在操作 echo “${DATE} ${USER} execute $0 ...
数据库日志收缩脚本,适用于SQL server 2005, 2008, 2012
linux常用定时日志清理脚本,一些应用服务器长年累积日志量庞大,用这个定时任务清理指定日志类文件。参考下吧~
在linux下使用此脚本可以自定义日志,记录所有的shell命令
log.yyyy-mm-dd.log日志和项目的日志文件,其中项目的日志文件格式为”projectname-yyyy-mm-dd.log”,以下为备份脚本,具体的操作都有相应的注释,供大家参考,具体情况请根据日志文件的格式和要求来使用本脚本。...
Nginx日志切割脚本
内容概要: ...2、备份日志后原日志文件不删除只清空当前当前日志内容,释放空间并把备份日志进行压缩存储。 备份日志清理采用以下两种方式: 1、采用find命令方式进行清理。 2、普通命令方式进行清理。
包含了删除n天以前的文件脚本、删除n天以前的文件夹脚本、使用说明(使用该脚本,百度新增计划任务,可每日定时清理)
自己写的tomcat日志分割脚本,自动分割日志,自动删除过期日志,也可以用于其他容器日志分割,稍加修改即可
1)SAP HCI上打印IFLOW的日志。2)能看到HTTP详细信息,包括header,body,property等信息。
使用说明: 将带有.log后缀名的日志文件和脚本放到一个空文件夹里运行该脚本即可得到相应数据 警告:如果你使用的是windows操作系统,请安装cywine,安装教程网上搜一下,有很多。 由于cywine模拟linux环境,但...
linux日志打包脚本 日志打包脚本
Photoshop清除PSD日志脚本,减少PSD缓存过大。减少PSD存盘空间
下面分享一下我用Shell编写的分析Nginx日志的脚本,它可以快速得出排名最前的网 站和IP等,内容如下所示: Most of the ip: ------------------------------------------- 220 59.41.24.48 178 59.41.24.80 172 ...
本解本实现了使用shell脚本实现nginx日志分割,大家如果没资源分下载,可以转至:https://mp.csdn.net/mdeditor/85233117# 去查看源代码。谢谢大家
windows收集日志脚本
linux服务器自动清理日志的脚本和使用文档相关命令和定时任务linux服务器自动清理日志的脚本和使用文档相关命令和定时任务linux服务器自动清理日志的脚本和使用文档相关命令和定时任务linux服务器自动清理日志的脚本...
IIS日志清理脚本,脚本里含路径和保留时间可自行修改
说明:只需要定义日志文件目录,便可一键执行日志切割脚本,并自动添加到定时任务
nginx按天进行日志切割脚本,同样适合其它很多服务日志的切割,压缩包包含shell切割脚本和使用说明,该脚本适合nginx同时也适合其他类似服务的日志切割,只要简单修改shell脚本即可,灵活多变,实用。