博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
无聊些python 抓糗百 看看。。。。。。
阅读量:6852 次
发布时间:2019-06-26

本文共 563 字,大约阅读时间需要 1 分钟。

hot3.png

#coding=utf-8import requestsfrom lxml import etreeimport sysreload(sys)sys.setdefaultencoding('utf-8')for num in range(1,36):    url = 'http://www.qiushibaike.com/8hr/page/'+str(num)    html = requests.get(url).text    selector = etree.HTML(html)    content = selector.xpath('//div[@id="content-left"]/div[@class="article block untagged mb15"]/div[@class="content"]/text()')    print  '正在抓取第'+str(num)+'页:url:'+url    for each in content:        f = open('./qiubai1.txt','a')        f.write(each+'\n')    f.close()

转载于:https://my.oschina.net/u/2411815/blog/619964

你可能感兴趣的文章
去你的lua和go,哥发现node.js原来才是最爱~
查看>>
OC中initialize方法和init方法的区别
查看>>
一些不可思议的小问题
查看>>
界面间传值
查看>>
3.vsphere client的安装
查看>>
Linux实现最常用的磁盘阵列-- RAID5
查看>>
简单的菜单 menu
查看>>
Intellij Idea 2017创建非Maven web项目使用tomcat部署实战
查看>>
工程DHCP配置
查看>>
GIL(全局解释器锁)与互斥锁
查看>>
我的友情链接
查看>>
Git常用操作及分支
查看>>
关于一种求最大公约数的算法的分析与证明
查看>>
微信授权莫名创建用户数据失败的原因
查看>>
网络高手修身
查看>>
JavaWeb综合案例-键盘模拟
查看>>
Android Day03-SQLite数据库操作及ListView详解
查看>>
Looking for APAC Operations IT XML Database Developer in Shenzhen and Hongkong
查看>>
Myeclipse常用快捷键
查看>>
我的友情链接
查看>>