• 2021年5月8日 上午5:20

超的快乐一天

做个人

python爬虫爬取网站数据库存储页面(我爬我自己)

唯一一线

唯一一线

8月 13, 2020 ,

先分析一下要爬取网站的基本信息

随便点击一个导航栏后看到是get请求网页id获取页面

先做一个基本的UA伪装

抓包获取包头提交的User-Agent

代码如下

设定爬取范围

然后设定一个爬取id范围,弄1-1000

先考虑在这么多页面中有很多页面会返回404 那么返回404的并无价值所以我们只要响应码200 ok的

就把相应200的存储下来

那么这个爬虫就完成了

完整代码如下 ps:上边有点小bug,下面已经修复了,上面我就懒得重新改图了

import requests
url_target='https://wecc.online'#目标网站地址

#UA伪装
Hearders={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}
#设定爬取范围
for i in range(1,1001):
    
    kw={
        'page_id':i #page_id是提交查询的参数名
    }
    res=requests.get(headers=Hearders,url=url_target,params=kw)#获取页面

    if res.status_code==requests.codes.ok: #判断返回页面是否是200
        #将200页面做储存
        page_text=res.text
        filename=str(i)+'.html'
        with open(filename,'w',encoding='utf-8') as fp:
            fp.write(page_text)

那么返回200的页面就存储在当前文件下了 ps:没把1000个全跑完 ,跑到一半我就停了

ps:此代码还可以改进,先用for循环制做要爬取范围的字典,再以字典去爬,可以极大改进爬取效率

唯一一线
Latest posts by 唯一一线 (see all)
唯一一线

唯一一线

相情不如偶遇

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注


CAPTCHA Image
Reload Image