Python 简易爬虫开发教程
的有关信息介绍如下:本教程介绍开发一个python简单爬虫程序所需要的环境,python爬虫开发的最基础步骤。
1,开发环境搭建
首先安装python3 ,可以参考:https://jingyan.baidu.com/article/afd8f4deb393fa34e386e910.html
安装好python3 后,如图 进入python环境验证python 的 urllib 库是否能正常使用,如没有提示错误则urllib 库能正常使用了。
其他操作系统的python的安装同理,具体可以搜索对应的安装方法。
然后安装爬虫开发所需的第三方库 BeautifulSoup 4.,可以参考:https://jingyan.baidu.com/article/ac6a9a5e31c87c2b643eac11.html
爬虫开发其实还要其他第三方开发库,这里选用BeautifulSoup 4。
最后安装python开发工具IDE。
2,urllib 的用途和用法
urllib 是python3 自带的操作URL 的库,用来模拟用户使用浏览器访问网页。
使用步骤:
1) 程序中导入urllib库的request 模块
from urllib import request
2) 请求URL,相当于浏览网页时右击然后选择 “显示网页源代码”
resp = request.urlopen(“此处填网址")
3)输出上一步请求获得的 “网页源代码”
print(resp.read().decode(“utf-8”))
一个获取网页源码的程序就完成了:
3,对以上第2点进一步优化模拟真实浏览器,
可以先查看浏览器访问网页时携带点header 信息,如图查看”User_Agent”信息,意思是使用什么版本的什么浏览器访问去访问网页,意思是告诉网页服务器这是一个浏览器而不是一个爬虫。有些网站就是根据是否携带”User_Agent”头信息去判断是否是一个爬虫来访问网站。
在第2点的程序基础上加上”User_Agent”头信息
req.add_header(key,value)
4,BeautifulSoup 的使用
参考bs4 的官方文档,官方文档有很详细的入门基础教程例子可以参考。
通过BeautifulSoup 解析html,获得html 各元素的值,如图例子(html_doc 可以换成以上第3点或得的“网页源码”)。爬取获得html 各元素网络的资源然后通过存储和分析用。