您的位置首页百科知识

Python 简易爬虫开发教程

Python 简易爬虫开发教程

的有关信息介绍如下:

Python 简易爬虫开发教程

本教程介绍开发一个python简单爬虫程序所需要的环境,python爬虫开发的最基础步骤。

1,开发环境搭建

首先安装python3 ,可以参考:https://jingyan.baidu.com/article/afd8f4deb393fa34e386e910.html

安装好python3 后,如图 进入python环境验证python 的 urllib 库是否能正常使用,如没有提示错误则urllib 库能正常使用了。

其他操作系统的python的安装同理,具体可以搜索对应的安装方法。

然后安装爬虫开发所需的第三方库 BeautifulSoup 4.,可以参考:https://jingyan.baidu.com/article/ac6a9a5e31c87c2b643eac11.html

爬虫开发其实还要其他第三方开发库,这里选用BeautifulSoup 4。

最后安装python开发工具IDE。

2,urllib 的用途和用法

urllib 是python3 自带的操作URL 的库,用来模拟用户使用浏览器访问网页。

使用步骤:

1) 程序中导入urllib库的request 模块

from urllib import request

2) 请求URL,相当于浏览网页时右击然后选择 “显示网页源代码”

resp = request.urlopen(“此处填网址")

3)输出上一步请求获得的 “网页源代码”

print(resp.read().decode(“utf-8”))

一个获取网页源码的程序就完成了:

3,对以上第2点进一步优化模拟真实浏览器,

可以先查看浏览器访问网页时携带点header 信息,如图查看”User_Agent”信息,意思是使用什么版本的什么浏览器访问去访问网页,意思是告诉网页服务器这是一个浏览器而不是一个爬虫。有些网站就是根据是否携带”User_Agent”头信息去判断是否是一个爬虫来访问网站。

在第2点的程序基础上加上”User_Agent”头信息

req.add_header(key,value)

4,BeautifulSoup 的使用

参考bs4 的官方文档,官方文档有很详细的入门基础教程例子可以参考。

通过BeautifulSoup 解析html,获得html 各元素的值,如图例子(html_doc 可以换成以上第3点或得的“网页源码”)。爬取获得html 各元素网络的资源然后通过存储和分析用。