博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用python 写网络爬虫--零基础
阅读量:7030 次
发布时间:2019-06-28

本文共 354 字,大约阅读时间需要 1 分钟。

在爬取网站之前,要做以下几项工作

 

1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。

2.检查网站地图 

 

3.估算网站大小

利用百度或者谷歌搜索 Site:example.webscraping.com

 

结果如下  

找到相关结果数约5个

 

数字为估算值。网站管理员如需了解更准确的索引量

 

 

4.识别网站所使用的技术

使用python 中的builtwith 模块

下载地址

 

运行  pip install builtuith

 

安装完成后 使用命令

 

Import builtwith

Builtwith.parse(http://example.webscraping.com)

转载于:https://www.cnblogs.com/mrruning/p/7624699.html

你可能感兴趣的文章
关于JQuery Class选择器的一点
查看>>
POJ3264 Balanced Lineup
查看>>
redis-cli 连接远程服务器
查看>>
emlog通过pjax实现无刷新加载网页--完美解决cnzz统计和javascript失效问题
查看>>
sublime 之 vitage/emmet
查看>>
代码管理(四)SVN和Git对比
查看>>
python - hadoop,mapreduce demo
查看>>
mongodb常见管理命令
查看>>
1.7 以函数对象取代函数
查看>>
Vue过渡效果之JS过渡
查看>>
Android项目实战(三):实现第一次进入软件的引导页
查看>>
Web Service基础——基础概念
查看>>
Linux2.4文件系统中vfsmount、安装点的dentry、设备的dentry之间的关系【转】
查看>>
POJ 1201 Intervals
查看>>
JAVA訪问URL
查看>>
APP接口基础学习一
查看>>
设计模式 策略模式 以角色游戏为背景
查看>>
【转】CSS和SVG中的剪切——clip-path属性和<clipPath>元素
查看>>
【C语言入门教程】5.4 递归
查看>>
UVALive 6915 Leveling Ground 倍增RMQ
查看>>