常见python爬虫框架

来源：南宁IT培训学校时间：2021/11/2 17:42:06

　　所谓的爬虫就是通过本地远程访问url，然后将url的读成源代码形式，然后对源代码进行解析，获取自己需要的数据，相当于简单数据挖掘。

　　Scrapy:很强大的爬虫框架，可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

　　(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

　　(3)Portia:可视化爬取网页内容

　　(4)newspaper:提取新闻、文章以及内容分析

　　(5)python-goose:java写的文章提取工具

　　(6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

　　(7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过的example以及人肉尝试的方法，还是勉强能用的。

　　(8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

　　(9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

相关推荐

联系方式

选择专业时，如果犹豫不定，不知道选择哪个比较好，敬请致电，专业的咨询老师会为你解答。

开课专业

没有想要的答案？马上提问