專屬客服18376668806 在線咨詢 留言/需求提交

如果十年前擁有這些技術,你可能比馬云還要富 :網絡爬蟲

作者:編碼之妙
鏈接:http://www.toutiao.com/i635276

如果十年前擁有這些技術,你可能比馬云還要富 :網絡爬蟲-python版

  • scrapy: scrapy

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在于它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。


  1. pyspider: pyspider

pyspider 來源于以前做的一個垂直搜索引擎使用的爬蟲后端。最初的需求是需要從200個站點(由于站點失效,同時有100+在跑吧)采集數據,并要求在5分鐘內將對方網站的更新更新到庫中。

所以,靈活的抓取控制是必須的。同時,由于100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以及查看抓取狀態。

這個項目對于爬蟲的監控和調度要求是非常高的。

特點是:

    • python 腳本控制,可以用任何你喜歡的html解析包(內置 pyquery)

    • WEB 界面編寫調試腳本,起停腳本,監控執行狀態,查看活動歷史,獲取結果產出

    • 支持 MySQL, MongoDB, SQLite

    • 支持抓取 JavaScript 的頁面

    • 組件可替換,支持單機/分布式部署,支持 Docker 部署

    • 強大的調度控制

portia: portia

可視化的網頁內容抓取工具 Portia

html2text: html2text

html2text是一個Python模塊,用來把HTML格式轉換為文本(Markdown)格式。

BeautifulSoup: BeautifulSoup

Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

lxml: lxml

lxml是python中處理xml的一個非常強大的庫,可以非常方便的解析和生成xml文件。

selenium:selenium

Selenium 是ThoughtWorks專門為Web應用程序編寫的一個驗收測試工具。Selenium測試直接運行在瀏覽器中,可以模擬真實用戶的行為。支持的瀏覽器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。這個工具的主要功能包括:測試與瀏覽器的兼容性——測試你的應用程序看是否能夠很好地工作在不同瀏覽器和操作系統之上。測試系統功能——創建回歸測試檢驗軟件功能和用戶需求。

簡單地說,Selenium允許你用代碼操作瀏覽器,也可以執行JS腳本,這使它的應用不僅僅限于自動化測試。比如用它切換馬甲登錄網站,這正是筆者接觸selenium的初衷。

mechanize: mechanize

希望與 Web 頁面中找到的內容進行某種比較復雜的交互時,您需要使用 mechanize 庫。

PyQuery: pyquery

jQuery程序員的福氣,你不需要學習更多的技能,就能熟練使用網絡爬蟲。

PyQuery 是 Python 仿照 jQuery 的嚴格實現。語法與 jQuery 幾乎完全相同,所以不用再去費心去記一些奇怪的方法了。

pyquery 可讓你用 jQuery 的語法來對 xml 進行操作。這I和 jQuery 十分類似。如果利用 lxml,pyquery 對 xml 和 html 的處理將更快。

關注“網頁設計自學平臺訂閱號回復以下關鍵字


|dw教程|js教程|淘寶案例|軟件下載|搜狐案例|網站模板


戳“閱讀原文”入群免費領取前端開發教程

99久久香蕉国产线看观看