教育行業A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

一招教你快速使用urllib爬取網頁!

更新時間:2022年04月22日11時50分 來源:傳智教育 瀏覽次數:

什么是urllib?

urllib庫是Python內置的HTTP請求庫,它可以看做是處理URL的組件集合。urllib庫包含了四大模塊,具體如下:

  • urllib.request:請求模塊
  • urllib.error:異常處理模塊
  • urllib.parse:URL解析模塊
  • urllib.robotparser:robots.txt解析模塊

快速使用urllib爬取網頁

爬取網頁,其實就是通過URL獲取網頁信息,這段網頁信息的實質就是一段附加了JS和CSS的HTML代碼。如果把網頁比作是一個人,那么HTML就是它的骨架,JS是它的肌肉,CSS是它的衣服。由此看來,網頁最重要的數據部分是存在于HTML中的。

urllib庫的使用比較簡單,接下來,我們使用urllib快速爬取一個網頁,具體代碼如下:

importurllib.request
#調用urllib.request庫的urlopen方法,并傳入一個url
response=urllib.request.urlopen('http://www.baidu.com')
#使用read方法讀取獲取到的網頁內容
html=response.read().decode('UTF-8')
#打印網頁內容
print(html)

上述代碼就是一個簡單的爬取網頁案例,爬取的網頁結果如圖4-1所示。

快速使用urllib爬取網頁

獲取的網頁源碼

實際上,如果我們在瀏覽器上打開百度首頁,右鍵選擇“查看源代碼”,你會發現,跟我們剛才打印出來的是一模一樣。也就是說,上述案例僅僅用了幾行代碼,就已經幫我們把百度首頁的全部代碼下載下來了。

多學一招:Python2使用的是urllib2庫

Python2中使用的是urllib2庫來下載網頁,該庫的用法如下所示:

importurllib2
response=urllib2.urlopen('http://www.baidu.com')

Python3出現后,之前Python2中的urllib2庫被移到了urllib.request模塊中,之前urllib2中很多函數的路徑也發生了變化,希望大家在使用的時候多加注意。




猜你喜歡:

urllib和requests哪個好用?

python2和3語法區別是什么?

什么是網絡爬蟲?網絡爬蟲有哪些用途?

常見的Python反爬方式有哪些?【Python面試題】

傳智教育pthon+大數據開發工程師培訓課程

0 分享到:
红豆直播app黄台_红豆直播app下载免费_红豆直播app下载