XPATHを用いてWebスクレイピングを行うには、Pythonで使用できるライブラリの1つであるlxmlライブラリを使うことができます。
lxmlライブラリを使って、WebページからXPATHを用いてHTML要素を抽出するには、以下のようにします。
import requests from lxml import html # Webページを取得する r = requests.get('https://www.example.com/') # HTMLのテキストを取得する html_text = r.text # HTMLのテキストからHTMLドキュメントを作成する doc = html.fromstring(html_text) # XPATHを使って、HTML要素を抽出する elements = doc.xpath('//p') # 抽出したHTML要素を表示する print(elements)
この例では、doc.xpath(‘//p’)で、Webページ内のすべての
要素を抽出しています。
XPATHを使って、特定のHTML要素を抽出するには、XPATHの式を変更することで、任意のHTML要素を抽出することができます。
また、XPATHを使って、HTML要素の属性値を取得することもできます。以下に例を示します。
import requests from lxml import html # Webページを取得する r = requests.get('https://www.example.com/') # HTMLのテキストを取得する html_text = r.text # HTMLのテキストからHTMLドキュメントを作成する doc = html.fromstring(html_text) # XPATHを使って、HTML要素を抽出する element = doc.xpath('//a')[0] # HTML要素の属性値を取得する href = element.get('href') # 属性値を表示する print(href)
この例では、doc.xpath(‘//a’)[0]で、Webページ内の最初の要素を抽出しています。
その後、element.get(‘href’)で、その要素の属性値を取得しています。
さらに、XPATHを使って、HTML要素のテキストを取得することもできます。以下に例を示します。
import requests from lxml import html # Webページを取得する r = requests.get('https://www.example.com/') # HTMLのテキストを取得する html_text = r.text # HTMLのテキストからHTMLドキュメントを作成する doc = html.fromstring(html_text) # XPATHを使って、HTML要素を抽出する element = doc.xpath('//a')[0] # HTML要素のテキストを取得する text = element.text # テキストを表示する print(text)
この例では、doc.xpath(‘//a’)[0]で、Webページ内の最初の要素を抽出しています。
その後、element.textで、その要素のテキストを取得しています。
XPATHを使ってWebスクレイピングを行うには、lxmlライブラリを使うことができます。
XPATHを使えば、HTMLドキュメント内の特定のHTML要素を簡単に抽出することができます。
コメント