soup.get_text()
はBeautiful Soupライブラリを使用してHTMLやXMLからテキストデータを抽出するためのメソッドです。以下に、具体的な使用法を解説します。
Beautiful Soupのinstall:
最初にBeautiful Soupをインストールします。以下コマンドを使用してインストールできます。
pip install beautifulsoup4
Beautiful Soupでのデータ取得:
from bs4 import BeautifulSoup
html_data = """
<html>
<head>
<title>サンプルページ</title>
</head>
<body>
<h1>タイトル</h1>
<p>これはサンプルの段落です。</p>
<div>
<p>別の段落もあります。</p>
<ul>
<li>リスト1</li>
<li>リスト2</li>
</ul>
</div>
</body>
</html>
"""
# BeautifulSoupオブジェクトを作成 soup = BeautifulSoup(html_data, 'html.parser')
# テキストデータの取得 text_data = soup.get_text()
# 結果の表示 print(text_data)
上記のコードでは、仮想的なHTMLデータからBeautiful Soupオブジェクトを作成し、get_text()
メソッドを使って全てのテキストデータを抽出しています。
print(text_data)
を実行すると、HTML内の全てのテキストが表示されます。
注意: get_text()
はHTMLタグ内のテキストを抽出
しますが、それ以外の要素(属性など)も含まれます。
適切なテキストデータのみを抽出する場合は、
適宜フィルタリングを行うか、
他のBeautiful Soupの機能を使用してください。
コメント