soup.get_text()はBeautiful Soupライブラリを使用してHTMLやXMLからテキストデータを抽出するためのメソッドです。以下に、具体的な使用法を解説します。
Beautiful Soupのinstall:
最初にBeautiful Soupをインストールします。以下コマンドを使用してインストールできます。
pip install beautifulsoup4
Beautiful Soupでのデータ取得:
from bs4 import BeautifulSoup html_data = """
<html>
  <head>
    <title>サンプルページ</title>
  </head>
  <body>
    <h1>タイトル</h1>
    <p>これはサンプルの段落です。</p>
    <div>
<p>別の段落もあります。</p>
      <ul>
<li>リスト1</li>
        <li>リスト2</li>
</ul>
</div>
</body>
</html>
"""
# BeautifulSoupオブジェクトを作成 soup = BeautifulSoup(html_data, 'html.parser')
# テキストデータの取得 text_data = soup.get_text()
# 結果の表示 print(text_data)
上記のコードでは、仮想的なHTMLデータからBeautiful Soupオブジェクトを作成し、get_text()メソッドを使って全てのテキストデータを抽出しています。
print(text_data)を実行すると、HTML内の全てのテキストが表示されます。
注意: get_text()はHTMLタグ内のテキストを抽出
 しますが、それ以外の要素(属性など)も含まれます。
適切なテキストデータのみを抽出する場合は、
 適宜フィルタリングを行うか、
 他のBeautiful Soupの機能を使用してください。