In [1]:
import wikipedia

In [2]:
wikipedia.set_lang("ja") # 日本語に設定

In [3]:
results = wikipedia.search("人工知能")

In [4]:
page = wikipedia.page(results[0])

In [5]:
page.url

'https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD'

In [19]:
from typing import List
import spacy

nlp = spacy.load("ja_ginza", disable=["ner"])
nlp.max_length = 2_000_000

def extract_sentences(text: str, num_sentences: int = 5, min_length: int = 10, max_length: int = 50) -> List[str]:
    
    # textをstripし，改行で分割
    lines = [line.strip() for line in text.split("\n") if line.strip()]
    
    # "。" または "．" で終わらないものは削除
    lines = [line for line in lines if line.endswith("。") or line.endswith("．")]
    
    # linesの中で，"。"または"．"で分割し，分割後の各文を再度linesに格納
    new_lines = []
    for line in lines:
        split_lines = [sline.strip()+"。" for sline in line.replace("．", "。").split("。") if sline.strip()]
        new_lines.extend(split_lines)
    lines = new_lines
    
    # 各行の長さを計算し，長い順にソート
    lines = sorted(lines, key=len, reverse=True)

    # 指定された長さの範囲内の行のみを抽出
    lines = [line for line in lines if len(line) >= min_length and len(line) <= max_length]

    # 指定数の行がない場合はそのまま返す
    if len(lines) < num_sentences:
        return lines    
    
    # 中央のnum_sentences行を抽出
    mid_index = len(lines) // 2
    start_index = max(0, mid_index - num_sentences // 2)
    lines = lines[start_index:start_index + num_sentences]
    
    return lines

In [20]:
extract_sentences(page.content, num_sentences=5, min_length=10)

['総務省『令和6年版 情報通信白書 PDF全体版』（レポート）総務省、2024年。',
 '喘息と肺炎死亡リスクの低さに対する相関関係は事実でも、誤解を招くものであった。',
 'これらの他の出力は、開発者がネットワークが何を学習したかを推測するのに役立つ。',
 'この企業は循環取引の手法を用いて売上の9割を過大に申告していたことが判明した。',
 'まず、人工知能は人間のような自意識を持たなくても人類を絶滅させるリスクがある。']