# 固有表現抽出

固有表現
- 人名、地名などの固有名詞
- 日付や時間などの数値表現

In [None]:
import pandas as pd
import spacy

# 日本語モデル
nlp = spacy.load('ja_core_news_lg')

# フィードデータの読み込み、確認
feeds = pd.read_csv('data/output_jp.csv')

# title と summary を結合
# str.cat() により複数列の文字列を結合
# - sep=' ': 間に挟む文字列
# - na_rep='': NaN は空文字列に変換（指定しないと結合結果が NaN になる）
feeds['text'] = feeds['title'].str.cat(feeds['summary'], sep='。', na_rep='')

# 不要になった列を削除した処理用の DataFrame
df = feeds.drop(['title', 'summary'], axis=1)

# 確認
df.head()

### spaCy による固有表現抽出

In [None]:
# 例として最初の1行のテキストを処理
text = df['text'].iloc[0]

# 固有表現抽出結果の表示
doc = nlp(text)
for entry in doc.ents: 
    print(entry.text, entry.label_, entry.start_char, entry.end_char)

### 固有表現の可視化

In [None]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)