# Lemmatization

spaCy has a [lemmatizer](https://spacy.io/api/lemmatizer) pipeline component for determining the base forms of words (assigning base forms to tokens). For example, the lemma of "was" is "be", and the lemma of "saying" is "say".

In [1]:
import pandas as pd
import spacy

In [2]:
# Load NLP models (both English and Japanese)
enlp = spacy.load('en_core_web_trf')
jnlp = spacy.load('ja_core_news_lg')

In [3]:
edoc1 = enlp(u'We took a photograph of ourselves. He takes a train to N.Y. City. I am taking an elearning course.')
edoc1

We took a photograph of ourselves. He takes a train to N.Y. City. I am taking an elearning course.

In [4]:
jdoc1 = jnlp(u'女子ゴルフ、アメリカツアーの来シーズン出場権をかけた最終予選会は第1週の4ラウンドが終わり、日本から出場した古江彩佳選手は7位、渋野日向子選手は24位につけ、ともに第2週に進みました。')
jdoc1

女子ゴルフ、アメリカツアーの来シーズン出場権をかけた最終予選会は第1週の4ラウンドが終わり、日本から出場した古江彩佳選手は7位、渋野日向子選手は24位につけ、ともに第2週に進みました。

In [5]:
def lemmaInfo(doc: spacy.tokens.doc.Doc) -> pd.DataFrame:
    lemma_info = []
    
    for token in doc:
        lemma_info.append([token, token.pos_, token.tag_, token.lemma, token.lemma_])
    headers = ['Token', 'POS', 'Tag', 'Lemma', 'Lemma_']
    
    table = pd.DataFrame(columns=headers, data=lemma_info)
    return table

In [6]:
lemmaInfo(edoc1)

Unnamed: 0,Token,POS,Tag,Lemma,Lemma_
0,We,PRON,PRP,16064069575701507746,we
1,took,VERB,VBD,6789454535283781228,take
2,a,DET,DT,11901859001352538922,a
3,photograph,NOUN,NN,15876124109485140396,photograph
4,of,ADP,IN,886050111519832510,of
5,ourselves,PRON,PRP,7702237170018417328,ourselves
6,.,PUNCT,.,12646065887601541794,.
7,He,PRON,PRP,1655312771067108281,he
8,takes,VERB,VBZ,6789454535283781228,take
9,a,DET,DT,11901859001352538922,a


In [7]:
lemmaInfo(jdoc1)

Unnamed: 0,Token,POS,Tag,Lemma,Lemma_
0,女子,NOUN,名詞-普通名詞-一般,16542856511015842193,女子
1,ゴルフ,NOUN,名詞-普通名詞-一般,2537003157154835679,ゴルフ
2,、,PUNCT,補助記号-読点,202075578247595036,、
3,アメリカ,PROPN,名詞-固有名詞-地名-国,1324630721412426584,アメリカ
4,ツアー,NOUN,名詞-普通名詞-一般,15871677834699789378,ツアー
5,の,ADP,助詞-格助詞,2917952641780334418,の
6,来,NOUN,接頭辞,4405902745253794132,来
7,シーズン,NOUN,名詞-普通名詞-一般,8783485185942820591,シーズン
8,出場,NOUN,名詞-普通名詞-サ変可能,17213800601769354483,出場
9,権,NOUN,接尾辞-名詞的-一般,6255749772151978069,権
