![image.png](attachment:image.png)

# Importing Libraries

In [1]:
#!python -m spacy download ja_core_news_sm
#!python -m spacy download ja_core_news_md

In [2]:
import spacy 
from spacy import displacy

# Small Model For Japanese Langugae

In [3]:
nlp_jp_sm = spacy.load("ja_core_news_sm")
nlp_jp_md = spacy.load("ja_core_news_md")

In [4]:
jp_text ='''宮崎 駿（または宮﨑 駿、みやざき はやお、1941年〈昭和16年〉1月5日 - ）は、
            日本のアニメーション監督、アニメーター、脚本家、漫画家。別名義として秋津 三朗
           （あきつ さぶろう）、照樹 務（てるき つとむ または てれこむ）がある。
            株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
            三鷹市立アニメーション美術館（三鷹の森ジブリ美術館）名誉館主（初代館主）[3]。

            東京府東京市出身。学習院大学政経学部卒業。1963年に東映動画にアニメーターとして入社。
            その後いくつかの会社を経てフリーとなり、その間にテレビアニメ『未来少年コナン』、
            初の劇場用アニメ『ルパン三世 カリオストロの城』で頭角を現した。'''

# Creating parent document

### 1. using small model

In [5]:
doc_sm = nlp_jp_sm(jp_text)
print(doc_sm.text)

宮崎 駿（または宮﨑 駿、みやざき はやお、1941年〈昭和16年〉1月5日 - ）は、
            日本のアニメーション監督、アニメーター、脚本家、漫画家。別名義として秋津 三朗
           （あきつ さぶろう）、照樹 務（てるき つとむ または てれこむ）がある。
            株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
            三鷹市立アニメーション美術館（三鷹の森ジブリ美術館）名誉館主（初代館主）[3]。

            東京府東京市出身。学習院大学政経学部卒業。1963年に東映動画にアニメーターとして入社。
            その後いくつかの会社を経てフリーとなり、その間にテレビアニメ『未来少年コナン』、
            初の劇場用アニメ『ルパン三世 カリオストロの城』で頭角を現した。


### 2. using medium model

In [6]:
doc_md = nlp_jp_md(jp_text)
print(doc_md.text)

宮崎 駿（または宮﨑 駿、みやざき はやお、1941年〈昭和16年〉1月5日 - ）は、
            日本のアニメーション監督、アニメーター、脚本家、漫画家。別名義として秋津 三朗
           （あきつ さぶろう）、照樹 務（てるき つとむ または てれこむ）がある。
            株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
            三鷹市立アニメーション美術館（三鷹の森ジブリ美術館）名誉館主（初代館主）[3]。

            東京府東京市出身。学習院大学政経学部卒業。1963年に東映動画にアニメーターとして入社。
            その後いくつかの会社を経てフリーとなり、その間にテレビアニメ『未来少年コナン』、
            初の劇場用アニメ『ルパン三世 カリオストロの城』で頭角を現した。


# Entities 

### 1. using small model

In [7]:
entities_sm =[(i, i.label_, i.label) for i in doc_sm.ents]
entities_sm

[(宮崎 駿（, 'ORG', 383),
 (1941年, 'DATE', 391),
 (昭和16年, 'DATE', 391),
 (1月5日, 'DATE', 391),
 (日本, 'GPE', 384),
 (アニメーション, 'PERSON', 380),
 (監督, 'TITLE_AFFIX', 1168460219458274525),
 (株式会社スタジオジブリ, 'ORG', 383),
 (取締役, 'TITLE_AFFIX', 1168460219458274525),
 (公益財団法人徳間記念アニメーション文化財団, 'LAW', 390),
 (理事長, 'TITLE_AFFIX', 1168460219458274525),
 (三鷹市立アニメーション美術館, 'GPE', 384),
 (三鷹, 'GPE', 384),
 (森ジブリ美術館, 'PERSON', 380),
 (（初代館主, 'FAC', 9191306739292312949),
 (3], 'QUANTITY', 395),
 (東京府東京市, 'GPE', 384),
 (学習院大学政経学部, 'ORG', 383),
 (1963年, 'DATE', 391),
 (東映動画, 'ORG', 383),
 (未来少年コナン, 'WORK_OF_ART', 388),
 (ルパン三世 カリオストロ, 'PRODUCT', 386)]

### 2. using medium model

In [8]:
entities_md =[(i, i.label_, i.label) for i in doc_md.ents]
entities_md

[(宮崎 駿, 'PERSON', 380),
 (宮﨑 駿, 'PERSON', 380),
 (みやざき はやお, 'PERSON', 380),
 (1941年, 'DATE', 391),
 (昭和16年, 'DATE', 391),
 (1月5日, 'DATE', 391),
 (日本, 'GPE', 384),
 (秋津 三朗, 'PERSON', 380),
 (照樹 務, 'FAC', 9191306739292312949),
 (株式会社スタジオジブリ, 'ORG', 383),
 (取締役, 'TITLE_AFFIX', 1168460219458274525),
 (理事長, 'TITLE_AFFIX', 1168460219458274525),
 (三鷹市立アニメーション美術館, 'ORG', 383),
 (三鷹, 'GPE', 384),
 (森ジブリ美術館）, 'ORG', 383),
 (初代, 'ORDINAL', 396),
 (3], 'QUANTITY', 395),
 (東京府東京市, 'GPE', 384),
 (学習院大学政経学部, 'ORG', 383),
 (1963年, 'DATE', 391),
 (東映動画, 'ORG', 383),
 (未来少年コナン, 'WORK_OF_ART', 388),
 (ルパン三世 カリオストロの城, 'WORK_OF_ART', 388)]

In [9]:
print(len(entities_sm))
print(len(entities_md))

22
23


In [10]:
print(f'Miyazaki Hayao (宮崎 駿) is predicted in small model as: {entities_sm[0]}')
print(f'Miyazaki Hayao(宮崎 駿) is predicted in medium model as: {entities_md[0]}')

Miyazaki Hayao (宮崎 駿) is predicted in small model as: (宮崎 駿（, 'ORG', 383)
Miyazaki Hayao(宮崎 駿) is predicted in medium model as: (宮崎 駿, 'PERSON', 380)


**Miyazaki Hayao is name of person. The `small model` sees it as `organisation (ORG)`. On the other hand, the `medium model` aboslutely recognizes the text as `person`.**

# Tokens generated:
=================================
- .tetx : texts  in the document
- .pos_ : It represents the coarse-grained part-of-speech from the Universal POS tag set.
- .dep_ : This attribute represents the syntactic dependency relation.

### 1. using  small model

In [11]:
tokens_sm = [(token.text, token.pos_, token.dep_) for token in doc_sm]
tokens_sm[0:20]

[('宮崎', 'PROPN', 'compound'),
 ('駿', 'NOUN', 'compound'),
 ('（', 'NOUN', 'nmod'),
 ('また', 'CCONJ', 'cc'),
 ('は', 'ADP', 'fixed'),
 ('宮﨑', 'NOUN', 'compound'),
 ('駿', 'NOUN', 'nmod'),
 ('、', 'PUNCT', 'punct'),
 ('みやざき', 'NOUN', 'compound'),
 ('はやお', 'VERB', 'nmod'),
 ('、', 'PUNCT', 'punct'),
 ('1941', 'NUM', 'nummod'),
 ('年', 'NOUN', 'compound'),
 ('〈', 'PROPN', 'dep'),
 ('昭和', 'PROPN', 'compound'),
 ('16', 'NUM', 'compound'),
 ('年', 'NOUN', 'compound'),
 ('〉', 'NOUN', 'compound'),
 ('1', 'NUM', 'compound'),
 ('月', 'NOUN', 'compound')]

### 2. using medium model

In [12]:
tokens_md = [(token.text, token.pos_, token.dep_) for token in doc_md]
tokens_md[0:20]

[('宮崎', 'PROPN', 'compound'),
 ('駿', 'PROPN', 'ROOT'),
 ('（', 'PROPN', 'punct'),
 ('また', 'CCONJ', 'cc'),
 ('は', 'ADP', 'fixed'),
 ('宮﨑', 'PROPN', 'compound'),
 ('駿', 'PROPN', 'nmod'),
 ('、', 'PUNCT', 'punct'),
 ('みやざき', 'PROPN', 'compound'),
 ('はやお', 'PROPN', 'nmod'),
 ('、', 'PUNCT', 'punct'),
 ('1941', 'NUM', 'compound'),
 ('年', 'NOUN', 'compound'),
 ('〈', 'NUM', 'compound'),
 ('昭和', 'PROPN', 'compound'),
 ('16', 'NUM', 'compound'),
 ('年', 'NOUN', 'compound'),
 ('〉', 'NUM', 'compound'),
 ('1', 'NUM', 'compound'),
 ('月', 'NOUN', 'compound')]

In [13]:
print(len(tokens_sm))
print(len(tokens_md))

184
184


In [14]:
print(f'Miyazaki Hayao is predicted in small model as: {tokens_sm[8:10]}')
print(f'Miyazaki Hayao is predicted in medium model as: {tokens_md[8:10]}')

Miyazaki Hayao is predicted in small model as: [('みやざき', 'NOUN', 'compound'), ('はやお', 'VERB', 'nmod')]
Miyazaki Hayao is predicted in medium model as: [('みやざき', 'PROPN', 'compound'), ('はやお', 'PROPN', 'nmod')]


**Miyazaki Hayao is name of person. The `small model` sees `"Miyazaki"` as a `noun` and curiously identifies `"Hayao"` as a `verb`. On the other hand, the `medium model` nails it, correctly calling both parts a `proper noun (PROPN)`.**

# visualising

In [15]:
displacy.serve(doc_sm, style="ent")




Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [16]:
displacy.serve(doc_md, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


**small model identified `Miyazaki Hayao` as `ORG` whereas medium model correctly identified the text as person**

- ## **small model**  :!["small model"](attachment:image-2.png)
-  ## **medium model** ![image.png](attachment:image.png)

In [17]:
sentence_sm = list(doc_sm.sents)[1]
sentence_sm

別名義として秋津 三朗
           （あきつ さぶろう）、照樹 務（てるき つとむ または てれこむ）がある。
            株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
            三鷹市立アニメーション美術館（三鷹の森ジブリ美術館）名誉館主（初代館主）[3]。

In [18]:
len(sentence_sm)

72

In [19]:
displacy.serve(sentence_sm, style="dep")


Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [20]:
sentence_md = list(doc_md.sents)
print(sentence_md)
print(len(sentence_md))

[宮崎 駿（, または宮﨑 駿、みやざき はやお、1941年〈昭和16年〉1月5日 - ）は、
            日本のアニメーション監督、アニメーター、脚本家、漫画家。, 別名義として秋津 三朗
           （あきつ さぶろう）、照樹 務（てるき つとむ または てれこむ）がある。
            株式会社スタジオジブリ取締役、公益財団法人徳間記念アニメーション文化財団理事長、
            三鷹市立アニメーション美術館（三鷹の森ジブリ美術館）名誉館主（初代館主）[3]。

            東京府東京市出身。, 学習院大学政経学部卒業。, 1963年に東映動画にアニメーターとして入社。
            その後いくつかの会社を経てフリーとなり、その間にテレビアニメ『未来少年コナン』、
            初の劇場用アニメ『ルパン三世 カリオストロの城』で頭角を現した。]
5


In [21]:
spacy.displacy.serve(sentence_md, style ='dep')


Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


- **ent_ion_ :** It is the IOB code of named entity tag. 
- > “B” = the token begins an entity, 
- > “I” = it is inside an entity,
- > “O” = it is outside an entity, 
- > " " = no entity tag is set.
- **left_edge :** As name implies it is the leftmost token of this token’s syntactic descendants.
- **right_edge :** As name implies it is the rightmost token of this token’s syntactic descendants.

In [22]:
token1_sm = sentence_sm[5]
print(token1_sm.text, ':', token1_sm.ent_type_)
print(token1_sm.ent_iob_ )
print(token1_sm.left_edge)
print(token1_sm.right_edge)


秋津 : 
O
秋津
秋津


In [23]:
token1_md = sentence_md[2][5]
print(token1_md.text, ':', token1_md.ent_type_)
print(token1_md.ent_iob_ )
print(token1_md.left_edge)
print(token1_md.right_edge)

秋津 : PERSON
B
秋津
秋津
