<a href="https://colab.research.google.com/github/matsunori39/spacy-ja/blob/main/spacy_ja.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# spaCyを使った先進的な自然言語処理
https://course.spacy.io/ja

# 第1章: 単語やフレーズ、名前、概念の検索

## 1.1. はじめに

In [1]:
!pip show spacy

Name: spacy
Version: 2.2.4
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.7/dist-packages
Requires: thinc, plac, srsly, blis, wasabi, catalogue, preshed, murmurhash, tqdm, cymem, setuptools, numpy, requests
Required-by: fastai, en-core-web-sm


In [2]:
!pip install -U spacy -q

[K     |████████████████████████████████| 6.0 MB 11.4 MB/s 
[K     |████████████████████████████████| 10.1 MB 15.3 MB/s 
[K     |████████████████████████████████| 628 kB 49.7 MB/s 
[K     |████████████████████████████████| 181 kB 74.7 MB/s 
[K     |████████████████████████████████| 42 kB 1.3 MB/s 
[K     |████████████████████████████████| 451 kB 66.2 MB/s 
[?25h

In [3]:
!pip show spacy

Name: spacy
Version: 3.2.1
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.7/dist-packages
Requires: requests, cymem, wasabi, numpy, spacy-loggers, typing-extensions, thinc, catalogue, preshed, srsly, spacy-legacy, packaging, typer, blis, setuptools, pydantic, jinja2, tqdm, murmurhash, langcodes, pathy
Required-by: fastai, en-core-web-sm


In [4]:
!pip install spacy[ja] -q

[K     |████████████████████████████████| 2.2 MB 41.0 MB/s 
[?25h  Building wheel for sudachidict-core (setup.py) ... [?25l[?25hdone


### nlpオブジェクト

In [8]:
# spaCyをインポート
import spacy

# 日本語のnlpオブジェクトを作成
nlp = spacy.blank("ja")

### Docオブジェクト

In [9]:
# nlpを用いて、テキストを処理することで作成
doc = nlp("おはようございます!")

# Docからtokenを取り出す
for token in doc:
    print(token.text)

おはよう
ござい
ます
!


### Tokenオブジェクト

In [10]:
doc = nlp("おはようございます!")

# インデックスでトークンを取得
token = doc[1]

# トークンの文字列を .text属性を使って取得
print(token.text)

ござい


### Spanオブジェクト

In [11]:
doc = nlp("おはようございます!")

# `Doc`オブジェクトからスライスで`Span`オブジェクトを取得
span = doc[1:3]

# スパンの文字列を .text属性で得る
print(span.text)

ございます


### 語彙の属性

In [12]:
doc = nlp("果汁100%のジュース。")

In [14]:
print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])   # 文字列が文字(ひらがな・カタカナ・漢字、アルファベット等)からなるかどうか、
print("is_punct:", [token.is_punct for token in doc])   # 句読点かどうか
print("like_num:", [token.like_num for token in doc])   # 数字に似ているか

# これらの属性は語彙のエントリを参照しており、文脈に依存しないため、語彙属性（lexical attributes）と呼ばれます。

Index:    [0, 1, 2, 3, 4, 5]
Text:     ['果汁', '100', '%', 'の', 'ジュース', '。']
is_alpha: [True, False, False, True, True, False]
is_punct: [False, False, True, False, False, True]
like_num: [False, True, False, False, False, False]
