<a href="https://colab.research.google.com/github/matsunori39/spacy-ja/blob/main/spacy_ja.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# spaCyを使った先進的な自然言語処理
https://course.spacy.io/ja

# 第1章: 単語やフレーズ、名前、概念の検索

## 1.1. はじめに

In [2]:
# !pip list | grep spacy
!pip list | grep spacy

spacy                         2.2.4


In [3]:
!pip install -U spacy -q

[K     |████████████████████████████████| 6.0 MB 28.6 MB/s 
[K     |████████████████████████████████| 628 kB 51.9 MB/s 
[K     |████████████████████████████████| 42 kB 1.1 MB/s 
[K     |████████████████████████████████| 181 kB 60.6 MB/s 
[K     |████████████████████████████████| 451 kB 61.5 MB/s 
[K     |████████████████████████████████| 10.1 MB 35.1 MB/s 
[?25h

In [4]:
!pip list | grep spacy

spacy                         3.2.1
spacy-legacy                  3.0.8
spacy-loggers                 1.0.1


In [5]:
!pip install spacy[ja] -q

[?25l[K     |▏                               | 10 kB 13.5 MB/s eta 0:00:01[K     |▎                               | 20 kB 16.3 MB/s eta 0:00:01[K     |▌                               | 30 kB 19.1 MB/s eta 0:00:01[K     |▋                               | 40 kB 21.0 MB/s eta 0:00:01[K     |▊                               | 51 kB 21.3 MB/s eta 0:00:01[K     |█                               | 61 kB 22.4 MB/s eta 0:00:01[K     |█                               | 71 kB 23.1 MB/s eta 0:00:01[K     |█▏                              | 81 kB 23.9 MB/s eta 0:00:01[K     |█▍                              | 92 kB 25.4 MB/s eta 0:00:01[K     |█▌                              | 102 kB 25.5 MB/s eta 0:00:01[K     |█▋                              | 112 kB 25.5 MB/s eta 0:00:01[K     |█▉                              | 122 kB 25.5 MB/s eta 0:00:01[K     |██                              | 133 kB 25.5 MB/s eta 0:00:01[K     |██                              | 143 kB 25.5 MB/s eta 0:

### nlpオブジェクト

In [6]:
# spaCyをインポート
import spacy

# 日本語のnlpオブジェクトを作成
nlp = spacy.blank("ja")

### Docオブジェクト

In [7]:
# nlpを用いて、テキストを処理することで作成
doc = nlp("おはようございます!")

# Docからtokenを取り出す
for token in doc:
    print(token.text)

おはよう
ござい
ます
!


### Tokenオブジェクト

In [8]:
doc = nlp("おはようございます!")

# インデックスでトークンを取得
token = doc[1]

# トークンの文字列を .text属性を使って取得
print(token.text)

ござい


### Spanオブジェクト

In [9]:
doc = nlp("おはようございます!")

# `Doc`オブジェクトからスライスで`Span`オブジェクトを取得
span = doc[1:3]

# スパンの文字列を .text属性で得る
print(span.text)

ございます


### 語彙の属性

In [10]:
doc = nlp("果汁100%のジュース。")

In [11]:
print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])   # 文字列が文字(ひらがな・カタカナ・漢字、アルファベット等)からなるかどうか、
print("is_punct:", [token.is_punct for token in doc])   # 句読点かどうか
print("like_num:", [token.like_num for token in doc])   # 数字に似ているか

# これらの属性は語彙のエントリを参照しており、文脈に依存しないため、語彙属性（lexical attributes）と呼ばれます。

Index:    [0, 1, 2, 3, 4, 5]
Text:     ['果汁', '100', '%', 'の', 'ジュース', '。']
is_alpha: [True, False, False, True, True, False]
is_punct: [False, False, True, False, False, True]
like_num: [False, True, False, False, False, False]


# 機械学習パイプライン

## パイプラインパッケージ

In [12]:
!python -m spacy download ja_core_news_sm

Collecting ja-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ja_core_news_sm-3.2.0/ja_core_news_sm-3.2.0-py3-none-any.whl (13.0 MB)
[K     |████████████████████████████████| 13.0 MB 9.7 MB/s 
Installing collected packages: ja-core-news-sm
Successfully installed ja-core-news-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ja_core_news_sm')


In [13]:
import spacy

nlp = spacy.load("ja_core_news_sm")

## 品詞タグの予測

In [14]:
import spacy

# 日本語のパイプライン(小サイズ)をロード
nlp = spacy.load("ja_core_news_sm")

# テキストを処理
doc = nlp("彼女はおにぎりを食べた")

# tokenを順に処理
for token in doc:
  # テキストと、品詞タグの予測結果をプリント
  print(token.text, token.pos_)

彼女 PRON
は ADP
おにぎり NOUN
を ADP
食べ VERB
た AUX
