# 文字列データに対する処理

## 文字列データ
- カテゴリデータ
    - ex: ドロップダウンメニューから色を選ぶ
- 意味としてはカテゴリだが自由なテキスト
    - ex: 自由記述で色を回答してもらう
- 構造化された文字列
    - ex: 住所や知名
- 完全に自由なテキスト
    - ex: 商品のレビューやツイート

## 文字列をベクトルに変換する必要がある
- テキストそのままでは扱えない
- 今までの iris や breast_cancer などは最初からコンピュータで扱える状態だった

# Bag of Words: テキストデータのベクトル化
- おそらく最も単純なテキストデータ表現

## 手順
1. トークン化(Tokenization)
    - 個々の文書を単語(トークンと呼ぶ)に分割する
    - 日本語や中国語の場合は形態素解析などが必要となるのでより難しい
2. ボキャブラリ構築(Vocabularybuilding)
    - すべての文書に現れるすべての単語をボキャブラリとして集め、番号を付ける
3. エンコード
    - 個々の文書に対してボキャブラリの単語が現れる回数を数える

In [1]:
texts = ["This is a pen",
         "I have a book",
         "This cat is called Tom",
         ]

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer()

vect.fit(texts)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [3]:
len(vect.vocabulary_)

8

In [4]:
vect.vocabulary_

{'this': 6,
 'is': 4,
 'pen': 5,
 'have': 3,
 'book': 0,
 'cat': 2,
 'called': 1,
 'tom': 7}

In [5]:
bag_of_words = vect.transform(texts)

In [6]:
# Sparse Matrixになっている
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [7]:
bag_of_words.toarray()

array([[0, 0, 0, 0, 1, 1, 1, 0],
       [1, 0, 0, 1, 0, 0, 0, 0],
       [0, 1, 1, 0, 1, 0, 1, 1]])