# 6章　テキストの取り扱い 
## レシピ6.1　テキストのクリーニング 


In [None]:
# テキストを生成
text_data = ["   Interrobang. By Aishwarya Henriette     ",
             "Parking And Going. By Karl Gautier",
             "    Today Is The night. By Jarek Prakash   "]

# ホワイトスペースを削除
strip_whitespace = [string.strip() for string in text_data]

# テキストを表示
strip_whitespace

In [None]:
# ピリオドを削除
remove_periods = [string.replace(".", "") for string in strip_whitespace]

# テキストを表示
remove_periods

In [None]:
# 関数を定義
def capitalizer(string: str) -> str:
    return string.upper()

# 関数を適用
[capitalizer(string) for string in remove_periods]

In [None]:
# ライブラリをロード
import re

# 関数を定義
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

# 関数を適用
[replace_letters_with_X(string) for string in remove_periods]

In [None]:
# 文字列を定義
s = "machine learning in python cookbook"

# 文字"n"の最初のインデックスを見つける
find_n = s.find("n")

# 文字列の先頭が"m"かどうか
starts_with_m = s.startswith("m")

# 文字列の末尾が"python"かどうか
ends_with_python = s.endswith("python")

# 文字列がアルファベットと数字のみで構成されているか
is_alnum = s.isalnum()

# アルファベットのみ（スペースを含まず）で構成されているか
is_alpha = s.isalpha()

# utf-8でエンコード
encode_as_utf8 = s.encode("utf-8")

# utf-8でエンコードしたものをデコード
decode = encode_as_utf8.decode("utf-8")
print(
    find_n,
    starts_with_m,
    ends_with_python,
    is_alnum,
    is_alpha,
    encode_as_utf8,
    decode,
    sep = "|"
)

## レシピ6.2　HTMLのパースとクリーニング 


In [None]:
# ライブラリをロード
from bs4 import BeautifulSoup

# HTMLテキストを作成
html = "<div class='full_name'>"\
       "<span style='font-weight:bold'>Masego"\
       "</span> Azra</div>"

# HTMLをパース
soup = BeautifulSoup(html, "lxml")

# classが"full_name"となっているdivを見つけて、そのテキストを表示
soup.find("div", { "class" : "full_name" }).text.strip()

## レシピ6.3　句読点の除去 


In [None]:
# ライブラリをロード
import unicodedata
import sys

# テキストを作成
text_data = ['Hi!!!! I. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']

# 句読点文字を含む辞書を作成
punctuation = dict.fromkeys(
    (i for i in range(sys.maxunicode)
        if unicodedata.category(chr(i)).startswith('P')
    ),
    None
)

# それぞれの文字列から、句読点文字をすべて除去
[string.translate(punctuation) for string in text_data]

## レシピ6.4　テキストのトークン化 


In [None]:
# ライブラリをロード
from nltk.tokenize import word_tokenize

# 最初の1回は下のコメント外してリソースをダウンロード
# import nltk
# nltk.download('punkt')

# テキストを生成
string = "The science of today is the technology of tomorrow"

# 単語単位でトークン化
word_tokenize(string)

In [None]:
# ライブラリをロード
from nltk.tokenize import sent_tokenize

# テキストを生成
string = "The science of today is the technology of tomorrow. Tomorrow is today."

# 文章単位でトークン化
sent_tokenize(string)

## レシピ6.5　ストップワードの除去 


In [None]:
# ライブラリをロード
from nltk.corpus import stopwords

# 最初の1回は下のコメントを外して、ストップワードをダウンロード
# import nltk
# nltk.download('stopwords')

# 単語トークン列を作成
tokenized_words = ['i',
                   'am',
                   'going',
                   'to',
                   'go',
                   'to',
                   'the',
                   'store',
                   'and',
                   'park']

# ストップワードをロード
stop_words = stopwords.words('english')

# ストップワードを削除
[word for word in tokenized_words if word not in stop_words]

In [None]:
# ストップワードを表示
stop_words[:5]

## レシピ6.6　語幹の抽出 


In [None]:
# ライブラリをロード
from nltk.stem.porter import PorterStemmer

# 単語トークンを作成
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']

# 語幹抽出器を作成
porter = PorterStemmer()

# 語幹抽出器を適用
[porter.stem(word) for word in tokenized_words]

## レシピ6.7　品詞タグ付け 


In [None]:
# ライブラリをロード
import nltk
from nltk import pos_tag
from nltk import word_tokenize

# 最初の1回は下のコメント外してリソースをダウンロード
# nltk.download('averaged_perceptron_tagger')

# テキストを生成
text_data = "Chris loved outdoor running"

# 訓練済み品詞タグ付け器を適用
text_tagged = pos_tag(word_tokenize(text_data))

# 品詞を表示
text_tagged

In [None]:
# 品詞を用いて単語を選択
[word for word, tag in text_tagged if tag in ['NN','NNS','NNP','NNPS'] ]

In [None]:
# ライブラリをロード
from sklearn.preprocessing import MultiLabelBinarizer

# テキストを生成
tweets = ["I am eating a burrito for breakfast",
          "Political science is an amazing field",
          "San Francisco is an awesome city"]

# リストを作成
tagged_tweets = []

# ツイート中の単語にタグ付け
for tweet in tweets:
    tweet_tag = pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

# ワンホットエンコードを用いて、タグを特徴量に変換
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

In [None]:
# 特徴量名を表示
one_hot_multi.classes_

## レシピ6.8　固有表現抽出を行う 


In [None]:
# ライブラリをロード
import spacy

# spaCyのパッケージをロードし、テキストを分析する
# 事前に"python -m spacy download en"を実行しておくこと
nlp = spacy.load("en_core_web_sm")
doc = nlp("Elon Musk offered to buy Twitter using $21B of his own money.")

# 固有表現を表示
print(doc.ents)

# 個々の固有表現に対してテキストと固有表現ラベルを表示
for entity in doc.ents:
    print(entity.text, entity.label_, sep=",")

## レシピ6.9　BoW（Bag of Words）によるテキストエンコード 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# テキストを生成
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# BoW特徴量行列を作成
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# 特徴量行列を表示
bag_of_words

In [None]:
bag_of_words.toarray()

In [None]:
# 特徴量名を表示
count.get_feature_names_out()

In [None]:
# パラメータを指定して特徴量行列を作成
count_2gram = CountVectorizer(ngram_range=(1,2),
                              stop_words="english",
                              vocabulary=['brazil'])
bag = count_2gram.fit_transform(text_data)

# 特徴量行列を表示
bag.toarray()

In [None]:
# 1-gramと2-gramを表示
count_2gram.vocabulary_

## レシピ6.10　単語への重み付け 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# テキストを生成
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# tf-idf特徴量行列を作成
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# tf-idf特徴量行列を表示
feature_matrix


In [None]:
# tf-idf特徴量行列を密行列として表示
feature_matrix.toarray()

In [None]:
# 特徴量名を表示
tfidf.vocabulary_

## レシピ6.11　 テキスト検索でテキストベクトルを用いてテキストの類似性を計算する 


In [None]:
# ライブラリをロード
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

# 検索対象テキストデータを作成
text_data = np.array(['I love Brazil. Brazil!',
                      'Sweden is best',
                      'Germany beats both'])

# tf-idf特徴量行列を作成
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# 検索クエリを作成し、tf-idfベクトルに変換
text = "Brazil is the best"
vector = tfidf.transform([text])

# 入力のベクトルと検索対象すべてのベクトルとのコサイン類似度を計算
cosine_similarities = linear_kernel(vector, feature_matrix).flatten()

# 関連度が高い順にインデックスをソート
related_doc_indicies = cosine_similarities.argsort()[:-10:-1]

# 検索文字列との類似度が高い順に、テキストとコサイン類似度を表示
print([(text_data[i], cosine_similarities[i]) for i in related_doc_indicies])

## レシピ6.12　感情分析クラス分類器を使用する 


In [None]:
# ライブラリをロード
from transformers import pipeline

# 感情分析を行うNLPパイプラインを作成
classifier = pipeline("sentiment-analysis")

# テキストの感情分析クラス分類を行う
# （最初に実行するとデータとモデルをダウンロードする）
sentiment_1 = classifier("I hate machine learning! It's the absolute worst.")
sentiment_2 = classifier(
    "Machine learning is the absolute"
    "bees knees I love it so much!"
)

# 感情を表示
print(sentiment_1, sentiment_2)