<a href="https://colab.research.google.com/github/slz520f/github-basic-kadai/blob/main/master_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 自然言語処理の概要

### 教材要約（文語調、箇条書き）

1. **目標**:
   - 自然言語処理（NLP）の技術理解。
   - NLPの用途と利用シーンの理解。
   - NLPに使われるライブラリや学習モデルの理解。

2. **自然言語処理の定義**:
   - 人間の言語をコンピュータで分析、処理する技術。
   - 日常言葉のコンピュータによる分析を含む。

3. **用途と利用シーン**:
   - 感情分析、文章要約。
   - 機械翻訳、スマートスピーカー、チャットボット。
   - 検索エンジン、迷惑メールフィルター。

4. **代表的なライブラリとその機能**:
   - re、Beautiful Soup、Gensim、NumPy。
   - MeCab、Scikit-learn、wordcloud、spaCy、Transformers。

5. **代表的な学習モデル**:
   - BERT（文章分類、感情分析に使用）。
   - GPT-2（文章生成に使用）。

### 明解な要約文章（文語調）

>本章では、自然言語処理（NLP）の基礎から応用までを学びます。NLPは人間の言葉をコンピュータで分析、処理する技術で、感情分析や文章要約など多様な用途で活用されています。また、機械翻訳、スマートスピーカー、チャットボット、検索エンジン、迷惑メールフィルターなどの日常技術にも深く関わっています。この章では、NLPにおける代表的なライブラリと学習モデル（BERT、GPT-2など）の機能と用途についても学びます。

次に、残りの２つのベクトルでの要約を進めます。それぞれ「極めてわかりやすく抽象化された口語調の要約」と「教材内の例文コードを全て網羅し、箇条書きの説明を加えたコード集」になります。まずは、口語調の要約から行いますね。

### 教材要約（口語調、抽象化）

>自然言語処理とは簡単に言うと、私たちが普段使ってる言葉をコンピュータが理解して処理すること。例えば、文章を短くまとめたり、ポジティブかネガティブかを判断したりするのも自然言語処理のおかげ。

他にも、Google翻訳みたいなのや、アレクサみたいなスマートスピーカー、LINEでよく見るチャットボットも実は自然言語処理が使われている。検索エンジンや迷惑メールフィルターにも使われていて、日常のいろんなところで活躍している。

この教材では、自然言語処理でよく使われるプログラムのこと（ライブラリ）や、文章を分類したり作ったりするのに使うBERTやGPT-2っていう学習モデルについても学べる。

---


##代表的な自然言語処理ライブラリ


| Library        | Learning Content                                                                                         | |
|----------------|----------------------------------------------------------------------------------------------------------|---------|
| re             | 正規表現モジュールと呼ばれており、自然言語処理では前処理で使用されています。                                       |
| Beautiful Soup | 主にスクレイピングする際に使用します。自然言語処理ではインターネットからデータを取得する際に利用されます。                       |
| Gensim         | Word2Vecと呼ばれる分散表現の手法があり、この手法はGensimから使用できます。                                         |       |
| NumPy          | 多次元配列を扱う際に使用されるライブラリです。今回はcos類似度を計算するために使用します。                                  |  
| MeCab          | 形態素解析と呼ばれる自然言語処理技術の1種で、MeCabは形態素解析エンジンの1つです。他にも形態素解析エンジンはありますが、今回は代表的なものを学習します。 |
| Scikit-learn   | Scikit-learnは機械学習のライブラリとして有名です。今回はTF-IDFと呼ばれる自然言語処理技術の1つを利用するために使います。           |
| wordcloud      | ワードクラウドと呼ばれる形態素解析を用いる際に一緒に使用されることが多い自然言語処理の手法の1つです。                               |
| spaCy          | 固有表現抽出と呼ばれる自然言語処理技術の一つで、その内の一つのspaCyというライブラリを使用できます。                            |
| Transformers   | huggingfaceが公開している機械学習のライブラリで、特に自然言語処理に特化したライブラリです。今回はBERT、GPT-2のモデルを用いたり、文章分類、感情分析を使用したりするときに使用します。 |


# テキストの前処理を学ぼう

- **目標**:
  - テキストの前処理技術を理解する。
  - 前処理の用途を理解する。
  - 前処理に使用されるライブラリや手法の使い方を学ぶ。

- **テキストの前処理とは**:
  - テキストを機械が処理できる形式に変換する工程。
  - クリーニング、単語分割、正規化、ストップワード除去を含む。

- **正規表現**:
  - 文字列パターンを表す記法。
  - Pythonでは`re`モジュールで使用。

- **スクレイピングとBeautiful Soup4**:
  - Webデータを自動抽出する技術。
  - Pythonで利用可能なスクレイピングライブラリ。

- **ストップワード**:
  - 分析に不要な単語を除外すること。

>本章では、自然言語処理の基本であるテキストの前処理に焦点を当てます。前処理には、テキストをクリーニングし、単語を分割し、正規化し、そして不要な単語（ストップワード）を除去する工程が含まれます。また、正規表現を用いて不要な文字列を効率的に取り除く方法、スクレイピング技術でWebからデータを収集する方法、そしてPythonの`Beautiful Soup4`ライブラリの使用方法についても学びます。これらの技術は自然言語処理の基礎であり、精度の高いAIモデル構築のために不可欠です。

---

>自然言語処理でテキストを扱う前にいくつか準備することはまず、テキストをキレイにすること。余計な文字や記号を取りはらって、テキストだけにする。それから、特に日本語の場合、単語をばらばらにすることも大事。そして単語をきれいな形に揃えて、意味のない小さい単語（ストップワードっていう）を取り除きます。

>正規表現っていう特殊な記法を使って、テキストの中の特定のパターンを見つけて、それを使ってテキストを整理します。Pythonには`re`っていうモジュールがあって、これがとても便利。

>それと、Webから情報を集めるスクレイピングっという技術もあって、これを使えば大量のデータをサクッと取ってこれる。Pythonの`Beautiful Soup4`ってライブラリを使うと、Webページから必要な部分だけを抜き出して、自分のデータにできる。

>この章で学んだのは、こういったテキストの準備作業。これができれば、AIがテキストをもっと上手に理解できるようになる。

---

最後に、「教材内の例文コードを全て網羅し、箇条書きの説明を加えたコード集」の要約に進みます。この部分では、教材内のコード例を利用して、それぞれのコードの役割や使用方法について説明します。

#### 正規表現モジュール`re`の使い方
- **文字列の検索**:
  - `re.match`: 文字列の始めから正規表現に合うかチェック。
  - `re.search`: 文字列全体から正規表現に合う部分を探す。
  - `re.findall`: 文字列全体から正規表現に合うすべての部分をリストで返す。

- **文字列の置換**:
  - `re.sub`: 正規表現に合う部分を別の文字列で置換。

- **テキストクリーニングの例**:
  - 不要な文字（記号、空白など）を正規表現で除去。

#### スクレイピングと`Beautiful Soup4`の使用
- **Beautiful Soup4のインストール**:
  - `pip install bs4`でインストール。

- **文章のスクレイピング**:
  - `BeautifulSoup`と`urllib`を使用してWebページからテキストを取得。
  - 必要な部分だけを抽出し、HTMLタグなどを除去。

- **ストップワードリストの取得とクリーニング**:
  - Webからストップワードリストを取得。
  - リストを整理し、不要な文字を除去。

#### ストップワードの除去
- **除去プロセス**:
  - 形態素解析で文章を品詞ごとに分割。
  - ストップワードリストを用いて不要な単語を除去。

- **具体的なコード例**:
  - 分割された単語リストからストップワードを除去。



#### 正規表現モジュール`re`の使い方（コード例）
1. **文字列の検索**:
   - `re.match`の例:

In [None]:
import re
email = 'abc@xxx.com'
match_string = re.match(r'[a-z]+@[a-z]+\.[a-z]+', email)
print(match_string)
#     - このコードは、与えられたメールアドレスが正規表現パターンに合致するかをチェックします。


None


   - `re.findall`の例:

In [None]:
emails = 'abc@xxx.com def@yyy.com test kimura@gmail.com'
match_list = re.findall(r'[a-z]+@[a-z]+\.[a-z]+', emails)
print(match_list)
#このコードは、文字列内のすべてのメールアドレスを見つけてリストで返します。


['abc@xxx.com', 'def@yyy.com', 'kimura@gmail.com']


2. **文字列の置換**:
   - `re.sub`の例:

In [None]:
email = 'abc@xxx.com'
replace_string = re.sub(r'[a-z]+@', '[ABC]@', email)
print(replace_string)
# このコードは、メールアドレスのユーザー名部分を「ABC@」に置き換えます。


[ABC]@xxx.com


3. **テキストクリーニング**:
   - 不要な記号の除去:

In [None]:
text = '【重要です!】明日、必ず連絡を下さい'
result = re.sub(r'[【】!]', ' ', text)
print(result)
#    - このコードは、特定の記号を空白に置き換えています。


 重要です  明日、必ず連絡を下さい


#### スクレイピングと`Beautiful Soup4`の使用


1. **Beautiful Soup4のインストール**:

In [None]:
!pip install bs4

Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: bs4
  Building wheel for bs4 (setup.py) ... [?25l[?25hdone
  Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1256 sha256=c4874dc6b04d8289236430908d7fb234ee89df10b3c54f8b04f10057349e122b
  Stored in directory: /root/.cache/pip/wheels/25/42/45/b773edc52acb16cd2db4cf1a0b47117e2f69bb4eb300ed0e70
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1


2. **文章のスクレイピング**:
   - `BeautifulSoup`と`urllib`を使用した例:

In [None]:
from bs4 import BeautifulSoup
from urllib import request

url = 'https://www.aozora.gr.jp/cards/000879/files/128_15261.html'
response = request.urlopen(url)
soup = BeautifulSoup(response)
response.close()

print(soup)
#     - このコードは、青空文庫から「羅生門」の文章を取得します。


<?xml version="1.0" encoding="Shift_JIS"?><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
<html xml:lang="ja" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/css" http-equiv="content-style-type"/>
<link href="../../aozora.css" rel="stylesheet" type="text/css"/>
<title>芥川龍之介 羅生門</title>
<script src="../../jquery-1.4.2.min.js" type="text/javascript"></script>
<link href="http://purl.org/dc/elements/1.1/" rel="Schema.DC"/>
<meta content="羅生門" name="DC.Title"/>
<meta content="芥川龍之介" name="DC.Creator"/>
<meta content="青空文庫" name="DC.Publisher"/>
</head>
<body>
<div class="metadata">
<h1 class="title">羅生門</h1>
<h2 class="author">芥川龍之介</h2>
<br/>
<br/>
</div>
<div id="contents" style="display:none"></div><div class="main_text"><br/>
　<ruby><rb>或日</rb><rp>（</rp><rt>あるひ</rt><rp>）</rp></ruby>の暮方の事である。一人の下人が、<ruby><rb>羅生門</rb><rp>（</rp><rt>らしやうもん</rt><rp>）</rp></



#### ストップワードの除去

1. **ストップワードリストの取得とクリーニング**:
   - ストップワードリストの取得例:

In [None]:
from bs4 import BeautifulSoup
from urllib import request

url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
response = request.urlopen(url)
soup = BeautifulSoup(response)
response.close()

stopwords_text = soup.text
stopwords_list = stopwords_text.split("\r\n")
stopwords_list = [word for word in stopwords_list if word]
print(stopwords_list)

#     - このコードは、ストップワードのリストをWebから取得し、クリーニングしています。


['あそこ', 'あたり', 'あちら', 'あっち', 'あと', 'あな', 'あなた', 'あれ', 'いくつ', 'いつ', 'いま', 'いや', 'いろいろ', 'うち', 'おおまか', 'おまえ', 'おれ', 'がい', 'かく', 'かたち', 'かやの', 'から', 'がら', 'きた', 'くせ', 'ここ', 'こっち', 'こと', 'ごと', 'こちら', 'ごっちゃ', 'これ', 'これら', 'ごろ', 'さまざま', 'さらい', 'さん', 'しかた', 'しよう', 'すか', 'ずつ', 'すね', 'すべて', 'ぜんぶ', 'そう', 'そこ', 'そちら', 'そっち', 'そで', 'それ', 'それぞれ', 'それなり', 'たくさん', 'たち', 'たび', 'ため', 'だめ', 'ちゃ', 'ちゃん', 'てん', 'とおり', 'とき', 'どこ', 'どこか', 'ところ', 'どちら', 'どっか', 'どっち', 'どれ', 'なか', 'なかば', 'なに', 'など', 'なん', 'はじめ', 'はず', 'はるか', 'ひと', 'ひとつ', 'ふく', 'ぶり', 'べつ', 'へん', 'ぺん', 'ほう', 'ほか', 'まさ', 'まし', 'まとも', 'まま', 'みたい', 'みつ', 'みなさん', 'みんな', 'もと', 'もの', 'もん', 'やつ', 'よう', 'よそ', 'わけ', 'わたし', 'ハイ', '上', '中', '下', '字', '年', '月', '日', '時', '分', '秒', '週', '火', '水', '木', '金', '土', '国', '都', '道', '府', '県', '市', '区', '町', '村', '各', '第', '方', '何', '的', '度', '文', '者', '性', '体', '人', '他', '今', '部', '課', '係', '外', '類', '達', '気', '室', '口', '誰', '用', '界', '会', '首', '男', '女', '別', '話', '私', '屋', '店', '家', '場', '等', '見', '際', '観', '段', '

2. **実際の文章からストップワード除去**:
   - ストップワード除去の例:

In [None]:
split_text_list =  ['私', 'は', '今日', '、', 'スーパー', 'で', '沢山', 'の', 'お', '菓子', 'を', '買っ', 'た', '。']
result_text_list = list()
for split_text in split_text_list:
  if split_text not in stopwords_list:
    result_text_list.append(split_text)

print(result_text_list)

#     - このコードは、分割された単語リストからストップワードを除去しています。

['は', '今日', '、', 'スーパー', 'で', '沢山', 'の', 'お', '菓子', 'を', '買っ', 'た', '。']




> これらのコード例は、自然言語処理におけるテキストの前処理を行う際の基本的な手法を示しています。教材に基づいて、さまざまな前処理手法を学び、それらを実際のプログラミングに適用することができます。



# 課題：スクレイピングしたテキストの前処理

1. 夏目漱石の『文壇の趨勢』を青空文庫からBeautiful Soup4と正規表現モジュールreを使用してスクレイピングし、前処理する。
2. HTMLタグや不要な文字を削除し、最初の文を手動で品詞ごとに区切り、ストップワードを除去する。
3. 自然言語処理におけるデータ前処理の技術を理解し、適用する。

このPython課題について、まずはヒントを箇条書きで、その後模範回答を示します。

### ヒント
1. **Beautiful Soupを使用する**: このライブラリはHTMLやXMLファイルからデータを抽出するために使います。特定のURLからデータを取得し、解析するのに役立ちます。
2. **正規表現モジュール(re)の使用**: テキストから特定のパターン（例えばHTMLタグ）を見つけ出し、除去するのに便利です。
3. **HTMLタグの除去**: BeautifulSoupで取得したテキストから、HTMLタグを取り除くために`.get_text()`メソッドや正規表現を使用します。
4. **ストップワードの除去**: ストップワードとは、一般的に意味を持たない単語（例: "と", "は", "の"）のことです。これらをテキストから取り除くことで、分析をより効果的に行えます。
5. **品詞ごとに区切る**: 特定の文を手動で品詞ごとに区切る場合、日本語の形態素解析ツール（例: MeCab）を使用することが考えられますが、この課題では手動で行います。

### 模範回答
以下は、この課題に対する模範回答のコード例です。このコードはBeautiful Soupを使って特定のウェブページからテキストをスクレイピングし、その後HTMLタグやストップワードを除去します。



In [None]:
import requests
from bs4 import BeautifulSoup
import re

# スクレイピングするURL
url = 'https://www.aozora.gr.jp/cards/000148/files/2371_13943.html'

# URLからHTMLを取得
response = requests.get(url)
response.encoding = response.apparent_encoding

# BeautifulSoupでHTMLを解析
soup = BeautifulSoup(response.text, 'html.parser')

# 本文を取得し、HTMLタグを除去
text = soup.get_text()

# 不要な文字列や改行を削除
text = re.sub(r'\n|\r', '', text)
text = re.sub(r'［＃.*?］', '', text)  # 注釈などの特別なタグを除去

# ここで、手動で最初の文を品詞ごとに区切り、ストップワードを除去する処理を行う
# 例: "近頃は文壇の趨勢がどうのこうのという話題になることが少ない。" -> "近頃 文壇 趨勢 どうのこうの 話題 なる 少ない。"

# 結果の表示
print(text[:500])  # 最初の500文字を表示

夏目漱石 文壇の趨勢文壇の趨勢夏目漱石　近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。現に今日も一軒断わりました。向後日本の文壇はどう変化するかなどという大問題はなかなか分りにくい。いわんや二三日前まで『文学評論』の訂正をしていて、頭が痺れたように疲れているから、早速に分別も浮びません。それに似寄った事をせんだってごく簡略に『秀才文壇』の人に話してしまった。あいにくこの方面も種切れです。が、まあせっかくだから――いつおいでになっても、私の談話が御役に立った試がないようだから――つまらん事でも責任逃れに話しましょう。　私が小説を書き出したのは、何年前からか確と覚えてもいないが、けっして古くはない。見方によればごく近頃であると云ってもよろしい。しかるに我が文壇の潮流は非常に急なもので、私よりあとから、小説家として、世にあらわれ、また一般から作家として認められたものが大分ある。今も続々出つつあるように思われる。私は多忙な身だから、ほかの人の作を一々通読する暇がない。たてこんで来ると、つい読み損って、それぎりにす


このコードは、指定されたウェブページからテキストを取得し、HTMLタグを除去した後、最初の500文字を表示します。なお、手動での品詞分割とストップワードの除去は、このコードでは実装されていません。実際の実装では、テキストデータに応じて適切な方法を選択する必要があります。

# Word2Vecで単語間の類似度を測定してみよう

#### 教材要約（文語調、箇条書き）
- **目標**:
  - 分散表現の理解。
  - 分散表現の用途を理解する。
  - Word2Vecなどのライブラリや手法を使いこなす。

- **分散表現**:
  - 単語を数百次元のベクトルで表す。
  - one-hotエンコーディングの欠点を解決。
  - 単語間の意味的な関係を表現可能。

- **Word2Vec**:
  - 単語の分散表現を学習するモデル。
  - Skip-gram、CBOWモデルを使用。
  - 類似単語の特定や関係性の理解が可能。

- **gensimライブラリ**:
  - Word2VecのPython実装。
  - コーパスの読み込みとモデル学習をサポート。

- **cos類似度**:
  - ベクトル間の類似度を計測する方法。
  - 0から1の範囲で類似度を測定。

本章では、自然言語処理における分散表現とその学習モデルであるWord2Vecについて学びます。分散表現は単語を多次元のベクトルで表す技術で、単語間の意味的な関係を捉えることが可能です。Word2Vecはこの分散表現を効果的に学習し、単語の類似性や関係を解析することができます。gensimライブラリを用いてWord2Vecモデルの実装と学習が行われ、cos類似度を使用して単語間の類似度を計測します。この章を通じて、単語の意味的な関係を理解し、それを用いた自然言語処理の応用が可能となります。

---
＜口語要約＞
この章では、Word2Vecというツールについて学びます。Word2Vecを使うと、単語をベクトル（つまり数字の羅列）で表現できて、単語同士がどれくらい似ているかとか、どんな関係があるかとかが分かるようになる。例えば、「王様」から「男」を引いて「女」を足すと「女王」が出てくる、みたいな計算が可能です。

このWord2Vec、中でどうやってるかというと、単語の周りにどんな単語があるか見て、その単語の「意味」を数値で表現している。これを「分散表現」と呼ぶ。gensimっていうPythonのライブラリを使うと、Word2Vecを簡単に使えるようになり、どの単語が似ているかを計算したり、単語の「意味」を数値で理解できる。

Word2Vecは自然言語処理の世界でとても重要で、文章や単語の意味をコンピューターに理解させるのに役立つツールです。

---



#### gensimライブラリの使用方法

1. **gensimのインストール**:
   - gensimをインストールするためのコード:

In [None]:
!pip install gensim



2. **コーパスの読み込み**:
   - 英語のコーパス`text8`をgensimを使って読み込むコード:

In [None]:
import gensim.downloader as api
corpus = api.load("text8")





   - コーパスの情報を確認するコード:

In [None]:

api.info("text8")


{'num_records': 1701,
 'record_format': 'list of str (tokens)',
 'file_size': 33182058,
 'reader_code': 'https://github.com/RaRe-Technologies/gensim-data/releases/download/text8/__init__.py',
 'license': 'not found',
 'description': 'First 100,000,000 bytes of plain text from Wikipedia. Used for testing purposes; see wiki-english-* for proper full Wikipedia datasets.',
 'checksum': '68799af40b6bda07dfa47a32612e5364',
 'file_name': 'text8.gz',
 'read_more': ['http://mattmahoney.net/dc/textdata.html'],
 'parts': 1}

3. **Word2Vecモデルの学習**:
   - `text8`コーパスを使用してWord2Vecモデルを学習するコード:


In [None]:
from gensim.models import Word2Vec
model = Word2Vec(corpus)
print(model)

Word2Vec<vocab=71290, vector_size=100, alpha=0.025>


#### 単語間の類似度測定

1. **単語間の類似度を測定**:
   - 例えば「japan」という単語に対して、類似度が高い単語を求めるコード:

In [None]:
similarity_words = model.wv.most_similar("japan")
print(similarity_words)

   - 学習時に使用した単語を確認するコード:

In [None]:
print(model.wv.index_to_key)

     - Gensimのバージョンが4.0.0未満の場合は、以下のコードを使用:

In [None]:
print(model.wv.index2entity)





> これらのコードは、Word2Vecモデルの基本的な使い方を示しています。gensimライブラリを使って、英語コーパスを読み込み、Word2Vecモデルを学習させることができます。また、学習したモデルを使用して、特定の単語に類似した単語を見つけることができます。これにより、単語間の意味的な関連性を分析することが可能になります。



# MeCabでワードクラウドを作ろう

#### 教材要約（文語調、箇条書き）
- **目標**:
  - 形態素解析の理解。
  - 形態素解析の用途を把握する。
  - 形態素解析に用いるMeCabの使い方を習得する。

- **形態素解析**:
  - 文章を意味を持つ最小単位に分割する技術。
  - 各形態素の品詞を特定し、解析する。

- **MeCab**:
  - 日本語形態素解析エンジン。
  - テキストを品詞ごとに分割し、辞書情報に基づいて分析する。

- **TF-IDF**:
  - 文書内の各単語の重要度を計算する技術。
  - 単語の出現頻度と希少性を数値化する。

- **ワードクラウド**:
  - 文書の主要な単語を視覚的に表現する方法。
  - 出現頻度の高い単語を目立たせて表示する。

#### 明解な要約文章（文語調）
本章では、日本語の形態素解析に焦点を当て、MeCabを用いた分析手法について学習します。形態素解析は、文章を意味を持つ最小の単位に分割し、各単語の品詞や特性を分析する技術です。この技術を活用することで、文章の詳細な解析や理解が可能になります。MeCabはこの形態素解析を効率的に行うためのツールであり、テキストデータを詳細に分析する際に欠かせないものです。また、TF-IDFを用いて単語の重要度を計算し、ワードクラウドを生成することで、文書のキーワードや主要なテーマを視覚化できます。これらの技術は、テキストデータの分析や処理において重要な役割を果たします。

### 教材要約（口語調、抽象化）

この章ではMeCabを使ってワードクラウドを作る方法を学ぶよ。まず、形態素解析ってのを理解することが大事。形態素解析っていうのは、文章を単語や品詞に分ける技術のこと。これを使えば、文書の中でどんな単語がどれくらい使われているかが分かるんだ。

で、MeCabっていうのは、形態素解析をするためのツール。これを使うと、文章を細かく分析できて、どの単語が多いか、どの品詞が多いか、そういうのがすぐに分かるようになる。それで、TF-IDFっていうのを使って、単語の重要度を数値化するんだ。これがあると、文書の中で本当に大事な単語が何かが分かる。

最後に、ワードクラウドっていうのを作るんだけど、これは出現頻度の高い単語を目立たせて視覚的に表示する方法。結構面白いよ。文章の中でどの単語が強調されるか一目で分かるし、デザイン的にもカッコいい。

---



#### MeCabを用いた形態素解析（コード集）


1. **MeCabのインストール**:
   - PythonでMeCabを利用するためのインストールコード:

In [None]:
!pip install mecab-python3

Collecting mecab-python3
  Downloading mecab_python3-1.0.8-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (581 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/581.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.6/581.7 kB[0m [31m3.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━[0m [32m430.1/581.7 kB[0m [31m6.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m581.7/581.7 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: mecab-python3
Successfully installed mecab-python3-1.0.8


2. **辞書のインストール**:
   - MeCabで使う辞書をインストールするコード:

In [None]:
!pip install unidic-lite

3. **形態素解析の実行**:
   - テキストを形態素解析するコード:

In [None]:
import MeCab

mecab_tagger = MeCab.Tagger()
text = "私は今日、スーパーで沢山のお菓子を買った。"
print(mecab_tagger.parse(text))

**文章中の単語の出現頻度を確認してみよう**

In [None]:
import MeCab

mecab_tagger = MeCab.Tagger()

text = "私は今日、スーパーで沢山のお菓子を買った。"
node = mecab_tagger.parseToNode(text)
print(node)

次に形態素（単語）、品詞を取得する方法として、以下の属性を使用します。



> surface: 形態素（単語）
> posid: 品詞
> feature: 詳細情報



In [None]:
import MeCab

mecab_tagger = MeCab.Tagger()

text = "私は今日、スーパーで沢山のお菓子を買った。"
node = mecab_tagger.parseToNode(text)

while node:
    # 単語、品詞、詳細情報をタブ区切りで表示
    print(f'{node.surface}\t{node.posid}\t{node.feature}')
    # 次の要素を取得
    node = node.next

**単語の出現頻度の確認**



> wikipediaにある自然言語処理の説明内容を使用し、MeCabで形態素解析します。



In [None]:
import MeCab

mecab_tagger = MeCab.Tagger()

text = '''自然言語処理（しぜんげんごしょり、英語: natural language processing、略称：NLP）は、
人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の
一分野である。「計算言語学」（computational linguistics）との類似もあるが、自然言語処理は工学的
な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。
データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な（コンピュータが理解し
やすい）表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げら
れる。自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自
然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法（統計
や確率など）が広められた為、パーサ（統語解析器）などの精度や速度が一段と上がり、その意味合いは
違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。
このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点
から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論
部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。'''
node = mecab_tagger.parseToNode(text)
count_dict = {}

while node:
    word = node.surface
    hinshi = node.feature.split(",")[0]
    if word in count_dict.keys() and hinshi == "名詞":
        count_dict[word] += 1
    elif hinshi == "名詞":
        count_dict[word] = 1
    else:
        pass
    node = node.next

word_counts = sorted(count_dict.items(), key=lambda x:x[1], reverse=True)
word_counts

#### TF-IDFを利用したワードクラウドの作成

1. **TF-IDFの計算**:
   - sklearnのTF-IDFベクトルライザーを使ったTF-IDF値計算のコード:

In [None]:
import re
import MeCab

mecab_tagger = MeCab.Tagger()

text = '''自然言語処理（しぜんげんごしょり、英語: natural language processing、略称：NLP）は、
人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の
一分野である。「計算言語学」（computational linguistics）との類似もあるが、自然言語処理は工学的
な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。
データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な（コンピュータが理解し
やすい）表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げら
れる。自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自
然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法（統計
や確率など）が広められた為、パーサ（統語解析器）などの精度や速度が一段と上がり、その意味合いは
違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。
このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点
から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論
部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。'''
node = mecab_tagger.parseToNode(text)
vocab_list = []

while node:
    word = node.surface
    hinshi = node.feature.split(",")[0]
    if hinshi == "名詞":
        if (not word.isnumeric()) and (not re.match(r'^[\u3040-\u309F]+$', word)):
            # 名詞が数値と平仮名のみの場合は除き、それ以外の名詞を保存
            vocab_list.append(word)
    else:
        pass
    node = node.next

print(vocab_list)

In [None]:
!pip install scikit-learn


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_model = TfidfVectorizer(token_pattern='(?u)\\b\\w+\\b', norm=None)
tfidf_model.fit(vocab_list)

2. **ワードクラウドの作成**:
   - TF-IDF値に基づいてワードクラウドを作成するコード:

In [None]:
# 対象のテキストをtf-idf値に変換
vocab_text = " ".join(vocab_list)
tfidf_vec = tfidf_model.transform([vocab_text]).toarray()[0]
# 単語: tf-idf値となるdictに変換
tfidf_dict = dict(zip(tfidf_model.get_feature_names_out(), tfidf_vec))
# tf-idf値が正のみの単語を残す
tfidf_dict = {word: num_val for word, num_val in tfidf_dict.items() if num_val > 0}

tfidf_dict

In [None]:
!pip install wordcloud
!pip install matplotlib


In [None]:
!apt-get -y install fonts-ipafont-gothic


In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

font_path = "/usr/share/fonts/truetype/fonts-japanese-gothic.ttf"
wc = WordCloud(background_color="white",width=900, height=500, font_path=font_path).generate_from_frequencies(tfidf_dict)
plt.figure(figsize=(18,10))
plt.axis("off")
plt.imshow(wc)



> これらのコードは、MeCabを使用して日本語テキストを形態素解析し、その結果を基にTF-IDF値を計算して、ワードクラウドを作成する方法を示しています。MeCabによる形態素解析は日本語テキストの解析に不可欠で、TF-IDFによる重要語の抽出とワードクラウドの生成は、文書のキーワードを視覚化し理解するのに有用です。



# spaCyを使って固有表現抽出をしてみよう

#### 教材要約（文語調、箇条書き）
- **目標**:
  - 固有表現抽出の理解。
  - 固有表現抽出の用途把握。
  - 固有表現抽出に用いるspaCyの使い方習得。

- **固有表現抽出の概要**:
  - 文章から特定の情報（地名、人名、日付など）を機械的に識別、抽出。
  - 情報抽出の一環として位置付けられる。

- **spaCyの特徴**:
  - Pythonの自然言語処理ライブラリ。
  - 学習済みの統計モデルと単語ベクトルを含む。
  - 多言語に対応。

- **spaCyを用いた固有表現抽出の実践**:
  - 日本語モデルGINZAの使用。
  - テキストデータの形態素解析と固有表現の識別。

#### 明解な要約文章（文語調）
本章では、固有表現抽出の技術とその実践に焦点を当てています。固有表現抽出は、文章から特定の名詞や日付などの情報を自動で識別し抽出するプロセスです。この技術は、テキストデータから重要な情報を効率的に得るために重要です。spaCyというPythonライブラリを用いることで、この固有表現抽出を実現します。spaCyは多言語に対応し、豊富な機能を備えており、特に固有表現抽出では顕著な能力を示します。日本語のテキストに対しても、GINZAモデルを通じて効果的な固有表現抽出が可能です。この章では、spaCyを用いた固有表現抽出の方法と、その応用事例について学習し、実践的なスキルを身につけることができます。

---


### 2. 口語調の要約

固有表現抽出っていうのは、文章から特定の情報を探し出す技術です。たとえば、人の名前や場所、日付とかがそれに当たります。これができると、文章から必要な情報をサッと取り出せるようになるんです。

今回の教材では、spaCyというツールを使って固有表現抽出をしてみます。spaCyはPythonで使える自然言語処理ライブラリで、事前に学習させたモデルがあるんです。これを使えば、固有表現抽出がかなり簡単にできます。

日本語の文章を扱う時は、GINZAというモデルを使うんですけど、これもspaCyで簡単に使えるんです。実際にコードを書いてみると、固有表現がキレイに抜き出されて、その便利さがよく分かります。

この章で、spaCyを使った固有表現抽出のやり方を学ぶんですが、これができると、文章からの情報抽出がぐっとラクになります。


#### コード例とその説明

- **spaCyのインストールとモデルの読み込み**:

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
print(nlp)

#  - spaCyライブラリをインポートし、英語の学習済みモデルをロード。

- **GINZAのインストールと日本語モデルの読み込み**:

In [None]:
!pip install ja_ginza

In [None]:
!python -m spacy download ja_core_news_sm

In [None]:
import spacy

nlp = spacy.load('ja_core_news_sm')


#- GINZAライブラリをインストールし、日本語モデルをロード。

- **形態素解析の実行**:

In [None]:
text = """
      プログラムは、高速処理ができます。...
      まさに、プログラムならではの「できること」だといえるでしょう。
    """
doc = nlp(text)

for token in doc:
  print(token.text, type(token))

#   - 日本語のテキストに対して形態素解析を実行し、トークンごとに出力。

- **固有表現抽出の実行**:

In [None]:
from spacy import displacy

displacy.render(doc, style="ent", options={"compact":True},  jupyter=True)

#  - 解析された文章から固有表現を抽出し、ビジュアル化。

>この章では、spaCyとGINZAを利用して、日本語のテキストから固有表現を抽出する方法を学びます。まず、spaCyの基本的な使い方を理解し、英語のモデルをロードしてみます。続いて、日本語処理のためにGINZAライブラリをインストールし、日本語モデルをロードします。実際に日本語のテキストデータに対して形態素解析を行い、トークンごとに内容を確認します。最後に、displacyモジュールを用いて固有表現を視覚的に表示し、テキスト内の重要な情報を抽出するプロセスを実践します。


# transformersでBertのモデルを使ってみよう

**本章の目標**
- transformersとBERTの理解
- transformersの使い方の習得

**transformersとは**
- Hugging Face社が提供する自然言語処理向けのライブラリ
- Jax, PyTorch, TensorFlowをバックエンドに選択可能
- 95種類のモデルアーキテクチャをサポート

**BERTとは**
- Googleが2018年に発表した自然言語処理モデル
- 両方向のエンコード表現を使用し、高い精度を実現
- 様々な自然言語処理タスクで優れた性能を発揮

**transformersの利用方法**
- PythonのAPIを通して簡単に使用可能
- パイプラインやトークナイザーを提供
- 感情分析などのタスクに対応

**感情分析の活用**
- SNS投稿、商品レビュー、問い合わせ履歴などの分析
- テキスト、音声、映像を含む様々なデータに適用可能

**BERTでの感情分析**
- 学習済みの日本語モデルを使用して簡単に感情分析が実施可能
- 肯定的および否定的なテキストの正確な分析

口語調の要約

transformersっていうのは、自然言語処理を扱うためのライブラリですね。Googleが作ったBERTモデルも使えるんですよ。このBERT、すごくて、文章の意味を深く理解できるんです。

transformersは、テキスト分類や感情分析、翻訳など、いろいろなことができます。使い方も簡単で、学習済みのモデルをダウンロードして、すぐに使えます。感情分析なんかも、日本語の文章でやってみることができますよ。

transformersのおかげで、文章やSNSの投稿、商品レビューなど、さまざまなテキストから、人の感情を読み取ることが可能になりました。サポートセンターや金融機関、マーケティングなど、いろんな場面で役立てられています。

BERTを使えば、文章の肯定的な感情や否定的な感情を見分けることもできます。感情分析の例としては、「嬉しい」って言葉にはポジティブなラベルが、逆に「悲しい」にはネガティブなラベルがつきました。



In [None]:
# transformersをインストール
!pip install transformers

In [None]:
# BERTで感情分析を行うためのライブラリをインストール
!pip install fugashi ipadic

In [None]:
# pipelineを使用してBERTモデルでの感情分析
from transformers import pipeline

classifier = pipeline(
    task="sentiment-analysis",
    model="koheiduck/bert-japanese-finetuned-sentiment",
    tokenizer="koheiduck/bert-japanese-finetuned-sentiment"
)

sentence1 = "嬉しい"
sentence2 = "悲しい"
result1 = classifier(sentence1)[0]
result2 = classifier(sentence2)[0]
print(f"sentence1: {sentence1}, label: {result1['label']}, with score: {round(result1['score'], 4)}")
print(f"sentence2: {sentence2}, label: {result2['label']}, with score: {round(result2['score'], 4)}")

- このコードでは、まずtransformersライブラリをインストールします。
- 次に、日本語での感情分析に必要なfugashiとipadicライブラリをインストールします。
- pipelineメソッドを使用して、感情分析を行います。
- 日本語モデル"koheiduck/bert-japanese-finetuned-sentiment"をロードし、テキスト"嬉しい"と"悲しい"の感情分析を実行します。
- 最終的には、各文章に対する感情分析の結果が出力されます。

# GPT-2モデルを使って文章生成をしよう

**本章の目標**
- GPT-2の理解
- GPT-2の使い方の習得

**GPT-2とは**
- 自然言語処理モデルの一つ
- 2019年にOpenAIによって発表
- transformerをベースにしたテキスト生成モデル

**GPT-2の特徴**
- 逐次的な単語予測による文章生成
- 日本語モデルも利用可能
- 広告コピーからレシピ文まで幅広い文章生成に適用

**GPT-2の利用方法**
- transformersライブラリを利用
- sentencepieceと併用して日本語モデルを読み込む

**文章生成の実例**
- 「自然言語処理とは」を起点にした文章生成
- rinna社の日本語モデルを利用

口語調の要約

GPT-2っていうのは、文章を生成するためのモデルです。自然言語処理の分野で使われていて、OpenAIが開発しました。

このモデルはtransformerを基にしていて、与えられたテキストに基づいて次の単語を予測するんです。日本語でも使えます。広告のコピーや、レシピの文章、いろんな文章を自動で作ってくれます。

使い方は簡単で、transformersというライブラリを使います。日本語で使う場合は、sentencepieceっていうツールも一緒に使います。

例えば、「自然言語処理とは」って言葉から文章を生成することもできます。rinna社の日本語モデルを使って、色んな文章を作ってみることが可能です。




In [None]:
# GPT-2用のライブラリをインストール
!pip install sentencepiece
!pip install transformers

Collecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


In [None]:
!pip install sentencepiece


In [None]:
from transformers import T5Tokenizer, AutoModelForCausalLM

# Load the Japanese model
tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small")
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-small")

# Generate text
input_text = "自然言語処理とは,"
input = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input, do_sample=True, max_length=30, num_return_sequences=3)
print(tokenizer.batch_decode(output))


- このコードでは、まずGPT-2用のライブラリ、sentencepieceとtransformersをインストールします。
- 次に、rinna社の日本語モデルを読み込みます。
- `T5Tokenizer.from_pretrained` と `AutoModelForCausalLM.from_pretrained` を使って、モデルとトークナイザを準備します。
- 入力されたテキスト"自然言語処理とは,"に基づいて、文章生成を行います。
- `model.generate`メソッドで生成した文章を出力します。