# **非構造化データ処理の前処理**

**テキストデータの前処理**

形態素解析・品詞分解

10.1 英語テキストの品詞分解

In [1]:
!pip install nltk



In [2]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_rus to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |  

True

In [3]:
# サンプルテキスト
text = "Natural language processing enables computers to understand human language."

# トークン化
tokens = nltk.word_tokenize(text)

# 品詞分解
pos_tags = nltk.pos_tag(tokens)

print(pos_tags)

[('Natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('enables', 'VBZ'), ('computers', 'NNS'), ('to', 'TO'), ('understand', 'VB'), ('human', 'JJ'), ('language', 'NN'), ('.', '.')]


10.2 テキストデータのノイズ除去

In [4]:
import re

# サンプルテキスト
text = "<html>自然言語処理（NLP）は、コンピュータが人間の言語を理解するための技術です。</html> 詳しくは https://example.com をご覧ください！※この**マークダウン**記号は重要かもしれません。。。#AI #機械学習"

# HTMLタグの除去
text = re.sub(r'<.*?>', '', text)

# URLの除去
text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)

# 特殊文字の除去
text = re.sub(r'\W', ' ', text)

print(text)

自然言語処理 NLP は コンピュータが人間の言語を理解するための技術です  詳しくは  をご覧ください  この  マークダウン  記号は重要かもしれません    AI  機械学習


10.3 日本語の品詞分解

In [5]:
# サンプルテキスト　日本語の品詞分解
!pip install sudachidict_core

from sudachipy import Dictionary
from sudachipy import Tokenizer

tokenizer = Dictionary().create()
mode = Tokenizer.SplitMode.C  # 最も細かく分割するモード

text = "パリの魅力をたっぷり満喫できる感動ののパリ 6日間ツアー！観光名所巡りやグルメ、ショッピングを楽しみながら特別な時間を過ごしましょう。"

tokens = [(m.surface(), m.part_of_speech()) for m in tokenizer.tokenize(text, mode)]

for token, pos in tokens:
    print(token, pos)

Collecting sudachidict_core
  Downloading sudachidict_core-20250515-py3-none-any.whl.metadata (2.7 kB)
Collecting SudachiPy<0.7,>=0.5 (from sudachidict_core)
  Downloading SudachiPy-0.6.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Downloading sudachidict_core-20250515-py3-none-any.whl (72.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m72.1/72.1 MB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading SudachiPy-0.6.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m64.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: SudachiPy, sudachidict_core
Successfully installed SudachiPy-0.6.10 sudachidict_core-20250515
パリ ('名詞', '固有名詞', '地名', '一般', '*', '*')
の ('助詞', '格助詞', '*', '*', '*', '*')
魅力 ('名詞', '普通名詞', '一般', '*', '*', '*')
を ('助詞', '格助詞', '*', '*', '*', '*')
たっぷり ('副詞', '*', '*', '*', '*', '*')
満喫 ('名詞', '普

10.4 名詞・動詞のみ抽出

In [6]:
# 名詞・動詞のみ抽出
tokens = []
for m in tokenizer.tokenize(text, mode):
   pos = m.part_of_speech()[0]  # 品詞の大分類（例：名詞、動詞など）
   if pos in ["名詞", "動詞"]:
       tokens.append((m.surface(), pos))


# 出力
for token, pos in tokens:
   print(f"{token} : {pos}")

パリ : 名詞
魅力 : 名詞
満喫 : 名詞
できる : 動詞
感動 : 名詞
パリ : 名詞
6 : 名詞
日間 : 名詞
ツアー : 名詞
観光 : 名詞
名所 : 名詞
巡り : 名詞
グルメ : 名詞
ショッピング : 名詞
楽しみ : 動詞
時間 : 名詞
過ごし : 動詞


10.5 文書ごとに出現する単語の件数をカウント

In [15]:
# OS側ライブラリ（必要に応じて）
!apt-get -y install mecab libmecab-dev mecab-ipadic-utf8

# Pythonバインディング
!pip install mecab-python3 unidic-lite

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libmecab-dev is already the newest version (0.996-14build9).
mecab-ipadic-utf8 is already the newest version (2.7.0-20070801+main-3).
mecab is already the newest version (0.996-14build9).
0 upgraded, 0 newly installed, 0 to remove and 35 not upgraded.
Collecting unidic-lite
  Downloading unidic-lite-1.0.8.tar.gz (47.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.4/47.4 MB[0m [31m12.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: unidic-lite
  Building wheel for unidic-lite (setup.py) ... [?25l[?25hdone
  Created wheel for unidic-lite: filename=unidic_lite-1.0.8-py3-none-any.whl size=47658817 sha256=ec1e12bd28270b99a1db2b6d5a3c7fd1db3fe732f2fdb82ece9f4767c16db200
  Stored in directory: /root/.cache/pip/wheels/b7/fd/e9/ea4459b868e6d2902e8d80e82dbacb6203e05b3b3a58c64966
Successfully

In [16]:
# 文書ごとに出現する単語を件数をカウントするコード
import pandas as pd
import MeCab
from collections import Counter


# サンプル文章
texts = [
   "パリにいつかは訪れてみたい　パリにはたくさんの美術館があります",
   "パリへの旅行代金はいくらになりますか？　美術館のチケットも手配可能でしょうか？",
   "ルーブル美術館のオプショナルツアー注文が完了していないようです",
   "広島からパリとロンドンを周遊する航空券を購入したい",
   "パリまで東京から往復の航空券を購入します"
]


# 分かち書き関数
def tokenize(text):
   mecab = MeCab.Tagger("-Owakati")
   return mecab.parse(text).strip().split()


# 各文章を分かち書きして頻度を数える
doc_counters = [Counter(tokenize(text)) for text in texts]


# 全単語の一覧を取得
all_words = sorted(set(word for counter in doc_counters for word in counter.keys()))


# 各文書ごとの単語頻度ベクトルを作成
rows = []
for counter in doc_counters:
   row = [counter.get(word, 0) for word in all_words]
   rows.append(row)


# DataFrame化
df_freq = pd.DataFrame(rows, columns=all_words)
df_freq.index = [f"文書{i+1}" for i in range(len(texts))]


# 表示
df_freq


Unnamed: 0,あり,い,いくら,いつ,か,から,が,し,する,たい,...,手配,旅行,東京,注文,美術,航空,訪れ,購入,館,？
文書1,1,0,0,1,1,0,1,0,0,1,...,0,0,0,0,1,0,1,0,1,0
文書2,0,0,1,0,2,0,0,0,0,0,...,1,1,0,0,1,0,0,0,1,2
文書3,0,1,0,0,0,0,1,1,0,0,...,0,0,0,1,1,0,0,0,1,0
文書4,0,0,0,0,0,1,0,1,1,1,...,0,0,0,0,0,1,0,1,0,0
文書5,0,0,0,0,0,1,0,1,0,0,...,0,0,1,0,0,1,0,1,0,0


In [None]:
# 文書ごとに出現する単語が出現したときに1とカウントするコード
import pandas as pd
import MeCab
import os

# 環境変数の設定（必要に応じて）
# os.environ['MECABRC'] = '/etc/mecabrc'  # 適宜変更 - This is not needed if the dictionary path is specified in Tagger initialization

# サンプル文章
texts =  [
   "パリにいつかは訪れてみたい　パリにはたくさんの美術館があります",
   "パリへの旅行代金はいくらになりますか？　美術館のチケットも手配可能でしょうか？",
   "ルーブル美術館のオプショナルツアー注文が完了していないようです",
   "広島からパリとロンドンを周遊する航空券を購入したい",
   "パリまで東京から往復の航空券を購入します"
]

# 分かち書き関数
def tokenize(text):
   # MeCabの初期化時に辞書ファイルのパスを指定
   mecab = MeCab.Tagger("-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
   return mecab.parse(text).strip().split()

# 各文章を分かち書き
token_lists = [tokenize(text) for text in texts]

# 出現単語の集合
all_words = sorted(set(word for tokens in token_lists for word in tokens))

# ワンホットベクトル作成
binary_matrix = []
for tokens in token_lists:
   row = [1 if word in tokens else 0 for word in all_words]
   binary_matrix.append(row)

# DataFrame化（各行＝文章、各列＝単語、値＝1/0）
df_onehot = pd.DataFrame(binary_matrix, columns=all_words)

# 単語ごとの出現件数（列ごとに合計）
word_counts = df_onehot.sum().astype(int)
df_onehot.loc["出現件数"] = word_counts

# 結果表示
df_onehot

Unnamed: 0,あり,い,いくら,いつ,か,から,が,し,する,たい,...,手配,旅行,東京,注文,美術,航空,訪れ,購入,館,？
0,1,0,0,1,1,0,1,0,0,1,...,0,0,0,0,1,0,1,0,1,0
1,0,0,1,0,1,0,0,0,0,0,...,1,1,0,0,1,0,0,0,1,1
2,0,1,0,0,0,0,1,1,0,0,...,0,0,0,1,1,0,0,0,1,0
3,0,0,0,0,0,1,0,1,1,1,...,0,0,0,0,0,1,0,1,0,0
4,0,0,0,0,0,1,0,1,0,0,...,0,0,1,0,0,1,0,1,0,0
出現件数,1,1,1,1,2,2,2,3,1,2,...,1,1,1,1,3,2,1,2,3,1


形態素解析

In [19]:
# 必要なライブラリをインストール
!pip install -q mecab-python3 unidic-lite pandas

In [47]:
import pandas as pd
import MeCab
from collections import Counter

# CSVファイルの読み込み
df = pd.read_csv("contact_history.csv")
df

Unnamed: 0,customer_id,date,handler_id,inquiry,answer
0,N67760190,2025/07/04,64337,海外レンタルWiFiについて教えて,レンタルWiFiのプランと割引コードを案内しました。
1,N89455319,2021/05/27,78015,窓口の営業時間を教えてください,窓口の営業時間（平日10:00-18:00）をご案内しました。
2,N30182350,2022/02/01,61944,日程を変更したい,変更可能な日程をご案内し、追加料金について説明しました。
3,N13922359,2020/03/15,33280,旅行保険を追加したい,追加保険プランと料金を説明し、手続きしました。
4,N66410233,2022/05/09,68415,領収書を発行してほしい,電子領収書を発行し、メールで送付しました。
...,...,...,...,...,...
4995,N35691971,2025/06/27,41095,支店の場所を教えてください,最寄りの支店住所と地図URLを送付しました。
4996,N71594809,2022/11/03,55864,特別食をリクエストしたい,航空会社へ特別食リクエストを送信しました。
4997,N96658508,2020/05/06,65332,海外レンタルWiFiについて教えて,レンタルWiFiのプランと割引コードを案内しました。
4998,N78486066,2024/05/07,60396,複数都市を周遊するプランを提案してほしい,希望ルートをヒアリングし、周遊プランを提案しました。


In [49]:
# MeCabの形態素解析を行う関数
def tokenize(text):
    mecab = MeCab.Tagger()            # 解析結果を全部取得
    node = mecab.parseToNode(text)
    nouns = []
    while node:
        if node.feature.split(',')[0] == "名詞":  # 名詞だけ抽出
            nouns.append(node.surface)
        node = node.next
    return nouns

# 問い合わせ内容 (inquiry) を分かち書きしてリスト化
df["tokens"] = df["inquiry"].astype(str).apply(tokenize)

# すべての単語をカウント
all_tokens = [word for tokens in df["tokens"] for word in tokens]
word_counts = Counter(all_tokens)

# 上位のキーワードを取得
top_keywords = word_counts.most_common(10)

# 結果をデータフレーム化
output_df = pd.DataFrame(top_keywords, columns=["キーワード", "出現回数"])

# 結果を表示
print(output_df)

     キーワード  出現回数
0       旅行   749
1       方法   495
2       変更   486
3      支払い   470
4      ホテル   289
5  アップグレード   289
6        先   271
7    COVID   271
8       19   271
9       制限   271


**TF-IDF**

10.8 TF-IDFの抽出

In [40]:
from sklearn.feature_extraction.text import TfidfVectorizer

# サンプルテキスト
documents = [
    "Natural language processing enables computers to understand human language.",
    "Machine learning is a key component of artificial intelligence.",
    "Python is a widely used programming language for data science."
]

# TF-IDFベクトライザの初期化
vectorizer = TfidfVectorizer()

# TF-IDFの計算
tfidf_matrix = vectorizer.fit_transform(documents)

# 結果の表示
print(tfidf_matrix.toarray())
print(vectorizer.get_feature_names_out())

[[0.         0.         0.32767345 0.         0.32767345 0.
  0.32767345 0.         0.         0.         0.49840822 0.
  0.         0.32767345 0.         0.32767345 0.         0.
  0.         0.32767345 0.32767345 0.         0.        ]
 [0.36325471 0.36325471 0.         0.         0.         0.
  0.         0.36325471 0.27626457 0.36325471 0.         0.36325471
  0.36325471 0.         0.36325471 0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.35013871 0.         0.35013871
  0.         0.         0.26628951 0.         0.26628951 0.
  0.         0.         0.         0.         0.35013871 0.35013871
  0.35013871 0.         0.         0.35013871 0.35013871]]
['artificial' 'component' 'computers' 'data' 'enables' 'for' 'human'
 'intelligence' 'is' 'key' 'language' 'learning' 'machine' 'natural' 'of'
 'processing' 'programming' 'python' 'science' 'to' 'understand' 'used'
 'widely']
