② データクレンジング（Data Cleansing）
▶ 異常値除去（Outlier Removal）
データの異常値を検出し除去する処理。

In [5]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'value': [10, 12, 11, 1000, 13, 14]})

# Zスコアによる異常値除去
df['z_score'] = (df['value'] - df['value'].mean()) / df['value'].std()
clean_df = df[np.abs(df['z_score']) > 1]
print(df['z_score'])
print("===========================")
print(clean_df)


0   -0.413204
1   -0.408246
2   -0.410725
3    2.041229
4   -0.405767
5   -0.403287
Name: z_score, dtype: float64
   value   z_score
3   1000  2.041229


▶ 欠損値処理（Missing Value Handling）
欠損値を検出・処理する方法。

In [6]:
df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan]})
print(df)

# 平均値で補完
df.fillna(df.mean(), inplace=True)
print("==========平均値で補完=================")
print(df)


     A    B
0  1.0  4.0
1  NaN  5.0
2  3.0  NaN
     A    B
0  1.0  4.0
1  2.0  5.0
2  3.0  4.5


▶ 正規化・標準化（Normalization/Standardization）
データを一定範囲にスケーリングする。

In [7]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

data = np.array([[1, 200], [2, 300], [3, 400]])

print(data)

# 正規化（0～1の範囲）
scaler = MinMaxScaler()
normalized = scaler.fit_transform(data)
print("==========正規化（0～1の範囲）=================")
print(normalized)

# 標準化（平均0、分散1）
scaler_std = StandardScaler()
standardized = scaler_std.fit_transform(data)
print("==========標準化（平均0、分散1）=================")
print(standardized)


[[  1 200]
 [  2 300]
 [  3 400]]
[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]
[[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


▶ テキストクレンジング（NLP用）
不要な記号・記述を除去し、形態素解析を行う。

| オプション       | 説明                                                   | 出力例                          |
| --------------- | -------------------------------------------------------| -------------------------------|
| **`-Owakati`**  | 単語をスペースで区切った「分かち書き」形式                 | `今日は 良い 天気 です`         |
| **`-Oyomi`**    | 入力文を「読み仮名（カタカナ）」で表示                     | `キョウハヨイテンキデス`        |
| **`-Ochasen`**  | 「茶筌」互換の詳細な解析結果を表示（品詞、活用などを含む）   | 品詞、読み、原形などが一覧で表示 |
| **`-Odump`**    | MeCabの内部情報を出力（辞書、形態素解析処理の詳細）         | デバッグ用の詳細な情報          |
| **`-Ojson`**    | JSON形式で解析結果を表示（辞書による）                     | JSONデータ形式                 |
| **`-Ounidic`**  | UniDic辞書を用いた詳細解析（使用時にUniDicが必要）         | より細かな品詞分類・発音情報など  |
| **`-Olattice`** | ラティス構造を表示（解析時の各候補やスコア表示）            | 解析の詳細候補                  |


In [9]:
import re
import MeCab

text = 'AIモデルを学習するために、データ前処理が重要です！ #AI'
print(text)

# 正規表現で記号除去
clean_text = re.sub(r'[^\w\s]', '', text)

# MeCabによる形態素解析
mecab = MeCab.Tagger('-Owakati')
parsed = mecab.parse(clean_text)
print("==========MeCabによる形態素解析=================")
print(parsed)


AIモデルを学習するために、データ前処理が重要です！ #AI
AI モデル を 学習 する ため に データ 前 処理 が 重要 です AI 

