### ステップ 1: 必要なライブラリのインポート

In [1]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# NLTKのリソースをダウンロード
nltk.download('stopwords')
nltk.download('wordnet')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\GotoHideki\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\GotoHideki\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

### ステップ 2: データの読み込みとクリーニング関数の定義

In [2]:
def load_data(filename):
    """ CSVファイルからデータを読み込む関数 """
    return pd.read_csv(filename)

def clean_text(text):
    """ テキストのクリーニング: 小文字化、不要な文字の削除、正規化 """
    text = text.lower()  # 小文字化
    text = re.sub(r'\W', ' ', text)  # 非英字文字の削除
    text = re.sub(r'\s+', ' ', text)  # 余分な空白の削除
    return text


### ステップ 3: テキストの前処理関数の定義

In [3]:
def preprocess_text(text):
    """ テキストのトークン化、ストップワードの除去、レンマ化 """
    lemmatizer = WordNetLemmatizer()
    words = text.split()
    words = [word for word in words if word not in stopwords.words('english')]  # ストップワードの除去
    words = [lemmatizer.lemmatize(word) for word in words]  # レンマ化
    return ' '.join(words)


### ステップ 4: データセットの前処理

In [4]:
# データファイルのパスを指定
filename = "../data/raw/IMDB.csv"
# データセットの読み込み
df = load_data(filename)


In [5]:
from tqdm import tqdm
tqdm.pandas()

# データのクリーニングと前処理
df['cleaned_text'] = df['review'].progress_apply(clean_text)
df['preprocessed_text'] = df['cleaned_text'].progress_apply(preprocess_text)

# 前処理後のデータを確認
df.head()



100%|█████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:00<00:00, 8328.02it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [05:01<00:00, 16.57it/s]


Unnamed: 0,review,sentiment,cleaned_text,preprocessed_text
0,One of the other reviewers has mentioned that ...,positive,one of the other reviewers has mentioned that ...,one reviewer mentioned watching 1 oz episode h...
1,A wonderful little production. <br /><br />The...,positive,a wonderful little production br br the filmin...,wonderful little production br br filming tech...
2,I thought this was a wonderful way to spend ti...,positive,i thought this was a wonderful way to spend ti...,thought wonderful way spend time hot summer we...
3,Basically there's a family where a little boy ...,negative,basically there s a family where a little boy ...,basically family little boy jake think zombie ...
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive,petter mattei s love in the time of money is a...,petter mattei love time money visually stunnin...


In [6]:
# 新しいファイルパスを指定
new_file_path = "..\data\processed\preprocessed_data.csv"

# データセットをCSVファイルとして書き出す
df.to_csv(new_file_path, index=False)
