In [1]:
import sys
import os

sys.path.append(os.path.abspath(os.path.join('..', 'src')))

import pandas as pd
from preprocessing import clean_text, tokenize_text, fetch_and_remove_stopwords, calculate_tfidf

# 生データロード
df = pd.read_csv('../data/raw_data.csv', index_col=0)

# ノイズパターンを定義
noise_patterns = [
    r'\d+',  # 数字
    r'[。、！]'  # 句読点
]

# カラムに対してテキストのクリーニングを適用
df['raw_clean_text'] = df['raw'].apply(lambda x: clean_text(x, noise_patterns))

# カラムに対してトークン化を適用
df['raw_tokenize_text'] = df['raw_clean_text'].apply(tokenize_text)

# ストップワード除去
stopwords_url = "http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt"
df['raw_remove_stopwords'] = df['raw_tokenize_text'].apply(lambda raw_tokenize_text: fetch_and_remove_stopwords(stopwords_url, raw_tokenize_text))

# TF-IDFを計算
tfidf_results = calculate_tfidf(df['raw_remove_stopwords'].tolist())

# 結果をデータフレームに追加
df['raw_calculate_tfidf'] = tfidf_results

df

Unnamed: 0,raw,raw_clean_text,raw_tokenize_text,raw_remove_stopwords,raw_calculate_tfidf
0,この文章はテキストマイニングのテストです。,この文章はテキストマイニングのテストです,"[(この, 連体詞), (文章, 名詞), (は, 助詞), (テキスト, 名詞), (マイ...","[(この, 連体詞), (文章, 名詞), (は, 助詞), (テキスト, 名詞), (マイ...","{'この': 0.4233944834119594, 'です': 0.32200241781..."
1,自然言語処理はデータサイエンスの一分野です。,自然言語処理はデータサイエンスの一分野です,"[(自然, 名詞), (言語, 名詞), (処理, 名詞), (は, 助詞), (データ, ...","[(自然, 名詞), (言語, 名詞), (処理, 名詞), (は, 助詞), (データ, ...","{'です': 0.29651988085384556, 'サイエンス': 0.3898880..."
2,Pythonを使って機械学習を行うことができます。,Pythonを使って機械学習を行うことができます,"[(Python, 名詞), (を, 助詞), (使う, 動詞), (て, 助詞), (機械...","[(Python, 名詞), (を, 助詞), (使う, 動詞), (て, 助詞), (機械...","{'python': 0.37796447300922725, 'できる': 0.37796..."
