# 1. 라벨 분포 시각화

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터프레임 불러오기 (이름은 cleaned_df로 가정)
# cleaned_df = pd.read_csv('cleaned_train_2.csv')

# 라벨 분포 시각화
plt.figure(figsize=(10, 6))
sns.countplot(data=cleaned_df, x='target', palette='viridis')
plt.title('Label Distribution')
plt.xlabel('Target Labels')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()


# 2. original과 text 간의 변동 시각화 (길이)

In [None]:
# 텍스트 길이 계산
cleaned_df['original_length'] = cleaned_df['original'].apply(len)
cleaned_df['text_length'] = cleaned_df['text'].apply(len)

# 길이 변화 시각화
plt.figure(figsize=(12, 6))
sns.histplot(cleaned_df[['original_length', 'text_length']], kde=True, bins=30)
plt.title('Length Comparison: Original vs. Text')
plt.xlabel('Length')
plt.ylabel('Density')
plt.legend(['Original Length', 'Text Length'])
plt.grid(axis='y')
plt.show()


# 3. 문장을 벡터 스페이스로 옮기고 군집화


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(cleaned_df['text'])

# KMeans 클러스터링
num_clusters = 5  # 클러스터 수 설정
kmeans = KMeans(n_clusters=num_clusters, random_state=0)
cleaned_df['cluster'] = kmeans.fit_predict(X)

# 군집 시각화
plt.figure(figsize=(10, 6))
sns.countplot(data=cleaned_df, x='cluster', palette='magma')
plt.title('Cluster Distribution')
plt.xlabel('Clusters')
plt.ylabel('Count')
plt.grid(axis='y')
plt.show()


# 4. 이상치 탐지 및 필터링

In [None]:
# IQR을 사용한 이상치 탐지
Q1 = cleaned_df['text_length'].quantile(0.25)
Q3 = cleaned_df['text_length'].quantile(0.75)
IQR = Q3 - Q1

# 이상치 경계 설정
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 이상치 필터링
filtered_df = cleaned_df[(cleaned_df['text_length'] >= lower_bound) & (cleaned_df['text_length'] <= upper_bound)]

print(f"Original DataFrame size: {cleaned_df.shape}")
print(f"Filtered DataFrame size: {filtered_df.shape}")
