In [None]:
import os
import pandas as pd

from . import filter
from . import basemodel

from basemodel.constants import *

## 데이터 처리

In [None]:
# 영독재 
origin_df = pd.read_csv(os.path.join(DATA_DIR, 'df_eng_ger_combined.csv'))

# 리라벨링 된 noise_free
merging_df = pd.read_csv(os.path.join(DATA_DIR, 'relabeled_by_noisymodel.csv'))


In [None]:
target_plot(merging_df)


# 'target' 컬럼에서 가장 많이 등장하는 값 찾기
most_frequent_value = merging_df['target'].value_counts().idxmax()

# 해당 라벨을 가진 행 삭제
merging_df = merging_df[merging_df['target'] != most_frequent_value]

print(merging_df)

In [None]:
df_combined = pd.concat([origin_df, merging_df],ignore_index=True)

In [None]:
print_df(df_combined)

## 학습

In [None]:
basic_model = Model()

# 노이즈 제거 데이터 학습
train_data = df_combined
dataset_test = pd.read_csv(os.path.join(DATA_DIR, 'test.csv'))

basic_model.train(train_data)
basic_model.evaluate(dataset_test)

In [None]:
# 비 노이즈 트레인데이터(노이즈 생성됨)
basic_model.evaluate(pd.read_csv(os.path.join(DATA_DIR, 'noise_free.csv')))

## 결과 평가

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

#매핑 함수
def mapping_label(df):
    # 딕셔너리로 매핑 정의
    label_map = {
        0:'생활문화',1:'스포츠',2:'정치',3:'사회',4:'IT과학',5:'경제',6:'세계'
    }
    
    # map 함수를 사용하여 변환
    df['target'] = df['target'].map(label_map)
    
    return df

#데이터 프레임 정보 출력
def print_df(df):
    print(df.info())
    print(df.describe())
    print(df.head())
    
def target_plot(df, name:str = 'DF'):
    target_counts = df['target'].value_counts().sort_index()
    #print(target_counts)
    print('target var: ', target_counts.var())
    
    # 시각화
    plt.figure(figsize=(10, 6))
    sns.barplot(x=target_counts.index, y=target_counts.values, hue=target_counts.index, palette='viridis')
    plt.title(f"{name}'s Count of Each Target Value")
    plt.xlabel('Target Value')
    plt.ylabel('Count')
    plt.xticks(range(0, 7))  # target의 범위에 맞춰 x축 값 설정
    plt.show()    
    
def print_targets(df):
    # target 값에 따라 데이터프레임 정렬
    df = df.sort_values(by='target')

    # 각 target 값에 대해 샘플 출력
    target_values = df['target'].unique()

    for target in target_values:
        print(f"Target: {target}")
        samples = df[df['target'] == target].sample(n=10, random_state=42)
        display(samples)  # Jupyter Notebook에서 DataFrame을 보기 좋게 출력

In [None]:
df = pd.read_csv(os.path.join(OUTPUT_DIR, 'output_basic_20241107_053724.csv'))
target_plot(df)

In [None]:
print_targets(df)