In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Jupyter Notebook, Google Colab 등에서 그래프를 셀 안에 바로 표시하기 위한 설정
# %matplotlib inline
# 시각화 시 한글 폰트가 깨지는 것을 방지하기 위한 설정
import platform
from matplotlib import font_manager, rc

plt.rcParams['axes.unicode_minus'] = False
if platform.system() == 'Windows':  # Windows 환경
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif platform.system() == 'Darwin':  # Mac 환경
    rc('font', family='AppleGothic')
else:
    print('Unknown system... sorry~~~~')


In [45]:
file_path = "../../dataset/normal_dataset3(일상통화).csv"
df = pd.read_csv(file_path)

In [46]:
df.head()

Unnamed: 0,file_name,category,subcategory,spk,msg
0,2_0001G2A3_0005G2A6_T1_2D06T0219C000451_000112...,실내,기쁨,1,여보세요
1,2_0001G2A3_0005G2A6_T1_2D06T0219C000451_000112...,실내,기쁨,1,목소리 잘 들리시나요
2,2_0001G2A3_0005G2A6_T1_2D06T0219C000451_000112...,실내,기쁨,2,아 네 잘 됩니다
3,2_0001G2A3_0005G2A6_T1_2D06T0219C000451_000112...,실내,기쁨,1,아 네
4,2_0001G2A3_0005G2A6_T1_2D06T0219C000451_000112...,실내,기쁨,2,안녕하세요


In [47]:
df.tail()

Unnamed: 0,file_name,category,subcategory,spk,msg
481297,2_1807G2A4_2176G2A4_T2_2D06T0268C000145_009064...,실외,놀라움,1,못 먹겠드라.
481298,2_1807G2A4_2176G2A4_T2_2D06T0268C000145_009064...,실외,기쁨,2,먹어보고는
481299,2_1807G2A4_2176G2A4_T2_2D06T0268C000145_009064...,실외,기쁨,2,너무
481300,2_1807G2A4_2176G2A4_T2_2D06T0268C000145_009064...,실외,기쁨,2,짝어서 먹기가 싫더라.
481301,2_1807G2A4_2176G2A4_T2_2D06T0268C000145_009064...,실외,놀라움,1,짜기도 짜고


In [48]:
df.describe()

Unnamed: 0,spk
count,481302.0
mean,1.47032
std,0.499119
min,1.0
25%,1.0
50%,1.0
75%,2.0
max,2.0


In [49]:
df.isnull().sum()

file_name      0
category       0
subcategory    0
spk            0
msg            0
dtype: int64

In [50]:
df.shape

(481302, 5)

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 481302 entries, 0 to 481301
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   file_name    481302 non-null  object
 1   category     481302 non-null  object
 2   subcategory  481302 non-null  object
 3   spk          481302 non-null  int64 
 4   msg          481302 non-null  object
dtypes: int64(1), object(4)
memory usage: 18.4+ MB


# 화자 넘버 수정

In [52]:
df['spk'] = df['spk'] -1
df['spk'].head(10)

0    0
1    0
2    1
3    0
4    1
5    0
6    0
7    1
8    1
9    0
Name: spk, dtype: int64

# 수정한 데이터셋 저장

In [53]:
# 저장할 파일의 경로와 이름을 지정합니다.
# 'output.csv' 부분을 원하시는 이름으로 변경하여 사용하세요.
output_file_path = '../../dataset/normal_dataset3(일상통화).csv'
try:
  # df.to_csv() 함수를 사용하여 DataFrame을 CSV 파일로 저장합니다.
  df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
  print(f"DataFrame이 '{output_file_path}' 파일로 성공적으로 저장되었습니다.")
except Exception as e:
  print(f"파일을 저장하는 중 오류가 발생했습니다: {e}")

DataFrame이 '../../dataset/normal_dataset3(일상통화).csv' 파일로 성공적으로 저장되었습니다.


# 일반대화CSV 전처리

In [57]:
import pandas as pd
from pathlib import Path

try:
    file_path = "../../dataset/normal_dataset3(일상통화).csv"
    df = pd.read_csv(file_path, encoding="utf-8")
    print(f"'{file_path}' 파일을 성공적으로 불러왔습니다. (총 {len(df)}개 행)")
    print("-" * 50)

    msg_lengths = df.groupby("file_name")["msg"].apply(
        lambda x: len("".join(str(s) for s in x))
    )
    print("-" * 50)

    count_under_1000 = msg_lengths[msg_lengths <= 1000].shape[0]
    print(
        f"▶ 메시지 총 길이가 1000자 이하인 데이터(file_name 기준)의 개수:  {count_under_1000}개"
    )
    print("--------------------------------------------------")

    print("글자 길이 기준으로 데이터셋을 샘플링합니다...")
    short_files = msg_lengths[msg_lengths <= 500].index
    medium_files = msg_lengths[(msg_lengths > 500) & (msg_lengths <= 1000)].index
    long_files = msg_lengths[msg_lengths > 1000].index

    short_sample = short_files.to_series().sample(frac=1, random_state=42)
    medium_sample = medium_files.to_series().sample(frac=1, random_state=42)
    long_sample = long_files.to_series().sample(frac=0.2, random_state=42)

    final_filenames = pd.concat([short_sample, medium_sample, long_sample]).index

    final_df = df[df["file_name"].isin(final_filenames)].reset_index(drop=True)

    print("\n▶ 최종 샘플링된 데이터셋 정보:")
    print(f" - 500자 이하 (100% 샘플링): {len(short_sample)}개")
    print(f" - 500~1000자 (100% 샘플링): {len(medium_sample)}개")
    print(f" - 1000자 초과 (20% 샘플링): {len(long_sample)}개")
    print(f"▶ 총 file_name 개수:  {len(final_filenames)}개")
    print(f"▶ 최종 데이터셋의 행 개수:  {len(final_df)}개")
    print("--------------------------------------------------")

    print("▶ 최종 데이터셋 미리보기 (상위 5개 행):\n")
    print(final_df.head())


except FileNotFoundError:
    print(f"오류: '{file_path}' 파일을 찾을 수 없습니다.")
    print("파일 경로를 다시 확인해주세요.")
except Exception as e:
    print(f"작업 중 오류가 발생했습니다: {e}")

# --- 7. 최종 데이터셋을 CSV 파일로 저장 ---
output_csv_path = "../../dataset/일상통화정제_데이터셋.csv"
try:
    final_df.to_csv(output_csv_path, index=False, encoding="utf-8-sig")
    print(f"\n▶ 최종 데이터셋이 ' {output_csv_path}' 파일로 성공적으로 저장되었습니다.")
except Exception as e:
    print(f"\n오류: 최종 데이터셋 저장 중 문제가 발생했습니다: {e}")

'../../dataset/normal_dataset3(일상통화).csv' 파일을 성공적으로 불러왔습니다. (총 481302개 행)
--------------------------------------------------
--------------------------------------------------
▶ 메시지 총 길이가 1000자 이하인 데이터(file_name 기준)의 개수:  242개
--------------------------------------------------
글자 길이 기준으로 데이터셋을 샘플링합니다...

▶ 최종 샘플링된 데이터셋 정보:
 - 500자 이하 (100% 샘플링): 197개
 - 500~1000자 (100% 샘플링): 45개
 - 1000자 초과 (20% 샘플링): 196개
▶ 총 file_name 개수:  438개
▶ 최종 데이터셋의 행 개수:  98900개
--------------------------------------------------
▶ 최종 데이터셋 미리보기 (상위 5개 행):

                                           file_name category subcategory  \
0  2_0005G2A6_0001G2A3_T1_2D06T0219C000009_000111...       실내          기쁨   
1  2_0005G2A6_0001G2A3_T1_2D06T0219C000009_000111...       실내          기쁨   
2  2_0005G2A6_0001G2A3_T1_2D06T0219C000009_000111...       실내          없음   
3  2_0005G2A6_0001G2A3_T1_2D06T0219C000009_000111...       실내          기쁨   
4  2_0005G2A6_0001G2A3_T1_2D06T0219C000009_000111...       실내          기쁨   



# 콜센터CSV 전처리

In [60]:
import pandas as pd

# --- 1. 파일 불러오기 ---
try:
    # 파일 경로 지정
    file_path = "../../dataset/normal_dataset(콜센터).csv"
    # CSV 파일을 DataFrame으로 읽어오기 (encoding을 'utf-8'로 지정)
    df = pd.read_csv(file_path, encoding="utf-8")
    print(f"'{file_path}' 파일을 성공적으로 불러왔습니다. (총 {len(df)}개 행)")
    print("-" * 50)

    # --- 2. file_name 기준으로 msg 길이 계산 ---
    print("file_name 별로 메시지 길이를 계산합니다...")
    msg_lengths = df.groupby("file_name")["msg"].apply(
        lambda x: len("".join(str(s) for s in x))
    )
    print("-" * 50)

    # --- 3. 1000자 이하 데이터 개수 구하기 ---
    count_under_1000 = msg_lengths[msg_lengths <= 1000].shape[0]
    print(
        f"▶ 메시지 총 길이가 1000자 이하인 데이터(file_name 기준)의 개수:  {count_under_1000}개"
    )
    print("--------------------------------------------------")

    print("글자 길이 기준으로 데이터셋을 샘플링합니다...")
    short_files = msg_lengths[msg_lengths <= 500].index
    medium_files = msg_lengths[(msg_lengths > 500) & (msg_lengths <= 1000)].index
    long_files = msg_lengths[msg_lengths > 1000].index

    short_sample = short_files.to_series().sample(frac=1, random_state=42)
    medium_sample = medium_files.to_series().sample(frac=1, random_state=42)
    long_sample = long_files.to_series().sample(frac=0.2, random_state=42)

    final_filenames = pd.concat([short_sample, medium_sample, long_sample]).index

    final_df = df[df["file_name"].isin(final_filenames)].reset_index(drop=True)

    print("\n▶ 최종 샘플링된 데이터셋 정보:")
    print(f" - 500자 이하 (100% 샘플링): {len(short_sample)}개")
    print(f" - 500~1000자 (100% 샘플링): {len(medium_sample)}개")
    print(f" - 1000자 초과 (20% 샘플링): {len(long_sample)}개")
    print(f"▶ 총 file_name 개수:  {len(final_filenames)}개")
    print(f"▶ 최종 데이터셋의 행 개수:  {len(final_df)}개")
    print("--------------------------------------------------")

    print("▶ 최종 데이터셋 미리보기 (상위 5개 행):\n")
    print(final_df.head())


except FileNotFoundError:
    print(f"오류: '{file_path}' 파일을 찾을 수 없습니다.")
    print("파일 경로를 다시 확인해주세요.")
except Exception as e:
    print(f"작업 중 오류가 발생했습니다: {e}")

# --- 7. 최종 데이터셋을 CSV 파일로 저장 ---
output_csv_path = "../../dataset/콜센터정제_데이터셋.csv"
try:
    final_df.to_csv(output_csv_path, index=False, encoding="utf-8-sig")
    print(
        f"\n▶ 최종 데이터셋이 ' {output_csv_path}' 파일로 성공적으로 저장되었습니다."
    )
except Exception as e:
    print(f"\n오류: 최종 데이터셋 저장 중 문제가 발생했습니다: {e}")


'../../dataset/normal_dataset(콜센터).csv' 파일을 성공적으로 불러왔습니다. (총 4426586개 행)
--------------------------------------------------
file_name 별로 메시지 길이를 계산합니다...
--------------------------------------------------
▶ 메시지 총 길이가 1000자 이하인 데이터(file_name 기준)의 개수:  12116개
--------------------------------------------------
글자 길이 기준으로 데이터셋을 샘플링합니다...

▶ 최종 샘플링된 데이터셋 정보:
 - 500자 이하 (100% 샘플링): 6016개
 - 500~1000자 (100% 샘플링): 6100개
 - 1000자 초과 (20% 샘플링): 5243개
▶ 총 file_name 개수:  17359개
▶ 최종 데이터셋의 행 개수:  1027455개
--------------------------------------------------
▶ 최종 데이터셋 미리보기 (상위 5개 행):

      file_name category subcategory  spk  \
0  S000007.json       교육        공부방법    1   
1  S000007.json       민원        일반행정    3   
2  S000007.json       민원        일반행정    2   
3  S000007.json       민원        일반행정    2   
4  S000007.json       민원        일반행정    3   

                                                 msg  
0  네. 네. 요고는 인제 앞 전에 있는 예약 문의 건들이 다 통화 완료되시면 (())...  
1                                          

# 공감형대화CSV 전처리

In [62]:
import pandas as pd

# --- 1. 파일 불러오기 ---
try:
    # 파일 경로 지정
    file_path = "../../dataset/normal_dataset2(공감형대화).csv"
    # CSV 파일을 DataFrame으로 읽어오기 (encoding을 'utf-8'로 지정)
    df = pd.read_csv(file_path, encoding="utf-8")
    print(f"'{file_path}' 파일을 성공적으로 불러왔습니다. (총 {len(df)}개 행)")
    print("-" * 50)

    # --- 2. file_name 기준으로 msg 길이 계산 ---
    print("file_name 별로 메시지 길이를 계산합니다...")
    msg_lengths = df.groupby("file_name")["msg"].apply(
        lambda x: len("".join(str(s) for s in x))
    )
    print("-" * 50)

    # --- 3. 1000자 이하 데이터 개수 구하기 ---
    count_upper_1000 = msg_lengths[msg_lengths > 1000].shape[0]
    print(
        f"▶ 메시지 총 길이가 1000자 초과인 데이터(file_name 기준)의 개수:  {count_upper_1000}개"
    )
    print("--------------------------------------------------")

    print("글자 길이 기준으로 데이터셋을 샘플링합니다...")
    short_files = msg_lengths[msg_lengths <= 500].index
    medium_files = msg_lengths[(msg_lengths > 500) & (msg_lengths <= 1000)].index
    long_files = msg_lengths[msg_lengths > 1000].index

    short_sample = short_files.to_series().sample(frac=1, random_state=42)
    medium_sample = medium_files.to_series().sample(frac=1, random_state=42)
    long_sample = long_files.to_series().sample(frac=0.2, random_state=42)

    final_filenames = pd.concat([short_sample, medium_sample, long_sample]).index

    final_df = df[df["file_name"].isin(final_filenames)].reset_index(drop=True)

    print("\n▶ 최종 샘플링된 데이터셋 정보:")
    print(f" - 500자 이하 (100% 샘플링): {len(short_sample)}개")
    print(f" - 500~1000자 (100% 샘플링): {len(medium_sample)}개")
    print(f" - 1000자 초과 (20% 샘플링): {len(long_sample)}개")
    print(f"▶ 총 file_name 개수:  {len(final_filenames)}개")
    print(f"▶ 최종 데이터셋의 행 개수:  {len(final_df)}개")
    print("--------------------------------------------------")

    print("▶ 최종 데이터셋 미리보기 (상위 5개 행):\n")
    print(final_df.head())


except FileNotFoundError:
    print(f"오류: '{file_path}' 파일을 찾을 수 없습니다.")
    print("파일 경로를 다시 확인해주세요.")
except Exception as e:
    print(f"작업 중 오류가 발생했습니다: {e}")

# --- 7. 최종 데이터셋을 CSV 파일로 저장 ---
output_csv_path = "../../dataset/공감형대화정제_데이터셋.csv"
try:
    final_df.to_csv(output_csv_path, index=False, encoding="utf-8-sig")
    print(
        f"\n▶ 최종 데이터셋이 ' {output_csv_path}' 파일로 성공적으로 저장되었습니다."
    )
except Exception as e:
    print(f"\n오류: 최종 데이터셋 저장 중 문제가 발생했습니다: {e}")


'../../dataset/normal_dataset2(공감형대화).csv' 파일을 성공적으로 불러왔습니다. (총 377177개 행)
--------------------------------------------------
file_name 별로 메시지 길이를 계산합니다...
--------------------------------------------------
▶ 메시지 총 길이가 1000자 초과인 데이터(file_name 기준)의 개수:  17995개
--------------------------------------------------
글자 길이 기준으로 데이터셋을 샘플링합니다...

▶ 최종 샘플링된 데이터셋 정보:
 - 500자 이하 (100% 샘플링): 11개
 - 500~1000자 (100% 샘플링): 7450개
 - 1000자 초과 (20% 샘플링): 3599개
▶ 총 file_name 개수:  11060개
▶ 최종 데이터셋의 행 개수:  163618개
--------------------------------------------------
▶ 최종 데이터셋 미리보기 (상위 5개 행):

                   file_name category subcategory  spk  \
0  Empathy_기쁨_부모자녀_조손_1.json       기쁨     부모자녀/조손    0   
1  Empathy_기쁨_부모자녀_조손_1.json       기쁨     부모자녀/조손    1   
2  Empathy_기쁨_부모자녀_조손_1.json       기쁨     부모자녀/조손    0   
3  Empathy_기쁨_부모자녀_조손_1.json       기쁨     부모자녀/조손    1   
4  Empathy_기쁨_부모자녀_조손_1.json       기쁨     부모자녀/조손    0   

                                                 msg  
0  엄마, 학교에서 성적이 나왔는데 

# 일반 통화 데이터셋으로 통합

In [None]:
import pandas as pd
import os

# 이 스크립트 파일의 위치(dataset_create/Woojae)를 기준으로 상위 폴더로 이동하여
# 프로젝트의 루트 디렉토리 경로를 계산합니다.
# os.path.dirname(__file__)는 현재 파일의 디렉토리 경로를 반환합니다.
# '..'는 상위 디렉토리를 의미합니다.
project_root = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", ".."))

# 데이터셋 파일들이 있는 디렉토리 경로를 설정합니다.
dataset_dir = os.path.join(project_root, "dataset")

# 병합할 파일들의 전체 경로 리스트를 만듭니다.
files_to_merge = [
    os.path.join(dataset_dir, "공감형대화정제_데이터셋.csv"),
    os.path.join(dataset_dir, "일상통화정제_데이터셋.csv"),
    os.path.join(dataset_dir, "콜센터정제_데이터셋.csv"),
]

# 병합 후 저장될 파일의 전체 경로를 설정합니다.
output_file = os.path.join(dataset_dir, "일반통화대화통합.csv")

# 각 파일을 읽어와 DataFrame으로 변환한 뒤, 리스트에 저장합니다.
df_list = []

for file in files_to_merge:
    try:
        # CSV 파일을 읽어옵니다.
        df = pd.read_csv(file)
        # 'spk' 컬럼은 'speaker'로, 'msg' 컬럼은 'text'로 이름을 변경합니다.
        df_renamed = df.rename(columns={"spk": "speaker", "msg": "text"})
        # 처리된 DataFrame을 리스트에 추가합니다.
        df_list.append(df_renamed)
        print(f"성공적으로 파일을 읽고 컬럼명을 변경했습니다: {os.path.basename(file)}")
    except FileNotFoundError:
        print(f"파일을 찾을 수 없습니다: {file}")
    except Exception as e:
        print(f"파일 처리 중 오류 발생 {file}: {e}")

# 리스트에 DataFrame이 하나 이상 있을 경우에만 병합을 진행합니다.
if df_list:
    # 리스트에 있는 모든 DataFrame을 하나로 병합합니다.
    # ignore_index=True는 기존 인덱스를 무시하고 새로운 인덱스를 생성하는 옵션입니다.
    merged_df = pd.concat(df_list, ignore_index=True)

    # 병합된 DataFrame을 새로운 CSV 파일로 저장합니다.
    # index=False는 DataFrame의 인덱스를 파일에 쓰지 않는 옵션입니다.
    # encoding='utf-8-sig'는 한글 깨짐을 방지하기 위한 설정입니다.
    merged_df.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"\n성공적으로 파일들을 병합하여 다음 경로에 저장했습니다: {output_file}")
else:
    print("\n병합할 파일이 없습니다.")

# 일반 통화 test데이터셋 생성

In [None]:
import pandas as pd

# ✅ 1. 데이터 로딩
df = pd.read_csv("../../dataset/normal_total_data.csv")  # 컬럼: file_name, text

# ✅ 2. file_name 기준 텍스트 연결
df_grouped = (
    df.groupby("file_name")["text"].apply(lambda texts: " ".join(texts)).reset_index()
)
df_grouped["text_length"] = df_grouped["text"].str.len()

# ✅ 3. 구간 지정
bins = [
    0,
    100,
    200,
    300,
    400,
    500,
    600,
    700,
    800,
    900,
    1000,
    1500,
    2000,
    2500,
    3000,
    3500,
    4000,
    4500,
    5000,
    25001,
]
labels = [
    "0~99",
    "100~199",
    "200~299",
    "300~399",
    "400~499",
    "500~599",
    "600~699",
    "700~799",
    "800~899",
    "900~999",
    "1000~1499",
    "1500~1999",
    "2000~2499",
    "2500~2999",
    "3000~3499",
    "3500~3999",
    "4000~4499",
    "4500~4999",
    "5000~25000",  # ✅ 총 19개
]
df_grouped["length_bin"] = pd.cut(
    df_grouped["text_length"], bins=bins, labels=labels, right=False
)

# ✅ 4. 500건 기준 분포 정의
target_counts = {
    "0~99": 28,
    "100~199": 64,
    "200~299": 57,
    "300~399": 59,
    "400~499": 41,
    "500~599": 28,
    "600~699": 24,
    "700~799": 20,
    "800~899": 17,
    "900~999": 10,
    "1000~1499": 43,
    "1500~1999": 30,
    "2000~2499": 21,
    "2500~2999": 7,
    "3000~3499": 11,
    "3500~3999": 6,
    "4000~4499": 3,
    "4500~4999": 3,
    "5000~25000": 28,  # <== 여기도 key 이름 변경
}

# ✅ 5. 샘플링
sampled_list = []
for bin_label, count in target_counts.items():
    bin_df = df_grouped[df_grouped["length_bin"] == bin_label]
    if len(bin_df) >= count:
        sampled = bin_df.sample(n=count, random_state=42)
    else:
        sampled = bin_df.copy()
    sampled_list.append(sampled)

df_sampled = pd.concat(sampled_list).reset_index(drop=True)

# ✅ 6. 잔여 데이터셋 추출
df_remaining = df_grouped[
    ~df_grouped["file_name"].isin(df_sampled["file_name"])
].reset_index(drop=True)

# ✅ 7. 저장
df_sampled.to_csv("../../dataset/일반통화_테스트셋_500건.csv", index=False)
df_remaining.to_csv("../../dataset/일반통화_남은셋.csv", index=False)

In [5]:
df = pd.read_csv("일반통화_테스트셋_500건.csv")
df_remaining = pd.read_csv("일반통화_남은셋.csv")
print("테스트셋 데이터프레임:")
print(df.head())

테스트셋 데이터프레임:
                                           file_name  \
0                                       S034634.json   
1                                       S026202.json   
2                                       S025682.json   
3  2_0382G2A5_0383G2A5_T2_2D02T0053C000005_001445...   
4                                       S026932.json   

                                                text  text_length length_bin  
0       가능하시고 삼성이랑 현대. 예, 알겠습니다. 네, 감사합니다. 네, 감사합니다.           44       0~99  
1  네 다시 전화해서, o/그 배송비 부분 다시 결제하고 취소 받으면 된다 이거죠. 네...           93       0~99  
2    실례지만 아이디가 어떻게 되실까요? o/ 핸드폰 번호 아실까요? o/ 예 감사합니다.           47       0~99  
3  안녕하세요 예 안 하세요 잘 들립니까 네 잘 들립니다 오늘 대하 주제가 그 추천 음악으로           49       0~99  
4                       o/아 됐어요? 네 감사합니다. o/네 감사합니다.           28       0~99  


In [6]:
df.describe()

Unnamed: 0,text_length
count,500.0
mean,1403.93
std,2715.145495
min,24.0
25%,258.25
50%,500.5
75%,1291.5
max,19230.0
