# 일반 대화 - [한국어 멀티세션 대화](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71630)

## 데이터 로드

In [3]:
import os
import json
import pandas as pd
from tqdm import tqdm

def txt_file_to_json(txt_file_path):
    with open(txt_file_path) as txt_file:
        return json.load(txt_file)

def extract_session_data(json_data):
    session_data = []
    topic_type = json_data["topicInfo"]["topicType"].split(">")[0]
    topic_type = topic_type.replace(" ", "")
    
    for session in json_data["sessionInfo"]:
        conversation = [dialog["utterance"] for dialog in session["dialog"]]
        
        session_data.append({
            "topic_type": topic_type,
            "conversation": "\n".join(conversation),
        })
    
    return session_data

def load_session_data(dir_path):
    session_data = []
    
    for txt_file_name in tqdm(os.listdir(dir_path)):
        json_data = txt_file_to_json(f"{dir_path}/{txt_file_name}")
        session_data += extract_session_data(json_data)
    
    return session_data

def load_normal_conversations_df():
    topic_types = []
    conversations = []
    
    for dir_path in ["data/TS_session2", "data/TS_session3", "data/TS_session4"]:
        session_data = load_session_data(dir_path)
        
        for session in session_data:
            topic_types.append(session["topic_type"])
            conversations.append(session["conversation"])
    
    return pd.DataFrame({
        "topic_type": topic_types,
        "conversation": conversations,
    })

In [4]:
normal_conversations_df = load_normal_conversations_df()

100%|██████████| 36000/36000 [00:18<00:00, 1976.80it/s]
100%|██████████| 16000/16000 [01:47<00:00, 148.15it/s]
100%|██████████| 16000/16000 [02:20<00:00, 114.14it/s]


## 데이터 수 확인

In [5]:
# 전체 데이터 수
normal_conversations_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184000 entries, 0 to 183999
Data columns (total 2 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   topic_type    184000 non-null  object
 1   conversation  184000 non-null  object
dtypes: object(2)
memory usage: 2.8+ MB


In [6]:
# 주제별 데이터
normal_conversations_df["topic_type"].value_counts()

개인및관계     29674
여가와오락     25438
미용과건강     20861
시사/사회     16751
일과직업      16069
교육        14776
예술문화생활    14599
상거래전반     10225
식음료        9226
기후         9140
교통         8869
주거와생활      8118
패션          252
학원            2
Name: topic_type, dtype: int64

In [7]:
# random data
normal_conversations_df.sample(20)

Unnamed: 0,topic_type,conversation
32890,시사/사회,즐거운 수요일 보내고 계신가요? 저는 20대 여자입니다. 안녕하세요~\n네ㅎㅎ 그렇...
140210,일과직업,일주일만인가요. 요즘은 남 눈치보며 일하느니 디지털노마드를 꿈꾸며 온라인상에서 일들...
139833,주거와생활,벌써 5일이 지났네요 잘 지내셨나요?\n그러게요 시간이 참 빠르네요 얼마전에 친구 ...
97956,일과직업,안녕하세요. 저는 50대 여성이에요.\n안녕하세요 저는 30대 여성 입니다\n저는 ...
61438,여가와오락,안녕하세요. 30대 남자입니다.\n안녕하세요 저도 30대 남자에요!\n반갑습니다. ...
7734,교육,안녕하세요! 저는 20대 남자입니다! 만나서 반가워요!\n안녕하세요 반갑습니다 저는...
112910,개인및관계,벌써 이틀이나 지났네요. 그동안 잘 지냈어요?\n이틀만이네요. 네. 잘지내셨나요?집...
145485,시사/사회,"안녕하세요, 5일 만에 다시 뵙네요\n안녕하셨어요~ 스포츠 댄스 동호회는 가입 하셨..."
167043,식음료,안녕하세요~ 그동안 잘 지내셨나요? 오늘 아침도 되게 쌀쌀하네요!\n한달만이네요 잘...
42213,기후,이틀만입니다! 오늘은 주말이네요. 뭐 하시고 계시나요?\n그러게요. 전 오늘도 할일...


## 전처리

### 인사말 제거

In [8]:
processed_df = normal_conversations_df.copy()

def remove_greeting(conversation):
    return "\n".join(conversation.split("\n")[2:])

processed_df["conversation"] = processed_df["conversation"].apply(remove_greeting)

processed_df

Unnamed: 0,topic_type,conversation
0,개인및관계,"안녕하세요. 반가워요! 학생인가요?\n네, 저는 영문학과에 다니는 대학생이고, 그 ..."
1,개인및관계,그러게요. 주변에 감기 걸린 분들도 많고 정말 추워지는게 몸으로 느껴지더라구요. 그...
2,예술문화생활,네 반가워요~ 결혼은 하셨나요??\n아뇨~ 연인을 있는데 사이가안좋아요..그래서 결...
3,예술문화생활,커피라도 드시지그러셔요~ 저는 오히려 잠이안와서 일주일에 두세번은 위스키를 마셔요....
4,개인및관계,반가워요 저는 서울에 살구요 일반회사에서 마케팅업무를 하고있어요~ 제 생일은 4월이...
...,...,...
183995,교육,그러셨겠어요 ㅎㅎ 원래 사우나는 자주 가셨나요???\n코로나 전에는 자주 갔었죠~~...
183996,개인및관계,반가워요. 님은 형제관계가 어떻게 되세요? 저는 형제가 없어요. 그래서 형제 있는 ...
183997,개인및관계,저는 키우는 강아지가 아파서 동물병원에 다녀왔어요.\n아이고 반려동물이 아프면 마음...
183998,개인및관계,시간이 너무 빠르게 흐르네요. 저는 어제 우리집 반려견 예방접종을 하고 왔어요. 동...


### 10문장 미만 데이터 제거

In [9]:
processed_df["conversation_len"] =\
    processed_df["conversation"].apply(lambda x: len(x.split("\n")))

processed_df = processed_df[processed_df["conversation_len"] >= 10]

processed_df

Unnamed: 0,topic_type,conversation,conversation_len
0,개인및관계,"안녕하세요. 반가워요! 학생인가요?\n네, 저는 영문학과에 다니는 대학생이고, 그 ...",12
1,개인및관계,그러게요. 주변에 감기 걸린 분들도 많고 정말 추워지는게 몸으로 느껴지더라구요. 그...,12
2,예술문화생활,네 반가워요~ 결혼은 하셨나요??\n아뇨~ 연인을 있는데 사이가안좋아요..그래서 결...,12
3,예술문화생활,커피라도 드시지그러셔요~ 저는 오히려 잠이안와서 일주일에 두세번은 위스키를 마셔요....,12
4,개인및관계,반가워요 저는 서울에 살구요 일반회사에서 마케팅업무를 하고있어요~ 제 생일은 4월이...,12
...,...,...,...
183995,교육,그러셨겠어요 ㅎㅎ 원래 사우나는 자주 가셨나요???\n코로나 전에는 자주 갔었죠~~...,16
183996,개인및관계,반가워요. 님은 형제관계가 어떻게 되세요? 저는 형제가 없어요. 그래서 형제 있는 ...,13
183997,개인및관계,저는 키우는 강아지가 아파서 동물병원에 다녀왔어요.\n아이고 반려동물이 아프면 마음...,15
183998,개인및관계,시간이 너무 빠르게 흐르네요. 저는 어제 우리집 반려견 예방접종을 하고 왔어요. 동...,13


### 10문장만 데이터 뽑기

In [10]:
def remove_out_of_n(conversation, n):
    return "\n".join(conversation.split("\n")[:n])

processed_df["conversation"] = processed_df["conversation"].apply(lambda x: remove_out_of_n(x, n=10))
processed_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  processed_df["conversation"] = processed_df["conversation"].apply(lambda x: remove_out_of_n(x, n=10))


Unnamed: 0,topic_type,conversation,conversation_len
0,개인및관계,"안녕하세요. 반가워요! 학생인가요?\n네, 저는 영문학과에 다니는 대학생이고, 그 ...",12
1,개인및관계,그러게요. 주변에 감기 걸린 분들도 많고 정말 추워지는게 몸으로 느껴지더라구요. 그...,12
2,예술문화생활,네 반가워요~ 결혼은 하셨나요??\n아뇨~ 연인을 있는데 사이가안좋아요..그래서 결...,12
3,예술문화생활,커피라도 드시지그러셔요~ 저는 오히려 잠이안와서 일주일에 두세번은 위스키를 마셔요....,12
4,개인및관계,반가워요 저는 서울에 살구요 일반회사에서 마케팅업무를 하고있어요~ 제 생일은 4월이...,12
...,...,...,...
183995,교육,그러셨겠어요 ㅎㅎ 원래 사우나는 자주 가셨나요???\n코로나 전에는 자주 갔었죠~~...,16
183996,개인및관계,반가워요. 님은 형제관계가 어떻게 되세요? 저는 형제가 없어요. 그래서 형제 있는 ...,13
183997,개인및관계,저는 키우는 강아지가 아파서 동물병원에 다녀왔어요.\n아이고 반려동물이 아프면 마음...,15
183998,개인및관계,시간이 너무 빠르게 흐르네요. 저는 어제 우리집 반려견 예방접종을 하고 왔어요. 동...,13


### 채팅에서만 사용되는 표현 삭제

In [11]:
import re

# ~ ! . 를 제외한 특수문자 제거
special_char_pattern = re.compile(r'[#\$%&\'()*+,\-/:;<=>~@\[\]\\^_`{|}]')

def remove_chat_expression(sentence):
    sentence = re.sub("([ㄱ-ㅎㅏ-ㅣ]+)", "", sentence)
    sentence = special_char_pattern.sub("", sentence)
    return sentence

processed_df["conversation"] = processed_df["conversation"].apply(remove_chat_expression)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  processed_df["conversation"] = processed_df["conversation"].apply(remove_chat_expression)


### 주제 별로 1,000개 데이터 뽑기

In [12]:
new_df = pd.DataFrame({
    "topic_type": [],
    "conversation": [],
    "conversation_len": [],
})

for topic_type, data_num in [
    ("개인및관계", 77),
    ("여가와오락", 77),
    ("미용과건강", 77),
    ("시사/사회", 77),
    ("일과직업", 77),
    ("교육", 77),
    ("예술문화생활", 77),
    ("상거래전반", 77),
    ("식음료", 77),
    ("기후", 77),
    ("교통", 77),
    ("주거와생활", 77),
    ("패션", 76),
]:
    topic_df = processed_df[processed_df["topic_type"] == topic_type]
    topic_df = topic_df.iloc[:data_num, :]
    new_df = pd.concat([new_df, topic_df], axis=0, ignore_index=True)
    
new_df

Unnamed: 0,topic_type,conversation,conversation_len
0,개인및관계,안녕하세요. 반가워요! 학생인가요?\n네 저는 영문학과에 다니는 대학생이고 그 외에...,12.0
1,개인및관계,그러게요. 주변에 감기 걸린 분들도 많고 정말 추워지는게 몸으로 느껴지더라구요. 그...,12.0
2,개인및관계,반가워요 저는 서울에 살구요 일반회사에서 마케팅업무를 하고있어요 제 생일은 4월이구...,12.0
3,개인및관계,결혼하니까 제주변에도 올해 3명이나 결혼했네요 씁쓸\n저도 연애라도 해야 할 나이인...,12.0
4,개인및관계,저는 요즘 고양이에 관심을 갖고 있답니다. 기회가 되면 고양이를 키우고 싶어요. 혹...,13.0
...,...,...,...
995,패션,네! 항상 식단을 유지하다보니 오늘도 샐러드를 먹었어요. 님은 뭐 드셨어요?\n저는...,22.0
996,패션,모델을 좋아하시나 보네요? 직업에 자부심이 느껴져서 좋네요.\n제가 최근에 패션 분...,14.0
997,패션,저는 아무래도 모델이다보니까 체력이 타고나서 그런 것 같아요..\n저도 아침에 운동...,18.0
998,패션,아침 일찍 일어나셨네요 ! 출근 준비 하시나봐요 \n네아침에 연애 뉴스 보느라 일찍...,26.0


## 데이터 저장

In [13]:
data_df = new_df.copy()
data_df = data_df.drop(columns=["conversation_len"])
data_df.to_csv("data/normal_conversation_aihub.csv", index=False)

### train 데이터와 합치기

In [14]:
train_df = pd.read_csv("data/train.csv")
train_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
3945,3945,기타 괴롭힘 대화,준하야 넌 대가리가 왜이렇게 크냐?\n내 머리가 뭐.\n밥먹으면 대가리만 크냐 너는...
3946,3946,갈취 대화,내가 지금 너 아들 김길준 데리고 있어. 살리고 싶으면 계좌에 1억만 보내\n예.?...
3947,3947,직장 내 괴롭힘 대화,나는 씨 같은 사람 보면 참 신기하더라. 어떻게 저렇게 살지.\n왜 그래. 들리겠어...
3948,3948,갈취 대화,누구맘대로 여기서 장사하래?\n이게 무슨일입니까?\n남의 구역에서 장사하려면 자릿세...


In [15]:
normal_conversation_df = pd.read_csv("data/normal_conversation_aihub.csv")
normal_conversation_df

Unnamed: 0,topic_type,conversation
0,개인및관계,안녕하세요. 반가워요! 학생인가요?\n네 저는 영문학과에 다니는 대학생이고 그 외에...
1,개인및관계,그러게요. 주변에 감기 걸린 분들도 많고 정말 추워지는게 몸으로 느껴지더라구요. 그...
2,개인및관계,반가워요 저는 서울에 살구요 일반회사에서 마케팅업무를 하고있어요 제 생일은 4월이구...
3,개인및관계,결혼하니까 제주변에도 올해 3명이나 결혼했네요 씁쓸\n저도 연애라도 해야 할 나이인...
4,개인및관계,저는 요즘 고양이에 관심을 갖고 있답니다. 기회가 되면 고양이를 키우고 싶어요. 혹...
...,...,...
995,패션,네! 항상 식단을 유지하다보니 오늘도 샐러드를 먹었어요. 님은 뭐 드셨어요?\n저는...
996,패션,모델을 좋아하시나 보네요? 직업에 자부심이 느껴져서 좋네요.\n제가 최근에 패션 분...
997,패션,저는 아무래도 모델이다보니까 체력이 타고나서 그런 것 같아요..\n저도 아침에 운동...
998,패션,아침 일찍 일어나셨네요 ! 출근 준비 하시나봐요 \n네아침에 연애 뉴스 보느라 일찍...


In [16]:
curr_idx = train_df["idx"].max() + 1

for idx, data in normal_conversation_df.iterrows():
    train_df = train_df.append({
        "idx": curr_idx,
        "class": "일반 대화",
        "conversation": data["conversation"],
    }, ignore_index=True)

    curr_idx += 1
    
train_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
4945,4945,일반 대화,네! 항상 식단을 유지하다보니 오늘도 샐러드를 먹었어요. 님은 뭐 드셨어요?\n저는...
4946,4946,일반 대화,모델을 좋아하시나 보네요? 직업에 자부심이 느껴져서 좋네요.\n제가 최근에 패션 분...
4947,4947,일반 대화,저는 아무래도 모델이다보니까 체력이 타고나서 그런 것 같아요..\n저도 아침에 운동...
4948,4948,일반 대화,아침 일찍 일어나셨네요 ! 출근 준비 하시나봐요 \n네아침에 연애 뉴스 보느라 일찍...


In [17]:
train_df.to_csv("data/train_with_normal_aihub.csv", index=False)

In [18]:
train_with_normal_df = pd.read_csv("data/train_with_normal_aihub.csv")
train_with_normal_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
4945,4945,일반 대화,네! 항상 식단을 유지하다보니 오늘도 샐러드를 먹었어요. 님은 뭐 드셨어요?\n저는...
4946,4946,일반 대화,모델을 좋아하시나 보네요? 직업에 자부심이 느껴져서 좋네요.\n제가 최근에 패션 분...
4947,4947,일반 대화,저는 아무래도 모델이다보니까 체력이 타고나서 그런 것 같아요..\n저도 아침에 운동...
4948,4948,일반 대화,아침 일찍 일어나셨네요 ! 출근 준비 하시나봐요 \n네아침에 연애 뉴스 보느라 일찍...


In [19]:
train_with_normal_df["class"].value_counts()

기타 괴롭힘 대화      1094
일반 대화          1000
갈취 대화           981
직장 내 괴롭힘 대화     979
협박 대화           896
Name: class, dtype: int64