# 일반 대화 - [모두의 말뭉치: 일상 대화 말뭉치 2022](https://kli.korean.go.kr/corpus/request/corpusRegist.do)

## 데이터 로드

In [54]:
import os
import json
import pandas as pd

class ConversationData:
    def __init__(self, json_data):
        self.json_data = json_data
    
    def is_normal_conversation(self):
        return "일상대화" in self.json_data["metadata"]["category"]
    
    def get_topic_type(self):
        document = self.__get_document()
        full_topic = document["metadata"]["topic"]
        return full_topic.split(" > ")[0]
    
    def get_conversation(self):
        document = self.__get_document()
        
        # 한 발화자가 여러 utterance에 걸쳐 발화를 하는 경우, 하나의 문장으로 만든다.
        conversation = []
        curr_speaker = None
        curr_sentence = None

        for utterance in document["utterance"]:
            sentence = utterance["form"].strip()
            speaker_id = utterance["speaker_id"].strip()
            if sentence == "":
                continue

            # 대화 처음
            if curr_speaker is None:
                curr_speaker = speaker_id
                curr_sentence = sentence
                continue


            # 이전 발화자가 계속 발화를 이어가는 경우
            if curr_speaker == speaker_id:
                curr_sentence += " " + sentence

            # 다른 사람이 발화하는 경우
            else:
                conversation.append(curr_sentence)
                curr_speaker = speaker_id
                curr_sentence = sentence

        conversation.append(curr_sentence)
        
        return conversation
        
    def __get_document(self):
        return self.json_data["document"][0] # document는 size가 1인 list

def load_json(path):
    with open(path) as file:
        return json.load(file)

def load_nikl_normal_conversation_df(data_dir_path="data/NIKL_DIALOGUE_2022_v1.0"):
    topic_types = []
    conversations = []
    
    for file_path in os.listdir(data_dir_path):
        if not file_path.endswith("json"):
            continue
        
        json_data = load_json(f"{data_dir_path}/{file_path}")
        conversation_data = ConversationData(json_data)
        
        if not conversation_data.is_normal_conversation():
            continue
        
        topic_types.append(conversation_data.get_topic_type())
        conversations.append(conversation_data.get_conversation())

    return pd.DataFrame({
        "topic_type": topic_types,
        "conversation": ["\n".join(c) for c in conversations],
    })


In [55]:
nikl_normal_conversation_df = load_nikl_normal_conversation_df()

## 데이터 수 확인

In [56]:
# 전체 데이터 수
nikl_normal_conversation_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1767 entries, 0 to 1766
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   topic_type    1767 non-null   object
 1   conversation  1767 non-null   object
dtypes: object(2)
memory usage: 27.7+ KB


In [57]:
# 주제별 데이터
nikl_normal_conversation_df["topic_type"].value_counts()

대중교통         122
방송/연예        121
취직           120
건강/다이어트      116
경제/재테크       114
먹거리          113
회사/학교        111
휴가           111
스포츠/레저/취미    108
가족/관혼상제      108
쇼핑           106
생활/주거환경      104
우정           104
반려동물         104
음악           103
기타           102
Name: topic_type, dtype: int64

In [58]:
# random data
nikl_normal_conversation_df.sample(20)

Unnamed: 0,topic_type,conversation
1424,대중교통,당신 9호선 타고 다닐 때\n응?\n그 급행이 있잖아.\n응\n근데 그 급행을 타면...
1475,건강/다이어트,음 저희가 운동선수잖아요. 그래서 평소에 저는 비타민 잘 챙겨 먹으려고 하고 있거든...
487,취직,너는 니 주변에 부모님들이 맞벌이가 많니?\n네. 압도적으로 좀 많아요.\n아 몇 ...
1056,회사/학교,저는 학창 시절에 음 좋은 선생님들을 많이 만나서 선생님들의 영향을 받아 진로를 결...
1359,방송/연예,너 최근에 종영한 드라마 이상한 변호사 우영우 봤어?\n나 거의 안 봤긴 했는데 요...
1763,취직,아 지금도 우리가 친구들을 만나면 옛날 뭐 초창기에 나 어디 회사에 다녔어. 나 어...
773,휴가,이번 이번 시기에 보면 이제 코로나가 좀 많이 완화됐었잖아. 근데 나는 좀 여름휴가...
1240,쇼핑,어제 그 어제 추석 선물로 홈쇼핑에서 사과 3박스 이제 오는 걸 주문을 했어. 근데...
111,우정,요즘 들어서 우정이라는 거에 대해서 다시 생각하는 일들이 많이 생기는 거 같아요. ...
390,대중교통,오늘 여기 오실 때 뭐 타고 오셨어요?\n아 저는 버스 타고 왔습니다\n버스 몇 번...


## 전처리

In [59]:
processed_df = nikl_normal_conversation_df.copy()

### 10문장 미만 데이터 제거

In [60]:
processed_df["conversation_len"] =\
    processed_df["conversation"].apply(lambda x: len(x.split("\n")))

processed_df = processed_df[processed_df["conversation_len"] >= 10]

processed_df

Unnamed: 0,topic_type,conversation,conversation_len
0,쇼핑,아빠가 주로 사고 싶은 건 별로 없는데 자전거 용품 응 산 용품은 다 많잖아?\n어...,293
1,생활/주거환경,이사를 가야 되는데 이거 우리가 동네를 어디로 옮기면 좋겠나? 지금 거기 거기 있는...,190
2,음악,요즘 자주 듣는 음악은 뭐야?\n나는 이제 검정치마의 노래를 듣고 있어.\n검정치마...,189
3,기타,운전면허증은 그럼 언제 따셨어요?\n저는 21살 땐가 22살 20살인가 21살 때 ...,105
4,건강/다이어트,여보 운동할 때에 당신\n응 응\n모래 주머니 차고 했잖아요.\n그럼\n어때요?\n...,78
...,...,...,...
1762,가족/관혼상제,오빠네 친구들은 뭐 요즘 제사나 이런 거 지내는 거 같아?\n일단 아는 형이 제사를...,216
1763,취직,아 지금도 우리가 친구들을 만나면 옛날 뭐 초창기에 나 어디 회사에 다녔어. 나 어...,45
1764,대중교통,어. 오늘 엄마 어 안 왔대?\n아니 너하고 약속해 가지고 세 우리가 3시까지 만나...,64
1765,취직,내가 옛날에 회사 다녔을 때 그때 약간 사수분이 일을 잘 안 가르쳐 줘 가지고 나 ...,37


### 주제 별로 1,000개 데이터 뽑기

In [None]:
대중교통         122
방송/연예        121
취직           120
건강/다이어트      116
경제/재테크       114
먹거리          113
회사/학교        111
휴가           111
스포츠/레저/취미    108
가족/관혼상제      108
쇼핑           106
생활/주거환경      104
우정           104
반려동물         104
음악           103
기타           102

In [61]:
new_df = pd.DataFrame({
    "topic_type": [],
    "conversation": [],
    "conversation_len": [],
})

for topic_type, data_num in [
    ("대중교통", 63),
    ("방송/연예", 63),
    ("취직", 63),
    ("건강/다이어트", 63),
    ("경제/재테크", 63),
    ("먹거리", 63),
    ("회사/학교", 63),
    ("휴가", 63),
    ("스포츠/레저/취미", 62),
    ("가족/관혼상제", 62),
    ("쇼핑", 62),
    ("생활/주거환경", 62),
    ("우정", 62),
    ("반려동물", 62),
    ("음악", 62),
    ("기타", 62),
]:
    topic_df = processed_df[processed_df["topic_type"] == topic_type]
    topic_df = topic_df.iloc[:data_num, :]
    new_df = pd.concat([new_df, topic_df], axis=0, ignore_index=True)
    
new_df

Unnamed: 0,topic_type,conversation,conversation_len
0,대중교통,대중교통은 지하철이 제일 편한 거 같은데 뭔가 대구랑 서울이랑 많이 다르지 않아?\...,59.0
1,대중교통,오늘 전철을 타고 우리가 한 몇 분 정도 걸렸지 여기까지?\n어 전철 탄 시간은 3...,89.0
2,대중교통,요번 수요일 날 어 name1 이네랑 우리 망년회를 했었잖아. 그때 name2 씨가...,69.0
3,대중교통,안녕하세요 음 오늘은 아 대중교통에 대한 그 수도권과 아 지방권에 대해서 차이점에 ...,40.0
4,대중교통,어 어 나 대중교통 탈 때 환승 같은 거 되게 편리하다고 보거든 어 같은 돈 2번 ...,78.0
...,...,...,...
995,기타,여기까지 오는 데 몇 분 걸렸게?\n한 15분 걸렸나?\n운전을 하다 보면 운전은 ...,237.0
996,기타,우리가 요즘 엠비티아이가 대세라서 뭐 요즘 또 인기는 인기는 식었지만 내가 1번 해...,166.0
997,기타,요즘 친구들이랑 재밌는 일 있었던 거 있어?\n나는 이제 수능이 끝나고 애들을 많이...,128.0
998,기타,누나 엠비티아이 검사해 봤어?\n어 나 해 봤어 나 해 봤더니 인터넷에서 검사지로 ...,63.0


## 데이터 저장

In [62]:
data_df = new_df[["topic_type", "conversation"]]
data_df.to_csv("data/normal_conversation_nikl.csv", index=False)

### train 데이터와 합치기

In [63]:
train_df = pd.read_csv("data/train.csv")
train_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
3945,3945,기타 괴롭힘 대화,준하야 넌 대가리가 왜이렇게 크냐?\n내 머리가 뭐.\n밥먹으면 대가리만 크냐 너는...
3946,3946,갈취 대화,내가 지금 너 아들 김길준 데리고 있어. 살리고 싶으면 계좌에 1억만 보내\n예.?...
3947,3947,직장 내 괴롭힘 대화,나는 씨 같은 사람 보면 참 신기하더라. 어떻게 저렇게 살지.\n왜 그래. 들리겠어...
3948,3948,갈취 대화,누구맘대로 여기서 장사하래?\n이게 무슨일입니까?\n남의 구역에서 장사하려면 자릿세...


In [64]:
normal_conversation_nikl_df = pd.read_csv("data/normal_conversation_nikl.csv")
normal_conversation_nikl_df

Unnamed: 0,topic_type,conversation
0,대중교통,대중교통은 지하철이 제일 편한 거 같은데 뭔가 대구랑 서울이랑 많이 다르지 않아?\...
1,대중교통,오늘 전철을 타고 우리가 한 몇 분 정도 걸렸지 여기까지?\n어 전철 탄 시간은 3...
2,대중교통,요번 수요일 날 어 name1 이네랑 우리 망년회를 했었잖아. 그때 name2 씨가...
3,대중교통,안녕하세요 음 오늘은 아 대중교통에 대한 그 수도권과 아 지방권에 대해서 차이점에 ...
4,대중교통,어 어 나 대중교통 탈 때 환승 같은 거 되게 편리하다고 보거든 어 같은 돈 2번 ...
...,...,...
995,기타,여기까지 오는 데 몇 분 걸렸게?\n한 15분 걸렸나?\n운전을 하다 보면 운전은 ...
996,기타,우리가 요즘 엠비티아이가 대세라서 뭐 요즘 또 인기는 인기는 식었지만 내가 1번 해...
997,기타,요즘 친구들이랑 재밌는 일 있었던 거 있어?\n나는 이제 수능이 끝나고 애들을 많이...
998,기타,누나 엠비티아이 검사해 봤어?\n어 나 해 봤어 나 해 봤더니 인터넷에서 검사지로 ...


In [65]:
curr_idx = train_df["idx"].max() + 1

for idx, data in normal_conversation_nikl_df.iterrows():
    train_df = train_df.append({
        "idx": curr_idx,
        "class": "일반 대화",
        "conversation": data["conversation"],
    }, ignore_index=True)

    curr_idx += 1
    
train_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
4945,4945,일반 대화,여기까지 오는 데 몇 분 걸렸게?\n한 15분 걸렸나?\n운전을 하다 보면 운전은 ...
4946,4946,일반 대화,우리가 요즘 엠비티아이가 대세라서 뭐 요즘 또 인기는 인기는 식었지만 내가 1번 해...
4947,4947,일반 대화,요즘 친구들이랑 재밌는 일 있었던 거 있어?\n나는 이제 수능이 끝나고 애들을 많이...
4948,4948,일반 대화,누나 엠비티아이 검사해 봤어?\n어 나 해 봤어 나 해 봤더니 인터넷에서 검사지로 ...


In [66]:
train_df.to_csv("data/train_with_normal_nikl.csv", index=False)

In [69]:
train_with_normal_nikl_df = pd.read_csv("data/train_with_normal_nikl.csv")
train_with_normal_nikl_df

Unnamed: 0,idx,class,conversation
0,0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...,...
4945,4945,일반 대화,여기까지 오는 데 몇 분 걸렸게?\n한 15분 걸렸나?\n운전을 하다 보면 운전은 ...
4946,4946,일반 대화,우리가 요즘 엠비티아이가 대세라서 뭐 요즘 또 인기는 인기는 식었지만 내가 1번 해...
4947,4947,일반 대화,요즘 친구들이랑 재밌는 일 있었던 거 있어?\n나는 이제 수능이 끝나고 애들을 많이...
4948,4948,일반 대화,누나 엠비티아이 검사해 봤어?\n어 나 해 봤어 나 해 봤더니 인터넷에서 검사지로 ...


In [71]:
train_with_normal_nikl_df["class"].value_counts()

기타 괴롭힘 대화      1094
일반 대화          1000
갈취 대화           981
직장 내 괴롭힘 대화     979
협박 대화           896
Name: class, dtype: int64