In [1]:
import pandas as pd
import plotly.express as px

In [2]:
df1 = pd.read_csv("./감성대화/감성대화말뭉치(최종데이터)_Training.csv", encoding='UTF-8')
df2 = pd.read_csv("./감성대화/감성대화말뭉치(최종데이터)_Validation.csv", encoding='UTF-8')

In [3]:
df1 = df1[['감정_대분류', '사람문장1']] # 감성대화중 감정 대분류에 해당하는 것은 '사람문장1'이기 때문에 '감정대분류'와 '사람문장1'만 남겨놓음.
df1.rename(columns={"감정_대분류": "sentiment", "사람문장1":"sentence"}, inplace=True) # column명 통일
df1 = df1[["sentence", "sentiment"]] # column순서 변경

# df2에 대해서도 동일한 과정 실시
df2 = df2[['감정_대분류', '사람문장1']]
df2.rename(columns={"감정_대분류": "sentiment", "사람문장1":"sentence"}, inplace=True)
df2 = df2[["sentence", "sentiment"]]

In [4]:
result = pd.concat([df1,df2])
result.drop_duplicates(inplace=True)
result.reset_index(drop=True, inplace=True)
result

Unnamed: 0,sentence,sentiment
0,일은 왜 해도 해도 끝이 없을까? 화가 난다.,분노
1,이번 달에 또 급여가 깎였어! 물가는 오르는데 월급만 자꾸 깎이니까 너무 화가 나.,분노
2,회사에 신입이 들어왔는데 말투가 거슬려. 그런 애를 매일 봐야 한다고 생각하니까 스...,분노
3,직장에서 막내라는 이유로 나에게만 온갖 심부름을 시켜. 일도 많은 데 정말 분하고 ...,분노
4,얼마 전 입사한 신입사원이 나를 무시하는 것 같아서 너무 화가 나.,분노
...,...,...
58251,나랑 비슷한 시기에 결혼하는 친구는 시댁에서 집을 해줘서 너무 부러워. 우리는 대출...,당황
58252,친구 한 명이 결혼해서 아이를 가졌는데 너무 행복해 보이더라. 기분이 좋지만은 않아.,당황
58253,남들은 결혼 전에 일억을 모았다는데 난 뭐를 한 것인지 모르겠어. 자괴감만 드네.,당황
58254,나보다 결혼을 먼저 한 친구가 부러워. 그 친구 남편은 직장도 내 남편보다 좋고 키...,당황


In [5]:
result.isnull().sum()

sentence     0
sentiment    0
dtype: int64

In [6]:
result['sentiment'].unique()

array(['분노', '기쁨', '불안', '당황', '슬픔', '상처'], dtype=object)

In [20]:
# "sentiment" 컬럼의 값들의 분포를 막대그래프로 그리기
fig = px.histogram(result, x='sentiment', title='Sentiment Distribution')

# fig의 크기 조절 (width와 height를 원하는 크기로 설정합니다.)
fig.update_layout(
    width=800,  # 가로 크기
    height=500,  # 세로 크기
    xaxis=dict(tickfont=dict(size=14, family='Arial, bold')),  # x축 레이블 폰트 크기와 스타일 조절
    yaxis=dict(tickfont=dict(size=14, family='Arial, bold')),  # y축 레이블 폰트 크기와 스타일 조절
)

# 색상을 랜덤으로 지정
# 'color_discrete_sequence' 파라미터에 'px.colors.qualitative'를 사용하면 Plotly에서 제공하는 랜덤 색상을 사용할 수 있습니다.
fig.update_traces(marker=dict(color=px.colors.qualitative.Prism))

# 막대그래프의 모양 변경 (width 속성을 여기서 조절)
fig.update_traces(
    marker=dict(color=px.colors.qualitative.Prism),  # 색상을 랜덤하게 지정
    marker_line_width=3,  # 테두리 선 두께 조절
    marker_line_color='black',  # 테두리 선 색상 조절
    opacity=0.9,  # 막대의 투명도 조절 (0부터 1 사이의 값을 사용, 1은 완전 불투명)
)

# 그래프 출력
fig.show()

In [95]:
result.to_csv("./dataset/train_data.csv", index=False, encoding='UTF-8')

In [90]:
sentiment_distribution = result['sentiment'].value_counts()

print(sentiment_distribution)

불안    10432
분노    10417
상처    10145
슬픔    10125
당황     9799
기쁨     7338
Name: sentiment, dtype: int64


In [83]:
df3 = pd.read_csv("./감정 분류를 위한 대화 음성 데이터셋/4차년도.csv", encoding='cp949')
df3.rename(columns={'4번감정세기':'4번 감정세기'}, inplace=True)

df4 = pd.read_csv("./감정 분류를 위한 대화 음성 데이터셋/5차년도.csv", encoding='cp949')
df4.rename(columns={'4번감정세기':'4번 감정세기'}, inplace=True)

df5 = pd.read_csv("./감정 분류를 위한 대화 음성 데이터셋/5차년도_2차.csv", encoding='cp949')
df5.rename(columns={'4번감정세기':'4번 감정세기'}, inplace=True)

In [84]:
def emo_sum(dataframe): # 각 row의 감정세기를 계산하는 함수
    rep_emo = []
    for index, row in dataframe.iterrows():
        emo = {}
        for i in dataframe.columns[3:13:2]:
            emo[row[i]] = emo.get(row[i], 0) + row[i+"세기"]
        # 딕셔너리의 값들 중에서 최댓값 찾기
        max_value = max(emo.values())

        # 최댓값에 해당하는 key 찾기
        max_key = [key for key, value in emo.items() if value == max_value][0]
        rep_emo.append(max_key)
    return rep_emo

In [85]:
df3["sentiment"] = emo_sum(df3) # 함수를 통해 출력된 감정 리스트를 데이터프레임에 추가
df3 = df3[['발화문', 'sentiment']] # 문장과 감정만 남겨놓음
df3.rename(columns={'발화문': 'sentence'}, inplace=True) # column명 통일

df4["sentiment"] = emo_sum(df4) # 함수를 통해 출력된 감정 리스트를 데이터프레임에 추가
df4 = df4[['발화문', 'sentiment']] # 문장과 감정만 남겨놓음
df4.rename(columns={'발화문': 'sentence'}, inplace=True) # column명 통일

df5["sentiment"] = emo_sum(df5) # 함수를 통해 출력된 감정 리스트를 데이터프레임에 추가
df5 = df5[['발화문', 'sentiment']] # 문장과 감정만 남겨놓음
df5.rename(columns={'발화문': 'sentence'}, inplace=True) # column명 통일
df5['sentiment'] = df5['sentiment'].apply(lambda x : x.capitalize())

In [86]:
result2 = pd.concat([df3,df4,df5])
result2.drop_duplicates(inplace=True)
result2.reset_index(drop=True, inplace=True)
result2

Unnamed: 0,sentence,sentiment
0,"어, 청소 니가 대신 해 줘!",Angry
1,둘 다 청소 하기 싫어. 귀찮아.,Angry
2,둘 다 하기 싫어서 화내.,Angry
3,그럼 방세는 어떡해.,Sadness
4,권태긴줄 알았는데 다른 사람이 생겼나보더라고.,Sadness
...,...,...
37867,맞아. 나한테만 퉁명스럽고 일을 많이 시키더라고.,Sadness
37868,하지만 기분이 나쁜 걸 어떡해?,Sadness
37869,자취방 엘리베이턴데 정전인가봐.,Sadness
37870,나 드디어 프로젝트 끝났어!,Sadness


In [93]:
result2[result2['sentiment'] == 'Disgust']

Unnamed: 0,sentence,sentiment
6,어. 고등학교 동창인데 이렇게 더럽게 쓸줄 몰랐어.,Disgust
64,응. 치워야 되는데 어떡하지? 누가 치우지도 않고 갔네?,Disgust
65,그래야겠다. 좀 이따 보고 내가 치우든지 해야겠다.,Disgust
94,"할 뻔 했어. 나까지 토할 뻔했다, 야.",Disgust
95,"아니, 아니야. 따뜻한 물도 못 먹겠어.",Disgust
...,...,...
37804,"아니, 계속 집에만 있어야하잖아.",Disgust
37808,보석상에 도둑이 들었나 봐.,Disgust
37817,너도 한 번 당해볼래? 욕이 나와.,Disgust
37818,그러면 냄새랑 방향제 냄새가 섞이잖아!,Disgust


In [87]:
result2.isnull().sum()

sentence     0
sentiment    0
dtype: int64

In [88]:
result2['sentiment'].unique()

array(['Angry', 'Sadness', 'Disgust', 'Happiness', 'Neutral', 'Surprise',
       'Fear'], dtype=object)

In [89]:
# "sentiment" 컬럼의 값들의 분포를 막대그래프로 그리기
fig = px.histogram(result2, x='sentiment', title='Sentiment Distribution')

# fig의 크기 조절 (width와 height를 원하는 크기로 설정합니다.)
fig.update_layout(
    width=800,  # 가로 크기
    height=500,  # 세로 크기
    xaxis=dict(tickfont=dict(size=14, family='Arial, bold')),  # x축 레이블 폰트 크기와 스타일 조절
    yaxis=dict(tickfont=dict(size=14, family='Arial, bold')),  # y축 레이블 폰트 크기와 스타일 조절
)

# 색상을 랜덤으로 지정
# 'color_discrete_sequence' 파라미터에 'px.colors.qualitative'를 사용하면 Plotly에서 제공하는 랜덤 색상을 사용할 수 있습니다.
fig.update_traces(marker=dict(color=px.colors.qualitative.Prism))

# 막대그래프의 모양 변경 (width 속성을 여기서 조절)
fig.update_traces(
    marker=dict(color=px.colors.qualitative.Prism),  # 색상을 랜덤하게 지정
    marker_line_width=3,  # 테두리 선 두께 조절
    marker_line_color='black',  # 테두리 선 색상 조절
    opacity=0.9,  # 막대의 투명도 조절 (0부터 1 사이의 값을 사용, 1은 완전 불투명)
)

# 그래프 출력
fig.show()