In [92]:
import pandas as pd
import openpyxl

# 1. Sentiment Analysis로 부정적 내용 제거 

# 2. Unsmile로 혐오 표현 데이터셋 제거

# 3. Gender Swapping Data Augmentation(선택)

In [93]:
df = pd.read_csv('dataset/dataset.csv', encoding='UTF-8')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1314 entries, 0 to 1313
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  1314 non-null   int64 
 1   동화          1275 non-null   object
dtypes: int64(1), object(1)
memory usage: 20.7+ KB


## 3-1) 익명화
동화 데이터에 등장하는 등장인물들의 이름을 익명화합니다. 이름에 의한 성별 고정관념을 없애는 과정입니다.
<br>각 인물별로 번호를 메겨 E(번호) 형태의 토큰으로 대체합니다.

In [94]:
name_list = pd.read_csv('GenderSwapping/character.txt')['인물']
name_list

0       다다
1      방정환
2      손기정
3       선미
4      반쪽이
      ... 
227    바오밥
228    마룰라
229    와르다
230     롤리
231     월터
Name: 인물, Length: 232, dtype: object

In [95]:
def anonymize(text, name_list):
    for i in range(len(name_list)):
        #new_name = '인물' + str(i)
        text = text.replace(name_list[i], '<인물' + str(i) +'>')
    return text

In [96]:
anonymized_data = []
for i in range(len(df['동화'])):
    story = str(df['동화'][i])
    text = anonymize(story, name_list)
    anonymized_data.append(text)
    
data = {'동화':anonymized_data}
anonymized_df = pd.DataFrame(data)

In [97]:
#제대로 익명화되었는지 확인하기
print('원본 데이터:', len(df['동화']), 'anonymized 데이터:', len(anonymized_df))
print(
    '원본 데이터 "방정환" 등장 수:', 
      len(df[df['동화'].str.contains('방정환', na=False)]),
      df.index[df['동화'].str.contains('방정환', na=False)].tolist()
)
print(
    'anonymized 데이터 "방정환" 등장 수:',
      len(anonymized_df.query('동화.str.contains("<인물1>")')),
     anonymized_df.index[anonymized_df['동화'].str.contains('<인물1>', na=False)].tolist()
)

원본 데이터: 1314 anonymized 데이터: 1314
원본 데이터 "방정환" 등장 수: 4 [1, 2, 565, 809]
anonymized 데이터 "방정환" 등장 수: 4 [1, 2, 565, 809]


## 3-2) 여성어/남성어 바꾸기 
1. 엄마/아빠, 할머니/할아버지, 공주/왕자 등 단어에 성별을 유추할 수 있는 단어들을 sawpping합니다. 이를 통해 주어 뒤에 서술되는 요소가 주어의 성별에 영향을 받지 않도록 만듭니다.
2. '여배우(=배우)', '하녀(=하인)'처럼 stem이 되는 단어가 보편적 기준으로서 남성을 지칭하고, 여성을 지칭하기 위해 단어의 앞이나 뒤에 '-여'를 붙인 단어들을 stem이 되는 단어로 바꿉니다. 

In [17]:
#word_list 정의
female_word_list = [
    '엄마', '할머니', '여왕', '공주', '그녀', '여신', '하녀', '여학생', '의붓어머니', '계모', '마녀',
    '여자아이', '간호사', '여의사','그녀', '신부', '과부', '미망인', '소녀', '모성애', '아내', '집사람', '손녀',
    '처녀', '여자친구', '딸', '언니', '누나','새언니', '숙녀', '여성'
]

male_word_list = [
    '아빠', '할아버지', '왕', '왕자', '그', '신', '하인', '학생', '의붓아버지', '계부', '마법사',
    '남자아이', '의사','의사', '그', '신랑', '홀아비', '홀아비', '소년', '부성애', '남편', '바깥사람', '손자',
    '총각', '남자친구', '아들', '오빠', '형','새오빠', '신사', '남성'
]

조사_list = ['께', '에게', '한테', '더러', '에서','의',
          '에게서', '한테서', '와', '하고', '처럼', '같이', '보다',
          '만큼', '도']

#은/는, 이/가는 수작업으로 붙인다.
additional_female_word_list = [
    '엄마는', '엄마가', '할머니는', '할머니가', '여왕이', '여왕은', '공주가', '공주는', '그녀가', '그녀는', '여신이', '여신은'
    '하녀가', '하녀는', '여학생은', '여학생이', '의붓어머니가', '의붓어머니는', '계모가', '계모는', '마녀가', '마녀는',
    '여자아이가', '여자아이는', '간호사가', '간호사는', '여의사가', '여의사는','그녀는', '그녀가', '신부는', '신부가', '과부가', '과부는', '미망인은','미망인이',
    '소녀가', '소녀는','모성애가', '모성애는', '아내는', '아내가', '집사람이', '집사람은', '손녀는', '손녀가', '처녀가', '처녀는',
    '여자친구가', '여자친구는','딸은', '딸이', '언니가', '언니는', '누나가', '누나는', '새언니가', '새언니는', '숙녀가', '숙녀는',
    '여성이', '여성은']

additional_male_word_list = [
    '아빠는', '아빠가', '할아버지는', '할아버지가', '왕이', '왕은', '왕자가', '왕자는', '그가', '그는', '신이', '신은'
    '하인이', '하인은', '남학생은', '남학생이', '의붓아버지가', '의붓아버지는', '계부가', '계부는', '마법사가', '마법사는',
    '남자아이가', '남자아이는', '의사가', '의사는', '의사가', '의사는', '그는', '그가', '신랑은', '신랑이', '홀아비가', '홀아비는', '홀아비는','홀아비가',
    '소년이', '소년은','부성애가', '부성애는', '남편은', '남편이', '바깥사람이', '바깥사람은', '손자는', '손자가', '총각이', '총각은',
    '남자친구가', '남자친구는','아들은', '아들이', '오빠가', '오빠는', '형이', '형은', '새오빠가', '새오빠는', '신사가', '신사는',
    '남성이', '남성은']

In [38]:
def add_grammer(origin_word_list, additional_list):
    final_word = []
    for i in range(len(origin_word_list)):
        for n in range(len(조사_list)):
            word = str(origin_word_list[i])+str(조사_list[n])
            final_word.append(word)
    for x in range(len(additional_list)):
        final_word.append(additional_list[x])
    return final_word

In [39]:
final_female_word_list = add_grammer(female_word_list, additional_female_word_list)

final_male_word_list = add_grammer(male_word_list, additional_male_word_list)

In [40]:
print(final_female_word_list)

['엄마께', '엄마에게', '엄마한테', '엄마더러', '엄마에서', '엄마의', '엄마에게서', '엄마한테서', '엄마와', '엄마하고', '엄마처럼', '엄마같이', '엄마보다', '엄마만큼', '엄마도', '할머니께', '할머니에게', '할머니한테', '할머니더러', '할머니에서', '할머니의', '할머니에게서', '할머니한테서', '할머니와', '할머니하고', '할머니처럼', '할머니같이', '할머니보다', '할머니만큼', '할머니도', '여왕께', '여왕에게', '여왕한테', '여왕더러', '여왕에서', '여왕의', '여왕에게서', '여왕한테서', '여왕와', '여왕하고', '여왕처럼', '여왕같이', '여왕보다', '여왕만큼', '여왕도', '공주께', '공주에게', '공주한테', '공주더러', '공주에서', '공주의', '공주에게서', '공주한테서', '공주와', '공주하고', '공주처럼', '공주같이', '공주보다', '공주만큼', '공주도', '그녀께', '그녀에게', '그녀한테', '그녀더러', '그녀에서', '그녀의', '그녀에게서', '그녀한테서', '그녀와', '그녀하고', '그녀처럼', '그녀같이', '그녀보다', '그녀만큼', '그녀도', '여신께', '여신에게', '여신한테', '여신더러', '여신에서', '여신의', '여신에게서', '여신한테서', '여신와', '여신하고', '여신처럼', '여신같이', '여신보다', '여신만큼', '여신도', '하녀께', '하녀에게', '하녀한테', '하녀더러', '하녀에서', '하녀의', '하녀에게서', '하녀한테서', '하녀와', '하녀하고', '하녀처럼', '하녀같이', '하녀보다', '하녀만큼', '하녀도', '여학생께', '여학생에게', '여학생한테', '여학생더러', '여학생에서', '여학생의', '여학생에게서', '여학생한테서', '여학생와', '여학생하고', '여학생처럼', '여학생같이', '여학생보다', '여학생만큼', '여학생도', '의붓어머니께', '의붓어머니에게', '의붓어

In [41]:
def preprocessing(text, origin_word_list):
    for i in range(len(origin_word_list)):
        text = text.replace(origin_word_list[i], '*'+origin_word_list[i])
    return text

In [42]:
def gender_swapping(text, origin_word_list, swapped_word_list):
    for i in range(len(origin_word_list)):
        text = text.replace('*'+origin_word_list[i], swapped_word_list[i])
    return text

In [98]:
swapped_data = []
for i in range(len(df)):
    story = str(anonymized_df['동화'][i])
    f_to_m = preprocessing(story, final_female_word_list)
    m_to_f = preprocessing(f_to_m, final_male_word_list)
    f_to_m_swapped = gender_swapping(m_to_f, final_female_word_list, final_male_word_list)
    m_to_f_swapped = gender_swapping(f_to_m_swapped, final_male_word_list, final_female_word_list)
    swapped_data.append(m_to_f_swapped)
    
data = {'동화':swapped_data}
gender_swapped_df = pd.DataFrame(data)

In [99]:
#제대로 swapped되었는지 확인
print('원본 데이터:', len(df['동화']), 'swapped 데이터:', len(gender_swapped_df))
print('원본 데이터 할머니 단어 수:', len(df[df['동화'].str.contains('할머니가', na=False)]))
print('원본 데이터 할아버지 단어 수:', len(df[df['동화'].str.contains('할아버지가', na=False)]))
print('swapped 데이터 할머니 단어 수:', len(gender_swapped_df.query('동화.str.contains("할머니가")')))
print('swapped 데이터 할아버지 단어 수:', len(gender_swapped_df.query('동화.str.contains("할아버지가")')))

원본 데이터: 1314 swapped 데이터: 1314
원본 데이터 할머니 단어 수: 109
원본 데이터 할아버지 단어 수: 100
swapped 데이터 할머니 단어 수: 100
swapped 데이터 할아버지 단어 수: 109


In [101]:
gender_swapped_df['동화'][0]

' 우리 친구들은 미술이 뭐라고 생각하나요.  종이에 그림을 그리는 것 아니면 멋진 조각 작품을 만드는 것 그런데 지금의 미술은 꼭 그림이나 조각품만이 아니랍니다.  비디오 아트 행위 예술 벽의 낙서까지 그 어떤 것도 예술이고 미술일 수 있다고 해요. 그럼 오늘 신나는 동화여행 속에서 알쏭달쏭 현대미술관으로 재미있고 엉뚱한 작품을 만나러 가볼까요.  알쏭달쏭 미술관 "나는 알쏭달쏭 미술관 관장 \'<인물0>\'란다 이곳은 신기하고 괴상한 작품으로 가득하지 재미있는 미술 작품들이 가득한 알쏭달쏭 미술관에 온 걸 환영합니다." "이쪽에 있는 변기를 볼래? 화장실에서나 볼 수 있는 변기가 미술 작품이라면 믿겠니?" "네? 변기가 미술 작품이라구요?" "너희들 모나리자란 그림을 알고 있지? 레오나르도 다빈치가 그린 그림이야. 그런데 뒤샹이라는 화가는 모나리자의 얼굴에 수염만 그리고 전시를 했단다. 그래서 사람들은 깜짝 놀랐지." "네? 유명한 작품에 낙서를 한 게 미술 작품이라구요?" "뒤샹은 장난꾸러기였나봐. 그럼 이거는 뭘 그린 건지 한번 맞춰볼래? 여러 색깔의 물감을 뿌리고 붓고 흘린 거란다 곳곳에 커다란 물감 얼룩도 있지" "폴록이라는 화가는 이게 연보라빛 안개라는구나. 그런데 미술관 관장인 내가 봐도 신나게 물감을 뿌려 놓은 것 같거든 혹시 너희들 눈에는 안개가 보이니?" "글쎄요? 보이는 것도 같고 아닌 것 같기도 하고.." "그렇게 볼록은 커다란 종류의 물감을 쏟아 부었어. 그리고 붓을 휘젓고 물감을 튀겼지. 가끔은 물감 대신 모래를 톡톡 뿌리기도 했단다. 진짜 신났겠지?" "물감을 가지고 장난치는 것 같아..." "화가 에른스트는 물건의 종이를 대고 문지르면서 작품을 만들었어. 어떤 물건이냐에 따라 무늬가 달라지지!" "에이 이건 나도 그릴 수 있을 것 같아." "종이에 물감을 쭉 짜놓고 접었다가 펴면 양쪽에 똑같은 그림이 나타나지 이걸 \'데칼코마니\'라고 한단다." "이 그림은 어떠냐 이것도 미술 작품이야. 리엔텐 슈타인은 만화의 한 장면에 검은 선

In [102]:
gender_swapped_df.to_csv('dataset/swapped_data_0822.csv', encoding='UTF-8')

# 4. Labeling
seq2seq 모델에 적용하기 위해 데이터셋의 앞 두 문장을 input으로, 스토리 전체를 target으로 학습 데이터를 수정합니다. 

In [None]:
df = pd.read_excel('dataset_0831_unsmile.xlsx', engine='openpyxl')
df = df.dropna(axis=0)
df = df.drop(index=520, axis=0)
#df = df.drop(index=303, axis=0)
df = df.drop(df.columns[0], axis=1)
df = df.reset_index(drop=True)
df

In [None]:
def split_to_sentences(text):
    """
    Args: 
        text (str): raw text to split to sentences on end of sentences marks.
    Returns:
        List of sentences from text.
    """
    # Split on end of sentence, but keep the punctuation marks.
    text = text.replace('\n', '')
    sentences = text.split('.')
    # If the last sentence is ''
    if len(sentences) > 1 and len(sentences[-1]) < 3:
        sentences.pop()
    return sentences

In [None]:
labels = []
for i in range(len(df)):
    text = df['동화'][i]
    sentences = split_to_sentences(text)

    label = sentences[0] + '.' + sentences[1]
    labels.append(label)
labels

In [None]:
labeled_df = df.assign(label = labels)
labeled_df.rename(columns = {'동화':'target'},inplace=True)
labeled_df

In [None]:
labeled_df.to_csv('labeld_dataset_0902.csv')