# Preprocess train data

## Load data

In [1]:
import pandas as pd

df = pd.read_csv("data/style_train.txt")
df.head()

Unnamed: 0,Q,A,label
0,내일 반품할 노트북이 삼성인지 엘지인지 알려주세요,저기 내일 반품할 노트북이 삼성이니 엘지니,0
1,내일 삼성노트북을 반품할거에요 엘지노트북을 반품할거에요,야 내일 삼성노트북 반품할거냐 엘지노트북 반품할거냐,0
2,내일 삼성노트북이랑 엘지노트북 중에 어떤 노트북을 반품하는거에요,야 내일 삼성노트북이랑 엘지노트북 중에 어떤 노트북 반품하는거냐,0
3,혹시 내일 반품할 노트북이 삼성과 엘지 중에 무엇인지 아시나요,저기 내일 반품할 노트북이 삼성이랑 엘지 중에 뭔지 알고있니,0
4,내일 노트북 반품이 삼성노트북인지 엘지노트북인지 확인부탁드립니다,저기 내일 노트북 반품하는게 삼성건지 엘지건지 확인좀 해봐,0


## Set sentences

In [2]:
sents = pd.concat([df["Q"], df["A"]], ignore_index=True)
len(sents)

24000

In [3]:
sents.at[3]

'혹시 내일 반품할 노트북이 삼성과 엘지 중에 무엇인지 아시나요'

In [4]:
sents.at[12003]

'저기 내일 반품할 노트북이 삼성이랑 엘지 중에 뭔지 알고있니'

## Set honorifics

In [5]:
honorifics = [1 if idx < len(sents) / 2 else 0 for idx in range(0, len(sents))]
len(honorifics)

24000

In [6]:
honorifics[:5]

[1, 1, 1, 1, 1]

In [7]:
honorifics[11999]

1

In [8]:
honorifics[12000:12005]

[0, 0, 0, 0, 0]

## Set sentence-honorific

In [9]:
sent_honor = pd.DataFrame({"sentence": sents, "honorific": honorifics})
len(sent_honor)

24000

In [10]:
sent_honor.head()

Unnamed: 0,sentence,honorific
0,내일 반품할 노트북이 삼성인지 엘지인지 알려주세요,1
1,내일 삼성노트북을 반품할거에요 엘지노트북을 반품할거에요,1
2,내일 삼성노트북이랑 엘지노트북 중에 어떤 노트북을 반품하는거에요,1
3,혹시 내일 반품할 노트북이 삼성과 엘지 중에 무엇인지 아시나요,1
4,내일 노트북 반품이 삼성노트북인지 엘지노트북인지 확인부탁드립니다,1


In [11]:
sent_honor.iloc[12000]

sentence     저기 내일 반품할 노트북이 삼성이니 엘지니
honorific                          0
Name: 12000, dtype: object

In [12]:
sent_honor.to_csv("train.csv", index=False)

# Preprocess evaluation and test data

In [13]:
def preprocess(input_filepath, output_filepath):
  df = pd.read_csv(input_filepath)
  sents = pd.concat([df["Q"], df["A"]], ignore_index=True)
  honorifics = [1 if idx < len(sents) / 2 else 0 for idx in range(0, len(sents))]
  sent_honor = pd.DataFrame({"sentence": sents, "honorific": honorifics})
  sent_honor.to_csv(output_filepath, index=False)
  
preprocess("data/style_eval.txt", "eval.csv")
preprocess("data/style_test.txt", "test.csv")