# 코드 목적

1. 이 코드는 크롤링한 데이터 셋을 9:1 로 나누기 위해 짜여졌습니다.
2. 먼저 글 단위로 9:1 로 나눈 df_90.csv, df_10.csv 파일을 로드했으며
3. 간단한 전처리를 한 이후 kss 패키지를 이용해 글을 문장 단위로 분류하고
4. index / sentence 형태를 바탕으로  tab을 구분자로 한 tsv 파일로 내보냈습니다.

## 0.  Import Packages & Setting Environment

In [None]:
pwd

'/content/drive/My Drive/Colab Notebooks'

In [None]:
cd Conference/TRAIN SET

/content/drive/My Drive/Colab Notebooks/Conference/TRAIN SET


In [None]:
#kss 설치
!sudo apt install python3-dev
!pip install kss

Reading package lists... Done
Building dependency tree       
Reading state information... Done
python3-dev is already the newest version (3.6.7-1~18.04).
0 upgraded, 0 newly installed, 0 to remove and 32 not upgraded.
Collecting kss
  Downloading https://files.pythonhosted.org/packages/fc/bb/4772901b3b934ac204f32a0bd6fc0567871d8378f9bbc7dd5fd5e16c6ee7/kss-1.3.1.tar.gz
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-1.3.1-cp36-cp36m-linux_x86_64.whl size=251596 sha256=3f631eb4754e4ac617f6564e4d88e37eac7e509061d355eb4a92ea5dff48eccb
  Stored in directory: /root/.cache/pip/wheels/8b/98/d1/53f75f89925cd95779824778725ee3fa36e7aa55ed26ad54a8
Successfully built kss
Installing collected packages: kss
Successfully installed kss-1.3.1


In [None]:
import pandas as pd
import sys
import string
import re
import kss
import warnings
warnings.filterwarnings(action='ignore')

#1. Data Load & Preprocessing

In [None]:
def data_load(filename):
  print("Data Loading...\n")
  data = pd.read_csv(filename)

  #문장에서 white space 삭제
  data['main_text'] = data['main_text'].astype(str)
  data['main_text'] = data['main_text'].apply(lambda x : re.sub('\s{2,}', '', x))
  data['main_text'] = data['main_text'].apply(lambda x : re.sub('\t+', '', x))
  
  # 결측행 'missing'으로 채우기
  data = data.fillna('missing')
  data_len = len(data)
  print('Number of Documents :', len(data))

  # kss 사용해서 문장 나누기
  sen = []
  for i in range(data_len):
      s = data['main_text'][i]
      for sent in kss.split_sentences(s):
          sen.append(sent)

  print("Number of Sentences : ", len(sen))
  print("\nShowing sample data ... ")
  for i in range(10):
    print("[",i,"] ", sen[i])

  return sen

# 2. Saving Output Data

In [None]:
def save(sen, i):
  print("\nSaving...")
  result = pd.DataFrame()
  result['text'] = sen

  # output to_tsv
  name = ['sen_90.csv', 'sen_10.csv']
  result.to_csv(name[i], index_label='idx')

  print("\n****All processes done!****\n")
  print("data length : ", len(result))

# **Let's start all processes !!!**

In [None]:
cd 9:1 datasets

/content/drive/My Drive/Colab Notebooks/Conference/TRAIN SET/9:1 datasets


In [None]:
sen_90 = data_load("df_90.csv")

Data Loading...

Number of Documents : 22626
Number of Sentences :  835255

Showing sample data ... 
[ 0 ]  결혼 준비를 하며 커플들은 사상 초유의 전쟁을 벌인다고 하지만 우리에겐 그런 난관이 존재하지 않았다.
[ 1 ]  계곡물 흐르듯 시원하게 속전속결. 그러나 남편과 결혼을 해 아이를 낳고 한 공간에서 살을 부비고 사니 어쩔 수 없이 부딪히는 부분이 생긴다.
[ 2 ]  신혼 초에는 그렇지 않았다.
[ 3 ]  우리는 치약을 어디서부터 짜는지 양말을 왜 뒤집어 놓는가 같은 사소한 문제를 두고 다툰다고 말하는 부부들을 보며 의아해했다.
[ 4 ]  아니 그게 싸울 거리가 되는 건가 치약을 내가 밑에서부터 짠다면 너는 그냥 위에서부터 짜면 될 거 아냐 어차피 치약은 손으로 조물조물거리면 모양이 바뀌는데하지만 아이가 태어나자 그간의 우리 사이를 흐르던 인내심들이 조금씩 바닥을 드러냈다.
[ 5 ]  아무래도 우리가 가진 인내심을 거의 아이에게 쏟아부었기 때문일 것이다.
[ 6 ]  그렇다고 우리가 언성을 높이며 싸운 적은 없다.
[ 7 ]  우리의 싸움은 보통 나의 무표정에서 시작된다.
[ 8 ]  딱딱하게 굳은 얼굴로 집안 주위를 쓱 둘러보다 수다맨이 지하철 노선을 읊어대듯 잔소리를 해대는 것이다.
[ 9 ]  그러면 남편은 핸드폰을 들고 조용히 안방으로 가 가구처럼 몸을 쭈그리고 내 기분이 풀릴 때까지 방에서 나오지 않는다.


In [None]:
sen_10 = data_load("df_10.csv")

Data Loading...

Number of Documents : 2514
Number of Sentences :  92492

Showing sample data ... 
[ 0 ]  딱히 주눅 들 일도 없어 씩씩하게 걷고 있었다
[ 1 ]  그 말을 듣기 전까지는. 갑자기 모르는 여자가 뒤에서 내 팔을 톡톡 치더니 한 마디 던지고 사라졌다.
[ 2 ]  그게 언제 어디였는지 기억나지 않는다.
[ 3 ]  아마 미국이었겠지만 시카고였는지 였는지 샌프란시스코였는지 키웨스트였는지 도무지 기억나지 않는다.
[ 4 ]  또 그 말을 해준 여자가 젊었는지 나이가 많았는지 금발이었는지 흑인이었는지조차 까맣게 잊었다.
[ 5 ]  그저 그 말 한마디만 또렷이 기억난다.
[ 6 ]  그렇게 부끄러웠으면서 정작 그때 보였다는 속옷이 무엇이었는지도 기억에 없다.
[ 7 ]  스커트 아래 삐져나온 하얀 속치마였을까 아니면 스커트 자락 일부가 어딘가에 끼어 올라갔던 걸까 속이 비치는 원피스가 아닌 다음에야 속치마나 속바지를 입지 않고 팬티 자국조차 보이는 게 싫어 티 팬티를 고집하는데. 도대체 그때 보였다는 언더웨어는 무엇이었을까 언더웨어가 보였다는 사실보다 알지도 못하는 누군가에게 그것을 지적질당했다는 것이 더 부끄럽고 창피했던 것 같다.
[ 8 ]  그녀는 나를 배려하는 마음에서 얼른 뒷모습을 추스를 수 있도록 언질을 준 것이겠지만 내게 끼친 영향은 오히려 잔혹했다.
[ 9 ]  사람 많은 거리에서 그 여자의 말을 들은 후 나는 몹시 당황했다.


In [None]:
#5. Saving Output Data
save(sen_90, 0)


Saving...

****All processes done!****

data length :  835255


In [None]:
save(sen_10, 1)


Saving...

****All processes done!****

data length :  92492
