# Exploratory Data Analysis
본 노트에서는 텍스트 데이터를 마주했을 때 해야하는 탐색적 분석 중 하나인 `token_per_sentence`, `total_tokens`를 계산해봅니다. 특히 `token_per_sentence`는 **딥러닝 모형 학습 시 mini-batch 구성을 할 때, padding을 얼마나해야하는 지 확인하는 정보로 활용합니다** 

### Setup

In [1]:
import pandas as pd
from pathlib import Path
from pprint import pprint
from typing import List

### Load dataset

In [2]:
data_dir = Path.cwd() / 'data'
list_of_dataset = list(data_dir.iterdir())
pprint(list_of_dataset)

[PosixPath('/root/Documents/archive/strnlp/exercise/data/train.txt'),
 PosixPath('/root/Documents/archive/strnlp/exercise/data/validation.txt'),
 PosixPath('/root/Documents/archive/strnlp/exercise/data/test.txt')]


In [3]:
tr_dataset = pd.read_csv(list_of_dataset[1], sep='\t')
tr_dataset.head()

Unnamed: 0,document,label
0,60년대 각본을 가져다가 만든거 같이 진부하고 춤도 이박사 춤이 더 나을거 같음,0
1,아 신난다~,0
2,이게 한쿡영화의 현실..,0
3,박철수가 만들었다니 ...,0
4,와 항상 금요일이 기대되네요ㅠ 몬스타 화이팅 !,1


### Define split_fn
token의 집합인 Vocaburary 구성을 위해, 문장을 sequence of tokens의 형태로 split하는 function인 `split_fn`을 작성해야합니다. **split_fn을 어떻게 작성하느냐에 따라 문장이 sequence of tokens으로의 변형이 달라지고, Vocaburary도 달라집니다.**

In [4]:
# 문장을 어절기준으로 보는 split_fn을 작성
def split_eojeol(s: str) -> List[str]:
    return s.split(' ')

example_sentence = '파이콘은 정말 신나는 행사입니다.'
print(example_sentence, split_eojeol(example_sentence))

파이콘은 정말 신나는 행사입니다. ['파이콘은', '정말', '신나는', '행사입니다.']


### Calculate `token_per_sentence`, `total_tokens`
위에서 정의한 `split_fn`을 이용하여 training corpus의 `token_per_sentence`와 `total_tokens`를 계산해봅니다.

In [5]:
length_of_sen = tr_dataset['document'].apply(lambda sen: len(split_eojeol(sen)))
length_of_sen.describe()

count    29999.000000
mean         7.625954
std          6.542134
min          1.000000
25%          3.000000
50%          6.000000
75%          9.000000
max         40.000000
Name: document, dtype: float64

In [6]:
length_of_sen.plot(kind='hist')

<matplotlib.axes._subplots.AxesSubplot at 0x7f7f4007cd68>

In [7]:
total_tokens = length_of_sen.sum()
token_per_sentence = length_of_sen.mean()
print(total_tokens, token_per_sentence)

228771 7.625954198473282
