# NLP vs Text Mining
- NLP : 인간의 언어를 이해하는데 집중된 학문(음성 인식, AI비서, 챗봇)
- Text Mining : 비정형 텍스트 데이터에서 의미있는 정보를 추출하는 학문

## Text Mining 종류
- 텍스트 분류 : 텍스트가 속하는 카테고리를 분류하는 분석
- 감성 분석 : 텍스트에서 나타나는 감정/기분/의견 등을 분석
- 텍스트 요약 : 텍스트에서 중요한 주제를 나타내는 키워드, 문장 등을 추출/생성
- 텍스트 군집화, 유사도 측정 : 텍스트의 비슷한 정도를 추측하고 그룹핑하는 분석

## 텍스트 분석 프로세스
1. 텍스트 전처리
    - 클렌징(대/소문자 변경, 특수문자 삭제)
    - 토큰화
    - Stop word 제거
    - 어근 추출(Stemming/Lemmatization)
        - 영어 : nltk
        - 한국어 : Konlpy(형태소 분석기)
2. 피처 벡터화/추출 : 정형화 작업, 글자에서 정해진 알고리즘에 따라 숫자로 변경
    - 단순 언어 빈도
    - BOW(Bag of Word)
    - tf-idf
    - word embeding(워드 임베딩)
    - BPE(바이트 페어 인코딩)
3. ML 학습/예측/평가

![image-2.png](attachment:image-2.png)
![image.png](attachment:image.png)
- 학습용 데이터가 극단적으로 뚜렷하게 나타나게 나타나게 하기위해 : rating 중간은 뺌

# 데이터 코딩

In [2]:
import pandas as pd
pd.set_option('display.max_colwidth', 100) # 컬럼의 너비를 조정해서 긴 리뷸를 볼 수 있게

In [3]:
train = pd.read_csv('./data/ratings_train.txt', delimiter='\t')
test = pd.read_csv('./data/ratings_test.txt', delimiter='\t')

In [5]:
display('Train data')
display(train.head())
display('Test data')
display(test.head())

'Train data'

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다,1


'Test data'

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


###  결측치 확인

In [6]:
display(train.info())
display(test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


None

## 결측치 데이터 삭제

In [9]:
train.dropna(inplace=True)
test.dropna(inplace=True)

In [10]:
print(train.shape, test.shape)

(149995, 3) (49997, 3)
