# 자연어 처리란?
* <b>자연어</b> : 일상 생활에서 사용하는 언어
* <b>자연어 처리</b> : 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일

### 실습 환경 설정
* <b>아나콘다</b> : 패키지들을 모아놓은 파이썬 배포판. Numpy, Pandas, Jupyter Notebook, IPython, scikit-learn, matplotlib, seaborn, nltk 등 사용할 대부분의 패키지를 전부 포함. <https://www.anaconda.com/distribution/>
<br/><br/>
* <b>텐서플로우</b> : 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리 ``` > pip install tensorflow ```


* <b>케라스</b> : 딥 러닝 프레임워크인 텐서플로우에 대한 추상화 된 API를 제공 ``` > pip install keras ```


* <b>사이킷런</b> : 파이썬 머신러닝 라이브러리. 나이브 베이즈 분류, 서포트 벡터 머신 등 다양한 머신 러닝 모듈을 불러올 수 있음  ``` > pip install scikit-learn ```


* <b>주피터 노트북</b> : 웹에서 코드를 작성하고 실행할 수 있는 오픈소스 웹 어플리케이션 ``` > pip install jupyter ```


* <b>NLTK</b> : 자연어 처리를 위한 파이썬 패키지 ``` > pip install nltk ```. 추가로 NLTK Data라는 여러 데이터를 추가적으로 설치 ``` In [3]: nltk.download() ```


* <b>KoNLPy</b> : 한국어 자연어 처리를 위한 형태소 분석기 패키지 ``` > pip install konlpy ```

# 데이터 분석을 위한 필수 패키지
1. 판다스 : 파이썬 데이터 처리를 위한 라이브러리
2. 넘파이
3. 맷플롭립

## 판다스 설치 및 확인
``` > pip install pandas ```

In [None]:
import pandas as pd
pd.__version__

## 판다스의 세 가지 데이터 구조
1. 시리즈(Series)
2. 데이터프레임(DataFrame)
3. 패널(Panel)

### 1. 시리즈
시리즈 클래스는 1차원 배열의 값에 각 값에 대응되는 인덱스를 부여할 수 있는 구조를 가짐

In [None]:
sr = pd.Series([17000, 18000, 1000, 5000], index={"피자", "치킨", "콜라", "맥주"})
print(sr)

In [None]:
print(sr.values)

In [None]:
print(sr.index)

### 2. 데이터프레임
2차원 리스트를 매개변수로 전달. 2차원이므로 행방향 인덱스와 열방향 인덱스가 존재. 즉 행과 열을 가지는 자료구조.

In [None]:
values = [
    [1, 2, 3],
    [4, 5, 6],
    [7 ,8 ,9]
]

index = [ 'one' ,'two', 'three']

columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)

In [None]:
print(df.index)

In [None]:
print(df.columns)

In [None]:
print(df.values)

### 3. 데이터프레임의 생성
데이터프레임은 리스트, 시리즈, 딕셔너리, Numpy의 ndarrays, 또 다른 데이터프레임으로 생성할 수 있음

In [None]:
#리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]
df = pd.DataFrame(data)
print(df)

생성된 데이터프레임에 열 지정

In [None]:
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

In [None]:
#딕셔너리로 생성하기
data = {
    '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
    '이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
    '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]
}
df = pd.DataFrame(data)
print(df)

### 4. 데이터프레임 조회하기
데이터프레임에서 원하는 구간만 확인하기 위한 명령어
    1. df.head(n) = 앞 부분을 n개만 확인
    2. df.tail(n) = 뒷 부분을 n개만 확인
    3. df['열이름'] = 해당되는 열을 확인

In [None]:
print(df.head(3)) # 앞 부분 3개만 확인

In [None]:
print(df.tail(3)) # 뒷 부분 3개만 확인

In [None]:
print(df['학번']) # '학번'에 해당되는 열을 확인

## 넘파이 설치 및 확인
``` > pip install numpy ```

In [None]:
import numpy as np
np.__version__

### Numpy의 주요 모듈
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray 생성
2. np.asarray() # 기존의 array로 부터 ndarray 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

### np.array()
ndarray는 Numpy의 핵심. np.array()는 리스트, 튜플, 배열로부터 ndarray를 생성. 0-based index

In [None]:
a = np.array([1, 2, 3, 4, 5]) # 리스트를 가지고 1차원 배열 생성
print(type(a))
print(a)

리스트를 가지고 2차원 배열을 만들기 위해서는 array()가 하나의 리스트만 받기 때문에 리스트 안에 리스트를 넣어서 2차원 배열을 만들어야 됨

In [None]:
b = np.array([[10, 20, 30],[60, 70, 80]]) # 리스트를 가지고 2차원 배열 생성
print(b)

In [None]:
print(b.ndim) #차원 출력
print(b.shape) #크기 출력

### ndarray의 초기화
* zeros() : 배열에 모두 0을 삽입

In [None]:
a = np.zeros((2,3))
print(a)

* ones() : 배열에 모두 1을 삽입

In [None]:
a = np.ones((2, 3))
print(a)

* full() : 사용자가 지정한 값을 삽입

In [None]:
a = np.full((2,2), 7)
print(a)

* eye() : 대각선으로는 1, 나머지는 0인 2차원 배열

In [None]:
a = np.eye(3)
print(a)

* random() : 임의의 값으로 값을 삽입

In [None]:
a = np.random.random((2,2))
print(a)

### np.arange()
지정해준 범위에 대해서 배열을 생성
* numpy.arange(start, stop, step, dtype)
* a = np.arange(n) # 0 .... n-1까지의 범위 지정
* a = np.arange(i, j, k) # i부터 j-1까지 k씩 증가하는 배열

In [None]:
a = np.arange(10) # 0~9까지
print(a)

In [None]:
a = np.arange(1, 10, 2) # 1부터 9까지 +2씩 적용되는 범위
print(a)

### reshape()
기존의 배열을 다차원으로 변형

In [None]:
a = np.array(np.arange(30)).reshape((5,6)) # 0부터 29까지의 1차원 배열을 만들고 다시 5x6의 2차원 배열로 변형
print(a)

### Numpy 슬라이싱

In [None]:
a = np.array([[1,2,3],[4,5,6]])
b = a[0:2, 0:2]
print(b)

In [None]:
b=a[0, :] # 첫번째 행 출력
print(b)

In [None]:
b=a[:, 1] # 두번째 열 출력
print(b)

### Numpy 정수 인덱싱
원본 배열로부터 부분 배열을 구함

In [None]:
a = np.array([[1,2],[4,5],[7,8]])
print(a)

In [None]:
b = a[[2,1],[1,0]] # a[[row2, row1],[col1,col0]]을 의미
print(b)

### Numpy 연산
Numpy를 사용하면 배열간 연산을 쉽게 수행
* +, -, *, /의 연산자를 사용
* add(), subtract(), multiply(), divide() 함수를 사용

In [None]:
x = np.array([1,2,3])
y = np.array([4,5,6])

In [None]:
b = x + y
print(b)

In [None]:
b = x - y
print(b)

In [None]:
b = b * x
print(b)

In [None]:
b = b / x
print(b)

벡터와 행렬의 곱 또는 행렬곱을 위해서 dot() 함수를 사용

In [None]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])

c = np.dot(a, b)
print(c)

# 맷플롯립(Matplotlib)
데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지

## 맷플롯립 설치 밎 확인
``` > pip install matplotlib ```

In [None]:
import matplotlib as mpl
mpl.__version__

### pyplot
pyplot은 Matplotlib의 주요 모듈로 임포트할 때는 주로 plt라는 이름을 사용. 

실습을 위해서 주피터 노트북에 그림을 표시하도록 지정하는 %matplotlib inline를 우선 수행

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

### 라인 플롯 그리기
plot()은 라인 플롯을 그리는 함수.

In [None]:
plt.title('test') # 그래프의 제목 지정
plt.plot([1,5,10,15],[2,3.5,7,5]) # X축과 Y축의 값을 기재
plt.show()

### 축 레이블 삽입
* xlabel('x 축이름')
* ylabel('y 축이름')

In [None]:
plt.title('test')
plt.plot([1,5,10,15],[2,3.5,7,5])
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

### 라인 추가와 범례 삽입하기
여러개의 plot()을 사용하여 하나의 그래프에 나타낼 수 있음. 여러개의 라인 플롯을 동시에 사용할 경우에는 각 선이 어떤 데이터를 나타내는지를 보여주기 위해 범례(legend)를 사용해야 함

In [None]:
plt.title('students')
plt.plot([1,2,3,4],[5,4,8,15]) # 1번째 라인
plt.plot([1, 2, 3, 4],[3,5,8,10]) # 2번째 라인
plt.xlabel('hours')
plt.ylabel('score')
plt.legend(['A student', 'B student']) # 범례 삽입
plt.show()

# 판다스 프로파일링(Pandas-Profiling)
좋은 머신 러닝 결과를 얻기 위해서는 데이터의 성격을 파악하는 과정이 선행되어야 함. 이 과정에서 데이터 내 값의 분포, 변수 간의 관계, Null 값과 같은 결측값(missing values) 존재 유무 등을 파악. 이와 같이 데이터를 파악하는 과정을 <b>EDA(Exploratory Data Analysis, 탐색적 데이터 분석)</b>이라고 함.

판다스 프로파일링은 방대한 양의 데이터를 가진 데이터프레임을 탐색하는 패키지

``` > pip install -U pandas-profiling ```

실습파일 다운로드 링크 : <https://www.kaggle.com/uciml/sms-spam-collection-dataset>

In [None]:
import pandas as pd
import pandas_profiling
data = pd.read_csv(r'C:\Users\User\NLP\spam.csv',encoding='latin1')

data[:5]

### 리포트 생성하기
데이터를 프로파일링한 리포트를 생성해서 저장 할 수 있습니다.

In [None]:
data.profile_report() # 생성해서 바로 확인

In [None]:
pr = data.profile_report()
pr.to_file('./pr_report.html') # html 파일로 저장

# 머신 러닝 워크플로우
데이터를 수집하고 머신 러닝을 하는 과정을 크게 6가지로 나누면, 아래의 그림과 같음
![%EB%A8%B8%EC%8B%A0_%EB%9F%AC%EB%8B%9D_%EC%9B%8C%ED%81%AC%ED%94%8C%EB%A1%9C%EC%9A%B0.png](attachment:%EB%A8%B8%EC%8B%A0_%EB%9F%AC%EB%8B%9D_%EC%9B%8C%ED%81%AC%ED%94%8C%EB%A1%9C%EC%9A%B0.png)

## 수집(Acquisition)
머신 러닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요합니다. 자연어 처리의 경우, 자연어 데이터를 <b>말뭉치 또는 코퍼스(corpus)</b>라고 부르는데 코퍼스의 의미를 풀이하면, 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말함

코퍼스. 즉, 텍스트 데이터의 파일 형식은 txt 파일, csv 파일, xml 파일 등 다양하며 그 출처도 음성 데이터, 웹 수집기를 통해 수집된 데이터, 영화 리뷰 등 다양함

## 점검 및 탐색(Inspection and exploration)
여기서는 데이터의 구조, 노이즈 데이터, 머신 러닝 적용을 위해서 데이터를 어떻게 정제해야하는지 등을 파악해야 합니다.

이 단계를 <b>탐색적 데이터 분석(Exploratory Data Analysis, EDA)</b> 단계라고도 하는데 이는 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하며 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미

## 전처리 및 정제(Preprocessing and Cleaning)
이 단계는 많은 단계를 포함하고 있는데, 가령 자연어 처리라면 토큰화, 정제, 정규화, 불용어 제거 등의 단계를 포함.

## 모델링 및 훈련(Modeling and Training)
데이터 전처리가 끝났다면, 머신 러닝에 대한 코드를 작성하는 단계인 모델링 단계에 들어갑니다. 적절한 머신 러닝 알고리즘을 선택하여 모델링이 끝났다면, 전처리가 완료 된 데이터를 머신 러닝 알고리즘을 통해 기계에게 학습(training)시킵니다. 이를 훈련이라고도 하는데, 이 두 용어를 혼용해서 사용합니다. 

## 평가(Evaluation)
기계가 다 학습이 되었다면 테스트용 데이터로 성능을 평가. 평가 방법은 기계가 예측한 데이터가 테스트용 데이터의 실제 정답과 얼마나 가까운지를 측정

## 배포(Deployment)
평가 단계에서 기계가 성공적으로 훈련이 된 것으로 판단된다면, 완성된 모델이 배포되는 단계가 됩니다. 