# 1. 자연어처리(Natural Language Processing) 준비하기

## 1-2. 필요 프레임워크와 라이브러리

In [None]:
# 텐서플로
import tensorflow as tf

In [None]:
# 케라스
import keras

In [None]:
# 젠심
import gensim

젠심(Gensim)은 머신 러닝을 사용하여 토픽 모델링과 자연어 처리 등을 수행할 수 있게 해주는 오픈 소스 라이브러리입니다.  
이 책에서도 젠심을 사용하여 Word2Vec 등 다양한 모델들을 학습해볼 것입니다

## 1-3. 자연어처리를 위한 NLTK와 KoNLPy 설치하기

### NLTK  
자연어 처리를 위한 파이썬 패키지

In [None]:
import nltk

### KoNLPy 
코엔엘파이(KoNLPy)는 한국어 자연어 처리를 위한 형태소 분석기 패키지

In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.3 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[K     |████████████████████████████████| 465 kB 65.1 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
import konlpy

## 1-4. 판다스와 넘파이와 맷플랏립

### Pandas 

In [None]:
import pandas as pd

In [None]:
sr=pd.Series([17000,18000,1000,5000],
             index=['피자','치킨','콜라','맥주'])
print('시리즈 출력 : ')
print('-'*15)
print(sr)

시리즈 출력 : 
---------------
피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64


In [None]:
print(f'시리즈 값 : {sr.values}')
print(f'시리즈 인덱스 : {sr.index}')

시리즈 값 : [17000 18000  1000  5000]
시리즈 인덱스 : Index(['피자', '치킨', '콜라', '맥주'], dtype='object')


In [None]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df=pd.DataFrame(values,index=index,columns=columns)

In [None]:
print('데이터프레임 출력 : ')
print('-'*18)
print(df)

데이터프레임 출력 : 
------------------
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9


### Numpy

In [None]:
import numpy as np

In [None]:
# 1차원 배열
vec=np.array([1,2,3,4,5])
print(vec)

[1 2 3 4 5]


In [None]:
# 2차원 배열
mat=np.array([[10,20,30],[60,70,80]])
print(mat)

[[10 20 30]
 [60 70 80]]


In [None]:
print('vec의 타입 : ',type(vec))
print('mat의 타입 : ',type(mat))

vec의 타입 :  <class 'numpy.ndarray'>
mat의 타입 :  <class 'numpy.ndarray'>


+ `ndim` : 차원(축의 개수)
+ `shape` : 크기

In [None]:
print('vec.ndim : ',vec.ndim)
print('vec.shape : ', vec.shape)

vec.ndim :  1
vec.shape :  (5,)


In [None]:
print('mat.ndim : ',mat.ndim)
print('mat.shape : ',mat.shape)

mat.ndim :  2
mat.shape :  (2, 3)


In [None]:
# ndarray 초기화
## 0으로 채워진 2x3 배열 생성
zero_mat=np.zeros((2,3))
print(zero_mat)

[[0. 0. 0.]
 [0. 0. 0.]]


In [None]:
## 1로 채워진 2x3 배열 생성
one_mat=np.ones((2,3))
print(one_mat)

[[1. 1. 1.]
 [1. 1. 1.]]


In [None]:
## 사용자 지정값으로 채워진 2x3 배열 생성
const_mat=np.full((2,3),7)
print(const_mat)

[[7 7 7]
 [7 7 7]]


In [None]:
## Identity Matrix 
diag_mat=np.eye(3)
print(diag_mat)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
## 랜덤값으로 채워진 배열
random_mat=np.random.random((2,2))
print(random_mat)

[[0.41733997 0.52276541]
 [0.67158429 0.63796081]]


In [None]:
# np.arrange()
range_vec=np.arange(10) ## [0,10)
print(range_vec)

[0 1 2 3 4 5 6 7 8 9]


In [None]:
n=2
range_vec2=np.arange(1,10,n)
print(range_vec2)

[1 3 5 7 9]


In [None]:
# np.reshape()
mat=np.array(np.arange(30))
print(mat) # 30x1
print(mat.shape)
mat2=mat.reshape(6,5) 
print(mat2) # 6x5
print(mat2.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
(30,)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
(6, 5)


In [None]:
# numpy 슬라이싱
mat=np.array([[1,2,3],[4,5,6]])
print(mat) # 2x3

[[1 2 3]
 [4 5 6]]


In [None]:
mat[0,:] # 0번째 row

array([1, 2, 3])

In [None]:
mat[:,1] # 1번째 col

array([2, 5])

In [None]:
# 정수 인덱싱
mat=np.array([[1,2],[3,4],[5,6]])
print(mat)

[[1 2]
 [3 4]
 [5 6]]


In [None]:
## 1row 0col element
print(mat[1,0])

## (2,0), (1,1) element
print(mat[[2,1],[0,1]])

3
[5 4]


In [None]:
# Numpy 연산
x=np.array([1,2,3])
y=np.array([4,5,6])

print(x+y)
print(x-y)
print(x*y)
print(x/y)

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


요소별 연산 수행



In [None]:
print(np.add(x,y))
print(np.subtract(x,y))
print(np.multiply(x,y))
print(np.divide(x,y))

[5 7 9]
[-3 -3 -3]
[ 4 10 18]
[0.25 0.4  0.5 ]


In [None]:
# 행렬곱
mat1=np.array([[1,2],[3,4]])
mat2=np.array([[5,6],[7,8]])

np.dot(mat1,mat2)

array([[19, 22],
       [43, 50]])

## 1-5. 판다스 프로파일링

In [None]:
!pip install -U pandas-profiling

In [None]:
import pandas as pd
import pandas_profiling

In [None]:
data=pd.read_csv('/content/drive/MyDrive/자연어처리/spam.csv',encoding='latin1')

In [None]:
data[:5]

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [None]:
pr=data.profile_report()
pr

In [None]:
pr.to_file('/content/drive/MyDrive/자연어처리/pr_report.html')

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]