# 라이브러리 가이드 문서

이 문서에는 Jupyter Notebook 사용법과 Numpy, Scipy, Pandas, 그리고 Scikit-learn 라이브러리에 대한 사용법에 대한 간단한 설명이 되어있습니다. 자세한 사용 방법은 아래의 공식 웹 사이트를 참고하세요.

- [Jupyter](http://jupyter-notebook.readthedocs.io/en/latest/)
- [Numpy](https://docs.scipy.org/doc/numpy-1.13.0/reference/), [Scipy](https://docs.scipy.org/doc/scipy/reference/)
- [Matplotlib](https://matplotlib.org/api/pyplot_summary.html)
- [Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [scikit-learn](http://scikit-learn.org/stable/modules/linear_model.html)

# Jupyter

Jupyter는 오픈소스 웹 어플리케이션으로, 1) python 코드를 cell 단위 작성 및 실행할 수 있고, 2) 그림 또는 표를 시각화할 수 있습니다.

In [1]:
# 이 영역을 하나의 cell이라 부릅니다.
# 이 영역에 코드를 작성한 후, Shift+Enter를 누르시면 cell 단위로 코드를 실행하실 수 있습니다.
# 위의 Insert > Insert Cell Above & Insert Cell Below 를 통해서 cell을 위 혹은 아래에 추가할 수 있습니다.
for i in range(5):
    print i
print 'hello, world!'

SyntaxError: Missing parentheses in call to 'print'. Did you mean print(i)? (<ipython-input-1-f2323915b179>, line 5)

In [2]:
# In [n] 은 현재 cell이 n번째로 실행이 되었다는 것을 의미합니다.
# cell 단위로 실행되기 때문에, cell의 순서와 상관없이 실행시킬 수 있습니다.

print z

SyntaxError: Missing parentheses in call to 'print'. Did you mean print(z)? (<ipython-input-2-58a0e119beca>, line 4)

In [None]:
z = "hello"

# Numpy & Scipy

numpy와 scipy는 수학과 관련된 연산(행렬 연산, 확률 분포 등)을 효율적으로 해주는 라이브러리입니다.

In [None]:
# numpy와 scipy를 사용하기 위해 import를 먼저 해줍니다.
import numpy as np
import scipy as sp

In [None]:
# 4x5 matrix 선언
A = np.zeros([4, 5])
print A

In [None]:
# 특정 위치의 값 바꾸기
A[2, 3] = 1
print A

In [None]:
# 특정 열의 값을 통째로 바꾸기
A[:, 1] = 2
print A

In [None]:
# 행렬곱 연산은 아래와 같이 할 수 있습니다.
B = np.ones([2, 4])
print B
print np.matmul(B, A)

# Matplotlib

matplotlib는 plot을 쉽게 해줄 수 있는 python 라이브러리입니다.

In [None]:
# matplotlib를 사용하기 위해 import를 먼저 해줍니다.
import matplotlib.pyplot as plt

# 아래의 코드는 notebook에서 바로 plot 결과를 볼 수 있도록 해줍니다.
%matplotlib inline

In [None]:
X = []
Y = []
for x in range(1, 101):
    X.append(x)
    Y.append(np.log(x))

# plt.plot(X, Y)는 (X[0], Y[0]), (X[1], Y[1]), ..., (X[N], Y[N]) 점들을 순서대로 그래프에 그려줍니다.
# plot 함수는 기본적으로 선으로 점들을 이어줍니다.
plt.plot(X, Y)

In [None]:
# 하지만 아래와 같이 선이 아닌 형태로 표현할 수도 있습니다.
plt.plot(X, Y, '+')

In [None]:
# 또한, 색깔을 바꿀 수도 있습니다.
plt.plot(X, Y, '+r')

# Pandas

Pandas는 데이터를 다루기 위한 라이브러리입니다. Pandas는 기본적으로 테이블(DataFrame)로 데이터를 다룹니다.

In [None]:
# pandas 라이브러리를 import합니다
import pandas as pd

In [None]:
d = {'col1': [1, 2, 3, 4], 'col2': ['x', 'y', 'z', 'w']}
df = pd.DataFrame(d)

In [None]:
df

In [None]:
# 새로운 컬럼 추가
df['col3'] = ['a', 'b', 'c', 'd']
df['col4'] = df['col1'] ** 2
df

In [None]:
df[1:3]

# Scikit-learn

scikit-learn은 machine learning에서 쓰이는 여러가지 방법들을 사용할 수 있는 라이브러리입니다. 본 수업에서는 regression만 다루기 때문에 regression에 대한 예제로 설명을 하도록 하겠습니다.

In [None]:
# scikit-learn을 이용하기 위해 라이브러리를 import합니다.
from sklearn.linear_model import LinearRegression

## 데이터 생성

In [None]:
# 예제를 위해 간단한 데이터를 생성합니다.
# X = [0, 1, 2, ..., 99]
X = np.reshape(np.array(range(100), dtype=float), [100, 1])

# Y = [0, 0.1, 0.2, ..., 9.9]
Y = 0.1*X

# 정규분포를 Y에 더해줌으로써 Y에 noise를 줍니다.
Y += np.random.normal(size=[100, 1])

# data를 plot해보면 아래와 같습니다.
plt.plot(X, Y, 'o')

## 모델 생성

In [None]:
# linear_model 중 Linear Regression 모델을 만듭니다.
# linear regression: y = ax + b 또는 y = a_1 * x_1 + a_2 * x_2 + ... + a_n * x_n + b
reg = LinearRegression()

## 학습

In [None]:
# 데이터를 이용하여 모델을 학습시킵니다.
reg.fit(X, Y)

In [None]:
# 학습 결과를 출력합니다.
print 'weights:  ', reg.coef_
print 'intercept:', reg.intercept_

## 결과 확인

In [None]:
# 학습한 모델을 이용하여 X에 따른 추측값 Y_pred를 계산할 수 있습니다.
Y_pred = np.matmul(X, reg.coef_) + reg.intercept_

In [None]:
# 실제 데이터와 모델을 그려보면 아래와 같습니다.
plt.plot(X, Y, 'o')
plt.plot(X, Y_pred, '-r')