# Python programming for data science

## 1. Importing Modules

### 1.1 Methods of importing a module

In [None]:
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

#### 1.1.1 일반적인 방법

In [None]:
import random

In [None]:
random.random()

#### 1.1.2 모듈에서 특정 함수만 필요한 경우

In [None]:
from math import pi            # math 모듈에서 pi함수만 필요한 경우

In [None]:
pi

#### 1.1.3 모듈이 다른 디렉토리(패키지)에 있는 경우

In [None]:
from sklearn.linear_model import LogisticRegression            # 경로가 다른 경우는 경로를 .으로 구분하여 다 써줘야 한다.
from sklearn.model_selection import *                                        # 모든 모듈이 필요한 경우

### 1.2 모듈의 멤버함수 확인 방법

In [None]:
import os

In [None]:
dir(os)

### 1.3 모듈을 찾는 위치 확인

In [None]:
import sys

In [None]:
sys.path   # 모듈을 찾는 위치 확인

* Reference : https://www.python.org/

**************************************

## 2. Numpy
파이썬 수치연산 라이브러리

### 2.1 Import Numpy module 

In [None]:
import numpy as np

In [None]:
np.array([1, 2, 3]) 

### 2.2 Comparison of Numpy and Basic python array operation

In [None]:
# [1,2,3]과 [1,1,1]에 대한 더하기 연산을 하고 싶은 경우

# list 연산
list_A = [1, 2, 3]
list_B = [1, 1, 1]
list_C = list_A + list_B
print("list 연산: ", list_C)

# numpy 연산
import numpy as np
np_array_A = np.array([1, 2, 3])
np_array_B = np.array([1, 1, 1])
np_array_C = np_array_A + np_array_B
print("numpy 연산: ", np_array_C)

### 2.3 Functions of numpy

#### 2.3.1 <font color= blue>np.array</font> function
* 주어지는 특정 값으로 구성되는 배열 생성

In [None]:
x = np.array([[4, 5, 6], [7, 8, 9]])
print(x)

In [None]:
print(type(x))

#### 2.3.2 <font color= blue>np.arange </font> function
- 주어지는 특정 구간의 값들로 구성되는 배열 생성

In [None]:
np.arange(10)

In [None]:
np.arange(1, 10)

In [None]:
np.arange(1, 10, 2)

In [None]:
np.arange(5, 101, 5)

In [None]:
np.arange(100, 0, -5)

#### 2.3.3 <font color= blue>np.ones, np.zeros </font> function
- 주어지는 shape에 따른 1 또는 0으로 구성되는 배열 생성

In [None]:
np.ones((4, 5))  #1로 채워진 4x5행렬 생성

In [None]:
np.ones((2, 3, 4))

In [None]:
np.zeros((2, 3, 8, 8))

#### 2.3.4 <font color= blue>np.empty, np.full</font> function
- 주어지는 크기의 비어있거나 주어진 값으로 채워진 배열 생성

In [None]:
np.empty((3, 4))     # 임의의 빈값으로 3x4 행렬이 만들어진다.

In [None]:
np.full((3, 4, 2), 7)  #7로 채워진 3x4x2 형태의 행렬 생성

#### 2.3.5 <font color= blue>np.eye</font> function
- 주어진 크기의 단위행렬 생성

In [None]:
np.eye(3)   # 3x3행렬의 단위행렬 생성

#### 2.3.6 <font color= blue>np.linspace</font> function
- 주어진 시작점, 끝점, 원소개수에 따른 균등한 간격의 배열 생성

In [None]:
np.linspace(1, 10, 3)

In [None]:
np.linspace(1, 10, 4)

In [None]:
np.linspace(1, 10, 5)

### 2.4 Slicing

#### 2.4.1 1D array

In [None]:
a = ['a', 'b', 'c', 'd', 'e', 'f']

In [None]:
 a[1:]

In [None]:
a[-3:]

In [None]:
a[:2]

In [None]:
a[:-1]

In [None]:
a[2:4]

In [None]:
 a[-4:-2]

In [None]:
a[3:0:-1]

In [None]:
a[::2]

In [None]:
a[-5::3]

In [None]:
a[::-1]

In [None]:
a[3::-1]

#### 2.4.2 2D array

In [None]:
a = np.array([[0, 1, 2, 3, 4, 5], 
             [10, 11,12, 13, 14,15], 
             [20, 21, 22, 23, 24, 25], 
             [30, 31, 32, 33, 34, 35], 
             [40, 41, 42, 43, 44, 45],
             [50, 51, 52, 53, 54, 55]])
print(a)

In [None]:
print(a[0, 3:5])

In [None]:
print(a[4:, 4:])

In [None]:
print(a[:, 2])

In [None]:
print(a[2::2, ::2])

### 2.5 Shape & Ndim(rank)

In [None]:
#1차원
x1 = np.array([1, 2, 3, 4])
print("shape: ", x1.shape, " rank: ", x1.ndim)

In [None]:
#2차원
x2 = np.array([[1, 2, 3, 4], 
                              [5, 6, 7, 8],
                              [9, 10, 11, 12]])
print("shape: ", x2.shape, " rank: ", x2.ndim)

In [None]:
#3차원
x3 = np.array([[[1, 2, 3, 4], 
                              [5, 6, 7, 8],
                              [9, 10, 11, 12]],
                            [[13, 14, 15, 16], 
                              [17, 18, 19, 20],
                              [21, 22, 23, 24]]])
print("shape: ", x3.shape, " rank: ", x3.ndim)

In [None]:
# axis의 numbering 확인을 위한 sum 계산
a = x3.sum(axis=0)   # axis 0(3차원)를 바꾸면서 합산한다. 
print(a)        # 결과값은 shape의 0번째 인덱스값이 없어진 (3,4)형태가 나온다.

In [None]:
b = x3.sum(axis=1)   # axis 1(행)을 바꾸면서 합산한다.
print(b)     #결과값은 shape의 1번째 인덱스값(행)이 없어진 (2,4)형태가 나온다. 

In [None]:
c = x3.sum(axis=2)   # axis 2(열) 을 바꾸면서 합산한다.
print(c)     #결과값은 shape의 2번째 인덱스값(열)이 없어진 (2,3)형태가 나온다. 

### 2.6 Broadcasting

In [None]:
np.arange(3) + 5

In [None]:
np.ones((3,4)) + np.arange(4)

In [None]:
p = np.array([[0, 1, 2],
              [3, 4, 5],
              [6, 7, 8],
              [9, 10, 11]])
q = np.array([[0],
              [1],
              [2],
              [3]])

In [None]:
r = p + q           # q의 1열의 값이 broadcast되어 2,3열에 복사되어 계산됨.
print(r)

* Reference : https://www.numpy.org/

***********************

## 3. Pandas
데이터 조작 라이브러리

### 3.1 Import Pandas

In [None]:
import pandas as pd

### 3.2 Pandas Data Structures

#### 3.2.1 Series
1D labeled array capable of holding any data type

In [None]:
# pandas Series 선언
## 1. list또는 np.array  이용
s = pd.Series([3, -5, 6, 4.0], index=['a', 'b', 'c', 'd'])      # 또는 s = pd.Series({'a':3, 'b':-5, 'c':7, 'd':4})
print(s)

In [None]:
## 2. dictionary 이용
dict_a = {'korea':'seoul', 'usa':'washington','japan':'tokyo'}
t = pd.Series(dict_a)
print(t)

In [None]:
# pandas Series 데이터 접근
s['b'], t['korea']

In [None]:
#라벨 인덱스는 속성처럼 점(.)을 이용하여 접근 가능
s.d, t.korea

In [None]:
# for loop를 통한 데이터 처리
for k, v in s.items():
    print("%s = %d" % (k, v))

In [None]:
# 데이터 추가, 삭제, 갱신
t['china'] = 'beijing'
print('* 추가\n', t)

del t['japan']
print('* 삭제\n', t)

t['usa'] = 'newyork'
print('* 갱신\n ', t)

In [None]:
# 인덱스만 가져오기
s. index  

In [None]:
# 값만 가져오기
s.values

In [None]:
## list 함수를 통해 활용 가능
a = list(s.values)
print(a)

In [None]:
# 값이 숫자로만 되어 있을 경우, 연산도 가능
s / 1000000

In [None]:
#배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능
print(s[0:3])
print(s['a':'c'])   # 라벨 인덱싱 시에는 뒤 'c'까지 포함한다는 점에 유의.

#### 3.2.2 DataFrame
2-D labeled data structure with columns of potentially diffenrent types

In [None]:
# dataframe 선언
## list 사용
data = [['tom', 10], ['nick', 15], ['juli', 14]] 
df = pd.DataFrame(data, columns = ['Name', 'Age']) 

In [None]:
## dictionary 사용
data = {'Country': ['Belgium', 'India', 'Brazil'],    'Capital': ['Brussels', 'New Delhi', 'Brasília'],   
        'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data)
df

In [None]:
# 데이터 접근
df[1:] 

In [None]:
df[['Country']]          # df['Country']도 가능. 다만, datatype이 Series가 됨.

In [None]:
df[['Country', 'Population']]

In [None]:
df[['Country', 'Population']][1:]

In [None]:
# indexing 접근
#     - iloc  : integer indexing 사용(몇번째 row인지?) 
#     - loc   : label indexing 사용(어떤이름의 row인지?)
df.index = ['a','b','c']   # 라벨 인덱스 부여
df

In [None]:
df.iloc[1]      # 하나의 행만 추출되면, datatype이 자동적으로 Series로 변경

In [None]:
df.loc['b']

In [None]:
df.loc["c", "Country"]

In [None]:
df.loc["b":, :"Population"]

In [None]:
# 칼럼 추가, 삭제 및 변경
df["GDP"] = [50000, 8000, 12000]     # 칼렴명을 포함한 열 추가
df

In [None]:
del df["Capital"]  # 칼렴명을 포함한 열 삭제
df

In [None]:
# 값 변경
df.loc['c', 'GDP'] = 500
# df.iloc[1, df.columns.get_loc('GDP')] = 100
df

In [None]:
# 연산을 통한 값 추출
df["GDP"] < 20000         # 칼럼명 또는 인덱스에 조건 부여하여 값을 추출 가능

In [None]:
df.loc[(df["Population"] > 100000000) & (df["GDP"] < 20000)]

In [None]:
df["GNI"] = df["GDP"] / df["Population"]         # 개별 칼렴별 계산을 하여 칼럼 추가

In [None]:
# dataframe은 전치(transpose)를 포함하여 NumPy 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원
df.T   # 전치(Transpose) : 행렬의 행과 열을 바꾸는 기능

### 3.3 Functions of pandas

In [None]:
df_cars = pd.read_csv("./dataset/mtcars.csv")

In [None]:
df_cars.head()

In [None]:
df_cars.tail()

In [None]:
df_cars[10:15]   # 특정 범주만 보고싶을 때

In [None]:
df_cars.info()    # 데이터 구조 및 타입에 대한 정보를 보고 싶을 때

In [None]:
df_cars.describe()    # 데이터에 대한 일반적인 통계정보를 보고싶을 때

In [None]:
df_cars.mean()

In [None]:
df_cars.groupby(['cyl']).mean()

In [None]:
df_cars.groupby(['cyl'])['hp'].mean()

In [None]:
df_cars['hp'].var()

In [None]:
df_cars[['hp','wt']].std()

In [None]:
df_cars.index = df_cars.model

* Reference : https://pandas.pydata.org/,   https://wikidocs.net/21047

**********************

## 4. Matplotlib 

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

그래프를 그리기 위한 x, y 값 생성

In [None]:
# 일정한 간격의 x 값 생성
x = np.linspace(0,5,11)        # np.linspace(시작값, 끝값, 개수)   또는 x = np.arange(0, 5, 0.5)        # np.arange(시작값, 끝값, 증감값)

In [None]:
y = x ** 2

In [None]:
plt.plot(x, y)

### 4.1 Functional method of creating a figure

그래프의 타이틀과 x와 y축에 레이블을 달아보자.

In [None]:
plt.title('Title')
plt.xlabel('X Label')
plt.ylabel('Y Label')
plt.plot(x, y)

산포도 형식의 그래프를 그려보자.

In [None]:
plt.scatter(x, y)

Multi-plots을 그려보자. 

In [None]:
plt.subplot(1,2,1)
plt.plot(x,y,'r')

plt.subplot(1,2,2)
plt.plot(y,x,'b')

### 4.2 Object-oriented method of creating a figure

In [None]:
# create figure object (empty canvas)
fig = plt.figure()

# define the location of the axes
axes = fig.add_axes([ 0.1, 0.1, 0.8, 0.8 ])       # add_axes[ x축 시작위치, y축 시작위치, x축 길이, y축 길이 ], 0 ~ 1 사이의 값이어야  함.

axes.set_xlabel( 'X Label' )
axes.set_ylabel( 'Y Label' )
axes.set_title( 'Set Title' )
axes.plot(x,y)

What is add_axes?

In [None]:
fig = plt.figure()

axes1 = fig.add_axes([0.1, 0.1, 0.8, 0.8])
axes2 = fig.add_axes([0.2, 0.5, 0.4, 0.3])

axes1.plot(x,y)
axes1.set_title('LARGER PLOT')
axes2.plot(y,x)
axes2.set_title('SMALLER PLOT')

Create multi-plots in Objected-oriented Method

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2)
axes[0].plot(x,y)
axes[1].plot(y,x)

Set up Figure Size and DPI

In [None]:
fig = plt.figure(figsize = (8,2))     # figsize의 (8,2)는 실제 모니터에 보여지는 크기(인치).
ax = fig.add_axes([0,0,1,1])
ax.plot(x,y)

Decorate your figure

In [None]:
fig = plt.figure()
ax = fig.add_axes([0, 0, 1, 1])
ax.plot(x, y, color='purple', linewidth=4, alpha = 0.5, linestyle = ':', marker='^', markersize=10, markerfacecolor='yellow', \
        markeredgewidth=3, markeredgecolor='green')  # alpha : 투명도 (0:완전투명, 1:불투명)

※ Figure option using matplotlib

<img src="https://matplotlib.org/_images/anatomy1.png" width="60%">

Save a Figure

In [None]:
fig.savefig( 'my_picture.png', dpi = 200 )

* Reference : https://matplotlib.org/

***********

## 5. Seaborn

In [None]:
import seaborn as sns
%matplotlib inline

In [None]:
tips = sns.load_dataset('tips')
tips.head()

### 5.1 Distribution Plots

In [None]:
sns.distplot( tips['total_bill'], bins = 40 )    # 1차원 데이터(변수 1개)는 주로 distplot 또는 countplot을 이용하여 시각화한다.

In [None]:
sns.jointplot( x = 'total_bill', y = 'tip', data = tips )     # 2차원 데이터(변수 2개)는 주로 jointplot을 이용하여 시각화한다.

In [None]:
sns.pairplot( tips, hue = 'sex', palette = 'coolwarm' )   #다차원 데이터는 주로 pairplot을 이용하여 시각화한다.
                                                                                                      # 성별(sex)를 구분하여 tips 데이터셋 중에서 숫자값의 칼럼 간의 상관관계를 
                                                                                                      # grid 형태로 각 데이터 열의 조합에 대해 scatter plot을 그린다. 
                                                                                                      # 같은 데이터가 만나는 대각선 영역에는 해당 데이터의 히스토그램을 그린다.

### 5.2 Categorial Plots

In [None]:
sns.barplot( x = 'sex', y = 'total_bill', data = tips )

In [None]:
sns.countplot( x = 'sex', data = tips )

In [None]:
sns.boxplot( x = 'day', y = 'total_bill', data = tips )

### 5.3 Matrix Plots

In [None]:
flights = sns.load_dataset('flights')
flights.head()

In [None]:
tc = tips.corr()
sns.heatmap(tc, annot=True, cmap = 'coolwarm')

In [None]:
fp = flights.pivot_table(index = 'month', columns='year', values='passengers')
fp

In [None]:
sns.heatmap(fp, cmap='coolwarm', linecolor='white',linewidths=1)

In [None]:
sns.clustermap(fp,cmap='coolwarm',standard_scale=1)

### 5.4 Regression Plots

In [None]:
sns.lmplot( x = 'total_bill', y = 'tip', data = tips, hue = 'sex', markers = ['o', 'v'] )   # 데이터와 회귀모델을 그린다.

* Reference : https://seaborn.pydata.org/

**************************

## Scikit-learn

<img src="http://suruchifialoke.com/img/ML/iris.png" width="50%">

In [None]:
# Prepare the dataset

## load iris dataset
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
Y = iris.target

## split the dataset into training and test sets (80:20)
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

In [None]:
# load a model and define(set up hyper-parameters}
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3)  

# train the model
model.fit(x_train, y_train)  

# predict (classify)
y_predict = model.predict(x_test)  

# predict with x_test and compare with y_test for measuring accuracy 
accuracy = model.score(x_test, y_test)

print(accuracy)