# Chapter 13. 파이썬 모델링 라이브러리

- 이 장에서는 모델 피팅 및 스코어링과 pandas를 이용한 데이터 정제 작업 사이를 오가는 와중에 도움이 될 만한 pandas의 기능을 살펴보겠다. 
- 그리고 유명한 모델링 도구인 statsmodels와 scikit-learn을 간략히 소개한다.

## 13.1 pandas와 모델 코드의 인터페이스

> pandas와 다른 분석 라이브러리는 주로 NumPy 배열을 사용해서 연계할 수 있다.  
> DataFrame을 NumPy 배열로 변환하려면 .values 속성을 이용한다.

In [3]:
import pandas as pd
import numpy as np

In [4]:
data = pd.DataFrame({
    'x0' : [1, 2, 3, 4, 5],
    'x1' : [0.01, -0.01, 0.25, -4.1, 0.],
    'y' : [-1.5, 0., 3.6, 1.3, -2.]})
data

Unnamed: 0,x0,x1,y
0,1,0.01,-1.5
1,2,-0.01,0.0
2,3,0.25,3.6
3,4,-4.1,1.3
4,5,0.0,-2.0


In [5]:
data.columns

Index(['x0', 'x1', 'y'], dtype='object')

In [6]:
data.values

array([[ 1.  ,  0.01, -1.5 ],
       [ 2.  , -0.01,  0.  ],
       [ 3.  ,  0.25,  3.6 ],
       [ 4.  , -4.1 ,  1.3 ],
       [ 5.  ,  0.  , -2.  ]])

> 다시 DataFrame으로 되돌리려면 앞서 공부했던 것 처럼 2차원 ndarray와 필요하다면 컬럼 이름 리스트를 넘겨서 생성할 수 있다.

In [7]:
df2 = pd.DataFrame(data.values, columns = ['one', 'two', 'three'])
df2

Unnamed: 0,one,two,three
0,1.0,0.01,-1.5
1,2.0,-0.01,0.0
2,3.0,0.25,3.6
3,4.0,-4.1,1.3
4,5.0,0.0,-2.0


> .values 속성은 데이터가 한 가지 타입(예를 들면 모두 숫자형)으로 이루어져 있다는 가정 하에 사용된다.  
> 만약 데이터 속성이 한 가지가 아니라면 `파이썬 객체의 ndarray`가 반횐될 것이다.

In [9]:
df3 = data.copy()
df3['strings'] = ['a', 'b', 'c', 'd', 'e']
df3

Unnamed: 0,x0,x1,y,strings
0,1,0.01,-1.5,a
1,2,-0.01,0.0,b
2,3,0.25,3.6,c
3,4,-4.1,1.3,d
4,5,0.0,-2.0,e


In [15]:
df3.values

array([[1, 0.01, -1.5, 'a'],
       [2, -0.01, 0.0, 'b'],
       [3, 0.25, 3.6, 'c'],
       [4, -4.1, 1.3, 'd'],
       [5, 0.0, -2.0, 'e']], dtype=object)

> 어떤 모델은 전체 컬럼 중 일부만 사용하고 싶은 경우도 있을 것이다.  
> 이 경우 loc을 이용해서 values 속성에 접근하면 된다.

In [16]:
model_cols = ['x0', 'x1']
data.loc[:, model_cols].values

array([[ 1.  ,  0.01],
       [ 2.  , -0.01],
       [ 3.  ,  0.25],
       [ 4.  , -4.1 ],
       [ 5.  ,  0.  ]])

> 어떤 라이브러리는 pandas를 직접 지원하기도 하는데 위에서 설명한 과정을 자동으로 처리해 준다.  
> DataFrame에서 NumPy 배열로 변환하고 모델 인자의 이름을 출력 테이블이나 Series의 컬럼으로 추가한다.  
> 아니라면 이런 메타 데이터 관리를 수동으로 직접 해야함.

> 12장에서 pandas의 Categorical형과 pandas.get_dummies 함수를 살펴봤다. 예제 데이터셋에 숫자가 아닌 컬럼이 있다고 가정하자.

In [19]:
data['category'] = pd.Categorical(['a', 'b', 'a', 'a', 'b'],
                                  categories = ['a', 'b'])
data

Unnamed: 0,x0,x1,y,category
0,1,0.01,-1.5,a
1,2,-0.01,0.0,b
2,3,0.25,3.6,a
3,4,-4.1,1.3,a
4,5,0.0,-2.0,b


> 만일 'category' 컬럼을 더미값으로 치환하고 싶다면 더미값을 생성하고 'category' 컬럼을 삭제한 다음 결과와 합쳐야 한다.

In [22]:
dummies = pd.get_dummies(data.category, prefix = 'category')
dummies

Unnamed: 0,category_a,category_b
0,1,0
1,0,1
2,1,0
3,1,0
4,0,1


In [23]:
data_with_dummies = data.drop('category', axis = 1).join(dummies)
data_with_dummies

Unnamed: 0,x0,x1,y,category_a,category_b
0,1,0.01,-1.5,1,0
1,2,-0.01,0.0,0,1
2,3,0.25,3.6,1,0
3,4,-4.1,1.3,1,0
4,5,0.0,-2.0,0,1


In [27]:
(data
 .join(pd.get_dummies(data.category, prefix='category'))
 .drop('category', axis = 1))

Unnamed: 0,x0,x1,y,category_a,category_b
0,1,0.01,-1.5,1,0
1,2,-0.01,0.0,0,1
2,3,0.25,3.6,1,0
3,4,-4.1,1.3,1,0
4,5,0.0,-2.0,0,1


## 13.2 Patsy를 이용해서 모델 생성하기

- 단순히 숫자형 컬럼만 가지고 있는 게 아니라면 Patsy를 사용하는 편이 더 단순하고 에러를 일으킬 가능성도 줄여준다.  
- Patsy(팻시)는 통계 모델(특히 선형 모델)을 위한 파이썬 라이브러리이며 R이나 S 통계 프로그래밍 언어에서 사용하는 수식 문법과 비슷한 형식의 `문자열 기반 '수식 문법'`을 제공한다.
- Patsy는 통계 모델에서 선형 모델을 잘 지원하므로 이해를 돕기 위해 주요 기능 중 일부만 살펴보도록 하자.

> patsy.dmatrices 함수는 수식 문자열과 데이터 셋(DataFrame 또는 배열의 사전)을 함께 받아 선형 모델을 위한 설계 배열을 만들어낸다.

In [28]:
data = pd.DataFrame({
    'x0' : [1, 2, 3, 4, 5],
    'x1' : [0.01, -0.01, 0.25, -4.1, 0.],
    'y' : [-1.5, 0., 3.6, 1.3, -2.]})
data

Unnamed: 0,x0,x1,y
0,1,0.01,-1.5
1,2,-0.01,0.0
2,3,0.25,3.6
3,4,-4.1,1.3
4,5,0.0,-2.0


In [30]:
import patsy

In [31]:
y, X = patsy.dmatrices('y ~ x0 + x1', data)

In [32]:
y

DesignMatrix with shape (5, 1)
     y
  -1.5
   0.0
   3.6
   1.3
  -2.0
  Terms:
    'y' (column 0)

In [33]:
X

DesignMatrix with shape (5, 3)
  Intercept  x0     x1
          1   1   0.01
          1   2  -0.01
          1   3   0.25
          1   4  -4.10
          1   5   0.00
  Terms:
    'Intercept' (column 0)
    'x0' (column 1)
    'x1' (column 2)

> Patsy의 DesignMatrix 인스턴스는 몇 가지 추가 데이터가 포함된 NumPy ndarray로 볼 수 있다.

In [37]:
np.asarray(y)

array([[-1.5],
       [ 0. ],
       [ 3.6],
       [ 1.3],
       [-2. ]])

In [38]:
np.asarray(X)

array([[ 1.  ,  1.  ,  0.01],
       [ 1.  ,  2.  , -0.01],
       [ 1.  ,  3.  ,  0.25],
       [ 1.  ,  4.  , -4.1 ],
       [ 1.  ,  5.  ,  0.  ]])

> 여기서 Intercept는 최소자승회귀와 같은 선형 모델을 위한 표현이다. 모델에 0을 더해서 intercept(절편)를 제거할 수 있다.

In [45]:
patsy.dmatrices('y ~ x0 + x1 + 0', data)[1]

DesignMatrix with shape (5, 2)
  x0     x1
   1   0.01
   2  -0.01
   3   0.25
   4  -4.10
   5   0.00
  Terms:
    'x0' (column 0)
    'x1' (column 1)

> Pasty 개게는 최소자승회귀분석을 위해 numpy.linalg.lstsq 같은 알고리즘에 바로 넘길 수도 있다.

In [55]:
coef, resid, _, _ = np.linalg.lstsq(X,y, rcond = None)

> 모델 메타데이터는 design_info 속성을 통해 얻을 수 있는데 예를 들면 모델의 컬럼명을 피팅된 항에 맞추어 Series를 만들어낼 수도 있다.

In [56]:
coef

array([[ 0.31290976],
       [-0.07910564],
       [-0.26546384]])

In [66]:
coef = pd.Series(coef.squeeze(), index = X.design_info.column_names)
coef

Intercept    0.312910
x0          -0.079106
x1          -0.265464
dtype: float64

### 13.2.1 Patsy 용법으로 데이터 변환하기

> 파이썬 코드를 Patsy 용법과 섞어서 사용할 수도 있는데, Patsy 문법을 해석하는 과정에서 해당 함수를 찾아 실행해준다.

In [74]:
y, X = patsy.dmatrices('y ~ x0 + np.log(np.abs(x1) + 1)', data)
X

DesignMatrix with shape (5, 3)
  Intercept  x0  np.log(np.abs(x1) + 1)
          1   1                 0.00995
          1   2                 0.00995
          1   3                 0.22314
          1   4                 1.62924
          1   5                 0.00000
  Terms:
    'Intercept' (column 0)
    'x0' (column 1)
    'np.log(np.abs(x1) + 1)' (column 2)

> 자주 쓰이는 변수 변환으로는 표준화(평균0, 분산1)와 센터링 (평균값을 뺌)이 있는데 Pasty에는 이런 목적을 위한 내장 함수가 존재한다.

In [80]:
y, X = patsy.dmatrices('y ~ standardize(x0) + center(x1)', data)
X

DesignMatrix with shape (5, 3)
  Intercept  standardize(x0)  center(x1)
          1         -1.41421        0.78
          1         -0.70711        0.76
          1          0.00000        1.02
          1          0.70711       -3.33
          1          1.41421        0.77
  Terms:
    'Intercept' (column 0)
    'standardize(x0)' (column 1)
    'center(x1)' (column 2)

> pasty.build_design_matrices 함수는 입력으로 사용되는 원본 데이터셋에서 저장한 정보를 사용해서 출력 데이터를 만들어내는 변환에 적용할 수 있는 함수다.

In [81]:
new_data = pd.DataFrame({
    'x0' : [6, 7, 8, 9],
    'x1' : [3.1, -0.5, 0, 2.3],
    'y' : [1, 2, 3, 4]})

new_X = patsy.build_design_matrices([X.design_info], new_data)
new_X

[DesignMatrix with shape (4, 3)
   Intercept  standardize(x0)  center(x1)
           1          2.12132        3.87
           1          2.82843        0.27
           1          3.53553        0.77
           1          4.24264        3.07
   Terms:
     'Intercept' (column 0)
     'standardize(x0)' (column 1)
     'center(x1)' (column 2)]

> Patsy 문법에 더하기 기호(+)는 덧셈이 아니므로 데이터셋에서 이름으로 컬럼을 추가하고 싶다면 I라는 특수한 함수로 둘러싸야 한다.

In [83]:
y, X = patsy.dmatrices('y ~ I(x0 + x1)', data)    # x0와 x1을 더한 컬럼으로 분석하고 싶은 경우
X

DesignMatrix with shape (5, 2)
  Intercept  I(x0 + x1)
          1        1.01
          1        1.99
          1        3.25
          1       -0.10
          1        5.00
  Terms:
    'Intercept' (column 0)
    'I(x0 + x1)' (column 1)

> Patsy는 patsy.builtins 모듈 내에 여러 가지 변환을 위한 내장 함수들을 제공한다. 자세한 내용은 문서를 참고.

### 13.2.2 범주형 데이터와 Patsy

- 범주형 데이터의 변환은 좀 특별하다.
- 비산술 데이터는 여러 가지 형태의 모델 설계 배열로 변환될 수 있다. 
- Patsy에서 비산술 용법을 사용하면 기본적으로 더미 변수로 변환된다. 만약 intercept가 존재한다면 공선성을 피하기 위해 레벨 중 하나는 남겨두게 된다.

In [97]:
data = pd.DataFrame({
    'key1' : list('aabbabab'),
    'key2' : [0, 1, 0, 1, 0, 1, 0, 0],
    'v1' : [1, 2, 3, 4, 5, 6, 7, 8],
    'v2' : [-1, 0, 2.5, -0.5, 4.0, -1.2, 0.2, -1.7]
})

data

Unnamed: 0,key1,key2,v1,v2
0,a,0,1,-1.0
1,a,1,2,0.0
2,b,0,3,2.5
3,b,1,4,-0.5
4,a,0,5,4.0
5,b,1,6,-1.2
6,a,0,7,0.2
7,b,0,8,-1.7


In [92]:
y, X = patsy.dmatrices('v2 ~ key1', data)
X

DesignMatrix with shape (8, 2)
  Intercept  key1[T.b]
          1          0
          1          0
          1          1
          1          1
          1          0
          1          1
          1          0
          1          1
  Terms:
    'Intercept' (column 0)
    'key1' (column 1)

> 모델에서 intercept를 생략하면 각 범주값의 컬럼은 모델 설계 배열에 포함된다.

In [90]:
y, X = patsy.dmatrices('v2 ~ key1 + 0', data)
X

DesignMatrix with shape (8, 2)
  key1[a]  key1[b]
        1        0
        1        0
        0        1
        0        1
        1        0
        0        1
        1        0
        0        1
  Terms:
    'key1' (columns 0:2)

> 산술 컬럼은 C 함수를 이용해서 범주형으로 해석할 수 있다.

In [94]:
y, X = patsy.dmatrices('v2 ~ C(key2)', data)
X

DesignMatrix with shape (8, 2)
  Intercept  C(key2)[T.1]
          1             0
          1             1
          1             0
          1             1
          1             0
          1             1
          1             0
          1             0
  Terms:
    'Intercept' (column 0)
    'C(key2)' (column 1)

> 모델에서 여러 범주형 항을 사용한다면 ANOVA (Analysis of Variance; 분산분석) 모델에서처럼 key1:key2 같은 용법을 사용할 수 있게 되므로 더 복잡해진다.

In [98]:
data['key2'] = data['key2'].map({0 : 'zero', 1 : 'one'})
data

Unnamed: 0,key1,key2,v1,v2
0,a,zero,1,-1.0
1,a,one,2,0.0
2,b,zero,3,2.5
3,b,one,4,-0.5
4,a,zero,5,4.0
5,b,one,6,-1.2
6,a,zero,7,0.2
7,b,zero,8,-1.7


In [100]:
y, X = patsy.dmatrices('v2 ~ key1 + key2', data)
X

DesignMatrix with shape (8, 3)
  Intercept  key1[T.b]  key2[T.zero]
          1          0             1
          1          0             0
          1          1             1
          1          1             0
          1          0             1
          1          1             0
          1          0             1
          1          1             1
  Terms:
    'Intercept' (column 0)
    'key1' (column 1)
    'key2' (column 2)

In [101]:
y, X = patsy.dmatrices('v2 ~ key1 + key2 + key1:key2', data)
X

DesignMatrix with shape (8, 4)
  Intercept  key1[T.b]  key2[T.zero]  key1[T.b]:key2[T.zero]
          1          0             1                       0
          1          0             0                       0
          1          1             1                       1
          1          1             0                       0
          1          0             1                       0
          1          1             0                       0
          1          0             1                       0
          1          1             1                       1
  Terms:
    'Intercept' (column 0)
    'key1' (column 1)
    'key2' (column 2)
    'key1:key2' (column 3)

> Patsy는 특정 순서에 따라 데이터를 변환하는 방법을 포함하여 범주형 데이터를 변환하는 여러 가지 방법을 제공한다. 자세한 내용은 온라인 문서를 참고하자.

## 13.3 statsmodels 소개

- statsmodels는 다양한 종류의 통계 모델 피팅, 통계 테스트 수행 그리고 데이터 탐색과 시각화를 위한 파이썬 라이브러리다. 
- statsmodels는 좀 더 '전통적인' 빈도주의적 통계 메서드를 포함하고 있다.
- 베이지안 메서드나 머신러닝 모델은 다른 라이브러리에서 찾을 수 있다.

- statsmodels는 다음과 같은 모델을 포함한다.
    - 선형 모델, 일반 선형 모델, 로버스트 선형 모델
    - 선형 복합효과(Linear Mixed Effects, LME) 모델
    - 아노바(ANOVA) 메서드
    - 시계열 처리 및 상태 공간 모델
    - 일반적률추정법(Generalized Method of Moments, GMM)

> statsmodels의 몇 가지 기본 도구를 사용해보고 Patsy와 pandas의 DataFrame 객체와 모델링 인터페이스를 어떻게 사용하는지 살펴보자.

### 13.3.1 선형 모델 예측하기

- statsmodels에는 아주 기본적인 선형회귀 모델(예를 들면 최소제곱; OLS)부터 좀 더 복잡한 선형회귀 모델(예를 들면 반복재가중 최소제곱; IRLS)까지 존재한다.
- statsmodels의 선형 모델은 두 가지 주요한 인터페이스를 가지는데, `배열 기반`과 `용법 기반`이다.
- 이 인터페이스는 API 모듈을 임포트하여 사용할 수 있다.

In [102]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

> 사용법을 알아보기 위해 랜덤 데이터에서 선형 모델을 생성해보자.

In [107]:
def dnorm(mean, variance, size = 1) :
    if isinstance(size, int) : 
        size = size,
    return  mean + np.sqrt(variance) * np.random.randn(*size)

# 동일한 난수 발생을 위해 시드값 직접 지정
np.random.seed(12345)

N = 100
X = np.c_[dnorm(0, 0.4, size = N),
          dnorm(0, 0.6, size = N),
          dnorm(0, 0.2, size = N)]
eps = dnorm(0, 0.1, size = N)
beta = [0.1, 0.3, 0.5]

y = np.dot(X, beta) + eps

> 여기서는 알려진 인자인 beta를 이용해서 진자 모델을 작성했다. dnorm은 특정 평균과 분산을 가지는 정규분포 데이터를 생성하기 위한 도움 함수다.

In [108]:
X[:5]

array([[-0.12946849, -1.21275292,  0.50422488],
       [ 0.30291036, -0.43574176, -0.25417986],
       [-0.32852189, -0.02530153,  0.13835097],
       [-0.35147471, -0.71960511, -0.25821463],
       [ 1.2432688 , -0.37379916, -0.52262905]])

In [109]:
y[:5]

array([ 0.42786349, -0.67348041, -0.09087764, -0.48949442, -0.12894109])

> 선형 모델은 이전에 Patsy에서 봤던 것 처럼 일반적으로 intercept와 함께 피팅된다. sm.add_constant 함수는 intercept 컬럼을 기존 행렬에 더할 수 있다.

In [111]:
X_model = sm.add_constant(X)
X_model[:5]

array([[ 1.        , -0.12946849, -1.21275292,  0.50422488],
       [ 1.        ,  0.30291036, -0.43574176, -0.25417986],
       [ 1.        , -0.32852189, -0.02530153,  0.13835097],
       [ 1.        , -0.35147471, -0.71960511, -0.25821463],
       [ 1.        ,  1.2432688 , -0.37379916, -0.52262905]])

> sm.OLS 클래스는 최소자승 선형회귀에 피팅할 수 있다.

In [113]:
model = sm.OLS(y, X)

> 모델의 fit 메서드는 예측 모델 인자와 다른 분석 정보를 포함하는 회귀 결과 객체를 반환한다.

In [115]:
results = model.fit()
results.params

array([0.17826108, 0.22303962, 0.50095093])

> results의 summary 메서드를 호출하여 해당 모델의 자세한 분석 결과를 출력하도록 할 수 있다.

In [117]:
print(results.summary())

                                 OLS Regression Results                                
Dep. Variable:                      y   R-squared (uncentered):                   0.430
Model:                            OLS   Adj. R-squared (uncentered):              0.413
Method:                 Least Squares   F-statistic:                              24.42
Date:                Wed, 15 Sep 2021   Prob (F-statistic):                    7.44e-12
Time:                        18:03:25   Log-Likelihood:                         -34.305
No. Observations:                 100   AIC:                                      74.61
Df Residuals:                      97   BIC:                                      82.42
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

> 지금까지는 인자의 이름을 x1, x2 등으로 지었다. 그대신 모든 모델 인자가 하나의 DataFrame에 들어 있다고 가정해보자.

In [118]:
data = pd.DataFrame(X, columns = ['col0', 'col1', 'col2'])
data['y'] = y

data[:5]

Unnamed: 0,col0,col1,col2,y
0,-0.129468,-1.212753,0.504225,0.427863
1,0.30291,-0.435742,-0.25418,-0.67348
2,-0.328522,-0.025302,0.138351,-0.090878
3,-0.351475,-0.719605,-0.258215,-0.489494
4,1.243269,-0.373799,-0.522629,-0.128941


> 이제 statsmodels의 API와 Patsy의 문자열 용법을 사용할 수 있다.  
> statsmodels에서 반환하는 결과 Series가 DataFrame의 컬럼 이름을 사용하고 있는 것을 알 수 있다.   
> 또한 pandas 객체를 이용해서 수식을 사용하는 경우에는 add_constant를 호출할 필요가 없다.

In [123]:
results = smf.ols('y ~ col0 + col1 + col2', data = data).fit()

results.params

Intercept    0.033559
col0         0.176149
col1         0.224826
col2         0.514808
dtype: float64

In [124]:
results.tvalues

Intercept    0.952188
col0         3.319754
col1         4.850730
col2         6.303971
dtype: float64

> 주어진 새로운 샘플 데이터를 통해 예측 모델 인자에 전달한 예측값을 계산할 수 있다.

In [125]:
results.predict(data[:5])

0   -0.002327
1   -0.141904
2    0.041226
3   -0.323070
4   -0.100535
dtype: float64

> statsmodels에는 선형 모델 결과에 대한 분석, 진단 그리고 시각화를 위한 많은 추가적인 도구가 포함되어 있다. 최소제곱뿐만 아니라 다른 선형 모델에 대한 것들도 포함하고 있다.

### 13.3.2 시계열 처리 예측

- statsmodels에 포함된 또 다른 모델 클래스로는 시계열 분석을 위한 모델이 있다. 
- 시계열분석을 위한 모델에는 아래와 같은 것들이 있다.
    - 자동회귀 처리
    - 칼만 필터링
    - 다른 상태 공간 모델
    - 다변 자동회귀 모델

> 자동회귀 구조와 노이즈를 이용해서 시계열 데이터를 시뮬레이션해보자.

In [130]:
init_x = 4

import random
values = [init_x, init_x]
N = 1000

b0 = 0.8
b1 = -0.4
noise = dnorm(0, 0.1, N)

for i in range(N) :
    new_x = values[-1]*b0 + values[-2]*b1 + noise[i]
    values.append(new_x)
    
values[:7]

[4,
 4,
 1.8697701811891951,
 0.01971135900315811,
 -1.6715953525905403,
 -1.1241108704716614,
 -0.14216218831336916]

> 이 데이터는 인자가 0.8과 -0.4인 AR(2) 구조(두 개의 지연)다.  
> AR 모델을 피팅할 때는 포함시켜야 할 지연 항을 얼마나 두어야 하는 지 알지 못하므로 적당히 큰 값으로 모델을 피팅한다.

In [146]:
MAXLAGS = 5

model = sm.tsa.AutoReg(endog = values, lags = MAXLAGS, old_names = False)

results = model.fit()

> 결과에서 예측된 인자는 intercept를 가지고 그다음에 두 지연에 대한 예측치를 갖는다.

In [149]:
results.params

array([-0.00683177,  0.81481709, -0.42445342,  0.03367057, -0.02815726,
        0.01968469])

## 13.4 scikit-learn 소개

- scikit-learn은 가장 널리 쓰이는 범용 파이썬 머신러닝 툴킷이다.
- scikit-learn은 표준적인 지도 학습과 비지도 학습 메서드를 포함하고 있으며 모델 선택, 평가, 데이터 변형, 데이터 적재, 모델 유지 및 기타 작업을 위한 도구들을 제공한다.

> 캐글의 1912년 타이타닉 생존자 데이터셋을 사용할 때 pandas를 이용해서 학습 데이터셋을 불러오고 테스트할 수 있다.

In [7]:
train = pd.read_csv('datasets/titanic/train.csv')
test = pd.read_csv('datasets/titanic/test.csv')

train[:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


> statsmodels나 scikit-learn 라이브러리는 일반적으로 누락된 데이터를 처리하지 못하므로 데이터셋에 빠진 값이 있는지 살펴본다.

In [8]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [9]:
test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

> 나이를 기반으로 생존 여부를 예측하고자 하지만 누락 데이터가 존재한다.  
> 결측치를 보완하기 위한 여러 가지 방법이 존재하지만 여기서는 간단히 학습 데이터셋의 중간값을 채워 넣는 것으로 처리하자.

In [10]:
impute_value = train['Age'].median()

train['Age'] = train['Age'].fillna(impute_value)
test['Age'] = test['Age'].fillna(impute_value)

> 이제 모델을 명세해야 한다. IsFemale 컬럼을 추가해서 'Sex' 컬럼을 인코딩한다.

In [11]:
train['IsFemale'] = (train['Sex'] == 'female').astype('int')
test['IsFemale'] = (test['Sex'] == 'female').astype('int')

> 몇 가지 모델 변수를 선언하고 NumPy 배열을 생성한다.

In [12]:
predictors = ['Pclass', 'IsFemale', 'Age']

X_train = train[predictors].values
X_test = test[predictors].values
y_train = train['Survived'].values

In [13]:
X_train[:5]

array([[ 3.,  0., 22.],
       [ 1.,  1., 38.],
       [ 3.,  1., 26.],
       [ 1.,  1., 35.],
       [ 3.,  0., 35.]])

In [14]:
y_train[:5]

array([0, 1, 1, 1, 0], dtype=int64)

> sciki-learn의 LogisticRegression 모델을 이용해서 model 인스턴스를 생성하자.

In [15]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

> statsmodels와 유사하게 model의 fit 메서드를 이용해서 이 모델을 학습 데이터에 피팅할 수 있다.

In [16]:
model.fit(X_train, y_train)

LogisticRegression()

> model.predict를 이용해서 테스트 데이터셋으로 예측을 해볼 수 있다.

In [17]:
y_predict = model.predict(X_test)

y_predict[:10]

array([0, 0, 0, 0, 1, 0, 1, 0, 1, 0], dtype=int64)

> 테스트 데이터셋의 실제 생존 여부 값을 가지고 있다면 정확도나 기타 오류율을 게산해볼 수 있을 것이다.

```python
(y_true == y_predict).mean()
```

> 많은 모델은 조절할 수 있는 인자를 가지고 학습 데이터에 오버피팅되는 것을 피할 수 있도록 `교차검증` 같은 기법을 활용하기도 한다.  
> 이는 새로운 데이터에 대해 좀 더 견고하거나 예측 성능을 높여주기도 한다.

> 교차검증은 학습 데이터를 분할하여 예측을 위한 샘플로 활용하는 방식으로 작동한다.  
> 평균제곱오차 같은 모델 정확도 점수에 기반하여 모델 인자에 대한 그리드 검색을 수행한다.  
> 로지스틱 회귀 같은 모델에서는 교차검증을 내장한 추정 클래스를 제공하기도 한다.  
> 예를 들어 LogisticRegressionCV 클래스는 모델 정규화 인자 C에 대한 그리드 검색을 얼마나 정밀하게 수행할 것인지 나타내는 인자와 함께 사용할 수 있다.

In [18]:
from sklearn.linear_model import LogisticRegressionCV

In [19]:
 model_cv = LogisticRegressionCV(10)

model_cv.fit(X_train, y_train)



LogisticRegressionCV()

> 직접 교차검증을 수행하려면 데이터를 분할하는 과정을 도와주는 cross_val_score 함수를 이용하면 된다.  
> 예를 들어 학습 데이터를 겹치지 않는 4개의 그룹으로 나누려면 아래와 같이 하면 된다.

In [20]:
from sklearn.model_selection import cross_val_score

model = LogisticRegression(C=10)

scores = cross_val_score(model, X_train, y_train, cv = 4)

In [21]:
scores

array([0.77578475, 0.79820628, 0.77578475, 0.78828829])

> 기본 스코어링은 모델에 의존적이지만 명시적으로 스코어링 함수를 선택하는 것도 가능하다.  
> 교차검증된 모델은 학습에 시간이 오래 걸리지만 더 나은 성능을 보여주기도 한다.

## 13.5 더 공부하기

- 모델링과 데이터 과학 도구에 초점을 맞춘 좋은 책이 많이 있다. 다음은 그중 일부다.
    - "파이썬 라이브러리를 활용한 머신러닝" (안드레아스 뮐러, 세라 가이도, 한빛미디어)
    - "파이썬 데이터 과학 핸드북" (제이크 반더플라스, 오라일리)
    - "밑바닥부터 시작하는 데이터 과학" (조엘 그루스, 인사이트)
    - "파이썬 머신러닝 (세바스찬 라슈카, 지앤선)
    - "핸즈온 머신러닝 (오렐리앙 제롱, 한빛미디어)

- 최신 기능과 API 변화를 계속 따라가고 싶다면 통계나 머신러닝 프레임워크의 공식 문서를 살피는 것에 익숙해지는 것도 좋은 방법이다.