In [2]:
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

# 12장 파이썬 모델링 라이브러리
* 모델 fitting
* 모델 scoring
* 데이터 cleaning
* 모델링 도구
  * statsmodels
    * https://www.statsmodels.org/stable/index.html
  * scikit-learn(사이킷런)
    * https://scikit-learn.org/stable

## 12.1 판다스와 모델 코드의 인터페이스
* 모델 개발 과정

1. 데이터 로딩: 판다스를 사용하여 데이터를 로드하고 데이터프레임으로 변환

2. 데이터 전처리: 판다스를 사용하여 데이터를 전처리
  * 피처 엔지니어링(feature engineering)
    
3. 모델 훈련: 판다스 데이터프레임을 모델 훈련에 사용

4. 모델 평가: 판다스를 사용하여 모델 성능을 평가

5. 모델 예측: 판다스 데이터프레임을 사용하여 모델 예측


### feature engineering
* 기계 학습 모델의 성능을 향상시키기 위해 데이터의 원시 특징을 변환하는 프로세스
* 데이터를 더욱 정보량이 풍부하고 예측하기 쉽게 만드는 데 도움이 됨
* 피처 엔지니어링 기술
  * 결측값 처리: 결측값은 모델 성능에 부정적인 영향을 줌
    * 결측값을 평균, 중앙값 또는 최빈값으로 대체
    * 결측값을 포함하는 행을 삭제
      
  * 이상치 처리: 이상치는 모델 성능에 부정적인 영향을 줌
    * 이상치를 처리하는 방법
      * 이상치를 제거
      * 이상치를 변환

  * 피처 스케일링: 피처 스케일링은 모든 피처가 동일한 범위에 있도록 보장
    * 모델이 모든 피처에 동일한 가중치를 부여하는 데 도움
    * 피처 스케일링 기술
      * 표준화: 피처의 평균을 0, 표준 편차를 1로 조정
      * 정규화: 피처의 값이 0 과 1 사이에 있도록 조정

  * 피처 변환: 피처 변환은 피처의 분포를 변경
    * 이는 모델이 피처 간의 관계를 더 잘 학습하는 데 도움
    * 피처 변환 기술
      * 로그 변환: 피처의 값을 로그로 변환
      * 제곱근 변환: 피처의 값을 제곱근으로 변환
      
  * 피처 선택: 피처 선택은 모델에 사용할 피처를 선택
    * 이는 모델의 성능을 향상시키고 과적합을 줄이는 데 도움이 됨
      * 상관 관계 분석: 상관 관계가 높은 피처를 제거
      * 통계적 유의성 검정: 통계적으로 유의미하지 않은 피처를 제거
      * 머신 러닝 알고리즘: 피처 중요도를 평가하는 머신 러닝 알고리즘을 사용하여 피처를 선택

  *  피처 생성: 피처 생성은 새로운 피처를 생성
    * 이는 모델이 데이터의 패턴을 더 잘 학습하는 데 도움.
      * 교차 피처: 기존 피처를 결합하여 새로운 피처를 생성
      * 주성분 분석: 기존 피처의 주성분을 추출하여 새로운 피처를 생성
  

## 교차 검증(Cross-Validation)
* 교차 검증은 머신러닝 모델의 성능을 평가하는 방법 중 하나
* 교차 검증은 데이터셋을 여러 개의 폴드(fold)로 나누고, 각 폴드를 한 번씩 평가 데이터로 사용하는 방법
* 예를 들어, 데이터셋을 5개의 폴드로 나누고 교차 검증을 사용하여 모델의 성능을 평가하면 다음과 같다.
  * 데이터셋을 5개의 폴드로 나눈다
  * 첫 번째 폴드를 평가 데이터로 사용하고, 나머지 4개의 폴드를 학습 데이터로 사용하여 모델을 훈련시킨다.
  * 훈련된 모델을 사용하여 평가 데이터에 대한 예측을 만든다.
  * 예측과 실제 값을 비교하여 모델의 성능을 평가함
  * 두 번째 폴드를 평가 데이터로 사용하고, 나머지 4개의 폴드를 학습 데이터로 사용하여 모델을 훈련시킴.
  * 훈련된 모델을 사용하여 평가 데이터에 대한 예측을 만든다. 예측과 실제 값을 비교하여 모델의 성능을 평가한다.
  * 이 과정을 모든 폴드에 대해 반복한다.

* 교차 검증은 다음과 같은 장점이 있다.
  1) 모델의 성능을 정확하게 평가할 수 있다.
  2) 과적합을 방지할 수 있다.
  3) 하이퍼파라미터 튜닝에 사용할 수 있다.

* 교차 검증은 다음과 같은 단점이 있다.
  * 시간이 오래 걸린다.
  * 계산 자원이 많이 필요

* DataFrame -> Numpy Array 변환
  * df.to_numpy()

In [4]:
# ex

data = pd.DataFrame({
    'x0': [1, 2, 3, 4, 5],
    'x1': [0.01, -0.01, 0.25, -4.1, 0.],
    'y': [-1.5, 0., 3.6, 1.3, -2.]})
print(data)
print()
print(data.to_numpy())
print(type(data.to_numpy())) #numpy 객체는 한 가지 데이터타입(모두 숫자형)으로 구성

   x0    x1    y
0   1  0.01 -1.5
1   2 -0.01  0.0
2   3  0.25  3.6
3   4 -4.10  1.3
4   5  0.00 -2.0

[[ 1.    0.01 -1.5 ]
 [ 2.   -0.01  0.  ]
 [ 3.    0.25  3.6 ]
 [ 4.   -4.1   1.3 ]
 [ 5.    0.   -2.  ]]
<class 'numpy.ndarray'>


* Numpy array -> DataFrame

In [5]:
# ex
df2 = pd.DataFrame(data.to_numpy(), columns=['one', 'two', 'three'])
df2

Unnamed: 0,one,two,three
0,1.0,0.01,-1.5
1,2.0,-0.01,0.0
2,3.0,0.25,3.6
3,4.0,-4.1,1.3
4,5.0,0.0,-2.0


* 전체 넘파이 ndarray에서 일부 배열만 선택

In [7]:
# ex
df3 = data.copy()
print(df3.to_numpy()) # 파이썬 객체  ndarray

# 독립변수 X (2차원 배열)설정? 
df_X = df3.to_numpy()[:, :2] # 열을 나타내주는 것 0,1
print(df_X)
print(type(df_X))

# 종속변수 Y 설정? (2차원 벡터, 배열)

df_y = df3.to_numpy()[:, -1]
print(df_y)
print(type(df_y))

[[ 1.    0.01 -1.5 ]
 [ 2.   -0.01  0.  ]
 [ 3.    0.25  3.6 ]
 [ 4.   -4.1   1.3 ]
 [ 5.    0.   -2.  ]]
[[ 1.    0.01]
 [ 2.   -0.01]
 [ 3.    0.25]
 [ 4.   -4.1 ]
 [ 5.    0.  ]]
<class 'numpy.ndarray'>
[-1.5  0.   3.6  1.3 -2. ]
<class 'numpy.ndarray'>


# 7.5 범주형 데이터(p.325)

* 모델링을 위한 더미 변수 생성하기
  * 통계나 머신러닝 도구를 사용하다 보면 범주형 데이터를 원-핫 인코딩(one-hot encoding)이라고 부르는 더미 변수(가변수, dummy variable)로 변환
  * 범주를 열로 갖는 DataFrame을 생성하는데, 각 열에는 해당 범주의 발생 여부에 따라 0과 1의 값을 갖는다.

* pd.Categorical() 함수
  *  판다스 시리즈나 데이터프레임에서 범주형 데이터 타입을 생성하는 데 사용
  

In [9]:
# ex
data = pd.DataFrame({
    'x0': [1, 2, 3, 4, 5],
    'x1': [0.01, -0.01, 0.25, -4.1, 0.],
    'y': [-1.5, 0., 3.6, 1.3, -2.]})

data['category'] = pd.Categorical(['a', 'b', 'a', 'a', 'b'],
                                  categories=['a', 'b'])
data

Unnamed: 0,x0,x1,y,category
0,1,0.01,-1.5,a
1,2,-0.01,0.0,b
2,3,0.25,3.6,a
3,4,-4.1,1.3,a
4,5,0.0,-2.0,b


* pd.get_dummies() 함수
  * 판다스에서 범주형 데이터를 원-핫 인코딩된 피처로 변환하는 데 사용.
  * 원-핫 인코딩은 범주형 데이터를 일련의 이진 피처로 나타내는 기술  
  * 인자
    * prefix: 이 옵션은 원-핫 인코딩된 피처 이름에 사용할 접두사를 지정 

* 원-핫 인코딩은 다음과 같은 다양한 작업에 유용.
  * 머신러닝: 원-핫 인코딩된 피처를 사용하여 머신러닝 모델을 학습할 수 있다.
  * 데이터 분석: 원-핫 인코딩된 피처를 사용하여 범주형 데이터에 대한 통계 분석을 수행할 수 있다.
  * 데이터 시각화: 원-핫 인코딩된 피처를 사용하여 정보성이 풍부하고 시각적으로 매력적인 시각화를 만들 수 있다.
  

In [10]:
dummies = pd.get_dummies(data.category, prefix='category',
                         dtype=float)
print(dummies)
print()

data_with_dummies = pd.concat([data.drop('category', axis=1), dummies], axis =1)

data_with_dummies

   category_a  category_b
0         1.0         0.0
1         0.0         1.0
2         1.0         0.0
3         1.0         0.0
4         0.0         1.0



Unnamed: 0,x0,x1,y,category_a,category_b
0,1,0.01,-1.5,1.0,0.0
1,2,-0.01,0.0,0.0,1.0
2,3,0.25,3.6,1.0,0.0
3,4,-4.1,1.3,1.0,0.0
4,5,0.0,-2.0,0.0,1.0


## 12.3 statsmodels 소개
* https://www.statsmodels.org
* 다양한 종류의 통계 모델 피팅, 통계 테스트 수행, 데이터 탐색, 시각화를 위한 파이썬 라이브러리
* pip install statsmodels
* import statsmodels.api as sm
* import statsmodels.formula.api as smf
* statsmodels 모델
  * 선형 모델, 일반 선형 모델, 로버스트 선형 모델
  * 선형 혼합 효과 모델
  * 분산분석ANOVA 메서드
  * 시계열 처리 및 상태공간 모델   ( 구글에서 시계열 데이터 만듦!)
  

In [17]:
# 라이브러리 설치
! pip install statsmodels

Collecting statsmodels
  Downloading statsmodels-0.14.2-cp311-cp311-win_amd64.whl.metadata (9.5 kB)
Collecting numpy>=1.22.3 (from statsmodels)
  Using cached numpy-1.26.4-cp311-cp311-win_amd64.whl.metadata (61 kB)
Collecting scipy!=1.9.2,>=1.8 (from statsmodels)
  Downloading scipy-1.13.0-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.6 kB ? eta -:--:--
     ---------------------------------------- 60.6/60.6 kB 1.6 MB/s eta 0:00:00
Collecting pandas!=2.1.0,>=1.4 (from statsmodels)
  Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Using cached patsy-0.5.6-py2.py3-none-any.whl.metadata (3.5 kB)
Collecting packaging>=21.3 (from statsmodels)
  Using cached packaging-24.0-py3-none-any.whl.metadata (3.2 kB)
Collecting python-dateutil>=2.8.2 (from pandas!=2.1.0,>=1.4->statsmodels)
  Using cached python_dateutil-2.9.0.post0-py2.py3-none-any.whl.metadata (8.4 kB)
Collecting pytz>=

ERROR: Could not install packages due to an OSError: [WinError 32] 다른 프로세스가 파일을 사용 중이기 때문에 프로세스가 액세스 할 수 없습니다: 'C:\\2024_1sem\\bigdata\\python_basic_2\\python_basic_1\\venv\\Lib\\site-packages\\scipy\\ndimage\\tests\\test_fourier.py'
Check the permissions.



Collecting statsmodels
  Using cached statsmodels-0.14.2-cp311-cp311-win_amd64.whl.metadata (9.5 kB)
Collecting numpy>=1.22.3 (from statsmodels)
  Using cached numpy-1.26.4-cp311-cp311-win_amd64.whl.metadata (61 kB)
Collecting scipy!=1.9.2,>=1.8 (from statsmodels)
  Using cached scipy-1.13.0-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting pandas!=2.1.0,>=1.4 (from statsmodels)
  Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Using cached patsy-0.5.6-py2.py3-none-any.whl.metadata (3.5 kB)
Collecting packaging>=21.3 (from statsmodels)
  Using cached packaging-24.0-py3-none-any.whl.metadata (3.2 kB)
Collecting python-dateutil>=2.8.2 (from pandas!=2.1.0,>=1.4->statsmodels)
  Using cached python_dateutil-2.9.0.post0-py2.py3-none-any.whl.metadata (8.4 kB)
Collecting pytz>=2020.1 (from pandas!=2.1.0,>=1.4->statsmodels)
  Using cached pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas

ERROR: Could not install packages due to an OSError: [WinError 32] 다른 프로세스가 파일을 사용 중이기 때문에 프로세스가 액세스 할 수 없습니다: 'C:\\2024_1sem\\bigdata\\python_basic_2\\python_basic_1\\venv\\Lib\\site-packages\\pandas\\io\\spss.py'
Check the permissions.



Collecting statsmodels
  Using cached statsmodels-0.14.2-cp311-cp311-win_amd64.whl.metadata (9.5 kB)
Collecting scipy!=1.9.2,>=1.8 (from statsmodels)
  Using cached scipy-1.13.0-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting pandas!=2.1.0,>=1.4 (from statsmodels)
  Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Using cached patsy-0.5.6-py2.py3-none-any.whl.metadata (3.5 kB)
Collecting python-dateutil>=2.8.2 (from pandas!=2.1.0,>=1.4->statsmodels)
  Using cached python_dateutil-2.9.0.post0-py2.py3-none-any.whl.metadata (8.4 kB)
Using cached statsmodels-0.14.2-cp311-cp311-win_amd64.whl (9.9 MB)
Using cached pandas-2.2.2-cp311-cp311-win_amd64.whl (11.6 MB)
Using cached patsy-0.5.6-py2.py3-none-any.whl (233 kB)
Using cached scipy-1.13.0-cp311-cp311-win_amd64.whl (46.2 MB)
Using cached python_dateutil-2.9.0.post0-py2.py3-none-any.whl (229 kB)
Installing collected packages: scipy, python-dateutil, patsy, pandas, statsm

### 12.3.1 선형 회귀 모델 예측하기 : OLS
* 선형 회귀 모델 알고리즘 :  최소제곱법(OLS; Ordinary Least Squares)
* API 모듈 임포트해 사용

In [19]:
import statsmodels.api as sm

* np.c_[a1, a2, ..., aN]
  * 여러 개의 배열을 하나의 배열로 결합해야 하는 경우


In [21]:
#ex : 데이터 생성 : 두 개의 리스트 -> 두 개의 이차원 배열
a = np.array([[1, 2]]) # (1,2) 하나의 샘플에 컬럼이 2개! -> 배열
print(a.shape) #(1, 2)
print(a)

b = np.array([[5, 6]]) # (1,2)  ###기말고사 출제 가능 !!!!!!

c = np.c_[a,b] # (1,4)
print(c)

(1, 2)
[[1 2]]
[[1 2 5 6]]


* np.dot(A, B) 함수
  * 두 개의 벡터를 곱하여 내적을 계산할 때
  * 두 개의 행렬을 곱하여 행렬 곱셈을 수행할 때
  * 행렬과 벡터를 곱하여 행렬-벡터 곱셈을 수행할 때

In [22]:
# 두 개의 벡터를 곱하여 내적을 계산
a = np.array([1, 2])
b = np.array([3, 4])
c = np.dot(a, b) #dot 는 내적을 의미한다! # elementwise multiplication
print(c)  # 출력: 11 = 1*3 + 2*4

# 두 개의 행렬을 곱하여 행렬 곱셈을 수행
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
c = np.dot(a, b)
print(c)  # 출력: [[19 22]
         # [43 50]]

# 행렬과 벡터를 곱하여 행렬-벡터 곱셈을 수행
a = np.array([[1, 2], [3, 4]])
b = np.array([5, 6])
c = np.dot(a, b)
print(c)  # 출력: [17 39]

11
[[19 22]
 [43 50]]
[17 39]


### [예제] p.541
* 무작위 데이터로 선형 회귀 모델 생성

In [29]:
# # 1. Numpy data 생성
# # 시드를 설정하면 난수 생성기가 항상 같은 순서로 난수를 생성
# rng = np.random.RandomState(12345)

# def dnorm(mean, variance, size=1): #정규 분포에서 난수를  생성하는 helper 함수
#     if isinstance(size, int):
#         size = size    
#     return mean + np.sqrt(variance) * rng.standard_normal(*size)

# N = 100
# # 3개의 features과 100개의 sample으로 구성된 행렬 X
# X = np.c_[dnorm(0, 0.4, size=N),
#           dnorm(0, 0.6, size=N),
#           dnorm(0, 0.2, size=N)]
# eps = dnorm(0, 0.1, size=N)
# W = [0.1, 0.3, 0.5]

# # 선형 회귀 모델을 생성.
# # X 행렬은 독립 변수이고, y 변수는 종속 변수이며, W 리스트는 회귀 계수
# # eps는 오차항
# y = np.dot(X,W) + eps

# X[:10], y[:10]

import numpy as np

# 시드를 설정하여 난수 생성기가 항상 같은 순서로 난수를 생성하게 함
rng = np.random.RandomState(12345)

# 정규 분포에서 난수를 생성하는 helper 함수
def dnorm(mean, variance, size=1):
    if isinstance(size, int):
        size = (size,)  # 정수형 size를 튜플로 변환
    return mean + np.sqrt(variance) * rng.standard_normal(size)

N = 100

# 3개의 features과 100개의 sample로 구성된 행렬 X 생성
X = np.c_[dnorm(0, 0.4, size=N),
          dnorm(0, 0.6, size=N),
          dnorm(0, 0.2, size=N)]

# 오차항 생성
eps = dnorm(0, 0.1, size=N)

# 회귀 계수 설정
W = [0.1, 0.3, 0.5]

# 선형 회귀 모델을 생성
y = np.dot(X, W) + eps

# 첫 10개의 샘플과 종속 변수 출력
X[:10], y[:10]
X.shape
y.shape

(100,)

In [30]:
dnorm(0, 0.4, size=N).shape  # (100,)
X.shape # (100, 3)
print(y.shape) #(100,)

(100,)


In [31]:
# case1) import statsmodels.api as sm
# 기존 행렬  X에  Intercept열을 더하기
dfX = sm.add_constant(X)
# 2. 최소제곱법 선형회휘 모형 선택
model_1 = sm.OLS(y, dfX)

In [37]:
# 3. 모형 학습
## fit 메서드 : 선형 회귀 모형 추정
results_1 = model_1.fit() #추정 결과는 별도의 RegressionResults 클래스 객체로 반환

In [40]:
# 선형회귀 모형의 가중치
results_1.params

array([0.0336, 0.1761, 0.2248, 0.5148])

In [49]:
# 선형회귀 모형의 오차
print(results_1.resid) #오차 출력
results_1.resid.size # 총 데이터 개수

[ 0.4302 -0.5316 -0.1321 -0.1664 -0.0284 -0.0375  0.4617 -0.7051 -0.3893
 -0.1521  0.2086  0.3436 -0.0255 -0.0158 -0.0661 -0.2467  0.1947 -0.1537
  0.5898  0.339  -0.1691  0.0939  0.4987  0.0253 -0.3201  0.0492  0.3629
 -0.5404 -0.1011 -0.3273 -0.0318 -0.5598 -0.1888  0.9308 -0.1796 -0.2499
  0.3117 -0.4326  0.1945  0.302   0.2525 -0.2028 -0.2231  0.4576  0.0635
  0.3116  0.131  -0.1672 -0.0316 -0.4186 -0.1442 -0.3627  0.2999  0.0267
  0.3229  0.2328 -0.116  -0.248  -0.2104  0.3686  0.0524 -0.0086  0.1783
 -0.3176 -0.1973  0.5159 -0.5465 -0.179   0.505   0.016  -0.617  -0.4508
  0.4967  0.0315 -0.1051 -0.2062 -0.1989  0.0015 -0.3857  0.6137  0.1102
 -0.0574 -0.4171 -0.2549  0.6819 -0.0165  0.5501 -0.6192 -0.2894  0.078
 -0.0489  1.0592 -0.0517  0.1518 -0.1087  0.0241 -0.3282  0.3336 -0.0314
  0.1081]


100

In [50]:
results_1.summary() #결과 리포트용 summary 메서드

0,1,2,3
Dep. Variable:,y,R-squared:,0.435
Model:,OLS,Adj. R-squared:,0.418
Method:,Least Squares,F-statistic:,24.68
Date:,"Wed, 22 May 2024",Prob (F-statistic):,6.37e-12
Time:,15:46:02,Log-Likelihood:,-33.835
No. Observations:,100,AIC:,75.67
Df Residuals:,96,BIC:,86.09
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.0336,0.035,0.952,0.343,-0.036,0.104
x1,0.1761,0.053,3.320,0.001,0.071,0.281
x2,0.2248,0.046,4.851,0.000,0.133,0.317
x3,0.5148,0.082,6.304,0.000,0.353,0.677

0,1,2,3
Omnibus:,4.504,Durbin-Watson:,2.223
Prob(Omnibus):,0.105,Jarque-Bera (JB):,3.957
Skew:,0.475,Prob(JB):,0.138
Kurtosis:,3.222,Cond. No.,2.38


In [51]:
# 학습 선형 회귀 모형을 이용하여 다음 새로운 데이터에 대해 예측하기
new_data = [0, -0.1295, -1.2128, 0.5042]
results_1.predict([[0,  -0.1295, -1.2128,  0.5042]]) # 새로운 xnew 값에 대응하는 y 값을 예측할 수 있다.

array([-0.0359])

# 수요일로 넘어가!