# 데이터 분석 프로세스

- 초기화 및 파이썬 모듈 로딩
    - sklearn => 머신러닝
    - scipy => 수치 계산
    - pandas => 데이터 로딩, 수치 계산
    - numpy => 수치 계산
    - matplotlib => 시각화
- 데이터 수집
- 데이터 탐색 및 준비
    - 결측치, 이상치에 대한 처리
    - 추가 변수에 대한 처리
    - 훈련데이터와 테스트데이터로 분리
- 모델 훈련
    - 정형데이터분석(sklearn 기준, fit -> predict -> score)
        - 지도학습 ⇒ 타겟 변수가 존재
            - 분류
                - 의사결정나무 
                  - 분류, 회귀 둘다 사용 가능
                  - 이해쉽지만, 과대적합 가능성 크고, 경계면의 데이터 분류가 잘못될 수 있음
                - 앙상블(배깅,부스팅,랜덤포레스트)
                  - 랜덤포레스트 
                    - 성능 우수(결정트리 여러개 사용), 차원높고 희소한 데이터에는 잘 동작 안함
                  - 부스팅
                    - 랜포와 유사하게 성능 우수하나, 훈련 시간이 오래 걸림, 매개변수 튜닝이 중요
                  - 배깅
                - SVM(초평면, 커널함수)
                - k-NN
                - ANN
                - 로지스틱회귀
                - 나이브베이즈
            - 예측
                - 선형회귀
                    - 단순선형회귀
                    - 다중선형회귀
                    - 릿지 회귀
                    - 라쏘 회귀
                    - 엘라스틱넷 회귀
                - 비선형회귀
                    - 다항회귀(polynomial regression)
        - 비지도학습 ⇒ 타겟 변수 미존재
            - 군집
                - 계층적군집
                - 비계층적군집
                - 혼합분포군집
            - 연관분석(장바구니분석)
    - 비정형데이터분석
        - 텍스트마이닝
- 모델 성능 평가
    - 분류
        - 정오분류표(혼동행렬) ⇒ accuracy가 1에 가까울수록 좋은 모델
        - ROC/AUC ⇒ AUC가 1에 가까울수록 좋은 모델
    - 예측 ⇒ MAE, RMSE
- 모델 성능 개선

In [1]:
# 랜덤포레스트 기반 데이터 분석
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn import metrics, model_selection
from sklearn.ensemble import RandomForestClassifier

# 데이터 수집
# as_frame은 디폴트가 False이며, True로 해야만 data.frame로 pandas 데이터 프레임 추출 가능
# return_X_y값은 디폴트가 False이며, True로 해야만 입력, 종속변수를 파이썬 객체로 획득 가능
raw_data = datasets.load_breast_cancer(as_frame = True)

# pandas 데이터프레임 획득
df_data = raw_data.data
df_target = raw_data.target

# 행과 열수 확인(index가 있으면 열수에서는 제외됨에 주의)
print(f"type={type(df_data)}, data shape={df_data.shape}, target shape={df_target.shape}")

# 데이터 일부 확인
# print(df_data.head())

# 데이터 탐색 및 준비
# 홀드아웃 방식 데이터 분할 = train : test = 8 : 2
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
x_train, x_test, y_train, y_test = model_selection.train_test_split(
    df_data # 독립 변수
    , df_target # 종속 변수
    , train_size = 0.8 # 훈련 데이터 개수
    , test_size = 0.2 # 테스트 데이터 개수
    , random_state=0
)

print(f"x_train={len(x_train)}, x_test={len(x_test)}, y_train={len(y_train)}, y_test={len(y_test)}")

# 모델 훈련
# 트리의 개수를 100개 사용하도록 지정
classifier = RandomForestClassifier(n_estimators = 100, random_state = 0)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")

# 모델 성능 개선



type=<class 'pandas.core.frame.DataFrame'>, data shape=(569, 30), target shape=(569,)
x_train=455, x_test=114, y_train=455, y_test=114
train set accuracy=1.000
test set accuracy=0.965


In [6]:
# 그래디언트 부스팅 기반 데이터 분석
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn import metrics, model_selection
from sklearn.ensemble import GradientBoostingClassifier

# 데이터 수집
# as_frame은 디폴트가 False이며, True로 해야만 data.frame로 pandas 데이터 프레임 추출 가능
# return_X_y값은 디폴트가 False이며, True로 해야만 입력, 종속변수를 파이썬 객체로 획득 가능
raw_data = datasets.load_breast_cancer(as_frame = True)

# pandas 데이터프레임 획득
df_data = raw_data.data
df_target = raw_data.target

# 행과 열수 확인(index가 있으면 열수에서는 제외됨에 주의)
print(f"type={type(df_data)}, data shape={df_data.shape}, target shape={df_target.shape}")

# 데이터 일부 확인
# print(df_data.head())

# 데이터 탐색 및 준비
# 홀드아웃 방식 데이터 분할 = train : test = 8 : 2
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
x_train, x_test, y_train, y_test = model_selection.train_test_split(
    df_data # 독립 변수
    , df_target # 종속 변수
    , train_size = 0.8 # 훈련 데이터 개수
    , test_size = 0.2 # 테스트 데이터 개수
    , random_state=0
)

print(f"x_train={len(x_train)}, x_test={len(x_test)}, y_train={len(y_train)}, y_test={len(y_test)}")

# 모델 훈련
# 디폴트 인자는 깊이 3인 트리 100개, 학습률 0.1 적용
classifier = GradientBoostingClassifier(random_state = 0)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")

# 모델 성능 개선

# 트리의 깊이를 조정해서 과대적합을 방지 가능
classifier = GradientBoostingClassifier(random_state = 0, max_depth = 1)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")

# 
classifier = GradientBoostingClassifier(random_state = 0, max_depth = 1)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")


type=<class 'pandas.core.frame.DataFrame'>, data shape=(569, 30), target shape=(569,)
x_train=455, x_test=114, y_train=455, y_test=114
train set accuracy=1.000
test set accuracy=0.965
train set accuracy=0.991
test set accuracy=0.974


In [9]:
# 배깅 기반 데이터 분석
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn import metrics, model_selection
from sklearn.ensemble import BaggingClassifier

# 데이터 수집
# as_frame은 디폴트가 False이며, True로 해야만 data.frame로 pandas 데이터 프레임 추출 가능
# return_X_y값은 디폴트가 False이며, True로 해야만 입력, 종속변수를 파이썬 객체로 획득 가능
raw_data = datasets.load_breast_cancer(as_frame = True)

# pandas 데이터프레임 획득
df_data = raw_data.data
df_target = raw_data.target

# 행과 열수 확인(index가 있으면 열수에서는 제외됨에 주의)
print(f"type={type(df_data)}, data shape={df_data.shape}, target shape={df_target.shape}")

# 데이터 일부 확인
# print(df_data.head())

# 데이터 탐색 및 준비
# 홀드아웃 방식 데이터 분할 = train : test = 8 : 2
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
x_train, x_test, y_train, y_test = model_selection.train_test_split(
    df_data # 독립 변수
    , df_target # 종속 변수
    , train_size = 0.8 # 훈련 데이터 개수
    , test_size = 0.2 # 테스트 데이터 개수
    , random_state=0
)

print(f"x_train={len(x_train)}, x_test={len(x_test)}, y_train={len(y_train)}, y_test={len(y_test)}")

# 모델 훈련
classifier = BaggingClassifier( random_state = 0)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")

# 모델 성능 개선

# 트리의 깊이를 조정해서 과대적합을 방지 가능
classifier = GradientBoostingClassifier(random_state = 0, max_depth = 1)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")

# 
classifier = GradientBoostingClassifier(random_state = 0, max_depth = 1)
classifier.fit(x_train, y_train)

print(f"train set accuracy={classifier.score(x_train, y_train):0.3f}")
print(f"test set accuracy={classifier.score(x_test, y_test):0.3f}")


type=<class 'pandas.core.frame.DataFrame'>, data shape=(569, 30), target shape=(569,)
x_train=455, x_test=114, y_train=455, y_test=114
train set accuracy=1.000
test set accuracy=0.939
train set accuracy=0.991
test set accuracy=0.974
train set accuracy=0.991
test set accuracy=0.974
