# Ch03-01 기계학습이란

In [1]:
### 기계학습 ###

# 인공지능의 한 분야
# 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발

# 표현(representation); 데이터의 평가(규칙)
# 일반화(generalization); 아직 알 수 없는 데이터에 대한 처리(예측)

# 데이터마이닝 - 응용을 목적(경영)
# 기계학습 - 예측을 목적(컴퓨터공학)

# 프로그래밍; 규칙과 데이터 -> 해답(연역적 방법)
# 기계학습; 데이터와 해답 -> 규칙(귀납적 방법)

In [2]:
### 모라벡의 역설 ###

# 어려운 것은 쉽고 쉬운 것은 어렵다

#사람에게 쉬운 것; 지각, 인지
# AI가 쉬운 것; 저장, 계산

# 이제는 AI도 지각, 인지 가능

In [3]:
### 인공지능의 발전 ###

# AI -> 머신러닝 -> 딥러닝(특히 요즘, DNN)

In [4]:
### 분석방법 ###

# Supervised Learning; 정답 존재, 바로바로 피드백을 받으면서 학습(분류, 예측) 
# Unsupervised Learning; 정답이 없음(군집분석, 연관규칙)
# Reinforcement Learning; 정답을 모름, '보상'통한 학습 

# *분류; 퍼셉트론, 로지스틱 회귀, SVM, 분류나무, 랜덤포레스트, KNN, 신경망, 나이브베이즈분류기, 앙상블
# 예측; 선형회귀, KNN, 회귀나무, 신경망, 앙상블
# 딥러닝; 합성곱신경망(CNN), 순환신경망(RNN)
# 비지도학습; 군집분석, 연관규칙, 텍스트마이닝 

# Ch03-02 기계학습 분석절차

In [5]:
### 분석절차 방법론 ###

# SEMMA 
# by SAS
# sampling, exploration, modification, modeling, assessment

# CRISP-DM 
# by IBM
# 비지니스 이해, 데이터 이해, 데이터 준비, 모델링, 평가 -> 반복

In [6]:
### Python 기계학습 데이터 분석절차 ###

# 1. 기본 package 설정
# 2. 데이터 가져오기; 데이터프레임으로 저장, *data와 target으로 분리(X, y로 분리)
# 3. 데이터 전처리; data(X) 레이블 인코딩, Class(target) 레이블 인코딩(범주형 변수 처리, 데이터 정규화 등)
# 4. 훈련/검증용 데이터 분할
# 5. 모델 구축
# 6. 모델 검정; 검증용 데이터로 예측, 정오분류표로 검정, 정확도/민감도 확인, ROC곡선 그리기
# 7. 최적화; 교차검정, 학습 곡선, 검증 곡선, 하이퍼파라미터 튜닝

# *R과 Python의 confusion matrix; 둘이 조금 다르므로 주의
# Pipeline; 변환기와 추정기 연결, 여러 개의 변환 단계를 거쳐야 할 경우 이용
# 교차검정(cv); 홀드아웃 교차검정, K-fold 교차검정 

# Ch03-03 기본 데이터 분석

In [19]:
### 1. 기본 package 설정 ###

# 1. 기본
import numpy as np # numpy 패키지 가져오기
import matplotlib.pyplot as pit # 시각화 패키지 가져오기

# 2. 데이터 가져오기
import pandas as pd # csv -> dastaframe으로 변환해서 가져오기
from sklearn import datasets # python 저장 데이터 가져오기

# 3. 데이터 전처리
from sklearn.preprocessing import StandardScaler # 연속변수의 표준화
from sklearn.preprocessing import LabelEncoder # 범주형 변수 수치화

# 4. 훈련/검증용 데이터 분리
from sklearn.model_selection import train_test_split # 훈련/검증데이터 분리

# 5. 분류모델구축
from sklearn.tree import DecisionTreeClassifier # 결정트리
from sklearn.naive_bayes import GaussianNB # 나이브 베이즈
from sklearn.neighbors import KNeighborsClassifier # K-근접 이웃
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트
from sklearn.ensemble import BaggingClassifier # 앙상블
from sklearn.linear_model import Perceptron # 퍼셉트론
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀
from sklearn.svm import SVC # 서포트벡터머신
from sklearn.neural_network import MLPClassifier # 다중인공신경망

# 6. 모델검정
from sklearn.metrics import confusion_matrix, classification_report # 정오분류표
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, make_scorer # 정확도, 민감도 등
from sklearn.metrics import roc_curve # ROC 곡선 그리기

# 7. 최적화
from sklearn.model_selection import cross_validate # 교차타당도
from sklearn.pipeline import make_pipeline # 파이프랑니 구축
from sklearn.model_selection import learning_curve, validation_curve # 학습곡선, 검증곡선
from sklearn.model_selection import GridSearchCV # 하이퍼파라미터 튜닝

In [34]:
### 2. 데이터 가져오기 ###

# 2-1. 데이터프레임으로 저장

# 원본데이터(csv)를 dataframe 형태로 가져오기 by pandas

rm_df = pd.read_csv('hitters.csv')
rm_df.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,Salary,NewLeague
0,315,81,7,24,38,39,14,3449,835,69,321,414,375,N,W,632,43,10,475.0,N
1,479,130,18,66,72,76,3,1624,457,63,224,266,263,A,W,880,82,14,480.0,A
2,496,141,20,65,78,37,11,5628,1575,225,828,838,354,N,E,200,11,3,500.0,N
3,321,87,10,39,42,30,2,396,101,12,48,46,33,N,E,805,40,4,91.5,N
4,594,169,4,74,51,35,11,4408,1133,19,501,336,194,A,W,282,421,25,750.0,A


In [35]:
rm_df.shape # 자료구조 살펴보기

(263, 20)

In [33]:
rm_df.keys() # column명 확인; 변수명을 쉽게 가져오기위한 셋팅  

Index(['lcavol', 'lweight', 'age', 'lbph', 'svi', 'lcp', 'gleason', 'pgg45',
       'lpsa', 'train'],
      dtype='object')

In [36]:
# 2-2. data와 target으로 분리 

# 필요한 데이터만 추출
# data: X, target: y로 분리

X = rm_df.drop(['Hits'], axis=1) # axis=1; 열을 중심으로 
X.head()

Unnamed: 0,AtBat,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,Salary,NewLeague
0,315,7,24,38,39,14,3449,835,69,321,414,375,N,W,632,43,10,475.0,N
1,479,18,66,72,76,3,1624,457,63,224,266,263,A,W,880,82,14,480.0,A
2,496,20,65,78,37,11,5628,1575,225,828,838,354,N,E,200,11,3,500.0,N
3,321,10,39,42,30,2,396,101,12,48,46,33,N,E,805,40,4,91.5,N
4,594,4,74,51,35,11,4408,1133,19,501,336,194,A,W,282,421,25,750.0,A


In [37]:
y = rm_df['Hits']
y.head()

0     81
1    130
2    141
3     87
4    169
Name: Hits, dtype: int64