# 지도학습(분류)
- 데이터 분석 프로세스
  - 데이터 수집 -> 데이터 탐색 및 준비 -> 모델 훈련 -> 모델 성능 평가 -> 모델 성능 개선
- KNN(K최근접이웃)
  - 제일 먼저 K개의 같은 범주로 구분되는 쪽으로 데이터 샘플을 분류하는 방식의 기법
  - 장점
    - 단순하고 효율적, 직관적
    - 분포에 대한 가정이 없음
    - 훈련이 빠름
  - 단점
    - 적절한 K를 선택 필요
- SVM(서포트벡터머신)
  - 초평면(하이퍼플래인) 기반으로 데이터를 분류하는 방식의 기법
    - 최대 마진 초평면(MMH, Maximum Margin Hyperplane)
  - 커널 함수(보통 RBF 함수)를 이용
  - 장점
    - 분류, 회귀 모두 적용 가능
    - 노이즈, 과적합에 영향이 거의 없음
  - 단점
    - 적절한 파라미터 조합 테스트 필요(커널 함수 등)
- DT(결정트리)
  - 트리 방식으로 데이터셋의 순수도를 최대화하는 방향으로 트리를 성장시키면서 분류하는 방식의 기법
    - C5.0, CART 알고리즘 등이 사용
  - 장점
    - 분류, 회귀 모두 적용 가능
    - 직관적으로 모델을 이해할 수 있음
  - 단점
    - 모델이 과적합, 과소적합되기 쉬움
- 배깅
  - 
- 부스팅
  - 
- 랜덤포레스트
  - 
- 나이브베이즈
- 로지스틱회귀



In [2]:
import pandas as pd
from datetime import datetime
from sklearn import metrics, model_selection

df = pd.read_csv('./data/weatherAUS.csv')

# 행과 열 개수 확인
# 142193개 관측치, 21개 변수
print(f'데이터 요약 확인\n shape={df.shape}\n columns={df.columns}')
print(f"컬럼별 NA 개수 확인\n{df.isnull().sum()}")

# 행에 NA가 하나만 있어도 삭제
df2 = df.dropna()

print(f"컬럼별 NA 개수 확인\n{df2.isnull().sum()} shape={df2.shape}\n columns={df2.columns}")

# NA값이 10000개 이상인 열을 제외
df3 = df.dropna(
    axis = 'columns' # 열을 제외
    , thresh =  142193 - 9999   # N개 이상의 non-NA값을 갖고 있는 것만 남김
                                # 즉, NA가 아닌 값이 (142193 - 9999) 개수만큼 되는 것만 남기는 것
)

# print(f'shape={df3.shape} columns={df3.columns} df3={df3.head()} describe={df3.describe()}')

# Date 변수를 Date형으로 변환(python datetime을 이용)
df3['Date'].apply(lambda x : datetime.strptime(x, '%Y-%m-%d'))

x_train, x_test, y_train, y_test = model_selection.train_test_split(
    df3[['MinTemp', 'MaxTemp', 'Rainfall', 'WindGustSpeed', 'WindSpeed9am', 'WindSpeed3pm', 'Humidity9am', 'Humidity3pm', 'Temp9am', 'Temp3pm']]
    , df3['RainTomorrow']
    , train_size = 0.7
    , test_size = 0.3
    , random_state = 0
)

# print(f"x_train={x_train.shape}, x_test={x_test.shape}, y_train={y_train.shape}, y_test={y_test.shape}")

#---------------------------------------------------------------------------------------
# Q2) train 데이터로 종속변수인 RainTomorrow(다음날의 강수 여부)를 예측하는 분류모델을 
#     3개 이상 생성하고 test 데이터에 대한 예측값을 csv파일로 각각 제출하시오.
#---------------------------------------------------------------------------------------
# K-NN, SVM, DT, 나이브베이즈, 로지스틱 회귀, ANN, 랜덤포레스트, 배깅, 부스팅

from sklearn.neighbors import KNeighborsClassifier

# KNN
model = KNeighborsClassifier()
model.fit(x_train, y_train)

print(f"train set accurate = {model.score(x_train, y_train):0.3f}")
print(f"test set accurate = {model.score(x_test, y_test):0.3f}")

# SVM
from sklearn.svm import SVC

model = SVC(kernel = 'rbf', C = 10, gamma = 0.1)
model.fit(x_train, y_train)

print(f"train set accurate = {model.score(x_train, y_train):0.3f}")
print(f"test set accurate = {model.score(x_test, y_test):0.3f}")

# DT
from sklearn import tree

model = tree.DecisionTreeClassifier()
model.fit(x_train, y_train)

tree.plot_tree(decision_tree = model)

print(f"train set accurate = {model.score(x_train, y_train):0.3f}")
print(f"test set accurate = {model.score(x_test, y_test):0.3f}")

# 랜덤포레스트
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators = 100)
model.fit(x_train, y_train)

print(f"train set accurate = {model.score(x_train, y_train):0.3f}")
print(f"test set accurate = {model.score(x_test, y_test):0.3f}")





데이터 요약 확인
 shape=(142193, 21)
 columns=Index(['Date', 'Location', 'MinTemp', 'MaxTemp', 'Rainfall', 'WindGustDir',
       'WindGustSpeed', 'WindDir9am', 'WindDir3pm', 'WindSpeed9am',
       'WindSpeed3pm', 'Humidity9am', 'Humidity3pm', 'Pressure9am',
       'Pressure3pm', 'Cloud9am', 'Cloud3pm', 'Temp9am', 'Temp3pm',
       'RainToday', 'RainTomorrow'],
      dtype='object')
컬럼별 NA 개수 확인
Date                 0
Location             0
MinTemp            637
MaxTemp            322
Rainfall          1406
WindGustDir       9330
WindGustSpeed     9270
WindDir9am       10013
WindDir3pm        3778
WindSpeed9am      1348
WindSpeed3pm      2630
Humidity9am       1774
Humidity3pm       3610
Pressure9am      14014
Pressure3pm      13981
Cloud9am         53657
Cloud3pm         57094
Temp9am            904
Temp3pm           2726
RainToday         1406
RainTomorrow         0
dtype: int64
컬럼별 NA 개수 확인
Date             0
Location         0
MinTemp          0
MaxTemp          0
Rainfall         0
WindG

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').