In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.display import Image

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important; }</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))


# 머신러닝 Start

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

# 사이킷런 (Scikit-learn)

- 머신러닝 교육을 위한 파이썬 패키지
- https://scikit-learn.org/stable/
- 데이터 전처리(preprocessing)
- 지도 학습(Supervised learning)
    - : KNN, Naive Bayes, Decision Trees, Support Vector Machine
- 비지도 학습(Unsupervised learning)
    - : Clustering, Gaussian mixture models
- 모형 평가 및 선택 (evaluation and selection)
    - : Cross validation, Model evaluation


| 모듈 | 설명 |
|------|------|
| `sklearn.datasets` | 내장된 예제 데이터 세트 |
| `sklearn.preprocessing` | 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등) |
| `sklearn.feature_selection` | 특징(feature)를 선택할 수 있는 기능 제공 | 
| `sklearn.feature_extraction` | 특징(feature) 추출에 사용 |
| `sklearn.decomposition` | 차원 축소 관련 알고리즘 지원 (PCA, NMF, Truncated SVD 등)
| `sklearn.model_selection` | 교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API 제공 (GridSearch 등)
| `sklearn.metrics` | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 (Accuracy, Precision, Recall, ROC-AUC, RMSE 등) |
| `sklearn.pipeline` | 특징 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공 |
| `sklearn.linear_model` | 선형 회귀, 릿지(Ridge), 라쏘(Lasso), 로지스틱 회귀 등 회귀 관련 알고리즘과 SGD(Stochastic Gradient Descent) 알고리즘 제공 |
| `sklearn.svm` | 서포트 벡터 머신 알고리즘 제공 |
| `sklearn.neighbors` | 최근접 이웃 알고리즘 제공 (k-NN 등)
| `sklearn.naive_bayes` | 나이브 베이즈 알고리즘 제공 (가우시안 NB, 다항 분포 NB 등) |
| `sklearn.tree` | 의사 결정 트리 알고리즘 제공 |
| `sklearn.ensemble` | 앙상블 알고리즘 제공 (Random Forest, AdaBoost, GradientBoost 등) |
| `sklearn.cluster` | 비지도 클러스터링 알고리즘 제공 (k-Means, 계층형 클러스터링, DBSCAN 등)

In [None]:
import sklearn

In [None]:
sklearn.__version__

# 머신러닝 과정 


- 모듈 임포트 
- 데이타 준비 (학습데이타)
- 데이타 전처리 
- 데이터 학습 (모델 클래스 선택 => 모델화)
- 학습 데이타(특징 행렬), 테스트 데이타(대상 벡터) 준비 
- 모델을 데이타에 적합(Model Fit)
- 데이터 예측 (테스트데이타 또는 새로운 데이타)
- 모델 평가 : 정답률. 에러률 

# XOR 연산 학습

- 두 값의 각 자릿수를 비교해, 값이 같으면 0, 다르면 1을 계산한다. 

In [None]:
# from sklearn.neighbors import KNeighborsClassifier
# from sklearn.tree import DecisionTreeClassifier
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

### 학습데이타 와 레이블 
```
xor_data =  [
     [0, 0, 0],
     [0, 1, 1],
     [1, 0, 1],
     [1, 1, 0]
 ]
```

In [None]:
X = [ [0,0], [0,1], [1,0], [1,1]]
y = [0, 1, 1, 0]

### 데이타 학습 -> 모델링

In [None]:
model = SVC()
model.fit(X, y)

In [None]:
model.get_params()

### 데이터 예측 

In [None]:
model.predict(X)

In [None]:
model.predict([[1,1]])

In [None]:
model.predict([[1,1],[0,0]])

### 모델 평가 : 결과 확인 

- 정답률과 에러률 
```
accuracy_score()
mean_squared_error()
```

In [None]:
from sklearn.metrics import accuracy_score, mean_squared_error

In [None]:
accuracy_score(y, model.predict(X))

In [None]:
mean_squared_error(y, y)

### XOR 연산 머신러닝 - 데이타프레임 활용

In [None]:
data =  [
    [0, 0, 0],
    [0, 1, 1],
    [1, 0, 1],
    [1, 1, 0]
]

In [None]:
df = pd.DataFrame(data)
df

In [None]:
X = df[[0,1]]
X

In [None]:
y = df[2]
y

In [None]:
model = SVC()
model.fit(X, y)

In [None]:
model.predict(X)

In [None]:
model.predict([[0,0], [1,0]])

In [None]:
result = accuracy_score(y, model.predict(X))
print(f'정답률은? {result*100} %')

In [None]:
# 정답률 
result = mean_squared_error(y, y)
print(f'에러률은? {result*100} %')