## 버전 다운그레이드
!pip uninstall scikit-learn <br>
!pip install scikit-learn==1.2.2

### 문제정의
- 손글씨 숫자(0~9)를 분류하는 모델을 만들어보자
- 이미지 데이터의 형태를 이해해보자

### 데이터 수집

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 데이터 가져오기
data = pd.read_csv('data/digit_train.csv')

In [None]:
# 데이터 크기 확인
data.shape

In [None]:
data.head()
# label : 정답
# pixel0~ pixel783 : 문제 (28 * 28 이미지 데이터)

In [None]:
# 데이터 시각화 --> 이미지 데이터로 첫번째 행의 label을 제외한 모든 컬럼 가져오기
img0 = data.iloc[0, 1 :]
img0.shape

In [None]:
img0.values

In [None]:
# 리스트 자료형을 28*28의 2차원으로 변환
img0_reshape = img0.values.reshape(28,28)

In [None]:
# img0 이미지 하나를 그려보기
plt.imshow(img0_reshape, cmap='gray')

In [None]:
# 7777행의 데이터 꺼내와서 - 값 확인 - 2차원 변환 - 이미지 그려보기 - 어떤 숫자인지 확인

In [None]:
img7777 = data.iloc[7777, 1 :]
img7777_reshape = img7777.values.reshape(28,28)
plt.imshow(img7777_reshape, cmap='gray')
# plt.show() # 불필요한 text 정보를 출력하지 않는 코드

### 학습을 위한 데이터 분리
- 학습 7 테스트 3
- random_state : 7

In [None]:
X = data.iloc[:, 1 : ]   # 문제 - 2차원 데이터프레임 형태 [[ ]]
y = data.iloc[:, 0]   # 정답 - 1차원 시리즈 형태

In [None]:
# 크기 확인
X.shape, y.shape

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=7)

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

### 모델 선택
- KNN
- Logistic Regression
- SVM

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

# 모델 생성
knn_model = KNeighborsClassifier()
logi_model = LogisticRegression()
svm_model = LinearSVC()

### 학습 및 평가

In [None]:
# 학습
knn_model.fit(X_train, y_train)
logi_model.fit(X_train, y_train)
svm_model.fit(X_train, y_train)

# 평가
print('KNN : ', knn_model.score(X_test, y_test))
print('Logistic : ', logi_model.score(X_test, y_test))
print('SVM : ', svm_model.score(X_test, y_test))

### 데이터 스케일링 적용
- 이미지 픽셀 정보 : 0~255로 최소/최대가 고정되어 잇는 데이터
- MinMaxScaler를 사용하여 0~1 사이의 값으로 모든 픽셀을 조정
- 스케일링의 효과 확인하기
    - 학습(연산) 속도 개선
    - 거리 기반으로 예측하는 KNN 모델 ==> 거의 변화가 없었음.
- KNN 모델 : 모든 데이터의 대한 거리를 계산, 데이터가 많을수록 속도가 느려짐

In [None]:
from sklearn.

In [None]:
scaler = MinMaxScaler() # 0~1 사이로 변환

In [None]:
scaler.fit(X_train)

In [None]:
X_train

In [None]:
# 문제데이터에 스케일링 적용
X_train_scale = scaler.transform(X_train)
X_test_scale = scaler.transform(X_test)