### 과대적합, 과소적합, 일반화
##### 과대적합(Overfitting)
- 훈련 세트에 너무 맞춰져 있어 테스트 세트에 성능 저하
- 규칙(패턴)이 너무 많거나, 특정 대상에게만 몰려있음을 으미ㅣ
- 학습을 너무 많이 했을 때 발생
- train score 상, test 중간정도

##### 과소적합(Underfitting)
- 훈련 세트를 충분히 반영하지 못해, 훈련세트/테스트세트 모두 성능 저하
- 규칙을 찾음에 있어서 규칙을 너무 못 찾음
- 학습을 너무 못했거나, 데이터가 충분하지 않은 경우
- train 하, test 하

##### 일반화(Generalization)
- 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는 것
- 규칙을 적당히 찾음
- train 중상, test중상

![image.png](attachment:image.png)

### 1. 문제정의

- knn 모델을 사용해서 붓꽃데이터(iris) 분류
    - 클래스:3ea

### 2. 데이터 수집

In [4]:
import pandas as pd
import matplotlib.pyplot as plt

# iris 데이터 불러오기(sklearn 제공)
from sklearn.datasets import load_iris

# 모델, 정확도 측정도 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

![image.png](attachment:image.png) 

In [6]:
#iris 데이터 확인
iris_data = load_iris()
# 번치(다발) 객체(딕셔너리 활용) -> sklearn에서 제공되는 데이터셋

In [7]:
iris_data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [8]:
iris_data['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [9]:
iris_data['feature_names']
# sepal length (cm) : 꽃받침 길이
# sepal width (cm) : 꽃받침 너비
# petal length (cm) : 꽃잎 길이
# petal width (cm) : 꽃잎 너비

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [10]:
# 데이터 기술통계량(요약정보) 확인
iris_data['DESCR']



In [11]:
iris_data['data']

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

### 3. EDA

### 4. 데이터 전처리

In [13]:
iris_df = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [14]:
# 데이터 분리
X = iris_df
y = iris_data['target']

In [16]:
y
# y데이터를 확인해보니, 클래스가 편향되어 있음
# 이 상태로 분할할 경우 과적합일 확률이 높음

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [20]:
# 데이터 분리 도구
from sklearn.model_selection import train_test_split
# train 셋과 test 셋으로 분리하는 도구

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, 
                                                    random_state = 2024,
                                                   staratify = y)

# test_size : 테스트 셋의 비율
# random_state : 랜덤 샘플링 결과 고정(난수 고정)
# stratify(분류시에만 활용) : y 클래스 비율을 동일한 비율로 분할
# -> train과 test간 클래스 균형을 이루기 위함

TypeError: got an unexpected keyword argument 'staratify'

In [19]:
X_train.shape, X_texst.shape, y_train.shape, y_test.shape

NameError: name 'X_train' is not defined

### 5. 모델 선택 및 하이퍼파라미터

### 6. 모델학습

### 7. 모델평가