**데이터 분석 수행 과정**
1. **load dataset**
2. **set X, y**
  - X - 설명변수
  - y - 종속변수
3. **check data**
  - **X.info()**
    - 데이터 개수
    - 컬럼 개수
    - 결측 데이터 존재 유무
    - 데이터 타입
  - **X.describe()**
    - 데이터 개수
    - 평균
    - 표준편차
    - 최솟값
    - 최댓값
    - 4분위 수
    - 스케일(값의 범위)을 중점적으로 체크!
    - 컬럼 별 스케일 오차가 발생하는 경우 전처리 필요!
  - **y.value_counts()**
    - 각 범주별 데이터 개수 
  - **y.value_counts() / len(y)**
    - 각 범주별 데이터 개수 비율
    - 너무 적은 데이터 => 오버 샘플링
    - 너무 많은 데이터 => 언더 샘플링
4. **split data**
  - 머신러닝
    - 학습:테스트 = 8:2
  - 딥러닝
    - 학습:검증:테스트 = 6:2:2
    - 부분 배치 학습을 수행하며 점진적으로 학습량을 늘려가는 경우가 많음
    - 중간 점검의 의미로 검증 데이터를 활용 
  - **train_test_split(X, y, test_size, train_size, shuffle, stratify...)**
    - ```python
      from sklearn.model_selection import train_test_split
      X_train, X_test, y_train, y_test = train_test_split(X,y)
    ``` 
    - X - 설명변수
    - y - 종속변수
    - test_size - 테스트 데이터 비율
    - train_size - 학습 데이터 비율
    - shuffle - 데이터 셔플 여부
    - stratify - 범주형 데이터를 다룰 때 중요한 옵션으로, 종속 변수를 넣음으로써 클래스 비율을 유지
5. **preprocess data**
  - 스케일 처리
    - MinMaxScaler
    - StandardScaler
    - RobustScaler
  - 인코딩 처리
    - LabelEncoder
    - OrdinalEncoder
    - OnehotEncoder
  - 차원 축소
  - feature engineering 
6. **build model**
  - 모델 생성
  - 모델 학습
    - fit(X, y)
  - 모델 평가
    - score(X, y)
    - 분류 모델
      - 정확도를 반환
    - 회귀 모델
      - R2 Score를 반환 
  - 모델 예측
    - predict(X) 

**최근접 이웃 알고리즘 모델**
  - **KNeighborsClassifier(n_neighbors=5...)**
    - ```python
    from sklearn.neighbors import KNeighborsClassifier
    model = KNeighborsClassifier(n_neighbors=10)
    ```
    - 분류를 알 수 없는 데이터에 대하여, k개의 이웃 데이터 분류를 확인한 후 다수결에 의해 분류를 결정 
  -  **KNeighborsRegressor(n_neighbors=5...)**
    - ```python
    from sklearn.neighbors import KNeighborsRegressor
    model = KNeighborsRegressor(n_neighbors=10)
    ```
    - 값을 알 수 없는 데이터에 대하여, k개의 이웃 데이터 값을 확인한 후 평균 값으로 값을 결정 
  - 단점
    - 학습에 사용된 데이터 범위 내에서만 예측 가능 
  - 주의 사항
    - `k가 너무 큰 경우` => `과소적합 발생`
    - `k가 너무 작은 경우` => `과적합 발생`

## Lecture 01 - 데이터 분석 수행 과정 with KNeighborsClassifier

In [55]:
# import numpy and pandas
import numpy as np
import pandas as pd

pd.options.display.max_columns = 5
pd.options.display.max_rows = 10

In [56]:
# 1. load dataset
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()

In [57]:
# 2. set X, y
X = pd.DataFrame(data=data.data, columns=data.feature_names)
y = pd.Series(data=data.target)

print(X.head())

   mean radius  mean texture  ...  worst symmetry  worst fractal dimension
0        17.99         10.38  ...          0.4601                  0.11890
1        20.57         17.77  ...          0.2750                  0.08902
2        19.69         21.25  ...          0.3613                  0.08758
3        11.42         20.38  ...          0.6638                  0.17300
4        20.29         14.34  ...          0.2364                  0.07678

[5 rows x 30 columns]


In [58]:
# 3. check X, y
print(X.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 30 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

In [59]:
print(X.describe())

       mean radius  mean texture  ...  worst symmetry  worst fractal dimension
count   569.000000    569.000000  ...      569.000000               569.000000
mean     14.127292     19.289649  ...        0.290076                 0.083946
std       3.524049      4.301036  ...        0.061867                 0.018061
min       6.981000      9.710000  ...        0.156500                 0.055040
25%      11.700000     16.170000  ...        0.250400                 0.071460
50%      13.370000     18.840000  ...        0.282200                 0.080040
75%      15.780000     21.800000  ...        0.317900                 0.092080
max      28.110000     39.280000  ...        0.663800                 0.207500

[8 rows x 30 columns]


In [60]:
print(y.value_counts())

1    357
0    212
dtype: int64


In [61]:
print(y.value_counts() / len(y))

1    0.627417
0    0.372583
dtype: float64


In [62]:
# 4. split data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2)

print(len(X_train), len(X_test))
print(len(y_train), len(y_test))

455 114
455 114


In [63]:
# 5. preprocess data
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

print(X_train[:5])

[[0.27303706 0.23638823 0.26756962 0.14858961 0.5404893  0.28317281
  0.09090909 0.14885686 0.53535354 0.35531775 0.09846098 0.14206153
  0.08126892 0.04075099 0.19702893 0.10032445 0.04992424 0.17425649
  0.14307424 0.09446126 0.23194593 0.27660785 0.21524976 0.10786964
  0.50406128 0.16552668 0.12162393 0.27646048 0.3578047  0.20024925]
 [0.09555587 0.1586067  0.08686338 0.04360551 0.1572628  0.03613275
  0.00862465 0.01725646 0.36767677 0.4011793  0.0228499  0.20880481
  0.01756834 0.00557903 0.19294965 0.01975997 0.00929545 0.06577003
  0.26915067 0.04346835 0.06293134 0.22908367 0.05224364 0.024651
  0.18120584 0.02428423 0.0125812  0.04773196 0.33879781 0.15085924]
 [0.27398362 0.39567129 0.26418354 0.15435843 0.31470615 0.14302804
  0.07291471 0.14234592 0.32020202 0.28193929 0.22437081 0.30670969
  0.20494516 0.08750126 0.09715471 0.11752336 0.05494949 0.33282819
  0.363708   0.17205616 0.20704376 0.32669323 0.19239006 0.09690818
  0.14997028 0.06062811 0.04432479 0.16402062 0.

In [64]:
# 6. build model
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(X_train,y_train)

score = model.score(X_train, y_train)
print(f'SCORE(TRAIN): {score}')

score = model.score(X_test, y_test)
print(f' SCORE(TEST): {score}\n')

pred = model.predict(X_test[:10])
print(f'PREDICT: {pred}')
print(f' ANSWER: {y_test[:10].values}')

SCORE(TRAIN): 0.978021978021978
 SCORE(TEST): 0.9473684210526315

PREDICT: [1 0 1 1 1 1 1 0 1 1]
 ANSWER: [1 0 1 1 1 1 1 0 1 1]
