### 목표
- 500명의 키와 몸무게, 비만도 라벨을 이용하여 비반을 판단한느 모델을 만들어보자
- 머신러닝 과정
  - 1. 문제정의 : 지도학습 vs 비지도학습, 필요한 데이터 정의, 분류 vs 회귀
  - 2. 데이터 수집 : 크롤링, 데이터베이스, 공공데이터, 설문조사
  - 3. 데이터 전처리(preprocessing) : numpy, pandas 활용
  - 4. 탐색적 데이터 분석(EDA) : 
        - 특징 의미 파악(기술통계 : 평균, 최소, 최대, 최빈, 중앙값, 표준편차) 
        - 특성 간의 상관관계 
        - 그래프를 출력해서 의미 파악 : numpy, pandas, matplotlib
  - 5. 머신러닝 모델 선택, 하이퍼 파라미터(사람 지정 매개변수) 조정 
  - 6. 모델 학습
  - 7. 모델 평가 예측
  

![Alt text](image/image.png)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 모델 불러오기
from sklearn.neighbors import KNeighborsClassifier # 모델 분류
# 모델 성능 평가 지도(평가도구)
from sklearn.metrics import accuracy_score # 정확도 평가 도구

- 데이터 준비(불러오기)


In [2]:
data = pd.read_csv('data//bmi_500.csv')
data

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight
...,...,...,...,...
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity


In [3]:
# 1. 위에서부터 5개 행만 출력
data.iloc[0:5,1:]

Unnamed: 0,Height,Weight,Label
0,174,96,Obesity
1,189,87,Normal
2,185,110,Obesity
3,195,104,Overweight
4,149,61,Overweight


In [4]:
# 2. 밑에서부터 5개 행만 출력
data.tail(5)

Unnamed: 0,Gender,Height,Weight,Label
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity
499,Male,173,131,Extreme Obesity


In [5]:
# 3. 데이터 크기 정보 확인
data.shape

(500, 4)

In [6]:
# 4. 데이터 차원 확인
data.ndim

2

In [7]:
# ---> (컬러명, 컬럼개수, 행 개수, 결측치여부, 데이터 입력)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Gender  500 non-null    object
 1   Height  500 non-null    int64 
 2   Weight  500 non-null    int64 
 3   Label   500 non-null    object
dtypes: int64(2), object(2)
memory usage: 15.8+ KB


- 데이터 전처리
    - 데이터 분리

In [12]:
X = data.iloc[0:500,1:3]    #문제('키' , '몸무게')
print('문제 데이터', X.shape)
Y = data.iloc[0:500,[3]]    #답
# data.loc[:,'Label]
# data.iloc[:,3]
print('답 데이터', Y.shape)
Y

문제 데이터 (500, 2)
답 데이터 (500, 1)


Unnamed: 0,Label
0,Obesity
1,Normal
2,Obesity
3,Overweight
4,Overweight
...,...
495,Extreme Obesity
496,Obesity
497,Extreme Obesity
498,Extreme Obesity


In [15]:
# 훈련세트와 테스트세트로 행분리
# 머신러닝 훈련데이터셋
# 학습이 잘 됐는지 확인하기 위한 테스트데이터 셋
# 훈련 : 테스트 -> 7:3
# 0~349(처음부터 350번째까지) : train
# 350~ : test
# X-train, test 분리/ Y-train,test분리
X_train = X.iloc[:350,:]
X_test = X.iloc[350:,:]

y_train = Y.iloc[:350,:]
y_test = Y.iloc[350:,:]

print('훈련 문제',X_train.shape)
print('훈련 답', y_train.shape)
print('테스트 문제',X_test.shape)
print('테스트 답',y_test.shape)

훈련 문제 (350, 2)
훈련 답 (350, 1)
테스트 문제 (150, 2)
테스트 답 (150, 1)


### 모델링
    - 모델 객체 생성
    - 모델 학습
    - 모델 평가 및 예측

In [52]:
# knn 분류 모델
knn_model = KNeighborsClassifier(n_neighbors=5)

# 기본값으로 이웃의 수를 5로 설정(n_neighbors=5)
# 거리가 가장 가까운 이웃 5개의 실제답을 보면서 예측하는 모델



In [53]:
# 모델 학습
# 학습 중요 X
# 어떤 데이터를 보면서 학습하는지가 중요
# 학습하기 위한 좋은 재료가 필요
# 데이터에 맞춰서 학습하는 것이 머신러닝 모델
# 모델.fit(X_훈련,y_훈련)
knn_model.fit(X_train,y_train)


  return self._fit(X, y)


In [54]:
# 모델 예측
# 모델.predict(테스트 문제)
pre = knn_model.predict(X_test)
pre.shape

# 예측이 다 맞을까? 예측은 오류가 있을 수 있음
# 일반적으로 잘 예측할 수 있게 모델을 만들어야하는 상황

(150,)

In [55]:
#실제값과 pre(예측값)이 어느정도 맞아떨어지는지 확인
# over - over 맞았는지 확인
# 정확도 평가지표

# accuracy_score(실제값,예측값)
accuracy_score(y_test,pre) *100 #90.7%
# 정확도 0~1 : 1에서 가까울수록 예측이 잘 된 상황

90.66666666666666

In [None]:
# 이웃의 수에 따라 모델의 성능이 변화되고 있음
# 하이퍼 파라미터 : 사용자가 적절하게 지정해줘야하는 값

![Alt text](image/image.png)

![Alt text](image.png)

![Alt text](image-1.png)

![Alt text](image/image.png)

![Alt text](image-1.png)

![Alt text](image.png)

![Alt text](image-2.png)

![Alt text](image-3.png)