### 목표

- 500명의 키와 몸무게 , 비만도 라벨을 이용해서 비만을 판단하는 모델을 만들어보자
- 머신러닝의 과정을 이해하자
    - 1. 문제정의: 지도 vs 비지도, 필요한 데이터 정의, 분류vs회귀 등
      2. 데이터 수집: 크롤링, 기존DB 데이터, 공공데이터포털, 설문조사
      3. 데이터 전처리: numpy, pandas와 같은 라이브러리 이용
      4. 탐색전 데이터 분석(EDA)
         - 특성의 통계적 의미 파악(기술통계: 평균, 최소 , 최대값, 최빈, 중앙, 표준편차)
         - 특성 간의 상관관계
         - 그래프를 출력해서 의미 파악 : numpy, pandas, matplotlib
      5. 머신러닝 모델 선택, 하이퍼 파라미터(사람이 지정하는 매개변수) 조정
      6. 모델 학습
      7. 모델 평가 및 예측

### 과대적합과 과소적합
- 모델의 신뢰도를 측정하고, 성능을 확인하기 위한 개념

In [1]:
# 데이터 분석에 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 모델 불러오기
from sklearn.neighbors import KNeighborsClassifier #분류 모델

#모델 성능 평가 지표 (평가 도구)
from sklearn.metrics import accuracy_score # 정확도 평가 도구

In [4]:
# 불러올 파일 이름 : bmi_500.csv
data = pd.read_csv('./data/bmi_500.csv')

In [5]:
data

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight
...,...,...,...,...
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity


In [9]:
# 데이터 살펴보기 
# 1. 위에서부터 5개 행만 출력
display(data.head())
# 2. 데이터 크기 정보 확인
print(data.shape)
# 3. 데이터 차원 확인
print(data.ndim)
# 4. 데이터 정보 확인 --> 컬럼명, 컬럼개수, 행개수 , 결측치 여부 , 데이터 타입 
display(data.info())

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight


(500, 4)
2
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Gender  500 non-null    object
 1   Height  500 non-null    int64 
 2   Weight  500 non-null    int64 
 3   Label   500 non-null    object
dtypes: int64(2), object(2)
memory usage: 15.8+ KB


None

### 데이터 전처리 
데이터분리

In [10]:
data.head(1)

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity


In [20]:
X = data.loc[:,['Height','Weight']]
y = data['Label']

print('문제 데이터: ', X.shape)
print('답 데이터: ', y.shape)

문제 데이터:  (500, 2)
답 데이터:  (500,)


In [21]:
X

Unnamed: 0,Height,Weight
0,174,96
1,189,87
2,185,110
3,195,104
4,149,61
...,...,...
495,150,153
496,184,121
497,141,136
498,150,95


In [27]:
# 훈련세트와 테스트세트로 행 분리 
# 머신러닝 훈련데이터셋 분리 -> 7:3 = 훈련: 테스트
# 0~349 : train
# 350~끝까지 : test
# X-> train/test, y-> train,test

X_train = X.iloc[:350] 
y_train = y.iloc[:350]

X_test = X.iloc[350:]
y_test = y.iloc[350:]

print('학습데이터: ',X_train.shape,y_train.shape)
print('답 데이터: ',X_test.shape,y_test.shape)

학습데이터:  (350, 2) (350,)
답 데이터:  (150, 2) (150,)


### 모델링
- 모델 객체 생성
- 모델 학습
- 모델 평가 및 예측

In [50]:
# knn 분류모델
knn_model = KNeighborsClassifier(n_neighbors = 6)
# 이웃의 수를 설정해서 가까운 이웃의 색깔을 따라가는 모델

In [51]:
# 모델 학습
# 학습하기 위한 좋은 재료가 필요
knn_model.fit(X_train,y_train)

In [52]:
pre = knn_model.predict(X_test)
pre
# 과연 예측이 다 맞을까? 예측은 항상 오류가 있을 수 있다.
# 일반적으로 예측을 잘할 수 있는 모델을 만들어야한다. 

array(['Overweight', 'Normal', 'Normal', 'Extreme Obesity',
       'Extremely Weak', 'Obesity', 'Obesity', 'Extreme Obesity', 'Weak',
       'Extreme Obesity', 'Weak', 'Extreme Obesity', 'Extreme Obesity',
       'Obesity', 'Extreme Obesity', 'Obesity', 'Overweight', 'Obesity',
       'Extreme Obesity', 'Obesity', 'Overweight', 'Extreme Obesity',
       'Weak', 'Normal', 'Obesity', 'Extreme Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Obesity', 'Overweight', 'Extreme Obesity',
       'Weak', 'Obesity', 'Extreme Obesity', 'Extreme Obesity', 'Weak',
       'Extreme Obesity', 'Obesity', 'Overweight', 'Normal', 'Normal',
       'Normal', 'Normal', 'Overweight', 'Extreme Obesity', 'Overweight',
       'Overweight', 'Extreme Obesity', 'Overweight', 'Extreme Obesity',
       'Overweight', 'Obesity', 'Normal', 'Obesity', 'Obesity',
       'Extreme Obesity', 'Normal', 'Extreme Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Weak', 'Obesity', 'Extreme Obesity',
       'Extreme

In [53]:
# 실제 값과 pre(예측값)이 어느정도 맞아 떨어지는지 확인
# 정도 평가 지표
accuracy_score(y_test,pre)*100

91.33333333333333