### ✅ 목표
 - 500 명의 키와 몸무게, 비만도 라벨을 활용하여 비만을 판단하는 모델을 만들어보자
 - 머신러닝의 과정
     1. 문제 정의
     2. 데이터 수집
     3. 데이터 전처리
     4. 탐색적 데이터 분석(EDA)
     5. 머신러닝 모델 선택, 하이퍼 파라미터(사람이 지정하는 매개변수) 조정
     6. 모델 학습
     7. 모델 평가 및 예측

In [1]:
# 필요한 도구 불러오기

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 모델 불러오기

from sklearn.neighbors import KNeighborsClassifier # knn 분류 모델

# 모델 성능 평가 지표 (평가 도구)

from sklearn.metrics import accuracy_score # 정확도 평가 도구

- ✅ 데이터 준비(불러오기)

In [2]:
data = pd.read_csv('./data/bmi_500.csv')
data

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight
...,...,...,...,...
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity


In [5]:
# DataFrame 출력 도구 : display()

# 1. 위에서부터 5개 출력

display(data.head())

# 2. 밑에서부터 5개 출력

display(data.tail())

# 3. 데이터 크기 정보 확인

print(data.shape) # (500, 4)

# 4. 데이터 차원 확인

print(data.ndim) # 2

# 5. 데이터 정보 확인 --> (컬럼 명, 컬럼 개수, 행의 개수, 결측치 여부, 데이터 타입)

display(data.info())

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight


Unnamed: 0,Gender,Height,Weight,Label
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity
499,Male,173,131,Extreme Obesity


(500, 4)
2
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Gender  500 non-null    object
 1   Height  500 non-null    int64 
 2   Weight  500 non-null    int64 
 3   Label   500 non-null    object
dtypes: int64(2), object(2)
memory usage: 15.8+ KB


None

- ✅ 데이터 전처리

In [6]:
data.tail()

Unnamed: 0,Gender,Height,Weight,Label
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity
499,Male,173,131,Extreme Obesity


In [9]:
X = data.loc[:, ['Height', 'Weight']] # 문제 데이터 (키, 몸무게)
# data.loc[:, 'Height':'Weight']

y = data['Label'] # 답 (라벨)

print('문제 데이터 : ', X.shape)
print('답 데이터 : ', y.shape)

문제 데이터 :  (500, 2)
답 데이터 :  (500,)


In [10]:
# 훈련 세트와 테스트 세트로 행 분리
# 머신러닝 훈련 데이터 셋
# 학습이 잘 됐는지 확인하기 위한 테스트 데이터 셋
# 훈련 : 테스트 --> 7:3
# 0 ~ 349 (처음부터 350 개) : train
# 350 ~ (350 번부터 끝까지 = 150 개) : test
# iloc 행 분리

X_train = X.iloc[:350]
X_test = X.iloc[350:]
y_train = y.iloc[:350]
y_test = y.iloc[350:]

print('훈련 문제 : ', X_train.shape)
print('훈련 답 : ', y_train.shape)
print('테스트 문제 : ', X_test.shape)
print('테스트 답 : ', y_test.shape)

훈련 문제 :  (350, 2)
훈련 답 :  (350,)
테스트 문제 :  (150, 2)
테스트 답 :  (150,)


#### ✅ 모델링
- 모델 객체 생성
- 모델 학습
- 모델 평가 및 예측

In [26]:
# 내 ver
# n_neighbors = 3
# knn 분류 모델 사용하기

knn_model = KNeighborsClassifier(n_neighbors = 3)

In [27]:
knn_model.fit(X_train, y_train)

In [28]:
X_test

Unnamed: 0,Height,Weight
350,184,83
351,197,88
352,160,51
353,184,153
354,190,50
...,...,...
495,150,153
496,184,121
497,141,136
498,150,95


In [29]:
knn_model.predict(X_test)

array(['Overweight', 'Normal', 'Normal', 'Extreme Obesity',
       'Extremely Weak', 'Normal', 'Obesity', 'Extreme Obesity', 'Normal',
       'Extreme Obesity', 'Weak', 'Extreme Obesity', 'Extreme Obesity',
       'Obesity', 'Extreme Obesity', 'Extreme Obesity', 'Overweight',
       'Obesity', 'Extreme Obesity', 'Obesity', 'Overweight',
       'Extreme Obesity', 'Weak', 'Normal', 'Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Extreme Obesity', 'Obesity', 'Overweight',
       'Extreme Obesity', 'Weak', 'Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Weak', 'Extreme Obesity', 'Obesity',
       'Overweight', 'Normal', 'Normal', 'Normal', 'Normal', 'Overweight',
       'Extreme Obesity', 'Overweight', 'Overweight', 'Extreme Obesity',
       'Overweight', 'Extreme Obesity', 'Overweight', 'Obesity', 'Normal',
       'Obesity', 'Obesity', 'Extreme Obesity', 'Normal',
       'Extreme Obesity', 'Extreme Obesity', 'Extreme Obesity', 'Weak',
       'Obesity', 'Extreme Obesity',

In [30]:
knn_model.score(X_test, y_test)

0.9

In [32]:
# 선생님 ver
# n_neighbors = n
# knn 분류 모델 사용하기

knn_model = KNeighborsClassifier(n_neighbors = 100)

In [34]:
# 모델 학습
# 학습 중요 X
# 어떤 데이터를 보면서 학습하는지가 중요
# train(학습 데이터)가 좋은 데이터야만 좋은 모델이 탄생

knn_model.fit(X_train, y_train)

In [35]:
# 모델 예측
# 모델이름.predict(테스트 문제)

pre = knn_model.predict(X_test)
pre

array(['Overweight', 'Overweight', 'Normal', 'Extreme Obesity', 'Normal',
       'Obesity', 'Obesity', 'Extreme Obesity', 'Normal',
       'Extreme Obesity', 'Normal', 'Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Extreme Obesity', 'Obesity', 'Obesity',
       'Obesity', 'Extreme Obesity', 'Obesity', 'Normal',
       'Extreme Obesity', 'Normal', 'Normal', 'Obesity',
       'Extreme Obesity', 'Obesity', 'Extreme Obesity', 'Obesity',
       'Overweight', 'Extreme Obesity', 'Normal', 'Obesity',
       'Extreme Obesity', 'Extreme Obesity', 'Overweight',
       'Extreme Obesity', 'Obesity', 'Normal', 'Normal', 'Normal',
       'Normal', 'Overweight', 'Overweight', 'Extreme Obesity', 'Normal',
       'Obesity', 'Extreme Obesity', 'Normal', 'Extreme Obesity',
       'Obesity', 'Obesity', 'Normal', 'Obesity', 'Obesity',
       'Extreme Obesity', 'Normal', 'Extreme Obesity', 'Extreme Obesity',
       'Extreme Obesity', 'Normal', 'Obesity', 'Extreme Obesity',
       'Extreme Obesity',

In [36]:
# 실제 값과 pre(예측값)이 어느정도 맞아 떨어지는 지 확인
# 정확도 평가 지표
# accuracy_score(실제답, 예측값)

accuracy_score(y_test, pre) * 100 # 90.0%
# -> 100으로 올리고 싶으면? -> 많은 데이터를 제공해줌
# -> 데이터가 한정적인 경우
# KNeighborsClassifier(n_neighbors = n) -> n의 숫자를 변경해줌

68.66666666666667