##  학습목표
- 비만도 데이터를 활용해서 머신러닝 맛보기를 진행
- 데이터를 불러오고, 학습, 예측의 결과를 진행

In [1]:
# 필요한 라이브러리 불러오기

# 데이터 전처리 및 가공을 위한 라이브러리
import numpy as np
import pandas as pd

# Scikit-learn 라이브러리에서 필요한 도구들 불러오기
# 이웃 알고리즘을 사용하는 머신러닝 모델
from sklearn.neighbors import KNeighborsClassifier # 분류 모델
from sklearn.neighbors import KNeighborsRegressor # 회귀 모델

In [2]:
# KNN 모델 객체 생성

knn = KNeighborsClassifier()

### 머신러닝 과정 흐름도

1. 문제정의 (기획단계)
2. 데이터 수집 (Crawling, API, 공공데이터)
3. 데이터 전처리 (결측치 처리, 데이터 변환)
4. EDA(탐색적 데이터 분석) -> 데이터를 시작화 하고, 특성 선택이나 전처리를 할지 말지 결정
5. Model(머신러닝 알고리즘) 선택, Hypermeter 조정
6. Model 학습
7. Model 평가(모델이 잘 데이터를 학습했는지 확인)

In [3]:
# 데이터 불러오기
data = pd.read_csv('./data/bmi_500.csv')

data

Unnamed: 0,Gender,Height,Weight,Label
0,Male,174,96,Obesity
1,Male,189,87,Normal
2,Female,185,110,Obesity
3,Female,195,104,Overweight
4,Male,149,61,Overweight
...,...,...,...,...
495,Female,150,153,Extreme Obesity
496,Female,184,121,Obesity
497,Female,141,136,Extreme Obesity
498,Male,150,95,Extreme Obesity


In [4]:
print(data[data['Gender'] == 'Female']['Label'].value_counts())
print(data[data['Gender'] == 'Male']['Label'].value_counts())

Label
Extreme Obesity    93
Obesity            71
Normal             41
Overweight         36
Weak                7
Extremely Weak      7
Name: count, dtype: int64
Label
Extreme Obesity    105
Obesity             59
Overweight          32
Normal              28
Weak                15
Extremely Weak       6
Name: count, dtype: int64


In [5]:
# 데이터 확인
# 해당 데이터가 머신러닝 모델에게 학습을 시켜도 무방한 데이터인지 확인
# 머신러닝 모델은 숫자 데이터만 학습을 할 수 있다!
# -> 정답 데이터를 제외한 특성 데이터에 대해 적용되는 법칙

# 문자데이터를 제외하고 학습을 되는데, Label은 정답이라서 큰 문제점을 야기할 것 같다
# -> 정답데이터의 Dtype은 회귀, 분류의 문제지 학습과는 관련이 없다.

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Gender  500 non-null    object
 1   Height  500 non-null    int64 
 2   Weight  500 non-null    int64 
 3   Label   500 non-null    object
dtypes: int64(2), object(2)
memory usage: 15.8+ KB


In [6]:
# 원본 데이터 수정 없이 삭제된 데이터프레임 반환


# drop
# axis = 0 : 행을 삭제한다.
# axis = 1 : 열을 삭제한다.

new_data = data.drop(columns='Gender')
print(new_data)  # Gender 열이 없는 상태로 출력
print(data)      # 원본 data는 여전히 Gender 열을 유지

     Height  Weight            Label
0       174      96          Obesity
1       189      87           Normal
2       185     110          Obesity
3       195     104       Overweight
4       149      61       Overweight
..      ...     ...              ...
495     150     153  Extreme Obesity
496     184     121          Obesity
497     141     136  Extreme Obesity
498     150      95  Extreme Obesity
499     173     131  Extreme Obesity

[500 rows x 3 columns]
     Gender  Height  Weight            Label
0      Male     174      96          Obesity
1      Male     189      87           Normal
2    Female     185     110          Obesity
3    Female     195     104       Overweight
4      Male     149      61       Overweight
..      ...     ...     ...              ...
495  Female     150     153  Extreme Obesity
496  Female     184     121          Obesity
497  Female     141     136  Extreme Obesity
498    Male     150      95  Extreme Obesity
499    Male     173     131  Extreme 

In [7]:
# 데이터 분리(문제(특성),정답(타겟))
# 문제 데이터 : X
# 정답 데이터 : Y

y = new_data['Label']
X = new_data.drop('Label',axis = 1)
X

Unnamed: 0,Height,Weight
0,174,96
1,189,87
2,185,110
3,195,104
4,149,61
...,...,...
495,150,153
496,184,121
497,141,136
498,150,95


In [8]:
# 모델 학습
# 모델을 생성한 변수에 fit 함수를 사용해서 정답데이터와 문제데이터를 학습시킨다.
# fit -> 머신러닝, 딥러닝 모델한테 데이터를 학습 시킬 때 사용하는 함수

knn.fit(X,y)

In [9]:
# 모델 예측
# -> 학습이 완료된 모델한테 새로운 특성 데이터를 입력하고 결과값을 뽑아내는 것
# 주의점 : 예측을 할 데이터는 문제 데이터와 똑같은 컬럼 수, 같은 Dtype을 넣어줘야 한다.

kangs = pd.DataFrame({'Height': [178], 'Weight': [116]})

# predict 함수를 통해서 모델한테 예측을 지시

knn.predict(kangs)

array(['Obesity'], dtype=object)

In [10]:
# data에서 Gender 컬럼 삭제하기

del(data['Gender'])  # Gender 열이 삭제되고 data가 직접 수정됨
print(data)  # Gender 열이 없는 상태로 출력됨

     Height  Weight            Label
0       174      96          Obesity
1       189      87           Normal
2       185     110          Obesity
3       195     104       Overweight
4       149      61       Overweight
..      ...     ...              ...
495     150     153  Extreme Obesity
496     184     121          Obesity
497     141     136  Extreme Obesity
498     150      95  Extreme Obesity
499     173     131  Extreme Obesity

[500 rows x 3 columns]
