# TIPS 데이터 활용하여 쉽게모델링하기
* 간단하게 쉽게 머신러닝 모델링 만들어 보기
* 원하는 컬럼을 선택해서 회귀모델, 분류 모델 만들어 보기
* 아래 순서에 맞게, 이런식으로 실행하면 되겠구나 느끼기
* 처음 한다고 생각하고 템플릿 작성하기

# 모델링 프로세스
1. 데이터 가져오기
2. 데이터 분석
3. X,Y 나누기
4. 머신러닝 모델링
   


In [2]:
# seaborn 라이브러리를 설치 (Jupyter나 Colab 환경에서 필요 시 사용)
!pip install seaborn
# 수치 계산을 위한 numpy 라이브러리 임포트
import numpy as np
# 데이터 처리 및 분석을 위한 pandas 라이브러리 임포트
import pandas as pd
# 시각화를 위한 matplotlib의 pyplot 모듈 임포트
import matplotlib.pyplot as plt
# 시각화와 데이터셋 로드를 위한 seaborn 라이브러리 임포트
import seaborn as sns
# 경고 메시지를 제어하기 위한 warnings 모듈 임포트
import warnings
# 경고 메시지를 무시
warnings.filterwarnings('ignore')
# seaborn에서 제공하는 'tips' 데이터셋 불러오기
tips = sns.load_dataset('tips')

# 범주형 데이터를 수치형으로 변환

# 성별: Female → 0, Male → 1
tips.sex.replace(['Female','Male'], [0,1], inplace = True)

# 흡연여부: No → 0, Yes → 1
tips.smoker.replace(['No','Yes'], [0,1], inplace = True)

# 식사 시간: Dinner → 0, Lunch → 1
tips.time.replace(['Dinner','Lunch'], [0,1], inplace = True)

# 범주형 데이터 인코딩을 위한 LabelEncoder 임포트
from sklearn.preprocessing import LabelEncoder

# LabelEncoder 객체 생성
le = LabelEncoder()

# 요일(day) 열을 숫자형으로 라벨 인코딩 (예: Thur → 0, Fri → 1 등)
# tips.day.replace(['Thur','Fri'], [0,1], inplace = True)
tips.day = le.fit_transform(tips.day)


# 변환된 데이터를 'tips2.csv'로 저장 (행 인덱스는 제외)
tips.to_csv('tips2.csv', index = False)






# 1. 데이터 가져오기
* 먼저, 데이터가 있어야 모델링을 만들수 있다.
* 데이터 가져오는 방법에는 여러가지가 있다.
* 본인 데이터를 직접 올리는 방법
* 기존에 제공하는 데이터를 사용하는 방법
* 반드시 데이터를 읽어와야 후속 작업을 할 수 있다.
  

In [4]:
# 필요한 라이브러리 가져오기
# 무조건 pandas, numpy, seaborn, matplotlib.pyplot
# seaborn 설치가 되어 있지 않으면 라이브러리 설치 필요 : !pip install seaborn

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


# 주피터 노트북에서 도움말 사용하기 필수 방법

1. dir(pd)
2. tab 사용하기 -> 자동완성기능 pd.read
3. shift + tab
4. ?
5. ??


In [6]:
# dir(pd)
# pd.read  # tab 눌러 read로 시작하는 함수 목록 확인후 필요한 함수 이름 참조하여 완성하기
# pd.read_csv  # shift+tab눌러 함수 상세 설명 참조하기
# pd.read_csv??

In [7]:
# 직접 데이터를 가지고 실습을 진행
# 파일명: 'tips2.csv'
# 판다스에서 csv파일을 읽는 함수를 사용

tips2 = pd.read_csv('./tips2.csv')
tips2.head(10)



Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,0,0,2,0,2
1,10.34,1.66,1,0,2,0,3
2,21.01,3.5,1,0,2,0,3
3,23.68,3.31,1,0,2,0,2
4,24.59,3.61,0,0,2,0,4
5,25.29,4.71,1,0,2,0,4
6,8.77,2.0,1,0,2,0,2
7,26.88,3.12,1,0,2,0,4
8,15.04,1.96,1,0,2,0,2
9,14.78,3.23,1,0,2,0,2


# TIPS 데이터셋 가져오기

In [9]:
# tips2.csv 파일 읽고 tips2 데이터프레임에 저장하기

tips2 = pd.read_csv('./tips2.csv')




In [10]:
# tips2 데이터프레임의 앞 5개 데이터 확인할 수 잇으며, 인덱스 컬럼들과 value 값들로 구성됨

tips2.head()


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,0,0,2,0,2
1,10.34,1.66,1,0,2,0,3
2,21.01,3.5,1,0,2,0,3
3,23.68,3.31,1,0,2,0,2
4,24.59,3.61,0,0,2,0,4


# 주어진 데이터프레임에서 행과 열 접근해 가져오기

In [12]:
# 1개의 컬럼만 시리즈 형태로 가져오기

tips['tip']


0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64

## 'tip','day','size' 3개의 컬럼 가져오기

In [14]:
# ['tip','day','size']


li = ['tip','day','size']
tips2[li]


Unnamed: 0,tip,day,size
0,1.01,2,2
1,1.66,2,3
2,3.50,2,3
3,3.31,2,2
4,3.61,2,4
...,...,...,...
239,5.92,1,3
240,2.00,1,2
241,2.00,1,2
242,1.75,1,2


In [15]:
# 데이터프레임에서 'tip', 'day', 'size' 세 개의 열만 선택하여 보여주기

tips[['tip','day','size']]



Unnamed: 0,tip,day,size
0,1.01,2,2
1,1.66,2,3
2,3.50,2,3
3,3.31,2,2
4,3.61,2,4
...,...,...,...
239,5.92,1,3
240,2.00,1,2
241,2.00,1,2
242,1.75,1,2


In [16]:
#  pandas의 인덱싱 방식 차이
# DataFrame[값] 구문에서 값은 열(column)의 이름이어야 함
# 예) tips2['total_bill']처럼 열 이름을 지정해야 작동
# tips2[0]처럼 숫자 0을 쓰면, pandas는 "0"이라는 열 이름이 있는지 찾는데, 없으면 KeyError가 발생
tips2[0] # KeyError 발생


KeyError: 0

In [None]:
# DataFrame[0:1]은 행(row) 슬라이싱을 의미, 열(column) 이름이 아니라 행 번호를 기준으로 슬라이싱하는 기능
# 즉, 첫 번째 행만 추출
tips2[0:1]

In [None]:
# 행을 정확히 인덱스로 접근하려면?
# 첫 번째 행 (Series 반환)
tips2.iloc[0]


In [None]:
# 첫 번째 행 (DataFrame 반환)

tips2.iloc[0:1]

### loc의 기본 개념
### DataFrame.loc[행_라벨, 열_라벨]

In [35]:
 # 특정 행 접근
tips2.loc[0]

total_bill    16.99
tip            1.01
sex            0.00
smoker         0.00
day            2.00
time           0.00
size           2.00
Name: 0, dtype: float64

In [37]:
# 특정 행 + 특정 열
# 0번 행에서 'total_bill' 열에 해당하는 값을 반환

tips2.loc[0,'total_bill']

16.99

In [39]:
# 하나의 열, 모든 행

tips2.loc[:,'tip']


0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64

In [41]:
# 여러 행 , 여러 열
# 0~4번 행의 'total_bill', 'tip' 열을 DataFrame 형태로 반환
# 여기서 중요한 점: loc의 슬라이싱은 끝 포함. (Python 일반 슬라이싱과 다름)

tips2.loc[0:4, ['total_bill','tip']]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.5
3,23.68,3.31
4,24.59,3.61


In [43]:
# 위치 기반 (index location)
# 의미: "0번째 위치에 있는 행"
# 항상 첫 번째 행을 반환합니다 (index 값이 0이 아니더라도)
# index가 정수든 문자든 상관없이 위치로
tips2.iloc[0]



#라벨 기반 (index label)
# 의미: "index가 정확히 0인 행"
# tips2의 index가 기본 숫자 0, 1, 2, …로 되어 있을 경우엔 iloc[0]과 같은 결과
# 하지만 index가 다른 값으로 설정되어 있다면, 전혀 다른 결과가 나올 수 있음
tips2.loc[0]




total_bill    16.99
tip            1.01
sex            0.00
smoker         0.00
day            2.00
time           0.00
size           2.00
Name: 0, dtype: float64

# 데이터 분석
* 데이터 값이 어떻게 되어 있으며, 어떤 흐름을 보이는지 다른 컬럼과의 관계는 어떤지를 파악
* 눈으로 데이터 수치를 보고 어떤 흐름인지 파악할 수도 있지만
* 시각화를 통한다면 쉽게 흐름을 파악할 수 있음
* 여기서는 이미 정제된 데이터를 활용하여 머신러닝과 딥러닝 모델링에 집중

# 3. [회귀 모델] X, y 나누기
* 지도학습 경우 데이터와 정답이 있어야 함
* 데이터에 해당하는 X와 정답에 해당하는 y가 있어야 함
* 판다스를 이용하여 X, y를 나누기
* X, y 데이터를 가지고 모델 학습하고 검증할 수 잇는 학습데이터셋과 테스트 데이터셋으로 나눠 사용하기
* 레이블(y) 값을 보고 회귀 모델인지, 분류모델인지 구분
    * 레이블(y): 학점(A,B,C,D,F), 남녀(M,F), 숫자(0~9) --> 범주형으로 되어 있으면 분류 모델
    * 레이블(y): 주가, 습도, 온도, 유가동향 등등 --> 연속형으로 되어 있으면 회귀 모델

In [48]:
tips2.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,1,0,1,0,3
240,27.18,2.0,0,1,1,0,2
241,22.67,2.0,1,1,1,0,2
242,17.82,1.75,1,0,1,0,2
243,18.78,3.0,0,0,3,0,2


### 연속적인 값을 나타내는 컬럼: total_bill, tip

### 정답(레이블 y)를 tip 컬럼으로 정하고, tip 의 값들이 연속적인 값이므로 회귀모델이 됨

In [53]:
tips2.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [55]:
# 회귀 예측 모델을 만들기 위한 입력 변수(X) 와 타깃 변수(y) 를 정의
# X-->'total_bill', 'sex', 'smoker', 'day', 'time', 'size' 
# y--> 'tip'


X = tips2.drop('tip', axis = 1)
y = tips2['tip']



In [57]:
X

Unnamed: 0,total_bill,sex,smoker,day,time,size
0,16.99,0,0,2,0,2
1,10.34,1,0,2,0,3
2,21.01,1,0,2,0,3
3,23.68,1,0,2,0,2
4,24.59,0,0,2,0,4
...,...,...,...,...,...,...
239,29.03,1,0,1,0,3
240,27.18,0,1,1,0,2
241,22.67,1,1,1,0,2
242,17.82,1,0,1,0,2


In [59]:
y

0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64

## X, y 데이터를 가지고 학습 데이터셋과 테스트 데이터셋 만들기

In [62]:
#  X, y 데이터를 가지고 학습 데이터셋과 테스트 데이터셋 만들기
#  train_test_split 함수를 이용하며 쉽게 학습 데이터셋과 테스트 데이터셋을 만들 수 있음
#  사이킷런의 train_test_split 함수 불러오기

from sklearn.model_selection import train_test_split



In [63]:
# train_test_split?

In [66]:
# train_test_split 함수
# 1. X, y 입력
# 2. test_size=0.2 --> train set: test set = 8:2
# 3. random_state  사용하지 않으면 실행할 때마다 학습셋과 테스트셋이 다르게 나와 고정하기 위해 사용
# 4. train_test_split 함수 결과로 X_train, X_test, y_train, y_test 나옴

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)



In [68]:
# 학습 데이터셋과 테스트 데이터셋의 사이즈 확인
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(195, 6)
(49, 6)
(195,)
(49,)


In [71]:
# 데이터 프레임을 넘파이 배열로 변경

X_train = X_train.values
X_test = X_test.values
y_train = y_train.values
y_test = y_test.values



In [73]:
# LinearRegression 머신러닝 모델링

from sklearn.linear_model import LinearRegression


In [74]:
# 선형 회귀 모델 객체 생성 (LinearRegression 클래스의 인스턴스를 생성)

ltr = LinearRegression()

# 학습 데이터를 사용하여 모델 훈련 (입력 변수 X_train과 타겟 y_train을 기반으로 회귀 계수 계산)
ltr.fit(X_train, y_train)

# 훈련된 모델을 사용하여 테스트 데이터(X_test)에 대한 팁 예측값 생성
pred = ltr.predict(X_test)

# 예측된 팁 금액 배열 출력 (예: [2.95, 3.21, 1.78, ...])
print(pred)

# 결정 계수(R² score)를 계산하여 모델의 성능 평가
# R²는 1에 가까울수록 예측이 실제값에 잘 맞는다는 의미 (예: 0.75는 75% 설명력)

score = ltr.score(X_test,y_test)
print('\n',score)

[2.98575218 1.94061325 3.90398163 3.84498032 2.1680261  2.60582699
 3.65155039 2.31090817 2.50534068 2.3509249  2.83515653 2.13537228
 2.1389529  2.2854076  1.84415015 3.13003355 2.9775778  3.14430016
 2.63638097 5.76225288 3.51539752 3.30404608 2.24355298 2.02073543
 3.09625338 2.26938652 2.0815602  3.27434496 3.14662672 6.60403271
 4.93408016 1.65891577 3.2774898  2.83817187 2.91871607 3.8815044
 2.0688538  5.47790762 2.37480412 3.06180769 2.11094147 2.50259602
 3.36699633 2.29479093 1.95079059 0.94708728 1.89400456 3.11987541
 1.8813126 ]

 0.4441368826121931


In [77]:
# DecisionTree 머신러닝 모델링
# sklearn의 tree 모듈에서 DecisionTreeRegressor 클래스를 불러옴
from sklearn.tree import DecisionTreeRegressor




In [78]:
# 1. DecisionTreeRegressor 모델 정의 -> dtr 저장
# 2. dtr 모델 학습 : X_train, y_train
# 3. dtr 모델 성능 확인: X_test, y_test

dtr = DecisionTreeRegressor()

dtr.fit(X_train,y_train)

pred = dtr.predict(X_test)
print(pred)

score = dtr.score(X_test,y_test)
print('\n',score)

[2.   4.   3.61 2.   2.   3.   3.   1.8  2.5  3.48 4.   2.6  2.   2.5
 1.73 1.5  3.5  3.5  2.3  6.   3.5  4.08 2.2  1.92 3.5  1.63 2.6  4.29
 2.   6.73 4.67 2.   1.75 4.19 1.01 3.61 2.5  4.73 2.   3.6  2.6  2.5
 3.31 1.66 1.98 1.   2.   3.   2.  ]

 0.1658584293410873


In [81]:
# RandomForest 머신러닝 모델

from sklearn.ensemble import RandomForestRegressor


In [83]:
# 랜덤 포레스트 회귀 모델 생성
# - n_estimators=50: 50개의 결정 트리를 사용 (숲의 나무 수)
# - max_depth=6: 각 트리의 최대 깊이를 6으로 제한하여 과적합 방지
rfr= RandomForestRegressor(n_estimators=50, max_depth=6)

# 훈련 데이터(X_train, y_train)를 사용하여 랜덤 포레스트 모델 학습
rfr.fit(X_train, y_train)


# 테스트 데이터에 대한 모델의 결정계수(R² score)를 계산하여 성능 평가
# 1에 가까울수록 좋은 성능, 0 또는 음수는 성능이 낮음을 의미

rfr.score(X_test, y_test)



0.2001200679093319

In [85]:
# 만든 RandomForest 모델의 성능이 잘 나오는지 확인하기 전에 테스트셋의 첫번째 데이터와 정답 확인

pred = rfr.predict([X_test[0]])
pred


array([3.04637589])

In [87]:
# 훈련된 랜덤 포레스트 회귀 모델(rfr)을 사용하여
# 테스트 데이터 중 첫 번째 샘플(X_test[0])에 대한 팁 금액을 예측


## [분류모델] X, y 나누기
*  지도학습 경우 데이터와 정답이 있어야 함
*  데이터에 해당하는 X와 정답에 해당하는 y가 있어야 함
*  아래와 같이 판다스를 이용하면 X, y를 쉽게 나눌 수 있음
*  X, y 데이터를 이용하여 모델 학습하고 검증할 수 있는 학습데이터셋과 테스트 데이터셋으로 나눠 사용
*  레이블(y)값을 보고 회귀모델(연속형), 분류 모델(범주형)을 구별할 수 있음

In [90]:
# tips2 데이터프레임의 마지막 5개 행 라인 보기
# 범주형 값들이 있는 컬럼은 무엇인가요?

tips2.tail(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,1,0,1,0,3
240,27.18,2.0,0,1,1,0,2
241,22.67,2.0,1,1,1,0,2
242,17.82,1.75,1,0,1,0,2
243,18.78,3.0,0,0,3,0,2


### 정답(레이블 y)를 somoker 컬럼으로 정하고, smoker 값들이 범주형값이므로 분류모델이 됨

In [93]:
tips2.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [95]:
# X=tips2[['total_bill', 'tip', 'sex', 'day', 'time', 'size']]
# y=tips2[['smoker']]
# tips2 데이터프레임에서 'smoker' 열을 제거하고, 나머지 열들로 구성된 새로운 데이터프레임을 X에 저장
# axis=1은 열(column)을 기준으로 작업하겠다는 의미 (axis=0이면 행 기준)

X = tips2.drop('smoker', axis = 1)
y = tips2['smoker']

In [97]:
y=tips2['smoker']
y

0      0
1      0
2      0
3      0
4      0
      ..
239    0
240    1
241    1
242    0
243    0
Name: smoker, Length: 244, dtype: int64

### X,y 데이터를 가지고 학습 데이터셋과 테스트 데이터셋 만들기


In [100]:
# X, y 데이터를 가지고 학습 데이터셋과 테스트 데이터셋 만들어 주는  train_test_split  함수사용
# train_test_split함수를 이용하면 쉽게 학습 데이터셋과 테스트 데이터셋을 만들 수 있음
# 사이킷런의 train_test_split함수 불러오기

from sklearn.model_selection import train_test_split



In [103]:
# 학습 데이터셋과 테스트 데이터셋 분할
# 전체 데이터를 학습용(train)과 테스트용(test)으로 분리
# - X: 입력 데이터 (피처들)
# - y: 타깃 데이터 (예측하려는 값, 예: tip)
# - test_size=0.2: 전체 데이터 중 20%를 테스트용으로 사용
# - random_state=42: 데이터 분할 결과를 항상 동일하게 유지하기 위한 랜덤 시드 설정 (재현 가능성 확보)



X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2, random_state = 42)


In [105]:
# 학습 데이터셋과 테스트 데이터셋 사이이즈 확인

X_train.shape, X_test.shape, y_train.shape, y_test.shape



((195, 6), (49, 6), (195,), (49,))

In [107]:
# 데이터프레임을 넘파이배열로 변환

X_train = X_train.values
X_test = X_test.values
y_train = y_train.values
y_test = y_test.values


### (분류)머신러닝 모델

In [110]:
# sklearn의 tree 모듈에서 DecisionTreeClassifier 클래스를 불러옴

from sklearn.tree import DecisionTreeClassifier



In [112]:
# 1. DecisionTreeClassifier 모델 정의  -> dtc
# 2. dtc 모델 학습 : X_train, y_train
# 3. dtc 모델 성능 확인 : X_test, y_test

dtc = DecisionTreeClassifier()

dtc.fit(X_train,y_train)

dtc.score(X_test, y_test)


0.673469387755102

In [114]:

# sklearn의 ensemble 모듈에서 RandomForestClassifier 클래스를 불러옴
# 여러 개의 결정 트리를 앙상블하여 분류(classification) 문제를 해결하는 모델
from sklearn.ensemble import RandomForestClassifier



In [116]:
# 1. RadomForestClassifier 모델 정의 -> rfc저장
# 2. rfc 모델 학습 : X_train, y_train
# 3. rfc 모델 성능 확인 : X_test, y_test


rfc = RandomForestClassifier()

rfc.fit(X_train,y_train)

rfc.score(X_test, y_test)


0.673469387755102

In [118]:
# 테스트데이터셋의 0라인 샘플 데이터와 정답 확인

X_test[0], y_test[0]

(array([19.82,  3.18,  1.  ,  1.  ,  0.  ,  2.  ]), 0)

In [120]:

# #  테스트 데이터셋의   0 라인 샘플데이터를 모델에 입력해서 예측하기
# rfc 모델의 predict 함수 활용
# 입력: [X[0]], 결과: pred 저장
# pred 결과 출력

pred = rfc.predict([X_test[0]])
print(pred)




[0]


## [실습] 머신러닝 모델링하기
아래 가이드에 따라 tips 데이터프레이을 활용하여 머신러닝 모델을 만드세요
### 회귀 모델 만들기
    * 대상 데이터 : tips 데이터프레임
    * X,y데이터 만들기
        * y 레이블 : total_bill
        * X(feature): total_bill 제외한 나머지
    * train_test_split 함수를 활용해서 학습 데이터셋과 테스트 데이터셋을 만드세요.
        * 학습 데이터셋 : 테스트데이터셋 (8:2)
        * random_state(41)
    * KNN 모델을 만들고 학습하세요.
    * 만든 KNN 모델을 활용해서 아래 시뮬레이션 데이터에 대해 예측을 하세요.
        * 시뮬레이션 데이터 : [3.23,1.,0.,2.,1.,2.]
### 분류 모델 만들기
    * 대상 데이터 : tips 데이터프레임
    * X,y데이터 만들기
        * y 레이블 : day
        * X(feature): day 제외한 나머지
    * train_test_split 함수를 활용해서 학습 데이터셋과 테스트 데이터셋을 만드세요.
        * 학습 데이터셋 : 테스트데이터셋 (8:2)
        * random_state(41)
    * KNN 모델을 만들고 학습하세요.
    * 만든 KNN 모델을 활용해서 아래 시뮬레이션 데이터에 대해 예측을 하세요.
        * 시뮬레이션 데이터 : [14.78,3.23,1.,0.,1.,2.]


### 회귀 KNN 머신러닝 모델

In [124]:
# X, y 나누기
# X='total_bill'제외
# y='total_bill'

X = tips2.drop('total_bill',axis = 1)
y = tips2['total_bill']


In [126]:
# 학습 데이터셋과 테스트 데이터셋 나누기

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)




In [128]:
# KNeighborsRegressor 모델 학습
# n_neighbors이웃 개수: 3


# sklearn의 neighbors 모듈에서 KNeighborsRegressor(회귀용 KNN 모델)를 불러옴
from sklearn.neighbors import KNeighborsRegressor

# KNN 회귀 모델 객체 생성
knn = KNeighborsRegressor(n_neighbors=3)

# 학습 데이터를 사용하여 KNN 모델 학습
knn.fit(X_train,y_train)


In [130]:
# KNN 모델을 활용해서 시뮬레이션 데이터 예측하기

# 예측에 사용할 새로운 데이터 샘플 (입력값 리스트)
simul=[3.23,1.,0.,2.,1.,2.]

# 위에서 정의한 'simul' 데이터를 입력하여 팁 예측
knn.predict([simul])


array([18.09333333])

### 분류 KNN 머신러닝 모델

In [133]:
# X, y나기기
# X='day'제외
# y='day'

X = tips2.drop('day',axis = 1)
y = tips2['day']



In [135]:
# 학습데이터셋과 테스트 데이터셋 나누기
# X_train, X_test, y_train, y_test


X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)



In [137]:
# KNeighborsClassifier 모델 학습
# n_neighbors 이웃 개수 : 3
# sklearn의 neighbors 모듈에서 KNeighborsClassifier(분류용 KNN 모델) 불러오기
from sklearn.neighbors import KNeighborsClassifier


# KNN 분류 모델 객체 생성
knn = KNeighborsClassifier()

# 학습 데이터(X_train, y_train)를 사용하여 KNN 분류 모델을 학습
knn.fit(X_train, y_train)



In [139]:
# KNN 모델을 활용하여 시뮬레이션 데이터 예측기기
simul=[14.78,3.23,1.,0.,1.,2.]

# 예측하기
knn.predict([simul])



array([2])

### 내용 정리 


### TIPS  데이터 활용하여 쉽게 모델링하기
*  간단하게 쉽게 머신러닝 모델링 만들어 보기
*  원하는 컬럼을 선택해서 회귀 모델, 분류 모델 만들어 보기
*  잘 몰라도 아래 순서에 맞게, 이런식으로 실행하면 되겠구나라고 이해하기
*  처음한다고 생각하고 템플릿 작성하기

###  모델링 프로세스 확인하기
1.  데이터 가져오기
2.  데이터 분석
3.  X, y 나누기
4.  머신러닝 모델링
   