## 유형 2. 데이터 분석 순서

1. 라이브러리 및 데이터 확인<br>
2. 데이터 탐색<br>
3. 데이터 전처리 및 분리<br>
4. 모델링 및 성능 평가<br>
5. 예측값 제출<br>
---

## Q. 팁 예측하기
### 1. 라이브러리 및 데이터 확인

In [1]:
###############  복사 영역  ###############
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
import pandas as pd
import numpy as np
import seaborn as sns
# tips 데이터셋 로드
df = sns.load_dataset('tips')

x = df.drop(['tip'], axis=1) 
y = df['tip']


# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=2023)

x_test = pd.DataFrame(x_test.reset_index())
x_train = pd.DataFrame(x_train.reset_index())
y_train = pd.DataFrame(y_train.reset_index())

x_test.rename(columns={'index':'cust_id'}, inplace=True)
x_train.rename(columns={'index':'cust_id'}, inplace=True)
y_train.columns = ['cust_id', 'target'] 

- total_bill (총 청구액) : 손님의 식사 총 청구액
- tip (팁) : 팁의 양
- sex (성별) : 손님의 성별
- smoker (흡연 여부) : 손님의 흡연 여부
- day (요일) : 식사가 이루어진 요일
- time (시간) : 점심 또는 저녁 중 언제 식사가 이루어졌는지
- size (인원 수) : 식사에 참석한 인원 수

### 2. 데이터 탐색

In [2]:
# 
print(x_test.head())
print("---")
print(x_train.head())
print("---")
print(y_train.head())

   cust_id  total_bill     sex smoker  day    time  size
0      154       19.77    Male     No  Sun  Dinner     4
1        4       24.59  Female     No  Sun  Dinner     4
2       30        9.55    Male     No  Sat  Dinner     2
3       75       10.51    Male     No  Sat  Dinner     2
4       33       20.69  Female     No  Sat  Dinner     4
---
   cust_id  total_bill     sex smoker  day    time  size
0      158       13.39  Female     No  Sun  Dinner     2
1      186       20.90  Female    Yes  Sun  Dinner     3
2       21       20.29  Female     No  Sat  Dinner     2
3       74       14.73  Female     No  Sat  Dinner     2
4       43        9.68    Male     No  Sun  Dinner     2
---
   cust_id  target
0      158    2.61
1      186    3.50
2       21    2.75
3       74    2.20
4       43    1.32


In [3]:
# 변수명과 데이터 타입이 매칭되는지, 결측치 있는지 확인
print(x_test.info())
print("---")
print(x_train.info())
print("---")
print(y_train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   cust_id     49 non-null     int64   
 1   total_bill  49 non-null     float64 
 2   sex         49 non-null     category
 3   smoker      49 non-null     category
 4   day         49 non-null     category
 5   time        49 non-null     category
 6   size        49 non-null     int64   
dtypes: category(4), float64(1), int64(2)
memory usage: 2.0 KB
None
---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   cust_id     195 non-null    int64   
 1   total_bill  195 non-null    float64 
 2   sex         195 non-null    category
 3   smoker      195 non-null    category
 4   day         195 non-null    category
 5   time        195 non-null    category
 6   siz

In [4]:
# x_train과 x_test 데이터의 기초 통계량을 잘 비교해볼 것
print(x_test.describe(include = ['category','int','float']))
print("---")
print(x_train.describe(include = ['category','int','float']))
print("---")
print(y_train.describe(include = ['category','int','float']))

           cust_id  total_bill   sex smoker  day    time       size
count    49.000000   49.000000    49     49   49      49  49.000000
unique         NaN         NaN     2      2    4       2        NaN
top            NaN         NaN  Male     No  Sat  Dinner        NaN
freq           NaN         NaN    32     31   16      34        NaN
mean    119.285714   18.716531   NaN    NaN  NaN     NaN   2.673469
std      70.918674    8.669864   NaN    NaN  NaN     NaN   0.987162
min       2.000000    5.750000   NaN    NaN  NaN     NaN   2.000000
25%      62.000000   12.740000   NaN    NaN  NaN     NaN   2.000000
50%     123.000000   16.660000   NaN    NaN  NaN     NaN   2.000000
75%     180.000000   21.010000   NaN    NaN  NaN     NaN   3.000000
max     239.000000   44.300000   NaN    NaN  NaN     NaN   6.000000
---
           cust_id  total_bill   sex smoker  day    time        size
count   195.000000  195.000000   195    195  195     195  195.000000
unique         NaN         NaN     2      

### 3. 데이터 전처리 및 분리<br>

1. 결측치 2. 이상치 3. 변수 처리하기


In [5]:
# 결측치 확인
print(x_test.isnull().sum())
print("---")
print(x_train.isnull().sum())
print("---")
print(y_train.isnull().sum())

cust_id       0
total_bill    0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64
---
cust_id       0
total_bill    0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64
---
cust_id    0
target     0
dtype: int64


In [6]:
# 결측치 제거
# df = df.dropna()
# print(df)

# 결측치 대체(평균값, 중앙값, 최빈값)
# 연속형 변수 : 중앙값, 평균값
# - df['변수명'].median()
# - df['변수명'].mean()
# 범주형 변수 : 최빈값

# df['변수명] = df['변수명].fillna(대체할 값)

In [7]:
# 이상치 대체
# df['변수명] = np.where(df['변수명'] > 5, 대체할 값, df['변수명'])

In [8]:
# 변수처리

# 불필요한 변수 제거
# df = df.drop(columns = ['변수1', '변수2'])
# df = df.drop(['변수1', '변수2'], axis = 1)

# 필요시 변수 추가(파생변수 생성)
# df['파생변수명'] = df['A'] * df['B'] ( <- 파생변수 생성 수식 )

# 원핫인코딩 (가변수 처리)
# x_train = pd.get_dummies(x_train)
# x_test = pd.get_dummies(x_test)
# print(x_train.info())
# print(x_test.info())

In [6]:
# 변수처리
# 불필요한 변수(columns) 제거
# id는 불피료한 변수이므로 제거한다.
# 단, test data set의 cust_id가 나중에 제출이 필요하기 때문에 별도로 저장

cust_id = x_test['cust_id'].copy()

# 각 데이터에서 cust_id 변수 제거
x_train = x_train.drop(columns = ['cust_id'])
x_test = x_test.drop(columns = ['cust_id'])

In [7]:
print(x_train.info())
print("---")
print(x_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  195 non-null    float64 
 1   sex         195 non-null    category
 2   smoker      195 non-null    category
 3   day         195 non-null    category
 4   time        195 non-null    category
 5   size        195 non-null    int64   
dtypes: category(4), float64(1), int64(1)
memory usage: 4.5 KB
None
---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  49 non-null     float64 
 1   sex         49 non-null     category
 2   smoker      49 non-null     category
 3   day         49 non-null     category
 4   time        49 non-null     category
 5   size        49 non-null     int64   
dtypes: category(4), float64(1), int64(1)
memory u

In [8]:
# 변수 처리 (원핫 인코딩)
x_train = pd.get_dummies(x_train, columns = ['sex', 'smoker','day','time'])
x_test = pd.get_dummies(x_test, columns = ['sex', 'smoker','day','time'])

print(x_train.info())
print("---")
print(x_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   total_bill   195 non-null    float64
 1   size         195 non-null    int64  
 2   sex_Male     195 non-null    bool   
 3   sex_Female   195 non-null    bool   
 4   smoker_Yes   195 non-null    bool   
 5   smoker_No    195 non-null    bool   
 6   day_Thur     195 non-null    bool   
 7   day_Fri      195 non-null    bool   
 8   day_Sat      195 non-null    bool   
 9   day_Sun      195 non-null    bool   
 10  time_Lunch   195 non-null    bool   
 11  time_Dinner  195 non-null    bool   
dtypes: bool(10), float64(1), int64(1)
memory usage: 5.1 KB
None
---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49 entries, 0 to 48
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   total_bill   49 non-null     float64
 1   size

In [9]:
print(x_train.head())
print("---")
print(x_test.head())

   total_bill  size  sex_Male  sex_Female  smoker_Yes  smoker_No  day_Thur  \
0       13.39     2     False        True       False       True     False   
1       20.90     3     False        True        True      False     False   
2       20.29     2     False        True       False       True     False   
3       14.73     2     False        True       False       True     False   
4        9.68     2      True       False       False       True     False   

   day_Fri  day_Sat  day_Sun  time_Lunch  time_Dinner  
0    False    False     True       False         True  
1    False    False     True       False         True  
2    False     True    False       False         True  
3    False     True    False       False         True  
4    False    False     True       False         True  
---
   total_bill  size  sex_Male  sex_Female  smoker_Yes  smoker_No  day_Thur  \
0       19.77     4      True       False       False       True     False   
1       24.59     4     False      

In [11]:
x_train = x_train.astype('float64')
x_test = x_test.astype('float64')

In [12]:
print(x_train.head())
print("---")
print(x_test.head())

   total_bill  size  sex_Male  sex_Female  smoker_Yes  smoker_No  day_Thur  \
0       13.39   2.0       0.0         1.0         0.0        1.0       0.0   
1       20.90   3.0       0.0         1.0         1.0        0.0       0.0   
2       20.29   2.0       0.0         1.0         0.0        1.0       0.0   
3       14.73   2.0       0.0         1.0         0.0        1.0       0.0   
4        9.68   2.0       1.0         0.0         0.0        1.0       0.0   

   day_Fri  day_Sat  day_Sun  time_Lunch  time_Dinner  
0      0.0      0.0      1.0         0.0          1.0  
1      0.0      0.0      1.0         0.0          1.0  
2      0.0      1.0      0.0         0.0          1.0  
3      0.0      1.0      0.0         0.0          1.0  
4      0.0      0.0      1.0         0.0          1.0  
---
   total_bill  size  sex_Male  sex_Female  smoker_Yes  smoker_No  day_Thur  \
0       19.77   4.0       1.0         0.0         0.0        1.0       0.0   
1       24.59   4.0       0.0      

데이터 분리

In [13]:
# 데이터를 훈련 데이터 셋과 검증용 데이터 셋으로 분할 ( 80 : 20 )
from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train, #x -> y 순
                                                  y_train['target'],
                                                  test_size = 0.2,
                                                  random_state = 2023)

print(x_train.shape)
print("---")
print(x_val.shape)
print("---")
print(y_train.shape)
print("---")
print(y_val.shape)

(156, 12)
---
(39, 12)
---
(156,)
---
(39,)


### 4. 모델링 및 성능 평가

In [14]:
# 랜덤 포레스트 모델 사용 (참고 : 분류모델은 RandomForestClassifier)
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state = 2023)
model.fit(x_train, y_train)

In [15]:
# 모델을 사용하여 테스트 데이터 예측
y_pred = model.predict(x_val)

In [16]:
# 모델 성능 평가 (평균 제곱 오차 및 R-squared)
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_val, y_pred) #(실제값, 예측값)
r2 = r2_score(y_val, y_pred) 

In [17]:
# MSE
print("MSE")
print(mse)
print("---")
# R2 Score
print("R-Squared")
print(r2)
# RMSE
rmse = mse**0.5
print("---")
print("RMSE")
print(rmse)

MSE
1.0860209841025643
---
R-Squared
0.6214234662421672
---
RMSE
1.042123305613383


### 5. 예측값 제출

In [19]:
# 실기시험 안내사항
# 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용
# pd.DataFrame({'cust_id' : cust_id, 'target' : y_result}).to_csv('수험번호.csv', index = False)

# 모델을 사용하여 테스트 예측
y_result = model.predict(x_test)
result = pd.DataFrame({'cust_id' : cust_id, 'target' : y_result})
print(result[:10])

   cust_id  target
0      154  3.1114
1        4  2.8938
2       30  1.7715
3       75  1.6389
4       33  3.1873
5      149  1.5769
6      164  2.9384
7       61  2.0657
8      136  2.0081
9      211  3.5714


In [19]:
# tip : 데이터를 저장한 다음 불러와서 제대로 export 하였는지 확인
# pd.DataFrame({'cust_id' : cust_id, 'target' : y_result}).to_csv('수험번호.csv', index = False)
# df2 = pd.read_csv('수험번호'.csv)
# print(df2.head())