여러분은 왜 개 사료가 예상보다 빨리 상하게 되는지를 파악하기위해 개 사료 회사에 고용되었습니다. 안 좋은 소식은 이 회사는 한동안 장비를 업그레이드 하지 않았습니다. 즉, 이 회사에서 사용하는 5가지 방부제의 사용 용량이 중구난방이라는 뜻입니다. 하지만 그 중에서 가장 많은 영향을 끼치는 것이 무엇일까요?<br>
이 회사에서는 먼저 4가지 방부제(A, B, C, D)가 함유된 방부제 묶음을 섞은 뒤 '필러'라는 화학물질로 마무리합니다. 식품과학자들은 A, B, C, D 방부제 중 하나가 문제를 일으키고 있다고 생각하지만, 그게 어떤 것인지 명확하게 하기위해 여러분이 고용됐습니다. "랜덤포레스트"로 어떤 방부제가 사료를 빨리 상하게 하는지 찾아보세요!

- Pres_A : 혼합물의 A비율
- Pres_B : 혼합물의 B비율
- Pres_C : 혼합물의 C비율
- Pres_D : 혼합물의 D비율
- Spoiled : 개 사료가 상했는지 여부를 나타내는 레이블.

**시나리오에서 요구하는 바를 고려하여, 머신러닝을 이용해서 문제를 풀어보세요.**

In [1]:
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from sklearn.model_selection import train_test_split

## 데이터 불러오기

In [2]:
df = pd.read_csv("./data/dog_food.csv")

## 데이터 확인

In [3]:
df.head()

Unnamed: 0,A,B,C,D,Spoiled
0,4,2,12.0,3,1.0
1,5,6,12.0,7,1.0
2,6,2,13.0,6,1.0
3,4,2,12.0,1,1.0
4,4,2,12.0,3,1.0


In [6]:
df.shape

(490, 5)

In [7]:
#데이터타입 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 490 entries, 0 to 489
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   A        490 non-null    int64  
 1   B        490 non-null    int64  
 2   C        490 non-null    float64
 3   D        490 non-null    int64  
 4   Spoiled  490 non-null    float64
dtypes: float64(2), int64(3)
memory usage: 19.3 KB


In [8]:
#결측치 확인
df.isnull().sum()

A          0
B          0
C          0
D          0
Spoiled    0
dtype: int64

In [9]:
df.describe()

Unnamed: 0,A,B,C,D,Spoiled
count,490.0,490.0,490.0,490.0,490.0
mean,5.534694,5.504082,9.126531,5.579592,0.285714
std,2.95152,2.853797,2.055545,2.854837,0.452216
min,1.0,1.0,5.0,1.0,0.0
25%,3.0,3.0,8.0,3.0,0.0
50%,5.0,6.0,9.0,6.0,0.0
75%,8.0,8.0,11.0,8.0,1.0
max,10.0,10.0,14.0,10.0,1.0


## 데이터 분할

In [6]:
# 종속변수 y 분리
x = df.drop("Spoiled", axis = 1)
y = df["Spoiled"]

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, stratify = y, random_state = 0)

In [8]:
x_train.shape, x_test.shape

((392, 4), (98, 4))

In [9]:
dt = RandomForestClassifier(n_estimators=20, max_depth = 3,random_state = 3)
dt.fit(x_train, y_train)

In [10]:
imp = pd.DataFrame({"features" : x_train.columns, "importances" : dt.feature_importances_})

imp

Unnamed: 0,features,importances
0,A,0.016948
1,B,0.038561
2,C,0.922045
3,D,0.022446


- 특성중요도 : C, D, B, A순으로 높음
- C가 문제를 일으키고있다고 보임