In [1]:
import sklearn

print(sklearn.__version__)

1.2.2


## 아이리스 데이터

### 모델링을 들어가기 전 전처리 필요

In [6]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier         # 모델 임포트 
from sklearn.model_selection import train_test_split    # 데이터세트 나누는 것 임포트
import pandas as pd

iris = load_iris()
iris_data = iris.data       # 아이리스 데이터 가지고 옴
iris_label = iris.target    # 아이리스 타겟 데이터 가지고 옴

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [7]:
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)    # 행: 아이리스 데이터, 열: 아이리스 특성
iris_df['y'] = iris.target                                              # 타겟값을 가진 y열 추가

In [8]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),y
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### 학습용 데이터, 테스트용 데이터 분리
- 훈련하고, 잘 훈련 됐는지 확인할 테스트 데이터가 필요하다.

In [9]:
#데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size= 0.3 ,random_state=111)

### 모델에 훈련시키기

In [11]:
df_clf = DecisionTreeClassifier(random_state=111)
df_clf.fit(X_train, y_train) # fit안에 우리가 넣은 건 x_train, y_train x 데이터와 x 데이더에 대응하는 y값

pred = df_clf.predict(X_test)
pred

array([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 0, 1, 2, 2, 0, 2, 1, 0, 2, 1, 2,
       1, 1, 2, 0, 0, 2, 0, 2, 0, 1, 0, 0, 1, 2, 2, 1, 0, 1, 1, 1, 1, 1,
       2])

### 정확도 확인

In [12]:
from sklearn.metrics import accuracy_score

print('DT 예측 정확도: {0:.3f}'.format(accuracy_score(y_test, pred)))   # 기존의 정답과 예측값 비교


DT 예측 정확도: 0.933


## 타이타닉 데이터

In [13]:
import seaborn as sns
titanic = sns.load_dataset('titanic')   # seaborn에 있는 타이타닉 데이터셋 불러오기
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [15]:
tt_df = titanic[['survived','pclass','sibsp','parch','fare']]       # 특정 컬럼만으로 새로 데이터프레임 만들기
tt_df.isna().sum()          # 결측값 존재 여부 확인

survived    0
pclass      0
sibsp       0
parch       0
fare        0
dtype: int64

In [16]:
tt_df_x= tt_df[['pclass', 'sibsp', 'parch', 'fare']]        # x값
tt_df_y =tt_df[['survived']]                                # y값(타겟)

len(tt_df_x)        # 갯수 비교
len(tt_df_y)

891

In [18]:
X_train, X_test, y_train, y_test = train_test_split(tt_df_x, tt_df_y, test_size= 0.3 ,random_state=111)     # 학습셋, 데이터셋 나누기

pred = df_clf.predict(X_test)
print('DT 예측 정확도: {0:.3f}'.format(accuracy_score(y_test, pred))) 

DT 예측 정확도: 0.616


