In [1]:
import numpy as np
import pandas as pd
import sklearn
import matplotlib.pyplot as plt

In [2]:
from sklearn.datasets import load_iris
iris=load_iris()

In [3]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [4]:
data=iris.data
label=iris.target
columns=iris.feature_names

In [5]:
data=pd.DataFrame(data,columns=columns)
data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
data.shape

(150, 4)

In [7]:
# train 데이터와 test 데이터를 확보하기 위해 데이터를 쪼개 봅시다. 이 작업은 전처리라고 하지 않습니다. 전처리를 한 후 해도 되고 하기 전에 해도 됩니다. 학습시키기 전에만 하면 되요.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test=train_test_split(data,label,test_size=0.2, random_state=2023)  # test 데이터는 20% 비율로 2023번 흔들어서 쪼개겠다는 뜻입니다.
# 피쳐부분은 대문자 X이고 라벨부분은 소문자 y로 쓰는게 국룰입니다.

In [8]:
# 로지스틱 회귀 모델에 대해 배워봅시다. 먼저 필요한 패키지를 불러오고 lr이라는 변수에 저장하여 간편하게 사용하도록 합시다.
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression()

In [None]:
# 학습시켜 봅시다. 데이터를 .fit해서 집어넣은 순간 lr은 모델이 된 것입니다.
lr.fit(X_train,y_train)

In [10]:
# 학습시킨 데이터로 예측을 해봅시다. y_pred는 예측값입니다.
y_pred=lr.predict(X_test)
y_pred

array([2, 1, 1, 2, 1, 2, 1, 1, 0, 1, 0, 1, 0, 2, 0, 2, 0, 1, 0, 0, 1, 0,
       2, 1, 0, 0, 0, 2, 1, 0])

In [11]:
# 실제값은 무엇일까요.
y_test

array([2, 1, 1, 2, 1, 2, 1, 1, 0, 1, 0, 1, 0, 2, 0, 2, 0, 1, 0, 0, 1, 0,
       2, 1, 0, 0, 0, 2, 1, 0])

In [12]:
# 이제 결과를 확인해봅시다. 정확도가 제일 중요하고 먼저 봐야합니다.
from sklearn.metrics import accuracy_score

In [13]:
accuracy_score(y_test,y_pred) # 실제값과 예측값의 정확도를 봅시다. 1에 가까울 수록 100%라고 보면 됩니다. 이 결과가지고 현업자들과 이야기하고 테스트 해봐야 합니다.

1.0

In [14]:
# 결과를 예쁘게 꾸며봅시다.
print('로지스틱 회귀 정확도: {:.2f}'.format(accuracy_score(y_test, y_pred) * 100))
# 회귀의 기본식인 y=wx+b인데, 계수는 기울기입니다. 가파르냐 평이하냐를 보면 됩니다. 가파르면 x값이 빠르게 올라갑니다. 절편은 x가 0일 때 y축에 맞닿아 있는 y의 시작값 입니다. w는 특성의 수 만큼 그려지고 b는 라벨 수 만큼 그려집니다.
print('로지스틱 회귀 \n계수(w): {0} \n절편(b): {1}'.format(lr.coef_, lr.intercept_))

로지스틱 회귀 정확도: 100.00
로지스틱 회귀 
계수(w): [[-0.4453824   0.89542595 -2.33680587 -1.03348345]
 [ 0.49430653 -0.33670595 -0.1930103  -0.85033915]
 [-0.04892412 -0.55872     2.52981617  1.8838226 ]] 
절편(b): [  9.45604436   2.1554048  -11.61144916]


In [15]:
# Support Vector Machine(SVM)을 배워봅시다. svm의 목표는 마진을 가장 많이 확보해내는 것입니다. 선에 걸쳐진 값을 서포트 백터라고 합니다.
from sklearn.svm import SVC  # 딥러닝이 생기기 전까지는 svm이 가장 인기있었습니다. svc는 서포트 벡터로 클래스파이한다는 뜻입니다.
svc = SVC(C=1) # 서포트 벡터에 걸쳐진 노이즈 값을 몇개까지 무시할 것인가에 관한 값이 C값입니다. 기본값은 1입니다.

In [16]:
svc.fit(X_train, y_train)

In [17]:
y_pred = svc.predict(X_test)

In [18]:
print('서포트 벡터 머신, 정확도: {:.2f}'.format(accuracy_score(y_test, y_pred)*100))

서포트 벡터 머신, 정확도: 100.00


In [19]:
# 그럼 C값이 얼마여야 가장 최적화될까요 ?
for i in [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]:
  svc = SVC(C=i)
  svc.fit(X_train, y_train)
  y_pred = svc.predict(X_test)
  print('서포트 벡터 머신, i={} 정확도: {:.2f}'.format(i,accuracy_score(y_test, y_pred)*100))
# 0.2부터는 100%가 나오니까 0.2를 파라미터로 쓰면 되겠습니다. 이렇게 분석하면 됩니다.
# 파라미터 수마다 돌려보는 걸 하이퍼파라미터라고 합니다.

서포트 벡터 머신, i=0.1 정확도: 90.00
서포트 벡터 머신, i=0.2 정확도: 100.00
서포트 벡터 머신, i=0.3 정확도: 100.00
서포트 벡터 머신, i=0.4 정확도: 100.00
서포트 벡터 머신, i=0.5 정확도: 100.00
서포트 벡터 머신, i=0.6 정확도: 100.00
서포트 벡터 머신, i=0.7 정확도: 100.00
서포트 벡터 머신, i=0.8 정확도: 100.00
서포트 벡터 머신, i=0.9 정확도: 100.00
서포트 벡터 머신, i=1 정확도: 100.00


In [43]:
# 이제 의사결정나무(Decision Tree)에 대해 배워봅시다.
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(max_depth=3)

In [38]:
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print('Tree 정확도: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))  # 컴퓨터 성능에 따라 결과값은 다르게 나옵니다.

Tree 정확도: 100.00%


In [39]:
from sklearn.tree import export_graphviz  # 의사결정나무를 시각화 해봅시다.
export_graphviz(dt, out_file='tree.dot')  # 모델의 노드구조가 다 들어있는 tree.dot 파일을 내보냈습니다.

In [60]:
#! pip install graphviz
# ! pip install subprocess.run

In [None]:
# 이제 시각화 해봅시다.
from subprocess import call
call(['dot','-Tpng','tree.dot',"-o",'decistion-tree1.png','-Gdpi=600'])

In [None]:
from IPython.display import Image
Image(filename = 'decistion-tree.png')

In [47]:
from sklearn.ensemble import RandomForestClassifier

In [48]:
rf=RandomForestClassifier()
rf.fit(X_train, y_train)
y_pred=rf.predict(X_test)
print('랜덤 포레스트 정확도: {:.2f}'.format(accuracy_score(y_test,y_pred)*100))

랜덤 포레스트 정확도: 100.00


In [63]:
import os
from os.path import join

abalone_path=join('.','abalone.txt')
column_path=join('.','abalone_attributes.txt')

abalone_columns=list()
for l in open(column_path):
    abalone_columns.append(l.strip())

In [74]:
data=pd.read_csv(abalone_path,header=None,names=abalone_columns)

data=data[data['Sex']!='I']  # 성별이 I가 아닌 값들만 뽑아봅시다.
label=data['Sex'].map(lambda x:0 if x=='M' else 1)  # M과 F값을 0과 1로 바꿔봅시다. 글자 데이터 보다 숫자 데이터로 만드는 편이 사용하기 좋습니다.
label  # 이제 데이터프레임에 있는 글자로 된 성별 컬럼을 삭제 해 봅시다.
del data['Sex']
data.head()

Unnamed: 0,Length,Diameter,Height,Whole weight,Shucked weight,Viscera weight,Shell weight,Rings
0,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
1,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
2,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
3,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
6,0.53,0.415,0.15,0.7775,0.237,0.1415,0.33,20


In [75]:
X_train, X_test, y_train, y_test=train_test_split(data,label,test_size=0.2,random_state=2023)  # 이제 학습데이터와 정답데이터를 나눠서 분석을 돌려봅시다.

In [78]:
rf=RandomForestClassifier(max_depth=5)
rf.fit(X_train,y_train)
y_pred=rf.predict(X_test)

In [80]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score  # 학습이 끝나면 반드시 모델이 정확한지, 좋은 모델인지 확인해봐야 합니다.

In [83]:
print('Accuracy : {:.2f}'.format(accuracy_score(y_test,y_pred)))
print('Precision : {:.2f}'.format(precision_score(y_test,y_pred)))
print('Recall : {:.2f}'.format(recall_score(y_test,y_pred)))
print('AUC : {:.2f}'.format(roc_auc_score(y_test,y_pred)))

Accuracy : 0.52
Precision : 0.52
Recall : 0.23
AUC : 0.51


In [84]:
for i in [2,3,4,5,6,7,8,9,10]:  # max_depth가 몇 일 때 정확도가 높은지 확인해 봅시다.
    rf=RandomForestClassifier(max_depth=i)
    rf.fit(X_train,y_train)
    y_pred=rf.predict(X_test)
    
    print('Accuracy : i={} {:.2f}'.format(i,accuracy_score(y_test,y_pred)))

Accuracy : i=2 0.53
Accuracy : i=3 0.52
Accuracy : i=4 0.52
Accuracy : i=5 0.54
Accuracy : i=6 0.53
Accuracy : i=7 0.54
Accuracy : i=8 0.56
Accuracy : i=9 0.53
Accuracy : i=10 0.57


In [86]:
best_model_depth=0
best_model_accuracy=0

for i in [2,3,4,5,6,7,8,9,10]:
    rf=RandomForestClassifier(max_depth=i)
    rf.fit(X_train,y_train)
    y_pred=rf.predict(X_test)
    
    acc=accuracy_score(y_test,y_pred)
    
    print('Accuracy : i={} {:.2f}'.format(i,acc*100))
    
    if best_model_accuracy<acc:  # 이렇게하면 지금 depth값이 있지만 이 값이 바뀔 때 마다 정확도가 가장 높은 값을 찾아줍니다.
        best_model_depth=i
        best_model_accuracy=acc
        
print('-----------------------------------------')
print('best_model_depth={0}, best_model_accuracy={1}'.format(best_model_depth,best_model_accuracy))

Accuracy : i=2 52.56
Accuracy : i=3 51.50
Accuracy : i=4 52.38
Accuracy : i=5 53.44
Accuracy : i=6 53.09
Accuracy : i=7 53.79
Accuracy : i=8 55.03
Accuracy : i=9 53.79
Accuracy : i=10 53.97
---------------------------------------
best_model_depth=8, best_model_accuracy=0.5502645502645502
