# 2. Iris의 세 가지 품종, 분류해볼 수 있겠어요?

**캐글의 iris 데이터셋을 이용해 기본적인 머신러닝 분류 태스크를 진행하고, 자주 사용되는 모델과 훈련기법을 알아본다.**

## 2-1. 들어가며

## 2-2. Iris의 세 가지 품종, 분류해 볼까요? (1) 붓꽃 분류 문제

```bash
$ pip install scikit-learn    
$ pip install matplotlib
```

## 2-3. Iris의 세 가지 품종, 분류해 볼까요? (2) 데이터 준비, 그리고 자세히 살펴보기는 기본!

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

print(dir(iris))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

In [None]:
iris.keys()

In [None]:
iris_data = iris.data

print(iris_data.shape) 
#shape는 배열의 형상정보를 출력

In [None]:
iris_data[0]

In [None]:
iris_label = iris.target
print(iris_label.shape)
iris_label

In [None]:
iris.target_names

In [None]:
print(iris.DESCR)

In [None]:
iris.feature_names

In [None]:
iris.filename

## 2-4. 첫 번째 머신러닝 실습, 간단하고도 빠르게! (1) 머신러닝 모델을 학습시키기 위한 문제지와 정답지 준비

In [None]:
import pandas as pd

print(pd.__version__)

In [None]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

In [None]:
iris_df["label"] = iris.target
iris_df

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

In [None]:
X_train.shape, y_train.shape

In [None]:
X_test.shape, y_test.shape

In [None]:
y_train, y_test

## 2-5. 첫 번째 머신러닝 실습, 간단하고도 빠르게! (2) 첫 번째 머신러닝 모델 학습시키기

In [None]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
print(decision_tree._estimator_type)

In [None]:
decision_tree.fit(X_train, y_train)

## 2-6. 첫 번째 머신러닝 실습, 간단하고도 빠르게! (3) 첫 번째 머신러닝 모델 평가하기

In [None]:
y_pred = decision_tree.predict(X_test)
y_pred

In [None]:
y_test

In [None]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
accuracy

## 2-7. 첫 번째 머신러닝 실습, 간단하고도 빠르게! (4) 다른 모델도 해 보고 싶다면? 코드 한 줄만 바꾸면 돼!

In [None]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# (2) 데이터 준비
iris = load_iris()
iris_data = iris.data
iris_label = iris.target

# (3) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

In [None]:
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=21)

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

In [None]:
from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

In [None]:
# 코드를 입력하세요
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

In [None]:
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

In [None]:
# 코드를 입력하세요
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

## 2-8. 내 모델은 얼마나 똑똑한가? 다양하게 평가해 보기 (1) 정확도에는 함정이 있다

In [None]:
from sklearn.datasets import load_digits

digits = load_digits()
digits.keys()

In [None]:
digits_data = digits.data
digits_data.shape

In [None]:
digits_data[0]

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(digits.data[0].reshape(8, 8), cmap='gray')
plt.axis('off')
plt.show()

In [None]:
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.imshow(digits.data[i].reshape(8, 8), cmap='gray')
    plt.axis('off')
plt.show()

In [None]:
digits_label = digits.target
print(digits_label.shape)
digits_label[:20]

In [None]:
new_label = [3 if i == 3 else 0 for i in digits_label]
new_label[:20]

In [None]:
# 코드를 입력하세요
# 필요한 모듈 임포트
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

# 데이터 준비
digits = load_digits()
digits_data = digits.data
digits_label = digits.target
new_label = [3 if i == 3 else 0 for i in digits_label]

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    new_label, 
                                                    test_size=0.2, 
                                                    random_state=15)

# 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=15)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

# 정확도 측정
accuracy = accuracy_score(y_test, y_pred)

In [None]:
fake_pred = [0] * len(y_pred)

accuracy = accuracy_score(y_test, fake_pred)
accuracy

## 2-9. 내 모델은 얼마나 똑똑한가? 다양하게 평가해 보기 (2) 정답과 오답에도 종류가 있다!

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

In [None]:
confusion_matrix(y_test, fake_pred)

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

In [None]:
print(classification_report(y_test, fake_pred, zero_division=0))

In [None]:
accuracy_score(y_test, y_pred), accuracy_score(y_test, fake_pred)

## 2-10. 데이터가 달라도 문제 없어요!

## 2-11. 프로젝트 (1) load_digits : 손글씨를 분류해 봅시다

In [None]:
import sklearn

print(sklearn.__version__)

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2-12. 프로젝트 (2) load_wine : 와인을 분류해 봅시다

In [None]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2-13. 프로젝트 (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

>## **루브릭**

>|번호|평가문항|상세기준|
>|:---:|---|---|
>|1|3가지 데이터셋의 구성이 합리적으로 진행되었는가?|feature와 label 선정을 위한 데이터 분석과정이 체계적으로 전개됨|
>|2|3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?|모델학습 및 테스트가 정상적으로 수행되었음|
>|3|3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?|평가지표 선택 및 이유 설명이 타당함|