# Data science tutorials  
### Chapter8: Machine learning - Classification

<img style="float: right;" src="img/logo.png" width="150">

<div style="text-align: right"> Initial issue : 2024.09.18 </div>
<div style="text-align: right"> last update : 2024.09.18 </div>

### Objectives  
- 지도학습 중에 분류(Classification) 문제를 이해한다.  
- 사이킷런(Scikit-learn)을 사용하여 분류 모델을 학습시킨다.

### 1. IRIS(붓꽃) 품종 분류 문제
---
붓꽃의 품종을 분류하는 머신러닝 모델 만들기

<img src="img/ch08/01_iris.jpg" width="500">

#### 1.1 라이브러리 import

In [1]:
import numpy as np #numpy
import pandas as pd #pandas

#### 1.2 데이터 읽어오기 및 기본정보 확인

<img src="img/ch08/02_raw_data.jpg" width="800">

pandas의 read_csv 메서드를 사용하여 데이터 셋을 iris 변수에 저장한다.

In [2]:
iris = pd.read_csv('data/Iris.csv')

In [3]:
# 데이터 타입 확인
type(iris)

pandas.core.frame.DataFrame

- 데이터는 DataFrame 형식이다.

head() 메서드로 데이터의 최초 5개 샘플을 확인한다.

In [4]:
iris.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


타겟 변수(Species) 만 살펴본다.  

In [5]:
iris['Species'].head()

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: Species, dtype: object

In [6]:
type(iris['Species'])

pandas.core.series.Series

- 단일 컬럼만 인덱싱 하면 series 타입으로 리턴된다.

unique 메서드로 타겟(또는 클래스)의 종류를 확인한다.

In [7]:
iris['Species'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

- 타겟의 종류(데이터 상 붓꽃의 품종)는 3가지 이다.

데이터 모양을 살펴본다.

In [8]:
iris.shape

(150, 5)

- 150x5, 2차원 데이터 셋이다.

#### 1.3 데이터 전처리 

<img src="img/ch08/03_preprocessing.jpg" width="800">

데이터 셋을 입력(피처, X)과 출력(타겟, y)으로 나눈다.

In [9]:
X = iris.iloc[:, 0:3]
y = iris.iloc[:, 4]

데이터 셋이 잘 분리되었는지 확인한다.

In [10]:
X.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5
4,5.0,3.6,1.4


In [11]:
y.head()

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: Species, dtype: object

#### 1.4 모델학습(Trainig, learning)
여기서는 로지스틱 회귀(Logistic Regression) 모델을 생성하고, 1.3의 데이터셋으로 학습시킨다.   
- 로지스틱 회귀 참고자료  
    - [참고1](https://velog.io/@gayeon/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%B4%88%EB%B3%B4%EC%9E%90%EB%A5%BC-%EC%9C%84%ED%95%9C-Logistic-Regression-with-Scikit-Learn)
    - [참고2](https://thebook.io/080227/ch07/04/)

<img src="img/ch08/04_training.jpg" width="800">

사이킷런 로지스틱 회기 모델 불러오기

In [12]:
from sklearn.linear_model import LogisticRegression

In [13]:
logreg = LogisticRegression() # 모델생성

In [14]:
logreg.fit(X, y) # 모델학습

#### 1.5 모델 시험, 평가(Test, Evaluation)  

<img src="img/ch08/05_prediction.jpg" width="800">

피처 데이터만 입력하여 모델의 예측 결과를 저장한다.

In [15]:
y_pred = logreg.predict(X)

In [16]:
y_pred[:5] # 결과 일부 살펴보기

array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa'], dtype=object)

실제 결과와 예측 결과를 비교하여 평균을 계산한다.

In [17]:
np.mean(y_pred==y)

0.96

모델의 score 메서드를 사용해서 동일한 결과를 얻을수도 있다.

In [18]:
logreg.score(X, y)

0.96

#### 1.6 데이터셋을 분리하여 학습, 평가하기  
- 학습에 사용한 데이터를 사용해서 평가하는 것은 적절한 방법이 아니다.  
- 학습에 사용하지 않은 데이터로 모델을 평가해본다.  
- 이를 위해 원본 데이터를 학습용(Train)과 시험용(Test)으로 분리한다.

<img src="img/ch08/06_split.jpg" width="500">

데이터를 학습용, 시험용으로 분리하고 모델을 학습, 평가해보자.

1) 데이터 읽기

In [19]:
iris = pd.read_csv('data/Iris.csv')

2) 데이터 전처리 : 데이터 셋을 입력(피처)과 출력(타겟)으로 나눈다.

In [20]:
X = iris.iloc[:, 0:3]
y = iris.iloc[:, 4]

**3) 학습/ 시험 데이터 나누기**  

사이킷런의 `train_test_split` 라이브러리를 사용하여 학습, 시험 데이터로 분리한다.

In [21]:
from sklearn.model_selection import train_test_split

In [22]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                    stratify = y, random_state = 7,test_size = 0.3)
# stratify : 타겟 클래스의 비율대로 학습, 시험 데이터를 분리
# test_size : 전체 데이터에서 시험데이터의 비율

In [23]:
print('X_train :',X_train.shape)
print('y_train :',y_train.shape)
print('X_test :',X_test.shape)
print('y_test :',y_test.shape)

X_train : (105, 3)
y_train : (105,)
X_test : (45, 3)
y_test : (45,)


4) 모델학습
- 학습용 데이터(X_train, y_train)로 모델을 학습시킨다.

In [24]:
from sklearn.linear_model import LogisticRegression

In [25]:
logreg = LogisticRegression(random_state=7)
logreg.fit(X_train, y_train)

5) 모델 시험, 평가

In [26]:
# 학습용 데이터로 평가
logreg.score(X_train, y_train)

0.9714285714285714

In [27]:
# 시험용 데이터로 평가
logreg.score(X_test, y_test)

0.9111111111111111

- 학습용 데이터 성능평가 결과 : 97.14%
- 시험용 데이터 성능평가 결과 : 91.11%

- 시험 용 데이터는 모델이 경험하지 못한 데이터이기 때문에 예측 성능이 상대적으로 낮다.  
- 모델의 일반화 성능 평가를 위해서는 학습에 사용하지 않은 시험용 데이터로 평가하는 것이 타당하다.

또 다른 기능 : predict_proba 메서드를 사용하면 각 클래스의 예측확률을 확인할 수 있다.

In [28]:
proba = logreg.predict_proba(X_test)
proba

array([[3.03791642e-01, 6.95241742e-01, 9.66615856e-04],
       [2.92853503e-02, 9.34222482e-01, 3.64921678e-02],
       [1.77199669e-05, 5.75443358e-02, 9.42437944e-01],
       [9.80403007e-01, 1.95968427e-02, 1.50435491e-07],
       [2.02778909e-01, 7.94003861e-01, 3.21722977e-03],
       [9.79475720e-01, 2.05240467e-02, 2.33071624e-07],
       [3.44075516e-03, 6.12962420e-01, 3.83596824e-01],
       [1.27035033e-04, 1.31278387e-01, 8.68594578e-01],
       [1.98748555e-03, 5.43677757e-01, 4.54334757e-01],
       [9.82614891e-01, 1.73850479e-02, 6.13152094e-08],
       [9.43958783e-01, 5.60401366e-02, 1.08066077e-06],
       [5.65616670e-04, 2.03361658e-01, 7.96072726e-01],
       [9.54993239e-01, 4.50046875e-02, 2.07320205e-06],
       [8.85555875e-03, 7.38728670e-01, 2.52415771e-01],
       [2.05751749e-02, 7.63106851e-01, 2.16317974e-01],
       [3.66438217e-03, 7.07601838e-01, 2.88733780e-01],
       [1.00353062e-04, 8.79092027e-02, 9.11990444e-01],
       [4.23466942e-02, 9.30823

### 2. 와인 등급 분류 문제
---
와인의 성분 정보로 등급(Class label)을 분류하는 머신러닝 모델 만들기

<img src="img/ch08/07_wine.jpg" width="400">

#### 2.1 라이브러리 import

In [29]:
import numpy as np #numpy
import pandas as pd #pandas

from sklearn.model_selection import train_test_split

#### 2.2 데이터 읽기 및 기본정보 확인

pandas의 read_csv 메서드를 사용하여 데이터 셋을 wine 변수에 저장

In [30]:
wine = pd.read_csv('data/wine.data')

5개 샘플만 확인하기

In [31]:
wine.head()

Unnamed: 0,Class label,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavnoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


<img src="img/ch08/08_wine_data.jpg" width="800">

타겟 컬럼은 `Class label`이다.  
타겟의 종류를 확인해본다.

In [32]:
wine['Class label'].unique()

array([1, 2, 3])

- 타겟의 종류는 3가지 이다.

데이터 모양을 살펴본다.

In [33]:
wine.shape

(178, 14)

- 178x14, 2차원 데이터 셋이다.

#### 2.3 데이터 전처리 및 학습/ 시험 데이터 나누기

데이터 셋을 입력(피처)과 출력(타겟)으로 나눈다.

In [34]:
X = wine.iloc[:, 1:14]
y = wine.iloc[:, 0]

In [35]:
X.head()

Unnamed: 0,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavnoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [36]:
y.head()

0    1
1    1
2    1
3    1
4    1
Name: Class label, dtype: int64

학습 데이터와 시험 데이터로 분리한다.

In [37]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                    stratify = y, random_state = 7,test_size = 0.3)

#### 2.4 모델학습  
- 결정트리(Decision tree) 모델을 사용한다.   
- 결정트리 참고자료  
    - [참고1](https://tensorflow.blog/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/2-3-5-%EA%B2%B0%EC%A0%95-%ED%8A%B8%EB%A6%AC/)
    - [참고2](https://heeya-stupidbutstudying.tistory.com/m/41)

<img src="img/ch08/09_decision_tree.jpg" width="800">

결정트리 분류 모델 라이브러리 import

In [38]:
from sklearn.tree import DecisionTreeClassifier

모델 생성 및 학습

In [39]:
tree = DecisionTreeClassifier(random_state=7)
tree.fit(X_train, y_train)

#### 2.5 모델 시험, 평가  

In [40]:
tree.score(X_train, y_train)

1.0

In [41]:
tree.score(X_test, y_test)

0.9444444444444444