# 3. Softmax Regression

---

## 학습 목표
- Softmax Regresssion을 이해하고, Iris 데이터와 Wine 데이터로 실습해본다.
- Multi-Class classification에 대한 개념을 이해한다.

---

## 목차

### 3.1. Softmax Regression - Iris
1. 데이터 로드
2. 모델 정의
3. 모델 학습 (with Train data)
4. 결과 예측 (with Test data)
5. 결과 평가

### 3.2. Softmax Regression - Wine
1. 데이터 로드
2. 모델 정의
3. 모델 학습 (with Train data)
4. 결과 예측 (with Test data)
5. 결과 평가

---

## 3.1  Softmax Regression - Iris

> Scikit-Learn을 사용하여 Softmax Regression 를 실습해봅니다.
- 사용할 데이터: Sklearn에서 제공하는 Iris 데이터
- Logistic Regression과 Softmax Regression은 Sklearn의 linear_model 패키지에 있는LogisticRegression 메서드를 사용가능합니다.

### 2-1-1. 데이터 로드

이번 실습을 위해 sklearn 내장 데이터인 붓꽃 데이터를 불러오겠습니다.<br>
붓꽃 데이터셋은 꽃 받침의 길이, 너비, 꽃잎의 길이, 너비인 4개의 변수를 가지고 있으며, 3개의 붓꽃 종을 라벨 데이터로 가지고 있습니다.

In [1]:
import os
import warnings

import numpy as np
import pandas as pd

warnings.filterwarnings('ignore')

In [2]:
# 붓꽃 데이터셋을 로드합니다.
from sklearn.datasets import load_iris
iris = load_iris()

# 데이터셋에 대한 설명을 볼 수 있습니다.
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [3]:
data = iris.data
label = iris.target
columns = iris.feature_names

# print(data)
print(label)
# print(columns)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [4]:
# pandas를 사용해서 표 형태로 확인이 가능합니다.
data = pd.DataFrame(data, columns = columns)
data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
# 데이터를 Train과 Test 데이터로 분리해줍니다.
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(data, label, test_size=0.2, shuffle=True, stratify=label, random_state=0)

### 3-1-2. 모델 정의

Scikit-Learn에 구현된 LogisticRegression 함수를 정의합니다.

In [6]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression() # iter = 100 (default)

### 3-1-3. 모델 학습

In [7]:
lr.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 3-1-4. 결과 예측

In [8]:
y_pred = lr.predict(x_test)
print(y_pred)

[0 1 0 2 0 1 2 0 0 1 2 1 1 2 1 2 2 1 1 0 0 2 2 2 0 1 1 2 0 0]


### 2-1-5. 결과 평가

일반적으로 분류에서는 `Accuracy (정확도)`를 평가 척도로 사용합니다. 

In [9]:
from sklearn.metrics import accuracy_score

print('소프트맥스 회귀, 정확도 : {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

소프트맥스 회귀, 정확도 : 100.00%


---

## 3.2  Softmax Regression - Wine

> Scikit-Learn을 사용하여 Softmax 회귀를 실습해봅니다.
- 사용할 데이터: sklearn에서 제공하는 wine 데이터
- Logistic Regression과 Softmax Regression은 Sklearn의 linear_model 패키지에 있는 LogisticRegression 메서드를 사용하여 학습해줄 수 있습니다.

### 3-2-1. 데이터 로드

이번 회귀 실습을 위해 sklearn 내장 데이터인 와인 데이터를 불러오겠습니다.<br>
와인 데이터셋은 13개의 여러 측정치를 변수로 가지고 있으며, 3개의 경작회사들을 라벨 데이터로 가지고 있습니다.

In [10]:
# 와인 데이터셋을 로드합니다.
from sklearn.datasets import load_wine
wine = load_wine()

# 데이터셋에 대한 설명을 볼 수 있습니다.
print(wine.DESCR)

data = wine.data
label = wine.target
columns = wine.feature_names

# pandas를 사용해서 표 형태로 확인이 가능합니다.
data = pd.DataFrame(data, columns = columns)
print(data.head())

# 데이터를 Train과 Test 데이터로 분리해줍니다.
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(data, label, test_size=0.2, shuffle=True, stratify=label, random_state=0)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

### 3-2-2. 모델 정의

In [11]:
from sklearn.linear_model import LogisticRegression

#1단계: 모델 정의 코드를 채워주세요
lr = None

In [12]:
#@title 정답코드

# 1단계: 모델 정의 (Logistic regression)
lr = LogisticRegression(max_iter=5)

### 3-2-3. 모델 학습

In [13]:
# 2단계: 모델 학습 코드를 채워주세요


In [14]:
#@title 정답코드

# 2단계: 모델 학습
lr.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=5,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 3-2-4. 결과 예측

In [15]:
# 3단계: 결과 예측 코드를 채워주세요


In [16]:
#@title 정답코드

# 3단계: 결과 예측
y_pred = lr.predict(x_test)

### 3-2-5. 결과 평가


In [17]:
from sklearn.metrics import accuracy_score

# 4단계: 결과 평가 코드를 채워주세요.

In [18]:
#@title 정답코드
from sklearn.metrics import accuracy_score

print('로지스틱 회귀, 정확도: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

로지스틱 회귀, 정확도: 63.89%
