In [30]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import pandas as pd

In [31]:
iris_data = load_iris()

In [32]:
print(iris_data.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

* 총 150개의 데이터
* 4개의 입력 변수
    * sepal length
    * sepal width
    * petal length
    * petal width
* 목표 변수
    * class:
        - Iris-Setosa (50)
        - Iris-Versicolour (50)
        - Iris-Virginica (50)

In [33]:
X = pd.DataFrame(data = iris_data.data, columns = iris_data.feature_names)
X

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [34]:
y = pd.DataFrame(data = iris_data.target, columns =[['class']])
y

Unnamed: 0,class
0,0
1,0
2,0
3,0
4,0
...,...
145,2
146,2
147,2
148,2


### 데이터 분리

In [35]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=5)

In [None]:
### 로지스틱 회귀를 사용할 때는, 아래의 코드를 함께 실행시켜주는 것이 좋다.

In [36]:
y_train = y_train.values.ravel() # 경고 메세지를 없애기 위한 코드

#### pandas.Sereis.ravle 
> https://pandas.pydata.org/docs/reference/api/pandas.Series.ravel.html

`ravel`은 "풀다"로 **다차원을 1차원** 으로 푸는 것을 의미하며<br>
1차원 벡터 형태로 출력하기 위해 ravel 사용한다.<br>

* 실행 전 type
pandas.core.frame.DataFrame
* 실행 후 type
numpy.ndarray

In [43]:
type(y_train)

numpy.ndarray

In [37]:
model = LogisticRegression(solver='saga', max_iter = 2000 )

* solver <br>
모델을 최적화 할 때, 어떤 알고리즘을 쓸지 결정
* max_iter <br>
모델을 최적화 할 때, 과정을 몇 번 반복할지 결정<br>
이때, 필수적으로 설정된 값만큼 반복되는 것은 아님<br> 
모델이 충분히 최적화가 되었다고 판단되면, 자동으로 반복을 멈춘다.
* alpha
자동으로 최적화 되어있으므로 따로 설정할 필요 X


optional parameter는 설정해주지 않아도 되지만 
수정했을 경우 더 좋은 결과를 도출해 낼 수도 있다.

In [38]:
model.fit(X_train, y_train)

LogisticRegression(max_iter=2000, solver='saga')

In [41]:
y_test_predict = model.predict(X_test)
y_test_predict

array([1, 2, 2, 0, 2, 1, 0, 2, 0, 1, 1, 2, 2, 2, 0, 0, 2, 2, 0, 0, 1, 2,
       0, 1, 1, 2, 1, 1, 1, 2])

#### 모델이 약96%의 확률로 제대로 분류한다.

In [42]:
model.score(X_test,y_test)

0.9666666666666667

---

### 코드 정리

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

import pandas as pd  

wine_data = datasets.load_wine()
# int(wine_data.DESCR)


# 입력 변수를 사용하기 편하게 pandas dataframe으로 변환
X = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)

# 목표 변수를 사용하기 편하게 pandas dataframe으로 변환
y = pd.DataFrame(wine_data.target, columns=['Y/N'])

# 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=5)
y_train = y_train.values.ravel()

# 모델 학습
logistic_model = LogisticRegression(solver='saga', max_iter=7500) 
logistic_model.fit(X_train, y_train)  # 학습 데이터를 이용해서 모델을 학습 시킨다

# 로지스틱 회귀 모델를 이용해서 각 와인 데이터 분류를 예측함
y_test_predict = logistic_model.predict(X_test)

# 로지스틱 회귀 모델의 성능 확인 (정확성 %를 리턴함)
score = logistic_model.score(X_test, y_test)
y_test_predict, score