### 미신러닝 프로젝트 작업 프로세스
- 데이터 수집 : IoT, 설문조사, 웹(bs4, selenium 등)
- 데이터 준비 : 데이터를 읽어와 DataFrame으로 생성한다(pandas)
- 데이터 전처리 : 이상치와 결측치를 처리한다(pandas)
- 데이터 분석 : 데이터의 패턴을 사람이 읽는 작업(pandas, numpy, 시각화라이브러리)
- 데이터 전처리 : 머신러닝을 위한 데이터 전처리(pandas, sklearn)
- 학습 알고리즘 평가 : 이를 통해 최적의 학습 알고리즘을 찾아낸다
- 전체 데이터를 학습시킨다.
- 학습이 완료된 모델을 저장한다.

### 사용할 모듈

In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 모델 평가
from sklearn.metrics import accuracy_score

# 사용할 알고리즘
from sklearn.linear_model import LogisticRegression

### 데이터 준비

In [2]:
# 파일에서 데이터를 읽어온다.
iris_df = pd.read_csv('data/iris.csv')
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


- sepal length(cm) : 꽃받침의 길이
- sepal width(cm) : 꽃받침의 너비
- petal length(cm) : 꽃잎의 길이
- petal width(cm) : 꽃잎의 너비
- target : 품종
- 3가지 품종의 붓꽃에 대한 꽃받침과 꽃잎의 데이터 

### 데이터 전처리

In [3]:
# 입력과 결과로 나눈다.
X = iris_df.drop('target', axis=1)
y = iris_df['target']

display(X)
display(y)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

### 모델 생성

In [5]:
model = LogisticRegression()

### 학습

In [6]:
model.fit(X, y)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

### 예측

In [8]:
y_pred = model.predict(X)
y_pred

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'virginica', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'virginica'

### 평가

In [9]:
r1 = accuracy_score(y, y_pred)
r1

0.9733333333333334