In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게...
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
# plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 학습 알고리즘
from sklearn.linear_model import LogisticRegression

# 평가함수
from sklearn.metrics import accuracy_score

### 데이터 준비하기

In [2]:
iris_df = pd.read_csv('data/iris.csv')
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [3]:
# 입력과 결과로 나눈다.
X = iris_df.drop('target', axis=1)
y = iris_df['target']

display(X)
display(y)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

In [4]:
# 문자열 -> 숫자
encoder1 = LabelEncoder()
encoder1.fit(y)
y = encoder1.transform(y)
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### 평가원리
- 검증은 학습하지 않은 패턴의 데이터를 통해 예측 결과를 추출하고 진짜 결과와 비교하는 과정
- 결과 데이터를 가지고 있는 전체 데이터를 학습용과 검증용으로 나눠 학습과 평가를 진행한다.

In [5]:
# 전체 데이터 수
len(X)

150

In [6]:
# 데이터를 나눈다.
# 입력 데이터와 결과 데이터를 넣어주면 8:2로 분할하여 반환한다.
# 전체 데이터의 행을 랜덤하게 섞은 후 학습과 검증으로 나눈다.
# test_size : 검증용 데이터 비율(0 ~ 1, 기본 0.2)
# random_state : 랜덤 시드 설정. 시드를 설정하면 계속 같은 패턴의
# 섞이게 된다.

# train_X : 학습용 입력데이터
# test_X : 검증용 입력데이터
# train_y : 학습용 결과데이터
# test_y : 검증용 결과데이터
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=1)

print(len(train_X))
print(len(test_X))

105
45


### 학습과 평가를 진행한다.

In [7]:
# 학습한다.
model = LogisticRegression()
# 학습시 학습용 입력데이터와 학습용 결과데이터를 넣어준다.
model.fit(train_X, train_y)

LogisticRegression()

In [8]:
# 검증한다.
# 검증용 데이터를 가지고 값을 예측한다.
y_pred = model.predict(test_X)
y_pred

array([0, 1, 1, 0, 2, 1, 2, 0, 0, 2, 1, 0, 2, 1, 1, 0, 1, 1, 0, 0, 1, 1,
       2, 0, 2, 1, 0, 0, 1, 2, 1, 2, 1, 2, 2, 0, 1, 0, 1, 2, 2, 0, 2, 2,
       1])

In [9]:
# 진짜 결과와 얼마나 유사한지 확인한다.
r1 = accuracy_score(test_y, y_pred)
r1

0.9777777777777777