## 분석 전략

Baseline 코드를 통해 y=ax+b의 단순한 모델로도 어느정도 효과적인 성능을 확인하였다.
여기서 가장 추가하고싶은 부분은 (1)**종 분류**이다. EDA 코드를 통해 종에대한 고려가 필수적임을 알 수 있다.

다음으로 y=ax+b 보다 조금더 좋은 선(?)을 그리고 싶다.
EDA를 통해서 2개의 인자를 통해 1개의 결과값을 확인하였다. (여기서 2개의 인자는 sepal length, petal length)
따라서 2차원에서 직선이 아닌 (2)**3차원의 직선**을 그려서 각각의 결과를 구해보겠다.

**[요약]**
종분류, 3차원직선을 도입한다.

## 코드


### 데이터 전처리

In [1]:
# 라이브러리
import pandas as pd
import numpy as np

In [2]:
# 데이터 불러오기
train = pd.read_csv('data/iris_train.csv')
train.head()

Unnamed: 0,id,species,sepal length (cm),petal length (cm),sepal width (cm),petal width (cm)
0,0,setosa,4.4,1.4,2.9,0.2
1,1,versicolor,6.4,4.5,3.2,1.5
2,2,virginica,6.2,4.8,2.8,1.8
3,3,virginica,7.2,6.1,3.6,2.5
4,4,setosa,4.9,1.4,3.0,0.2


In [3]:
# 품종에 따라 train set 3개로 나누기
virginica = train[train['species'] == 'virginica'] # 전체 붓꽃 데이터에서 virginica만 추출
setosa = train[train['species'] == 'setosa'] # 전체 붓꽃 데이터에서 setosa만 추출
versicolor = train[train['species'] == 'versicolor'] # 전체 붓꽃 데이터에서 virsicolor만 추출

In [4]:
virginica.head() # 확인

Unnamed: 0,id,species,sepal length (cm),petal length (cm),sepal width (cm),petal width (cm)
2,2,virginica,6.2,4.8,2.8,1.8
3,3,virginica,7.2,6.1,3.6,2.5
5,5,virginica,6.5,5.8,3.0,2.2
11,11,virginica,6.3,4.9,2.7,1.8
15,15,virginica,7.6,6.6,3.0,2.1


In [5]:
# x값, y값으로 나누기 (혹시 아래 방법을 더 쉽게 할 수 있다면 댓글 부탁드려요)

# virginica
x_train_virginica = virginica[['sepal length (cm)', 'petal length (cm)']]
y_train_virginica_sepal = virginica[['sepal width (cm)']]
y_train_virginica_petal = virginica[['petal width (cm)']]

# setosa
x_train_setosa = setosa[['sepal length (cm)', 'petal length (cm)']]
y_train_setosa_sepal = setosa[['sepal width (cm)']]
y_train_setosa_petal = setosa[['petal width (cm)']]

# versicolor
x_train_versicolor = versicolor[['sepal length (cm)', 'petal length (cm)']]
y_train_versicolor_sepal = versicolor[['sepal width (cm)']]
y_train_versicolor_petal = versicolor[['petal width (cm)']]

In [6]:
x_train_virginica.head() # 확인

Unnamed: 0,sepal length (cm),petal length (cm)
2,6.2,4.8
3,7.2,6.1
5,6.5,5.8
11,6.3,4.9
15,7.6,6.6


In [7]:
y_train_virginica_sepal.head() # 확인

Unnamed: 0,sepal width (cm)
2,2.8
3,3.6
5,3.0
11,2.7
15,3.0


### 모델 만들기

3차원 공간에서 직선을 만드려면 `y = a * x1 + b * x2 + c` 형태가 되어야 한다.
또한 점(데이터 값)과 직선(모델)과의 최소 길이를 구하는 수식이 복잡하다.

좋은 패키지가 없나 찾아보는 과정에서 `사이킷런`과 `다중선형회귀`라는 키워드를 알게되어 이를 이용해서 최적화를 시도한다.

In [10]:
# 라이브러리
from sklearn.linear_model import LinearRegression

In [11]:
# 모델 선언 (객체 선언)

# virginica
lr_virginica_sepal = LinearRegression()
lr_virginica_petal = LinearRegression()

# setosa
lr_setosa_sepal = LinearRegression()
lr_setosa_petal = LinearRegression()

# versicolor
lr_versicolor_sepal = LinearRegression()
lr_versicolor_petal = LinearRegression()

### 모델 학습

In [12]:
# 모델 학습 (아래 형태로 넣으면 알아서 학습이 된다.)

# virginica
lr_virginica_sepal.fit(x_train_virginica, y_train_virginica_sepal)
lr_virginica_petal.fit(x_train_virginica, y_train_virginica_petal)

# setosa
lr_setosa_sepal.fit(x_train_setosa, y_train_setosa_sepal)
lr_setosa_petal.fit(x_train_setosa, y_train_setosa_petal)

# versicolor
lr_versicolor_sepal.fit(x_train_versicolor, y_train_versicolor_sepal)
lr_versicolor_petal.fit(x_train_versicolor, y_train_versicolor_petal)

LinearRegression()

### 학습된 모델로 결과 평가하기

In [33]:
# 결과값 계산

# virginica
y_predict_virginica_sepal = lr_virginica_sepal.predict(x_train_virginica)
y_predict_virginica_petal = lr_virginica_petal.predict(x_train_virginica)

# setosa
y_predict_setosa_sepal = lr_setosa_sepal.predict(x_train_setosa)
y_predict_setosa_petal = lr_setosa_petal.predict(x_train_setosa)

# versicolor
y_predict_versicolor_sepal = lr_versicolor_sepal.predict(x_train_versicolor)
y_predict_versicolor_petal = lr_versicolor_petal.predict(x_train_versicolor)

In [34]:
# 대회 규칙 탭의 MAE() 함수를 그대로 사용

def MAE(true, pred):
    score = np.mean(np.abs(true.to_numpy()-pred))
    return score

# 정답과 예측 값을 함수에 넣어 결과를 확인

# virginica
mean_error = MAE(y_train_virginica_sepal, y_predict_virginica_sepal)
print(f"virginica_sepal의 평균 에러는 {mean_error:.2f} 입니다.")
mean_error = MAE(y_train_virginica_petal, y_predict_virginica_petal)
print(f"virginica_petal의 평균 에러는 {mean_error:.2f} 입니다.")

# setosa
mean_error = MAE(y_train_setosa_sepal, y_predict_setosa_sepal)
print(f"setosa_sepal의 평균 에러는 {mean_error:.2f} 입니다.")
mean_error = MAE(y_train_setosa_petal, y_predict_setosa_petal)
print(f"setosa_petal의 평균 에러는 {mean_error:.2f} 입니다.")

# versicolor
mean_error = MAE(y_train_versicolor_sepal, y_predict_versicolor_sepal)
print(f"versicolor_sepal의 평균 에러는 {mean_error:.2f} 입니다.")
mean_error = MAE(y_train_versicolor_petal, y_predict_versicolor_petal)
print(f"versicolor_petal의 평균 에러는 {mean_error:.2f} 입니다.")

virginica_sepal의 평균 에러는 0.22 입니다.
virginica_petal의 평균 에러는 0.18 입니다.
setosa_sepal의 평균 에러는 0.13 입니다.
setosa_petal의 평균 에러는 0.04 입니다.
versicolor_sepal의 평균 에러는 0.20 입니다.
versicolor_petal의 평균 에러는 0.11 입니다.


### test_data 예측하기

In [35]:
# 예측을 위한 데이터 불러오기

test = pd.read_csv('data/iris_test.csv')
test.head() # 확인

Unnamed: 0,id,species,sepal length (cm),petal length (cm)
0,0,setosa,5.4,1.7
1,1,setosa,5.7,1.5
2,2,setosa,5.3,1.5
3,3,setosa,5.1,1.9
4,4,virginica,6.0,4.8


In [63]:
# 종별로 계산 수행하기

# 결과 저장 리스트에 저장하기 
#(np, pd의 사용이 어려워 파이썬스럽게 다뤘습니다. 좋은 방법을 아시면 댓글 부탁드립니다.)
predict_sepal_width = []
predict_petal_width = []

for idx, row in test.iterrows():
    if row['species'] == 'virginica':
        predict_sepal_width.extend(lr_virginica_sepal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])
        predict_petal_width.extend(lr_virginica_petal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])
    elif row['species'] == 'setosa':
        predict_sepal_width.extend(lr_setosa_sepal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])
        predict_petal_width.extend(lr_setosa_petal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])
    elif row['species'] == 'versicolor':
        predict_sepal_width.extend(lr_versicolor_sepal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])
        predict_petal_width.extend(lr_versicolor_petal.predict([[row['sepal length (cm)'], row['petal length (cm)']]]).tolist()[0])

predict_petal_width



[0.28805772101509375,
 0.25383977442361927,
 0.23612539392934162,
 0.32227566760656823,
 1.83061893945466,
 1.9899290376489447,
 0.24055398905291103,
 0.19908774257754192,
 0.21841101343506397,
 1.4283706405567043,
 0.1946591474539725,
 0.1902305523304031,
 1.8779655906988848,
 2.0159563445871562,
 1.3346014732702318,
 1.8397906842274647,
 0.18137336208326427,
 1.7436094543588125,
 1.4622441390131327,
 2.11362550183601,
 2.046447433665974,
 0.30898988223586,
 1.2850253186481773,
 0.25102006966329415,
 1.1338286686568377,
 0.23773428429258592,
 0.2747719356443855,
 0.20794493282468074,
 0.1930502570907282,
 1.8581341737730737,
 1.193724337486882,
 0.2316967988057722,
 0.14876430585503408,
 2.071401395520187,
 1.8713551183902812,
 0.2272682036822028,
 0.1531929009786035,
 1.3267501451874189,
 0.24659147453972474,
 1.456860997055497,
 0.2272682036822028,
 0.17533587659645056,
 2.013395072122955,
 0.24659147453972474,
 1.9462170039529192,
 0.08636589815889878,
 2.0148829995031576,
 1.00618

### 제출용 파일 만들기

In [61]:
# 제출용 sample 파일을 불러옵니다.
submission = pd.read_csv('data/sample_submission.csv')
submission.head()

Unnamed: 0,id,sepal width (cm),petal width (cm)
0,0,0,0
1,1,0,0
2,2,0,0
3,3,0,0
4,4,0,0


In [62]:
# 위에서 구한 예측값을 그대로 넣어줍니다.
submission['sepal width (cm)'] = predict_sepal_width
submission['petal width (cm)'] = predict_petal_width

# 데이터가 잘 들어갔는지 확인합니다.
submission

Unnamed: 0,id,sepal width (cm),petal width (cm)
0,0,3.729748,0.288058
1,1,3.933803,0.253840
2,2,3.638763,0.236125
3,3,3.525692,0.322276
4,4,2.810849,1.830619
...,...,...,...
70,70,2.662535,1.235449
71,71,2.957696,0.148764
72,72,2.859681,2.068840
73,73,2.302093,0.873160


In [64]:
# submission을 csv 파일로 저장합니다.
# index=False란 추가적인 id를 부여할 필요가 없다는 뜻입니다. 
# 정확한 채점을 위해 꼭 index=False를 넣어주세요.
submission.to_csv("submission.csv", index=False)

## 후기

numpy와 pandas의 사용이 어려워 원하는 결과가 나오면 다른 방법을 고민하지 않고 바로 넘어갔습니다. 따라서 더 최적(속도나 출력이나)의 방법이 있을 수 있습니다. 