# 누구나 할 수 있는 데이터 분석

## 1. 데이터 불러오기 

In [1]:
import pandas as pd

train = pd.read_csv('iris_train.csv')

train.head()

Unnamed: 0,id,species,sepal length (cm),petal length (cm),sepal width (cm),petal width (cm)
0,0,setosa,4.4,1.4,2.9,0.2
1,1,versicolor,6.4,4.5,3.2,1.5
2,2,virginica,6.2,4.8,2.8,1.8
3,3,virginica,7.2,6.1,3.6,2.5
4,4,setosa,4.9,1.4,3.0,0.2


## 2. 데이터 설명 방정식 만들기
데이터 분석이란 주어진 데이터를 분석하여 데이터들 사이의 관계를 알아내고,
이 관계를 통해서 주어지지 않는 데이터를 예측하는 것 입니다.<br/>
이는 방정식을 푸는 일과 같습니다.<br/>
Y = aX + b

In [2]:
# 꽃받침의 길이와 너비를 각각 따로 저장
sepal_length = train['sepal length (cm)']
sepal_width = train['sepal width (cm)']

sepal_width

0     2.9
1     3.2
2     2.8
3     3.6
4     3.0
     ... 
70    2.8
71    2.9
72    2.2
73    2.4
74    3.1
Name: sepal width (cm), Length: 75, dtype: float64

## a 구하기

In [3]:
import numpy as np

# 꽃받침 길이의 평균과 꽃받침 너비의 평균을 구합니다.
sepal_length_mean = np.mean(sepal_length)
sepal_width_mean = np.mean(sepal_width)

# 두 값을 나누어서 꽃받침의 길이와 너비의 관계를 살펴봅니다.
print(f"꽃받침 길이의 평균:{sepal_length_mean:.2f} \n꽃받침 너비의 평균:{sepal_width_mean:.2f}")
print(f"따라서 꽃받침 너비는 꽃받침 길이의 평균 {sepal_width_mean/sepal_length_mean:.2f}배 입니다.")

꽃받침 길이의 평균:6.04 
꽃받침 너비의 평균:2.96
따라서 꽃받침 너비는 꽃받침 길이의 평균 0.49배 입니다.


 이를 통해 우리가 구하고자 하는<br/> 'Y = [꽃받침의 너비]는 X = [꽃받침의 길이]의 절반 정도의 크기를 가지고 있다'고 생각할 수 있습니다.<br/>
즉, a = 0.5로 생각할 수 있습니다. 이를 바탕으로 방정식을 업데이트 합니다.<br/>
Y = 0.5X + b 

## b 구하기
a는 X와 Y의 강력한 관계를 나타냈다면, b는 그보다는 약한 관계를 나타냅니다.<br/>
X와 Y의 관계에서 a만으로는 설명하지 못하는 부분을 구하는 과정이라고 볼 수 있습니다.<br/>
a를 넣어서 새롭게 업데이트 된 방정식을 사용하면 b를 구할 수 있습니다.<br/>
Y = 0.5X + b<br/>
b = Y - 0.5X

In [4]:
# b = Y - 0.5X 를 그대로 작성합니다. 여기서도 평균값을 이용합니다.
b = sepal_width_mean - 0.5 * sepal_length_mean

print(f"업데이트 된 방적식의 b는 {b:.2f} 입니다.")

업데이트 된 방적식의 b는 -0.06 입니다.


## Y = 0.5X - 0.06
꽃받침 길이를 통해서 꽃받침 너비를 예측할 수 있는 방정식을 찾아냈습니다.<br/>
이 식을 통해 결과 값을 예측해보겠습니다.

In [5]:
predict_sepal_width = 0.5 * sepal_length - 0.06
predict_sepal_width

0     2.14
1     3.14
2     3.04
3     3.54
4     2.39
      ... 
70    3.19
71    2.74
72    3.04
73    2.39
74    3.39
Name: sepal length (cm), Length: 75, dtype: float64

## 3. sepal_width 예측 결과 평가하기
예측값을 만드는 것으로 데이터 분석이 끝나지는 않습니다.<br/>
우리가 예측한 값이 얼마나 정확한지 평가하는 과정을 통해 어떤 부분이 부족한지, 어떤 부분을 개선해야 더 정확한 예측이 가능한지 살펴봐야 합니다.<br/>
이번 대회의 평가 지표(metric)은 MAE, Mean Absolute Error 입니다.<br/>
MAE는 우리가 예측한 값과 실제 값이 얼마나 차이가 나는지, 그 차이값들의 평균 값을 의미합니다.<br/>
하지만 단순한 차이값이라고 하면 예측 값이 실제보다 더 큰 경우도 있고 더 작은 경우도 있기 때문에,<br/> 차이값(error)의 절대값(absolute)들을 평균(mean)을 낸 것이 MAE 입니다.<br/>

In [6]:
# 대회 규칙 탭의 mae() 함수를 그대로 사용합니다.
import numpy as np

def MAE(true, pred):
    score = np.mean(np.abs(true-pred))
    return score

# 실제 정답 값을 준비합니다.
real_sepal_width = sepal_width.copy()

# 정답과 예측 값을 함수에 넣어 결과를 확인합니다.
mean_error = MAE(real_sepal_width, predict_sepal_width)

print(f"이 방정식의 평균 에러는 {mean_error:.2f} 입니다.")

이 방정식의 평균 에러는 0.43 입니다.


결과를 보니 이 방정식으로는 평균 0.43cm 정도의 오차를 내는 정확도로 꽃받침의 너비를 예측합니다.<br/>
이 정도면 실생활에서 사용하기에 나쁘지는 않는 수준인 듯 합니다.

## 4. petal_width 방정식 만들기
위와 같은 방법으로 petal_width도 예측해봅시다.

In [7]:
# 데이터 선택하기
petal_length = train['petal length (cm)']
petal_width = train['petal width (cm)']

# 꽃잎 길이의 평균과 꽃잎 너비의 평균을 구합니다.
petal_length_mean = np.mean(petal_length)
petal_width_mean = np.mean(petal_width)

# 두 값을 나누어 주어서 꽃잎의 길이와 너비의 관계를 살펴봅니다.
print(f"꽃잎 길이의 평규:{petal_length_mean:.2f} \n꽃잎 너비의 평균:{petal_width_mean:.2f}")
print(f"따라서 꽃잎 너비는 꽃잎 길이의 평균 {petal_width_mean/petal_length_mean:.2f}배 입니다.")
a = petal_width_mean/petal_length_mean

# 꽃받침과 같은 방식으로 b를 구합니다.
b = petal_width_mean - 0.32 * petal_length_mean

print(f"업데이트 된 방정식의 b는 {b:.2f} 입니다.")

꽃잎 길이의 평규:4.26 
꽃잎 너비의 평균:1.38
따라서 꽃잎 너비는 꽃잎 길이의 평균 0.32배 입니다.
업데이트 된 방정식의 b는 0.02 입니다.


따라서 petal_width에 대한 방정식은<br/>
Y = 0.32*X - 0.02가 됩니다.

In [8]:
# 예측 값을 구합니다.
predict_petal_width = 0.32 * petal_length - 0.02

# 실제 정답 값을 준비합니다.
real_petal_width = petal_width.copy()

# 정답과 예측 값을 함수에 넣어 결과를 확인합니다.
mean_error = MAE(real_petal_width, predict_petal_width)

print(f"이 방정식의 평균 에러는 {mean_error:.2f} 입니다.")

이 방정식의 평균 에러는 0.21 입니다.


## 5. test_data 예측하기
지금까지 train.csv를 통해서 데이터들 사이의 관계를 파악했습니다.<br/>
그 결과, 꽃받침 너비는 꽃받침 길이의 절반 정도라는 것을 파악했고, 꽃잎 너비는 꽃잎의 3분의 1 정도라는 것을 파악했습니다.<br/>
이제 이 관계를 이용해서 실제로 주어지지 않은 데이터를 예측해봅시다.

In [9]:
# 우리가 예측하고자 하는 test 데이터를 불러옵니다.
test = pd.read_csv('iris_test.csv')

test.head()

Unnamed: 0,id,species,sepal length (cm),petal length (cm)
0,0,setosa,5.4,1.7
1,1,setosa,5.7,1.5
2,2,setosa,5.3,1.5
3,3,setosa,5.1,1.9
4,4,virginica,6.0,4.8


test 데이터에는 sepal width (cm)와 petal width (cm)가 존재하지 않습니다.<br/>
하지만 우리는 위에서 sepal length를 이용해서 sepal width를 예측할 수 있는 방정식을 구했고,<br/>
petal length를 이용해서 petal width를 예측할 수 있는 방정식을 구했습니다.<br/>
sepal 방정식 : Y = 0.5X - 0.06<br/>
petal 방정식 : Y = 0.3X - 0.75<br/>
이제 두 식을 사용하여 test 데이터를 채워봅시다.

In [10]:
# 예측의 재료를 가져옵니다.
sepal_length = train['sepal length (cm)']
petal_length = train['petal length (cm)']

# 예측을 진행합니다.
predict_sepal_width = 0.5 * sepal_length - 0.06
predict_petal_width = 0.3 * petal_length - 0.75

# 예측 결과를 확인합니다.
predict_petal_width

0    -0.33
1     0.60
2     0.69
3     1.08
4    -0.33
      ... 
70    0.63
71    0.33
72    0.60
73    0.24
74    0.72
Name: petal length (cm), Length: 75, dtype: float64

## 6. dacon 대회에 제출하기
이제 이 예측 결과를 submission.csv 파일로 만들어서 대회 페이지에 제출해보도록 합시다.<br/>
제출한 뒤 리더보드를 통해 결과를 확인합니다.

In [11]:
# 제출용 sample 파일을 불러옵니다.
submission = pd.read_csv('sample_submission.csv')
submission.head()

Unnamed: 0,id,sepal width (cm),petal width (cm)
0,0,0,0
1,1,0,0
2,2,0,0
3,3,0,0
4,4,0,0


In [12]:
# 위에서 구한 예측값을 그대로 넣어줍니다.
submission['sepal width (cm)'] = predict_sepal_width
submission['petal width (cm)'] = predict_petal_width

# 데이터가 잘 들어갔는지 확인합니다.
submission

Unnamed: 0,id,sepal width (cm),petal width (cm)
0,0,2.14,-0.33
1,1,3.14,0.60
2,2,3.04,0.69
3,3,3.54,1.08
4,4,2.39,-0.33
...,...,...,...
70,70,3.19,0.63
71,71,2.74,0.33
72,72,3.04,0.60
73,73,2.39,0.24


In [13]:
# submission을 csv 파일로 저장합니다.
# index = False란 추가적인 id를 부여할 필요가 없다는 뜻입니다.
# 정확한 채점을 위해 꼭 index = False를 넣어주세요
submission.to_csv('submission.csv', index=False)

이렇게 생성된 submission.csv 파일을 데이콘 대회 페이지에 업로드 & 제출하여 결과를 확인하세요

## 축하합니다! 데이터 분석을 완료하셨습니다!

## (한 걸음 더) 방정식으로 모델 학습 맛보기
모델 학습이란 무엇일까요?<br/>
우리가 위에서 구한 방정식으로 모델 학습을 이해해봅시다.<br/>
간단하게 sepal length를 이용해 petal width를 구한 방정식을 이용해보도록 하겠습니다.<br/>
Y = 0.5X - 0.06<br/>
위 식을 이용했을 때 평균 에러는 0.43 이었습니다.
이보다 더 적은 에러를 내는, 더 정확한 식은 어떻게 찾을 수 있을까요?<br/>
이 방정식의 a와 b를 변화시키면서 더 정확한 식을 찾아봅시다.

In [14]:
# 탐색할 a와 b의 후보들을 마련합니다.
a_list = [0.48, 0.49, 0.5, 0.51, 0.52] # 0.01 단위로 변화
b_list = [-0.058, -0.059, -0.06, -0.061, -0.062] # 0.001 단위로 변화

In [15]:
# 각각의 후보자들 중에서 가장 에러가 적은 후보를 고르는 함수를 작성합니다.
def find_best_params(sepal_length, sepal_width):
    min_error = 999
    
    for a in a_list:
        for b in b_list:
            predict = a * sepal_length + b
            error = MAE(sepal_width, predict)
            
            if error < min_error:
                print('모델 개선이 가능합니다.')
                print(f'a={a}, b={b}')
                print(f'error={error:.5f}')
                min_error = error
                coef, bias = a, b
                
    print(f'최적의 parameter는 a = {coef}, b = {bias}\n이때 평균 에러는 {min_error:.2f} 입니다.')
    return coef, bias, min_error

a, b, error = find_best_params(sepal_length, sepal_width)
print('기존 방정식의 평균 에러 : 0.43')
print(f'모델 성능 개선 : {0.45 - error:.2f}')

모델 개선이 가능합니다.
a=0.48, b=-0.058
error=0.41373
모델 개선이 가능합니다.
a=0.48, b=-0.059
error=0.41369
모델 개선이 가능합니다.
a=0.48, b=-0.06
error=0.41365
모델 개선이 가능합니다.
a=0.48, b=-0.061
error=0.41361
모델 개선이 가능합니다.
a=0.48, b=-0.062
error=0.41357
최적의 parameter는 a = 0.48, b = -0.062
이때 평균 에러는 0.41 입니다.
기존 방정식의 평균 에러 : 0.43
모델 성능 개선 : 0.04


이런 식으로 더 정확한 예측 값을 구하도록 최적의 a와 b라는 best parameter를 찾아가는 과정이 학습입니다.<br/>
머신러닝에서는 이 학습 과정이 자동으로 이루어지도록 짜여집니다.<br/>
이 방법을 이용해서 더 정확한 방정식을 찾아서 성능을 개선하고, 찾은 방법을 코드 공유 게시판에 올려주세요