# 누구나 할 수 있는 데이터 분석

딥러닝, 머신러닝, 모델, 학습, 회귀분석 .... 다 몰라도 괜찮습니다!

누구나 할 수 있는 방식으로 간단하게 데이터 분석 & 예측을 진행해보겠습니다.

# 1. 데이터 불러오기

가장 먼저 해야 할 일은 분석하려는 데이터를 우리의 작업대로 가져오는 일입니다.

이를 위해서 파이썬 라이브러리 중 하나인 Pandas를 이용합니다.

pandas 라이브러리는 엑셀과 같은 행과 열로 이루어진 테이블(table) 데이터를 편하게 다루도록 해줍니다.

In [2]:
import pandas as pd

# csv 형식으로 된 데이터 파일을 읽어옵니다.
train = pd.read_csv('data/iris_train.csv')

# 데이터의 맨 앞 5 줄을 표시합니다.
train.head()

Unnamed: 0,id,species,sepal length (cm),petal length (cm),sepal width (cm),petal width (cm)
0,0,setosa,4.4,1.4,2.9,0.2
1,1,versicolor,6.4,4.5,3.2,1.5
2,2,virginica,6.2,4.8,2.8,1.8
3,3,virginica,7.2,6.1,3.6,2.5
4,4,setosa,4.9,1.4,3.0,0.2


데이터를 살펴보면 총 6개의 열(column)이 존재하는 것을 확인할 수 있습니다.

데이터를 자세히 살펴보는 것은 EDA 글을 통해 더 자세히 배워봅시다.

여기에서는 분석에 초점을 맞추겠습니다.

# 2. 데이터 설명 방정식 만들기

데이터 분석이란, 주어진 데이터를 분석하여 데이터들 사이의 관계를 알아내고,

이 관계를 통해서 주어지지 않은 데이터를 예측하는 것입니다.

이는 방정식을 푸는 일과 똑같습니다.

X, Y를 이용해서 만드는 가장 기본적인 방정식을 이용해서 이 말을 이해해봅시다.

## Y = aX + b

여기서 X는 주어진 데이터를 의미하며,  Y는 주어지지 않은 데이터 (즉, 예측하려는 데이터)를 의미합니다.

이번 대회에서는 X란 [꽃의 종류, 꽃잎의 길이, 꽃받침의 길이]이며, Y는 [꽃잎의 너비, 꽃받침의 너비]입니다.

우리의 목표는 X에 어떤 a를 곱하고, 어떤 b를 더해야 정확하게 Y를 구할 수 있는지, 그 a와 b를 찾는 것입니다.

## 좀 더 단순하게

문제를 단순하게 생각해봅시다.

X = [꽃의 종류, 꽃잎의 길이, 꽃받침의 길이] 중에서 [꽃받침의 길이] 만을 이용해서 

Y = [꽃잎의 너비, 꽃받침의 너비] 중에서 [꽃받침의 너비] 만을 예측해봅시다.

In [3]:
# 꽃받침의 길이와 너비를 각각 따로 저장합니다.
sepal_length = train['sepal length (cm)']
sepal_width = train['sepal width (cm)']

sepal_width

0     2.9
1     3.2
2     2.8
3     3.6
4     3.0
     ... 
70    2.8
71    2.9
72    2.2
73    2.4
74    3.1
Name: sepal width (cm), Length: 75, dtype: float64

## a 구하기

먼저 꽃받침의 길이와 너비가 어떤 관계를 갖는지, 그 평균 값을 구해봅니다.

이 과정은 위 방정식의 a 값을 구하는 것으로 생각할 수 있습니다.

In [None]:
import numpy as np

# 꽃받침 길이의 평균과 꽃받침 너비의 평균을 구합니다.
sepal_length_mean = np.mean(sepal_length)
sepal_width_mean = np.mean(sepal_width)

# 두 값을 나누어 주어서 꽃받침의 길이와 너비의 관계를 살펴봅니다.
print(f"꽃받침 길이의 평균:{sepal_length_mean:.2f} \n꽃받침 너비의 평균:{sepal_width_mean:.2f}")
print(f"따라서 꽃받침 너비는 꽃받침 길이의 평균 {sepal_width_mean/sepal_length_mean:.2f}배 입니다.")

이렇게 보면 우리가 구하고자 하는 Y = [꽃받침의 너비]는  
X = [꽃받침의 길이]의 절반 정도의 크기를 가지고 있다고 생각할 수 있습니다.

즉, a = 0.5로 생각할 수 있습니다. 이를 바탕으로 방정식을 업데이트 합니다.

Y = 0.5 X + b

## b 구하기

이번에는 b를 구해봅시다.

a는 X와 Y의 강력한 관계를 나타냈다면, b는 그보다는 약한 관계를 나타냅니다. 

X와 Y의 관계에서 a만으로는 설명하지 못하는 부분을 구하는 과정이라고 볼 수 있습니다.

a를 넣어서 새롭게 업데이트 된 방정식을 사용하면 b를 구할 수 있습니다.

Y = 0.5 X + b

b = Y - 0.5 X

In [None]:
# b = Y - 0.5X 를 그대로 작성합니다. 여기서도 평균값을 이용합니다.
b = sepal_width_mean - 0.5 * sepal_length_mean

print(f"업데이트 된 방정식의 b는 {b:.2f} 입니다.")

## Y = 0.5X - 0.06

이렇게 꽃받침 길이를 통해서 꽃받침 너비를 예측할 수 있는 방정식을 찾아냈습니다.

이 식을 통해 결과 값들을 예측해봅시다.

In [None]:
predict_sepal_width = 0.5 * sepal_length - 0.06
predict_sepal_width

# 3. sepal_width 예측 결과 평가하기

예측값을 만들었다고 데이터 분석이 끝나지는 않습니다.

우리가 예측한 값이 얼마나 정확한지 평가하는 과정을 통해 어떤 부분이 부족한지, 

어떤 부분을 개선해야 더 정확한 예측이 가능한지 살펴봐야 합니다.

이번 대회의 평가 지표(metric)는 MAE, Mean Absolute Error 입니다.

MAE는 우리가 예측한 값과 실제 값이 얼마나 차이가 나는지, 그 차이값들의 평균 값을 의미합니다.

하지만 단순한 차이값이라고 하면 예측 값이 실제보다 더 큰 경우도 있고, 더 작은 경우도 있기 때문에

차이값(error)의 절대값(absolute)들을 구해서 평균(mean)을 낸 것이 MAE 입니다.

자세한 수식은 대회의 규칙 탭을 참고해주세요.

In [None]:
# 대회 규칙 탭의 mae() 함수를 그대로 사용합니다.
import numpy as np

def MAE(true, pred):
    score = np.mean(np.abs(true-pred))
    return score

# 실제 정답 값을 준비합니다.
real_sepal_width = sepal_width.copy()

# 정답과 예측 값을 함수에 넣어 결과를 확인합니다.
mean_error = MAE(real_sepal_width, predict_sepal_width)

print(f"이 방정식의 평균 에러는 {mean_error:.2f} 입니다.")

결과를 보니 이 방정식으로는 평균 0.43 cm 정도의 오차를 내는 정확도로 꽃받침의 너비를 예측하네요.

이 정도면 실생활에서 사용하기에 나쁘지는 않은 수준인 듯 합니다.

# 4. petal_width 방정식 만들기

지금까지는 sepal_width를 예측하기 위한 방정식을 만드는 과정이었습니다.

이제 같은 방법으로 petal_width도 예측해봅시다.

In [None]:
# 데이터 선택하기
petal_length = train['petal length (cm)']
petal_width = train['petal width (cm)']

# 꽃잎 길이의 평균과 꽃잎 너비의 평균을 구합니다.
petal_length_mean = np.mean(petal_length)
petal_width_mean = np.mean(petal_width)

# 두 값을 나누어 주어서 꽃잎의 길이와 너비의 관계를 살펴봅니다.
print(f"꽃잎 길이의 평균:{petal_length_mean:.2f} \n꽃잎 너비의 평균:{petal_width_mean:.2f}")
print(f"따라서 꽃잎 너비는 꽃잎 길이의 평균 {petal_width_mean/petal_length_mean:.2f}배 입니다.")
a = petal_width_mean/petal_length_mean

# 꽃받침과 같은 방식으로 b를 구합니다.
b = petal_width_mean - 0.5 * petal_length_mean

print(f"업데이트 된 방정식의 b는 {b:.2f} 입니다.")

따라서 petal_width에 대한 방정식은

Y = 0.3 * X - 0.75 가 됩니다.

In [None]:
# 에측 값을 구합니다.
predict_petal_width = 0.3 * petal_length - 0.75

# 실제 정답 값을 준비합니다.
real_petal_width = petal_width.copy()

# 정답과 예측 값을 함수에 넣어 결과를 확인합니다.
mean_error = MAE(real_petal_width, predict_petal_width)

print(f"이 방정식의 평균 에러는 {mean_error:.2f} 입니다.")

# 5. test_data 예측하기

지금까지 train.csv를 통해서 데이터들 사이의 관계를 파악했습니다.

그 결과 꽃받침 너비는 꽃받침 길이의 절반 정도라는 것을 파악했고,

꽃잎 너비는 꽃잎 길이의 3분의 1 정도라는 것을 파악했습니다.

이제 이 관계를 이용해서 실제로 주어지지 않은 데이터를 예측해봅시다.



In [None]:
# 우리가 예측하고자 하는 test 데이터를 불러옵니다.
test = pd.read_csv('[데이콘 Basic] iris dataset/iris_test.csv')

test.head()

test 데이터에는 보다시피 sepal width (cm)와 petal width (cm) 가 존재하지 않습니다.

하지만 우리는 위에서 sepal length를 이용해서 sepal width를 예측할 수 있는 방정식을 구했고,

petal length를 이용해서 petal width를 예측할 수 있는 방정식을 구했습니다. 

sepal 방정식 : Y = 0.5 X - 0.06   
petal 방정식 : Y = 0.3 X - 0.75

이제 이 두 식을 사용하여 test 데이터를 채워봅시다.

In [None]:
# 예측의 재료를 가져옵니다.
sepal_length = train['sepal length (cm)']
petal_length = train['petal length (cm)']

# 예측을 진행합니다.
predict_sepal_width = 0.5 * sepal_length - 0.06
predict_petal_width = 0.3 * petal_length - 0.75

# 예측 결과를 확인합니다.
predict_petal_width

예측 결과가 잘 생성된 것을 확인할 수 있습니다.

# 6. dacon 대회에 제출하기

이제 이 예측 결과를 submission.csv 파일로 만들어서 대회 페이지에 제출해보도록 합시다.

제출한 뒤 리더보드를 통해 결과를 확인합시다.

In [None]:
# 제출용 sample 파일을 불러옵니다.
submission = pd.read_csv('[데이콘 Basic] iris dataset/sample_submission.csv')
submission.head()

In [None]:
# 위에서 구한 예측값을 그대로 넣어줍니다.
submission['sepal width (cm)'] = predict_sepal_width
submission['petal width (cm)'] = predict_petal_width

# 데이터가 잘 들어갔는지 확인합니다.
submission

In [None]:
# submission을 csv 파일로 저장합니다.
# index=False란 추가적인 id를 부여할 필요가 없다는 뜻입니다. 
# 정확한 채점을 위해 꼭 index=False를 넣어주세요.
submission.to_csv("submission.csv", index=False)

이렇게 생성된 submission.csv 파일을 데이콘 대회 페이지에 업로드 & 제출하여 결과를 확인하세요

# 축하합니다! 데이터 분석을 완료하셨습니다!

데이터 분석의 첫걸음을 떼신 것을 축하드립니다.

보셨다시피 데이터 분석은 그렇게 어렵지 않습니다.

데이터들 사이의 관계를 찾아서, 그 관계를 통해 주어지지 않은 정보를 예측할 뿐입니다.

고도의 기술을 사용하면 이 예측값이 조금 더 정확해질뿐, 기본적인 개념은 바뀌지 않습니다.

앞으로도 데이콘과 함께 즐겁게 데이터 분석 능력을 키워가시면 좋겠습니다.

감사합니다.

# (한 걸음 더) 방정식으로 모델 학습 맛보기

머신러닝, 딥러닝을 얼핏 들어보면 "모델 학습"이라는 용어가 자주 등장합니다.

모델 학습이란 무엇일까요?

우리가 위에서 구한 방정식으로 모델 학습을 이해해봅시다.

간단하게 sepal length를 이용해 sepal width를 구한 방정식을 이용해보도록 하겠습니다.

Y = 0.5 X - 0.06

위 식을 이용했을 때 평균 에러는 0.43 이었습니다.

이보다 더 적은 에러를 내는, 더 정확한 식은 어떻게 찾을 수 있을까요?



이 방정식의 a와 b를 변화시키면서 더 정확한 식을 찾아봅시다.

In [None]:
# 탐색할 a와 b의 후보들을 마련합니다.
a_list = [0.48, 0.49, 0.5, 0.51, 0.52] # 0.01 단위로 변화
b_list = [-0.058, -0.059, -0.06, -0.061, -0.062] # 0.001 단위로 변화

In [None]:
# 각각의 후보자들 중에서 가장 에러가 적은 후보를 고르는 함수를 작성합니다.
def find_best_params(sepal_length, sepal_width):
    min_error = 999

    for a in a_list:
        for b in b_list:
            predict = a * sepal_length + b
            error = MAE(sepal_width, predict)
            
            if error < min_error:
                print("모델 개선이 가능합니다.")
                print(f"a={a}, b={b}")
                print(f"error={error:.5f}")
                min_error = error
                coef, bias = a,b
                
    print(f"최적의 parameter는 a = {coef}, b = {bias}\n이때 평균 에러는 {min_error:.2f} 입니다.")
    return coef, bias, min_error

a,b, error = find_best_params(sepal_length, sepal_width)
print("기존 방정식의 평균 에러 : 0.43")
print(f"모델 성능 개선 : {0.43 - error:.2f}")

이런 식으로 더 정확한 예측 값을 구하도록 최적의 a와 b라는 best parameter를 찾아가는 과정이 학습입니다.

머신러닝에서는 이 학습 과정이 자동으로 이루어지도록 짜여집니다.

이 방법을 이용해서 더 정확한 방정식을 찾아서 성능을 개선하고,

찾은 방법을 코드 공유 게시판에 올려주세요!

좋아요를 많이 받으시는 분께는 데이콘 후드를 드립니다!

감사합니다!