**프로젝트 1 : 손수 설계하는 선형회귀, 당뇨병 수치를 맞춰보자!**

(1) 데이터 가져오기

In [62]:
from sklearn import datasets
dataset = datasets.load_diabetes()

In [63]:
x_data = dataset.data
y_data = dataset.target
print(x_data) 
print(y_data)

(2) 모델에 입력할 데이터 x, y 준비하기

In [64]:
import numpy as np

x = np.array(x_data)
y = np.array(y_data)


(3) train 데이터와 test 데이터로 분리하기

In [65]:
from sklearn.model_selection import train_test_split

In [66]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=7)
print('X_train 개수:', len(X_train),',X_test 개수:', len(X_test))

In [67]:
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(4) 모델 준비하기

In [68]:
import numpy as np
W = np.random.rand(10)
b = np.random.rand()
print("GOOD")

In [69]:
W

In [70]:
b

In [71]:
def model(x, W, b):
    predictions = 0
    for i in range(10):
        predictions += x[:, i] * W[i]
    predictions += b
    return predictions
print("GOOD")

(6) 손실함수 loss 정의하기

In [72]:
def MSE(a, b):
    mse = ((a - b) ** 2).mean()  # 두 값의 차이의 제곱의 평균
    return mse
print("GOOD")

In [73]:
def loss(x, W, b, y):
    predictions = model(x, W, b)
    L = MSE(predictions, y)
    return L
print("GOOD")

(7) 기울기를 구하는 gradient 함수 구현하기

In [74]:
def gradient(x, W, b, y):
    # N은 가중치의 개수
    N = len(W)
    
    # y_pred 준비
    y_pred = model(x, W, b)
    
    # 공식에 맞게 gradient 계산
    dW = 1/N * 2 * x.T.dot(y_pred - y)
        
    # b의 gradient 계산
    db = 2 * (y_pred - y).mean()
    return dW, db
print("GOOD")

In [75]:
dW, db = gradient(x, W, b, y)
print("dW:", dW)
print("db:", db)

(8) 하이퍼 파라미터인 학습률 설정하기

In [76]:
LEARNING_RATE = 0.1

(9) 모델 학습하기

In [77]:
losses = []

for i in range(1, 1001):
    dW, db = gradient(X_train, W, b, y_train)
    W -= LEARNING_RATE * dW
    b -= LEARNING_RATE * db
    L = loss(X_train, W, b, y_train)
    losses.append(L)
    if i % 10 == 0:
        print('Iteration %d : Loss %0.4f' % (i, L))

In [78]:
import matplotlib.pyplot as plt
plt.plot(losses)
plt.show()

In [79]:
W, b

(10) test 데이터에 대한 성능 확인하기

In [80]:
prediction = model(X_test, W, b)
mse = loss(X_test, W, b, y_test)
mse

(11) 정답 데이터와 예측한 데이터 시각화하기

In [81]:
plt.scatter(X_test[:, 0], y_test)
plt.scatter(X_test[:, 0], prediction)
plt.show()

In [82]:
y_pred=model(X_test, W, b)  # 창현님 코딩 참조
#for i in range(len(y_pred)):
#print(y_pred[i],Y_test[i])

print('total accuracy(my_LR) = {:.2%}'.format(float((1-np.abs((y_pred-y_test)/y_test)).mean())))
print(W, b)

**회고**

처음에 학습을 진행했을 때는 원하는 값이 나오지 않았습니다. 그래서, learning rate 와 트레이닝 횟수를 계속 조절하였고, loss값을 3000에 근접하도록 얻을 수 있었습니다.

**프로젝트 2 : 날씨 좋은 월요일 오후 세 시, 자전거 타는 사람은 몇 명?**

(1) 데이터 가져오기

In [83]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [84]:
train=pd.read_csv('../input/bike-sharing-demand/train.csv')

In [85]:
train.shape

In [86]:
train.head()

(2) datetime 컬럼을 datetime 자료형으로 변환하고 연, 월, 일, 시, 분, 초까지 6가지 컬럼 생성하기

In [87]:
train['datetime'] = pd.to_datetime(train['datetime']) # string에서 datetime 자료형으로 전환 : pd.to_datetime()

In [88]:
train['year'] = train['datetime'].dt.year # 건희님 코딩 참조
train['month'] = train['datetime'].dt.month
train['day'] = train['datetime'].dt.day
train['hour'] = train['datetime'].dt.hour
train['minute'] = train['datetime'].dt.minute
train['second'] = train['datetime'].dt.second

In [89]:
train.shape

In [90]:
train.head()

In [91]:
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

In [92]:
mpl.rc('font', size=15)      # 폰트 크기를 15로 설정 
sns.displot(train['count']); # 분포도 출력

In [93]:
sns.displot(np.log(train['count']))

In [94]:
plt.figure(figsize=(20,10))
plt.subplot(2,3,1)
sns.countplot(x = 'year', data=train)

plt.subplot(2,3,2)
sns.countplot(x = 'month', data=train)

plt.subplot(2,3,3)
sns.countplot(x = 'day', data=train)

plt.subplot(2,3,4)
sns.countplot(x = 'hour', data=train)

plt.subplot(2,3,5)
sns.countplot(x = 'minute', data=train)

plt.subplot(2,3,6)
sns.countplot(x = 'second',data=train)

plt.show()

In [95]:
# 스텝 1 : m행 n열 Figure 준비
mpl.rc('font', size=14)       # 폰트 크기 설정
mpl.rc('axes', titlesize=15)  # 각 축의 제목 크기 설정
figure, axes = plt.subplots(nrows=3, ncols=2) # 3행 2열 Figure 생성 
plt.tight_layout()            # 그래프 사이에 여백 확보 
figure.set_size_inches(10, 9) # 전체 Figure 크기를 10x9인치로 설정 

# 스텝 2 : 각 축에 서브플롯 할당
# 각 축에 연도, 월, 일, 시간, 분, 초별 평균 대여 수량 막대 그래프 할당
sns.barplot(x='year', y='count', data=train, ax=axes[0, 0])
sns.barplot(x='month', y='count', data=train, ax=axes[0, 1])
sns.barplot(x='day', y='count', data=train, ax=axes[1, 0])
sns.barplot(x='hour', y='count', data=train, ax=axes[1, 1])
sns.barplot(x='minute', y='count', data=train, ax=axes[2, 0])
sns.barplot(x='second', y='count', data=train, ax=axes[2, 1])

# 스텝 3 : 세부 설정
# 3-1 : 서브플롯에 제목 달기
axes[0, 0].set(title='Rental amounts by year')
axes[0, 1].set(title='Rental amounts by month')
axes[1, 0].set(title='Rental amounts by day')
axes[1, 1].set(title='Rental amounts by hour')
axes[2, 0].set(title='Rental amounts by minute')
axes[2, 1].set(title='Rental amounts by second')

# 3-2 : 1행에 위치한 서브플롯들의 x축 라벨 90도 회전
axes[1, 0].tick_params(axis='x', labelrotation=90)
axes[1, 1].tick_params(axis='x', labelrotation=90)

In [96]:
X = train[['season', 'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed', 'year', 'month', 'day', 'hour',]].values
y = train[['count']].values

In [97]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)

(5) LinearRegression 모델 학습

In [98]:
model = LinearRegression()

In [99]:
model.fit(X_train, y_train)

(6) 학습된 모델로 X_test에 대한 예측값 출력 및 손실함수값 계산

In [100]:
predictions = model.predict(X_test)
predictions

In [101]:
rmse = mean_squared_error(y_test, predictions, squared = False)
rmse

In [102]:
col = ['season', 'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed', 'year', 'month', 'day', 'hour']
X_test_df = pd.DataFrame(X_test, columns=col)
X_test_df['predictions'] = predictions
X_test_df['y_test'] = y_test

In [103]:
X_test_df

(7) x축은 temp 또는 humidity로, y축은 count로 예측 결과 시각화하기

In [104]:
plt.figure(figsize=(20,10))
plt.subplot(2,2,1)
sns.lineplot(x=X_test_df['temp'], y=X_test_df['predictions'])

plt.subplot(2,2,2)
sns.lineplot(x=X_test_df['temp'], y=X_test_df['y_test'])

plt.subplot(2,2,3)
sns.lineplot(x=X_test_df['humidity'], y=X_test_df['predictions'])

plt.subplot(2,2,4)
sns.lineplot(x=X_test_df['humidity'], y=X_test_df['y_test'])

plt.show()

**회고**
​
처음에 학습을 진행했을 때, loss 값이 거의 0에 가까운 값이 나왔습니다. 모델이 너무 잘 맞추는 것이 'casual', 'registered' 속성 때문이라고 판단되어, 두 개의 속성을 제거하였습니다. 추가적으로 'holiday', 'minute', 'second' 속성도 제거하여, 학습을 진행하였습니다. 결과적으로 loss 값이 140.47 정도가 나왔습니다.