# Полиномиальная регрессия

## Стандартный базис

In [None]:
import numpy as np;
from sklearn.preprocessing import PolynomialFeatures
x = np.array([2, 3, 4])
poly = PolynomialFeatures(3, include_bias=False) #подготовка базісных функций
poly.fit_transform(x[:, None]) #матрица значений М

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
poly_model = make_pipeline(PolynomialFeatures(8), LinearRegression()) # модель полиномиальной регрессии для заданных базисных функци
#from sklearn.linear_model import Ridge
#poly_model = make_pipeline(PolynomialFeatures(30),Ridge(alpha=0.1))

In [None]:
rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = np.sin(x) + 0.1 * rng.randn(50)

In [None]:
import matplotlib.pyplot as plt
rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = np.sin(x) + 0.1 * rng.randn(50)

poly_model.fit(x[:, np.newaxis], y) # обучение на заданных данных

xfit = np.linspace(0, 10, 1000)
yfit = poly_model.predict(xfit[:, np.newaxis])

plt.scatter(x, y, c ='red')
plt.plot(xfit, yfit);

## полиномиальная регрессия самостоятельно

In [None]:
import numpy as np

class polyreg:
    
    def __init__(self,n):
        self.N = n
    
    def fit(self,x,y):
        F = np.zeros((len(x),self.N+1))
        
        for i in range(len(x)):
            for j in range(self.N+1):
                F[i][j] = x[i]**j # формируем матрицу значений М
        F_plus = np.matmul(np.linalg.inv(np.matmul(F.T,F)),F.T) # применяем формулу которую мы вывели на лекции
       # print(F_plus.shape)
        self.w = np.matmul(F_plus,y) # применяем формулу которую мы вывели на лекции для нахождения коэффициентов модели
        
    def predict(self, xtest):
        eval_mat = np.zeros((self.N+1,len(xtest)))
        
        for i in range(self.N+1):
            for j in range(len(xtest)):
                eval_mat[i][j] = xtest[j]**i 
       # print(eval_mat)
       # print(self.w)
       # print(self.w.dot(eval_mat))
        return self.w.dot(eval_mat)

In [None]:
import matplotlib.pyplot as plt

rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = np.sin(x) + 0.1 * rng.randn(50)

model_1 = polyreg(8)
model_1.fit(x,y)

from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
model_2 = make_pipeline(PolynomialFeatures(8), LinearRegression())

model_2.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 10, 1000)
yfit_1 = model_1.predict(xfit[:, np.newaxis])
yfit_2 = model_2.predict(xfit[:, np.newaxis])



plt.scatter(x, y, c ='green')
plt.plot(xfit, yfit_1, 'r',linewidth = 2);

plt.plot(xfit, yfit_2, 'w--');

In [None]:
y

# Прогнозирование велотрафика (пример подготовки данных)

In [None]:
import pandas as pd
counts = pd.read_csv('fremont-bridge.csv', index_col='Date', parse_dates=True)
weather = pd.read_csv('BicycleWeather.csv', index_col='DATE', parse_dates=True) #импортируем данные в объекты DataFrame

In [None]:
counts.head() # почасовые данные о велотрафике на мосту.

In [None]:
weather.head()

In [None]:
daily = counts.resample('D').sum()
daily['Total'] = daily.sum(axis=1)
daily = daily[['Total']] # преобразуем данные поучая суммарный траффик в течении суток.

In [None]:
daily.head()

In [None]:
days = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
for i in range(7):
    daily[days[i]] = (daily.index.dayofweek == i).astype(float) # вводім новый признак. день недели.

In [None]:
daily.head()

In [None]:
from pandas.tseries.holiday import USFederalHolidayCalendar
cal = USFederalHolidayCalendar()
holidays = cal.holidays('2012', '2016')
daily = daily.join(pd.Series(1, index=holidays, name='holiday'))
daily['holiday'].fillna(0, inplace=True) # добавляем данные о праздниках

In [None]:
daily.head()

In [None]:
import numpy as np

def hours_of_daylight(date, axis=23.44, latitude=47.61):
    """Compute the hours of daylight for the given date"""
    days = (date - pd.datetime(2000, 12, 21)).days
    m = (1. - np.tan(np.radians(latitude))
         * np.tan(np.radians(axis) * np.cos(days * 2 * np.pi / 365.25)))
    return 24. * np.degrees(np.arccos(1 - np.clip(m, 0, 2))) / 180.

daily['daylight_hrs'] = list(map(hours_of_daylight, daily.index))  # добавляем данные о длине светового дня
daily[['daylight_hrs']].plot()
plt.ylim(8, 17)

In [None]:
weather['TMIN'] /= 10
weather['TMAX'] /= 10
weather['Temp (C)'] = 0.5 * (weather['TMIN'] + weather['TMAX'])

# преобразования температуры. 
weather['PRCP'] /= 254
weather['dry day'] = (weather['PRCP'] == 0).astype(int)

daily = daily.join(weather[['PRCP', 'Temp (C)', 'dry day']]) # преобразования температуры. 
# соединяем данные из двух файлов в одну переменную

In [None]:
daily['annual'] = (daily.index - daily.index[0]).days / 365.

In [None]:
daily.head()

In [None]:
model.score(X,y)