In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression

In [4]:
# Создаём сэмпл
n_samples = 1000

age_owner = np.random.choice(90, n_samples) + 21
length = np.random.choice(120, n_samples) + 15
width = np.random.choice(80, n_samples) + 10

price = length * width * 100 + 126

data = pd.DataFrame({'age_owner': age_owner, 'length': length, 'width': width, 'price': price})
data.head(5)

Unnamed: 0,age_owner,length,width,price
0,67,73,12,87726
1,104,28,52,145726
2,46,93,41,381426
3,41,26,77,200326
4,63,45,52,234126


In [5]:
from sklearn.metrics import mean_absolute_error

X = data[['age_owner', 'length', 'width']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_owner', 'length', 'width']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [  33.59045828 4792.36048306 7353.18768053]
Bias: -357346.5272751126
Error: 55801.077086791745


In [6]:
y.median()

292826.0

In [7]:
X = data[['length', 'width']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['length', 'width']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [4792.09239051 7351.19844437]
Bias: -355024.57192056696
Error: 55811.94568015908


In [8]:
# Создаем новый признак
data['mult'] = data['length'] * data['width']
data.head(5)

Unnamed: 0,age_owner,length,width,price,mult
0,67,73,12,87726,876
1,104,28,52,145726,1456
2,46,93,41,381426,3813
3,41,26,77,200326,2002
4,63,45,52,234126,2340


In [9]:
X = data[['mult']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [100.]
Bias: 125.99999999994179
Error: 1.8037098925560713e-11


Домашнее задание

Создадим ДатаСет, в котором будут приведены кассовые сборы для разных фильмов. Задача нашей модели - предсказать примерные кассовые сборы, зная рейтинг фильма, бюджет и количество дней, которое фильм будет находиться в прокате. 

In [17]:
n_samples = 1000


In [31]:

avg_rating = np.random.choice(8, n_samples) + 2 + np.random.choice(10, n_samples) * 0.1 # Средний рейтинг фильма по данным IMDB
days_running = (np.random.choice(4, n_samples)+1) * 7 # Количество дней в прокате, кратно 1 неделе (от одной до 4)
marketing_budget = np.random.choice(400000, n_samples) + 100000 # Маркетинговый бюджет фильма, минимально 100 000 долларов

box_office = avg_rating * days_running * 8000 + np.random.choice(400000, n_samples) # пусть это бу наша целевая переменная 

In [33]:
data = pd.DataFrame({'avg_rating': avg_rating, 'days_running': days_running, 'marketing_budget': marketing_budget, 'box_office': box_office})
data.head(5)

Unnamed: 0,avg_rating,days_running,marketing_budget,box_office
0,5.6,14,148089,629300.0
1,7.6,28,488862,1704500.0
2,8.2,7,153020,461300.0
3,7.0,21,413244,1178100.0
4,4.8,28,246164,1077300.0


In [34]:
# Обучим модель линейной регрессии: 
X = data[['avg_rating', 'days_running', 'marketing_budget']]
y = data['box_office']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['avg_rating', 'days_running', 'marketing_budget']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [1.39796940e+05 4.74063237e+04 4.81387870e-02]
Bias: -845660.2195625447
Error: 113411.84798778559


MAE Получилась огромной. Уберем признак бюджета, т.к. его влияние практически ничтожно: 

In [35]:
X = data[['avg_rating', 'days_running']]
y = data['box_office']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['avg_rating', 'days_running']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [140003.52623354  47443.9509655 ]
Bias: -832950.4120119279
Error: 113457.85776555346


Ошибка всё ещё очень большая. Генерируем новый признак: 

In [36]:
data['mult'] = data['avg_rating'] * data['days_running']
data.head(5)

Unnamed: 0,avg_rating,days_running,marketing_budget,box_office,mult
0,5.6,14,148089,629300.0,78.4
1,7.6,28,488862,1704500.0,212.8
2,8.2,7,153020,461300.0,57.4
3,7.0,21,413244,1178100.0,147.0
4,4.8,28,246164,1077300.0,134.4


In [37]:
# Проверяем наш сгенерированный признак:
X = data[['mult']]
y = data['box_office']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [8000.]
Bias: 2100.0000000003492
Error: 1.8801074475049972e-10
