Линейная регрессия

Есть некий набор конфет, обладающих рядом характеристик. В результате опроса у нас есть информация кокому проценту людей какие конфеты нравятся. Цель: постоить модель линейной регрессии, предсказывающей по характеристикам конфеты, понравится она или нет.

Прочитаем данные. Так как названия конфет уникальны, используем их в качестве индекса.

In [1]:
import pandas as pd
DATA = pd.read_csv("candy-data.csv", delimiter=',', index_col='competitorname')

In [2]:
DATA

Unnamed: 0_level_0,chocolate,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent,Y
competitorname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
100 Grand,1,0,1,0,0,1,0,1,0,0.732,0.860,66.971725,1
3 Musketeers,1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936,1
One dime,0,0,0,0,0,0,0,0,0,0.011,0.116,32.261086,0
One quarter,0,0,0,0,0,0,0,0,0,0.011,0.511,46.116505,0
Air Heads,0,1,0,0,0,0,0,0,0,0.906,0.511,52.341465,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Snickers Crisper,1,0,1,1,0,1,0,1,0,0.604,0.651,59.529251,1
Sour Patch Kids,0,1,0,0,0,0,0,0,1,0.069,0.116,59.863998,1
Sour Patch Tricksters,0,1,0,0,0,0,0,0,1,0.069,0.116,52.825947,1
Starburst,0,1,0,0,0,0,0,0,1,0.151,0.220,67.037628,1


Обучение модели будем проводить на данных, за исключением некоторых конфет

In [3]:
train_data = DATA.drop(['Dum Dums','Nestle Smarties'])

In [4]:
train_data

Unnamed: 0_level_0,chocolate,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent,Y
competitorname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
100 Grand,1,0,1,0,0,1,0,1,0,0.732,0.860,66.971725,1
3 Musketeers,1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936,1
One dime,0,0,0,0,0,0,0,0,0,0.011,0.116,32.261086,0
One quarter,0,0,0,0,0,0,0,0,0,0.011,0.511,46.116505,0
Air Heads,0,1,0,0,0,0,0,0,0,0.906,0.511,52.341465,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Snickers Crisper,1,0,1,1,0,1,0,1,0,0.604,0.651,59.529251,1
Sour Patch Kids,0,1,0,0,0,0,0,0,1,0.069,0.116,59.863998,1
Sour Patch Tricksters,0,1,0,0,0,0,0,0,1,0.069,0.116,52.825947,1
Starburst,0,1,0,0,0,0,0,0,1,0.151,0.220,67.037628,1


Отбираем данные для предикторов, удаляя два последних столбца, индекс не включается в данные.

In [5]:
X = pd.DataFrame(train_data.drop(['winpercent', 'Y'], axis=1))

Указываем столбец отклика

In [6]:
y = pd.DataFrame(train_data['winpercent'])

Подключаем модель линейной регрессии из библиотеки sklearn

In [7]:
from sklearn.linear_model import LinearRegression

Обучение модели

In [8]:
reg = LinearRegression().fit(X, y)

Предсказание для конфет введеных вручную

In [9]:
reg.predict([[1, 1, 1, 1, 0, 1, 0, 0, 0, 0.128, 0.37]])



array([[87.62803508]])

Предсказание для конфет Dum Dums из таблицы

Выбираем строку из таблицы

In [12]:
DumDums = DATA.loc['Dum Dums',:].to_frame().T

Отбираем данные для предикторов и выполняем предсказание с помощью модели

In [13]:
reg.predict(DumDums.drop(['winpercent', 'Y'], axis=1))

array([[47.69312171]])

Вероятность того, что конфета понравится 48%, т.е. большинству она не понравится

Предсказание для конфет Nestle Smarties из таблицы

Выбираем строку из таблицы

In [14]:
NestleSmarties = DATA.loc['Nestle Smarties',:].to_frame().T

Отбираем данные для предикторов и выполняем предсказание с помощью модели

In [15]:
reg.predict(NestleSmarties.drop(['winpercent', 'Y'], axis=1))

array([[55.29253178]])

Вероятность того, что конфета понравится 55%, т.е. большинству она понравится

Найдем коэффициенты для модели.

Значение коэффициента $\theta_0$:

In [16]:
reg.intercept_

array([36.48405901])

Значение коэффициентов $\theta_1, \ldots, \theta_p$:

In [17]:
reg.coef_

array([[26.94376642, 10.65140001, -2.60276484,  6.97589394,  4.67168507,
        10.45125208, -6.93737108, -7.61767696, -4.02390879, 10.56907617,
        -7.10381969]])