In [None]:
Пример решения задачи множественной регрессии с помощью Python

https://habr.com/post/206306/

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга (http://habrahabr.ru/post/204500/)) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Описание набора данных и постановка задачи

Дан набор данных, котором описаны следующие атрибуты помещения:
Поле	Описание							Тип
X1		Относительная компактность			FLOAT
X2		Площадь								FLOAT
X3		Площадь стены						FLOAT
X4		Площадь потолка						FLOAT
X5		Общая высота						FLOAT
X6		Ориентация							INT
X7		Площадь остекления					FLOAT
X8		Распределенная площадь остекления	INT
y1		Нагрузка при обогреве				FLOAT
y2		Нагрузка при охлаждении				FLOAT

Предварительный анализ данных

Для начала загрузим наши данные и посмотрим на них:


In [2]:
from pandas import read_csv, DataFrame
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
from sklearn.cross_validation import train_test_split



In [9]:
dataset = read_csv('datasets\\ENB2012_data.csv',';')
dataset.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,Y1,Y2,Unnamed: 10,Unnamed: 11
0,0.98,514.5,294.0,110.25,7.0,2.0,0.0,0.0,15.55,21.33,,
1,0.98,514.5,294.0,110.25,7.0,3.0,0.0,0.0,15.55,21.33,,
2,0.98,514.5,294.0,110.25,7.0,4.0,0.0,0.0,15.55,21.33,,
3,0.98,514.5,294.0,110.25,7.0,5.0,0.0,0.0,15.55,21.33,,
4,0.9,563.5,318.5,122.5,7.0,2.0,0.0,0.0,20.84,28.28,,


Теперь давайте посмотрим не связаны ли между собой какие-либо атрибуты. Сделать это можно рассчитав коэффициенты корреляции для всех столбцов. Как это сделать было описано в предыдущей статье (http://habrahabr.ru/post/204500/):

In [10]:
dataset.corr()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,Y1,Y2,Unnamed: 10,Unnamed: 11
X1,1.0,-0.9919015,-0.2037817,-0.8688234,0.8277473,0.0,1.2839860000000002e-17,1.76462e-17,0.622272,0.634339,,
X2,-0.9919015,1.0,0.1955016,0.8807195,-0.8581477,0.0,1.318356e-16,-3.558613e-16,-0.65812,-0.672999,,
X3,-0.2037817,0.1955016,1.0,-0.2923165,0.2809757,0.0,-7.9697259999999995e-19,0.0,0.455671,0.427117,,
X4,-0.8688234,0.8807195,-0.2923165,1.0,-0.9725122,0.0,-1.381805e-16,-1.079129e-16,-0.861828,-0.862547,,
X5,0.8277473,-0.8581477,0.2809757,-0.9725122,1.0,0.0,1.861418e-18,0.0,0.889431,0.895785,,
X6,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,-0.002587,0.01429,,
X7,1.2839860000000002e-17,1.318356e-16,-7.9697259999999995e-19,-1.381805e-16,1.861418e-18,0.0,1.0,0.2129642,0.269841,0.207505,,
X8,1.76462e-17,-3.558613e-16,0.0,-1.079129e-16,0.0,0.0,0.2129642,1.0,0.087368,0.050525,,
Y1,0.6222722,-0.6581202,0.4556712,-0.8618283,0.8894307,-0.002587,0.269841,0.08736759,1.0,0.975862,,
Y2,0.6343391,-0.6729989,0.427117,-0.8625466,0.8957852,0.01429,0.207505,0.05052512,0.975862,1.0,,


Как можно заметить из нашей матрицы, коррелируют между собой следующие столбы (Значение коэффициента корреляции больше 95%):
y1 --> y2
x1 --> x2
x4 --> x5

Теперь давайте выберем, какие столбцы их наших пар мы можем убрать из нашей выборки. Для этого, в каждой паре, выберем столбцы, которые в большей степени оказывают влияние на прогнозные значения Y1 и Y2 и оставим их, а остальные удалим.
Как можно заметить и матрицы с коэффициентами корреляции на y1,y2 больше значения оказывают X2 и X5, нежели X1 и X4, таким образом мы можем последние столбцы мы можем удалить.

In [11]:
dataset = dataset.drop(['X1','X4'], axis=1)
dataset.head()

Unnamed: 0,X2,X3,X5,X6,X7,X8,Y1,Y2,Unnamed: 10,Unnamed: 11
0,514.5,294.0,7.0,2.0,0.0,0.0,15.55,21.33,,
1,514.5,294.0,7.0,3.0,0.0,0.0,15.55,21.33,,
2,514.5,294.0,7.0,4.0,0.0,0.0,15.55,21.33,,
3,514.5,294.0,7.0,5.0,0.0,0.0,15.55,21.33,,
4,563.5,318.5,7.0,2.0,0.0,0.0,20.84,28.28,,
