## Костыра Екатерина ПМ_1901

## Занятие 7. Линейные модели для регрессии

Веберите любые данные для задачи регрессии из репозитория данных для машинного обучения (UCI Machine learning repository: http://archive.ics.uci.edu/ml/index.php) или возьмите свои данные и постройте линейные модели в соответствии со следующей схемой. Комментарии к каждому разделу обязательны.

Цель набора данных - диагностически предсказать, есть ли у пациента диабет, на основе определенных диагностических измерений, включенных в набор данных.

Наборы данных состоят из нескольких медицинских предикторов (независимых) и одной целевой (зависимой) переменной, результата . Независимые переменные включают количество беременностей у пациентки, их ИМТ, уровень инсулина, возраст и т. Д.

#### Информация об атрибутах:
1. preg - Количество беременных
2. plas - Глюкоза
3. pres - Кровяное давление (мм рт. Ст.)
4. skin - Толщина кожи (мм)
5. test - Инсулин
6. mass - Индекс массы тела (вес в кг / (рост в м) ^ 2)
7. pedi - Сахарный диабет
8. age - Возраст (лет)
9. class - Исход (Переменная класса (0, если не диабет, 1, если диабет) 268 из 768 равны 1, остальные равны 0)

In [1]:
import os
os.chdir("C:/Users/79811/anaconda3/")

### Linear Regression

Линейная регрессия вычисляет оценки коэффициентов регрессии или просто прогнозируемых весов , обозначенных 𝑏₀, 𝑏₁,…, 𝑏ᵣ. Они определяют оценочную функцию регрессии 𝑓 (𝐱) = 𝑏₀ + 𝑏₁𝑥₁ + ⋯ + 𝑏ᵣ𝑥ᵣ. Эта функция должна достаточно хорошо фиксировать зависимости между входами и выходами. 

Регрессия заключается в определении наилучших предсказанных весов , то есть весов, соответствующих наименьшим остаткам.

Чтобы получить наилучшие веса, вы обычно минимизируете сумму квадратов остатков (SSR) для всех наблюдений 𝑖 = 1,…, 𝑛: SSR = Σᵢ (𝑦ᵢ - 𝑓 (𝐱ᵢ)) ². Такой подход называется методом наименьших квадратов 

In [11]:
# Linear Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.16320738575907065


Оценка коэффициентов регрессии равна -0.16

### Ridge Regression

Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности, усовершенствование линейной регрессии с повышенной устойчивостью к ошибкам, налагающая ограничения на коэффициенты регрессии для получения куда более приближенного к реальности результата. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии

In [7]:
# Ridge Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Ridge
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.1631934006884549


Оценка коэффициентов гребневой регрессии равно -0.16

### LASSO Linear Regression

Метод регрессии лассо (англ. LASSO, Least Absolute Shrinkage and Selection Operator) похож на гребневую регрессию, но он использует другое ограничение на коэффициенты.

Основное различие лассо- и ридж-регрессии заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю

In [10]:
# Lasso Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = Lasso()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.18012837070913562


Оценка коэффициентов регрессии лассо равна -0.18

### Elastic Net Regression

Эластичная сеть — модель регрессии с двумя регуляризаторами, то есть, если обе переменные X и Y умножаются на константы, коэффициенты подгонки не изменяются для данного параметра .

In [13]:
# ElasticNet Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import ElasticNet
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.17355666363344985


Оценка коэффициентов регрессии равна -0.17