## Занятие 7. Линейные модели для регрессии

Веберите любые данные для задачи регрессии из репозитория данных для машинного обучения (UCI Machine learning repository: http://archive.ics.uci.edu/ml/index.php) или возьмите свои данные и постройте линейные модели в соответствии со следующей схемой. Комментарии к каждому разделу обязательны.

*Выполнил:* Бронников Егор ПМ-1901

*Последнее изменение:* 13/12/2021

### Импорты

In [1]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

### Данные

*Источник:* http://archive.ics.uci.edu/ml/datasets/Wine+Quality

*Название:* **Wine Quality Data Set**

#### Описание данных

Включены два набора данных, относящиеся к образцам красного и белого вин с севера Португалии. Но в данной работе будут рассматриваться только данные по белому вину.

### Описание полей

1. **fixed acidity** — фиксированная кислотность;
1. **volatile acidity** — летучая кислотность;
1. **citric acid** — лимонная кислота;
1. **residual sugar** — остаточный сахар;
1. **chlorides** — хлориды;
1. **free sulfur dioxide** — свободный диоксид серы;
1. **total sulfur dioxide** — общий диоксид серы;
1. **density** — густота;
1. **pH** — потенциал водорода;
1. **sulphates** — сульфаты ;
1. **alcohol** — спирт;
1. **quality** — качество (от 0 до 10);

In [2]:
filename = "winequality-white.csv"
dataframe = read_csv(filename, delimiter=";")
array = dataframe.values
dataframe.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [3]:
dataframe.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0
mean,6.854788,0.278241,0.334192,6.391415,0.045772,35.308085,138.360657,0.994027,3.188267,0.489847,10.514267,5.877909
std,0.843868,0.100795,0.12102,5.072058,0.021848,17.007137,42.498065,0.002991,0.151001,0.114126,1.230621,0.885639
min,3.8,0.08,0.0,0.6,0.009,2.0,9.0,0.98711,2.72,0.22,8.0,3.0
25%,6.3,0.21,0.27,1.7,0.036,23.0,108.0,0.991723,3.09,0.41,9.5,5.0
50%,6.8,0.26,0.32,5.2,0.043,34.0,134.0,0.99374,3.18,0.47,10.4,6.0
75%,7.3,0.32,0.39,9.9,0.05,46.0,167.0,0.9961,3.28,0.55,11.4,6.0
max,14.2,1.1,1.66,65.8,0.346,289.0,440.0,1.03898,3.82,1.08,14.2,9.0


In [4]:
X = array[:,0:11]
Y = array[:,11]

Регрессия будет оценивать качество белого вина, а факторными признаками будет состав.

### Linear Regression

In [5]:
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.5709831128974846


В методе обычной линейной регрессии величина средней квадратической ошибки (MSE) составила **0.571**, что достаточно хорошо, потому что близко к 0.

### Ridge Regression

In [6]:
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.574889062902698


В методе гребневой регрессии величина средней квадратической ошибки (MSE) составила **0.579**, что немного хуже чем в методе обычной линейной регрессии.

### LASSO Linear Regression

In [7]:
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = Lasso()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.7544298402399233


В методе лассо регресии величина средней квадратической ошибки (MSE) составила **0.7544**, что хуже чем в методе обычной линейной регрессии и в модели гребневой регрессии.

### Elastic Net Regression

In [8]:
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-0.7476313865231591


В последнем методе величина средней квадратической ошибки (MSE) составила **0.7476**, что немножко лучше чем в методе лассо регрессии, но хуже остальных результатов.

### Выводы

Таким образом, среди рассмотренных моделей минимальную среднюю кваратичную ошибку показала обычная линейная регрессия и следовательно она лучше всего подходит для оценки качества вина.