# Линейные модели и нейронные сети. Практическая работа

В этой практической работе пять обязательных задач.

Они помогут понять, что вы действительно усвоили материал модуля. 

Удачи!

## Цели практической работы
Потренироваться в обучении модели:
- линейной регрессии;
- логистической регрессии; 
- многослойного персептрона.

## Что входит в практическую работу

1. Загрузите датасет и ознакомьтесь с ним.
2. Обучите линейную регрессию, включая признаки с нулевым весом и без них. Замерьте качество.
3. Обучите случайный лес. Замерьте качество.
4. Обучите многослойный перцептрон. Замерьте качество.
5. Реализуйте стратегию голосования. Замерьте качество.

## Что оценивается

* Выполнены все задания. В каждом:
 * в коде нет ручных перечислений, все действия автоматизированы;
 * результаты вычислений и применённых операций корректны;
 * ответы на вопросы, где требуется, корректны и обоснованы; 
 * код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов. Стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).
 
* Репозиторий проекта оформлен корректно:
 * содержит осмысленные коммиты, содержащие конкретные реализованные фичи;
 * ветки названы согласно назначению;
 * файлы, не связанные с проектом, не хранятся в репозитории.

## Как отправить работу на проверку

Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Задача

Постройте модель классификации, определяющую категорию цены / цену подержанного автомобиля в зависимости от характеристик транспортного средства. 

Используйте датасет из коллекции подержанных автомобилей, выставленных на продажу в Соединенных Штатах. Он уже подготовлен, без выбросов и с категориальными фичами, преобразованными с помощью one hot encoding, и количественными фичами, стандартизированными с помощью скейлеров.

### Описание датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);
- `price`— стоимость;
- `price_category`— категория цены.

## Обязательные задачи

In [1]:
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import accuracy_score, confusion_matrix, mean_absolute_error
from sklearn.model_selection import train_test_split 
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from scipy.stats import mode
from sklearn.neural_network import MLPRegressor


In [2]:
df = pd.read_csv('data/vehicles_dataset_prepared.csv')
df.head()
df

Unnamed: 0,id,price,price_category,is_audi,is_ford,is_chevrolet,is_toyota,x0_diesel,x0_electric,x0_gas,...,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,month_std,dayofweek_std,diff_years_std
0,7308295377,54990,high,0,0,0,0,1.0,0.0,0.0,...,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,-0.615846,1.120284,-1.322394
1,7316380095,16942,medium,0,1,0,0,0.0,0.0,0.0,...,1.110800,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,1.623784,-1.374972,-0.695973
2,7313733749,35590,high,0,0,0,0,0.0,0.0,1.0,...,0.531185,0.852578,-0.514480,0.560744,-0.155788,0.470197,0.560930,-0.615846,-0.376870,-0.852578
3,7308210929,14500,medium,0,0,0,1,0.0,0.0,1.0,...,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.788810,-0.615846,1.120284,-0.226157
4,7303797340,14590,medium,0,0,0,0,0.0,0.0,0.0,...,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,-0.615846,0.122182,-0.069552
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9614,7304876387,4495,low,0,0,0,1,0.0,0.0,1.0,...,0.823646,-1.496501,0.653795,-0.376744,-0.155788,-0.915473,-0.788810,-0.615846,1.120284,1.496501
9615,7316152972,14495,medium,0,0,0,0,0.0,0.0,1.0,...,0.903947,-0.556869,-0.250872,-0.654060,-0.155788,-0.453583,-0.788810,1.623784,-1.374972,0.556869
9616,7310993818,8995,low,1,0,0,0,0.0,0.0,1.0,...,-1.628875,-0.087054,0.063061,-0.668253,-0.155788,1.509450,1.910669,-0.615846,0.122182,0.087054
9617,7306637427,31900,high,0,0,0,0,0.0,0.0,0.0,...,0.251959,0.539367,-0.459670,0.327100,-0.155788,-0.569055,-0.788810,-0.615846,-0.376870,-0.539367


**Задача 1. Линейная регрессия**

Вспомните задачу по предсказанию стоимости подержанного автомобиля. Попробуйте обучить модель линейной регрессии для предсказания цены автомобиля (колонка `price`). Для этого сделайте шаги:

- подготовьте данные: удалите колонки, которые косвенно содержат информацию о целевой переменной (`odometer/price_std`, `price_category`);
- разделите выборку на треин и тест в отношении 70/30;
- обучите модель линейной регрессии с дефолтными параметрами;
- посчитайте значение метрики mae на тестовой выборке для линейной регрессии;
- выведите получившиеся коэффициенты линейной регрессии при каждом параметре обучающей выборки с помощью метода `coef_` (есть ли коэффициенты, которые равны нулю? Если есть, выведите названия фичей с нулевым коэффициентом);
- удалите фичи, коэффициенты которых равны нулю; переобучите модель; убедитесь, что значение метрики не изменилось.



In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import StandardScaler

df_new = df.copy()
df_new = df.drop(['odometer/price_std', 'price_category'], axis=1)
X = df_new.drop('price', axis=1)
y = df_new['price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

lr = LinearRegression()
lr.fit(X_train, y_train)





In [4]:
y_pred = lr.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
print(f'Mean Absolute Error on Test Set: {mae}')

coefficients = pd.DataFrame({'Feature': X_train.columns, 'Coefficient': lr.coef_})
print(coefficients)


zero_coefficients = coefficients[coefficients['Coefficient'] == 0]['Feature'].tolist()
X_train_filtered = X_train.drop(zero_coefficients, axis=1)
X_test_filtered = X_test.drop(zero_coefficients, axis=1)

lr.fit(X_train_filtered, y_train)

y_pred_filtered = lr.predict(X_test_filtered)
mae_filtered = mean_absolute_error(y_test, y_pred_filtered)
print(f'Mean Absolute Error on Test Set after removing zero-coefficient features: {mae_filtered}')


Mean Absolute Error on Test Set: 4600.341117614581
                   Feature  Coefficient
0                       id     0.000006
1                  is_audi   254.298182
2                  is_ford  1073.905874
3             is_chevrolet  -184.763504
4                is_toyota   471.497917
...                    ...          ...
1455         model_len_std    25.182236
1456  model_word_count_std   643.950550
1457             month_std  -166.691604
1458         dayofweek_std    23.050436
1459        diff_years_std -2803.980745

[1460 rows x 2 columns]
Mean Absolute Error on Test Set after removing zero-coefficient features: 4600.341117334811


**Задача 2. Логистическая регрессия**

Теперь в рамках тех же данных попробуйте предсказать `price_category` с помощью алгоритма логистической регрессии. Предварительно из датафрейма удалите переменные, в которых косвенно содержится информация о целевой переменной (`odometer/price_std`, `price`). 

Для обученной модели:

- рассчитайте и выведите метрику качества (accuracy) на тренировочной выборке;
- сделайте предикт на тестовых данных и положите его в переменную `logreg_pred`;
- рассчитайте и выведите accuracy и confusion_matrix на тестовой выборке.

Обратите внимание, что это задание засчитывается, если: 
- accuracy на тренировочной выборке > 87%;
- accuracy на тестовой выборке > 75.5%.

Для улучшения метрики можно преобразовывать входные данные и тюнить параметры логистической регрессии.

In [29]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix


df1 = df.drop(['odometer/price_std', 'price', 'id'], axis=1)

X = df1.drop('price_category', axis=1)
y = df1['price_category']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

train_pred = logreg.predict(X_train)
train_accuracy = accuracy_score(y_train, train_pred)
print(train_accuracy)

logreg_pred = logreg.predict(X_test)

test_accuracy = accuracy_score(y_test, logreg_pred)
conf_matrix = confusion_matrix(y_test, logreg_pred)

print(test_accuracy)
print('Confusion Matrix:')
print(conf_matrix)


0.8523716699155296
0.7624740124740125
Confusion Matrix:
[[534  14 118]
 [ 13 528  93]
 [103 116 405]]


**Задача 3. Многослойный персептрон**

Решите задачу, поставленную в предыдущем задании, применив модель многослойного персептрона. С помощью данного алгоритма добейтесь лучших значений точности на тренировочной и тестовой выборках, чем на логистической регрессии. 

Увеличение точности в данном задании, по сравнению с предыдущим, должно быть больше увеличения 0.01 по метрике accuracy.

In [6]:
df_new1 = df.copy()
df_new1 = df.drop(['odometer/price_std', 'price', 'id'], axis=1)

# Определение X и y
X = df_new1.drop('price_category', axis=1)
y = df_new1['price_category']

# Разделение выборки на тренировочную и тестовую
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)




In [7]:
# Обучение модели MLPRegressor
mlp = MLPClassifier(hidden_layer_sizes=(100, 10), max_iter=500, random_state=42, activation='tanh')
mlp.fit(X_train, y_train)

In [8]:
train_pred = mlp.predict(X_train)
train_accuracy = accuracy_score(y_train, train_pred)
print(f'accuracy score: {train_accuracy}')

test_pred = mlp.predict(X_test)
test_accuracy = accuracy_score(y_test, test_pred)
print(f'Test accuracy score: {test_accuracy}')

accuracy score: 0.9985147779593049
Test accuracy score: 0.764033264033264


**Задача 4. Сравнение с древовидными моделями**

Обучите модель случайного леса на тех же данных для предсказания `price_category`. Сравните качество с моделью логистической регрессии и многослойного персептрона. Словами опишите, какая из моделей в каких случаях работает лучше по результатам на тестовой выборке, обоснуйте свой выбор.

In [9]:
# Ваш код здесь
df_prepared = df.copy()
df_prepared = df.drop(['odometer/price_std', 'price', 'id'],  axis=1)

x = df_prepared.drop(['price_category'], axis=1)
y = df_prepared['price_category']

from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

rf_clf = RandomForestClassifier()
rf_clf.fit(X_train, y_train)
predicted_train_rf = rf_clf.predict(X_train)
predicted_test_rf = rf_clf.predict(X_test)

accuracy = accuracy_score(y_test, predicted_test_rf)
print(accuracy_score(y_train, predicted_train_rf))
print(accuracy_score(y_test, predicted_test_rf))
print(f"\nТочность модели: {accuracy}");


1.0
0.7512127512127512

Точность модели: 0.7512127512127512


**Задача 5. Стратегия голосования**

Реализуйте стратегию голосования для предсказания целевой переменной.
Голосование в задаче классификации — это когда несколько моделей выдают свои предикты, и финальным выбирается тот предикт, который предсказали большинство моделей.

Для реализации этой стратегии проделайте следующее:

- сохраните предсказания каждой из моделей (случайный лес, многослойный персептрон, логистическая регрессия) для тестовой выборки в датафрейм `pred_df`;
- в четвёртую колонку `target` положите тот класс, который предсказало большинство классификаторов; например, если в строке были значения `high, medium, medium`, в `target` нужно положить `medium`;

     если в строке три разных класса (`high, medium, low`), придумайте свою стратегию по выбору значения; самая простая стратегия — выбрать рандомно одно значение из трёх;

- посчитайте точность предсказания с помощью голосования; выведите значения метрик accuracy и confusion_matrix.

Добейтесь значения точности > 78%.

In [31]:
pred_df = df.copy()
pred_df = df.drop(['odometer/price_std', 'price' , 'id'],  axis=1)



X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

X_test = pred_df.drop(['price_category'], axis=1)
y_test = ['price_category']

rf_predictions = rf_clf.predict(X_test)
mlp_predictions = mlp.predict(X_test)
logreg_predictions = logreg.predict(X_test)

pred_df = pd.DataFrame({
    'RF': rf_predictions,
    'MLP': mlp_predictions,
    'LogReg': logreg_predictions
})



In [34]:
import numpy as np

# Define a function to determine the majority voted class
def majority_vote(row):
    counts = row.value_counts()
    if len(counts) == 3:
        # If there are three different classes, choose randomly
        return np.random.choice(row)
    else:
        return counts.idxmax()

pred_df['medium'] = pred_df.apply(majority_vote, axis=1)

# Calculate accuracy and confusion matrix
true_labels = df['price_category']  # Replace with your actual true labels
accuracy = accuracy_score(true_labels, pred_df['medium'])
conf_matrix = confusion_matrix(true_labels, pred_df['medium'])

print(f"Accuracy: {accuracy * 100:.2f}%")
print("Confusion Matrix:")
print(conf_matrix)

Accuracy: 93.59%
Confusion Matrix:
[[3016   25  158]
 [  23 3046  131]
 [ 123  157 2940]]


**Примечание**

В этой практической работе перед вами встал выбор: включать ли колонку `id`. При удалении данной колонки во время обучения логистической регрессии качество заметно улучшается.

Обучать любую модель (будь то логистическая, линейная регрессия или древовидный алгоритм) на данных айдишников не считается хорошей практикой. Как правило, между `id` и целевой переменной не должно быть никаких взаимосвязей. Включая колонку `id` в качества атрибута в обучение, вы стараетесь подогнать результаты своей модели под айдишники записей. Таким образом модель обучится на некотором наборе частных случаев и, возможно, не обратит внимание на общие зависимости.   

In [26]:
logreg.fit(X_train, y_train)

print("Feature names used during training:")
print(X_train.columns)


Feature names used during training:
Index(['is_audi', 'is_ford', 'is_chevrolet', 'is_toyota', 'x0_diesel',
       'x0_electric', 'x0_gas', 'x0_hybrid', 'x0_other', 'std_scaled_odometer',
       ...
       'lat_std', 'long_std', 'year_std', 'desc_len_std', 'model_in_desc_std',
       'model_len_std', 'model_word_count_std', 'month_std', 'dayofweek_std',
       'diff_years_std'],
      dtype='object', length=1459)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
