# Линейные модели и нейронные сети. Практическая работа

В этой практической работе пять обязательных задач.

Они помогут понять, что вы действительно усвоили материал модуля. 

Удачи!

## Цели практической работы
Потренироваться в обучении модели:
- линейной регрессии;
- логистической регрессии; 
- многослойного персептрона.

## Что входит в практическую работу

1. Загрузите датасет и ознакомьтесь с ним.
2. Обучите линейную регрессию, включая признаки с нулевым весом и без них. Замерьте качество.
3. Обучите случайный лес. Замерьте качество.
4. Обучите многослойный перцептрон. Замерьте качество.
5. Реализуйте стратегию голосования. Замерьте качество.

## Что оценивается

* Выполнены все задания. В каждом:
 * в коде нет ручных перечислений, все действия автоматизированы;
 * результаты вычислений и применённых операций корректны;
 * ответы на вопросы, где требуется, корректны и обоснованы; 
 * код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов. Стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).
 
* Репозиторий проекта оформлен корректно:
 * содержит осмысленные коммиты, содержащие конкретные реализованные фичи;
 * ветки названы согласно назначению;
 * файлы, не связанные с проектом, не хранятся в репозитории.

## Как отправить работу на проверку

Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Задача

Постройте модель классификации, определяющую категорию цены / цену подержанного автомобиля в зависимости от характеристик транспортного средства. 

Используйте датасет из коллекции подержанных автомобилей, выставленных на продажу в Соединенных Штатах. Он уже подготовлен, без выбросов и с категориальными фичами, преобразованными с помощью one hot encoding, и количественными фичами, стандартизированными с помощью скейлеров.

### Описание датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);
- `price`— стоимость;
- `price_category`— категория цены.

## Обязательные задачи

In [178]:
# Импортируем необходимые библиотеки
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import accuracy_score, confusion_matrix, mean_absolute_error
from sklearn.model_selection import train_test_split 
from sklearn.neural_network import MLPClassifier

In [179]:
# Загрузим датасет выведем первые 5 строк
df = pd.read_csv('data/vehicles_dataset_prepared.csv')
df.head()

Unnamed: 0,id,price,price_category,is_audi,is_ford,is_chevrolet,is_toyota,x0_diesel,x0_electric,x0_gas,...,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,month_std,dayofweek_std,diff_years_std
0,7308295377,54990,high,0,0,0,0,1.0,0.0,0.0,...,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,-0.615846,1.120284,-1.322394
1,7316380095,16942,medium,0,1,0,0,0.0,0.0,0.0,...,1.1108,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,1.623784,-1.374972,-0.695973
2,7313733749,35590,high,0,0,0,0,0.0,0.0,1.0,...,0.531185,0.852578,-0.51448,0.560744,-0.155788,0.470197,0.56093,-0.615846,-0.37687,-0.852578
3,7308210929,14500,medium,0,0,0,1,0.0,0.0,1.0,...,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.78881,-0.615846,1.120284,-0.226157
4,7303797340,14590,medium,0,0,0,0,0.0,0.0,0.0,...,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,-0.615846,0.122182,-0.069552


In [218]:
# копируем датафрейм для очистки (чтобы не менять основной)
df_for_linear = df.copy(deep=True) # копия датафрейма для 1 задачи
df_for_log = df.copy(deep=True) # копия датафрейма для 2 задачи
df_for_perseptron = df.copy(deep=True) # копия датафрейма для 3 задачи
df_for_rand_forest = df.copy(deep=True) # копия датафрейма для 3 задачи
df_for_linear

Unnamed: 0,id,price,price_category,is_audi,is_ford,is_chevrolet,is_toyota,x0_diesel,x0_electric,x0_gas,...,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,month_std,dayofweek_std,diff_years_std
0,7308295377,54990,high,0,0,0,0,1.0,0.0,0.0,...,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,-0.615846,1.120284,-1.322394
1,7316380095,16942,medium,0,1,0,0,0.0,0.0,0.0,...,1.110800,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,1.623784,-1.374972,-0.695973
2,7313733749,35590,high,0,0,0,0,0.0,0.0,1.0,...,0.531185,0.852578,-0.514480,0.560744,-0.155788,0.470197,0.560930,-0.615846,-0.376870,-0.852578
3,7308210929,14500,medium,0,0,0,1,0.0,0.0,1.0,...,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.788810,-0.615846,1.120284,-0.226157
4,7303797340,14590,medium,0,0,0,0,0.0,0.0,0.0,...,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,-0.615846,0.122182,-0.069552
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9614,7304876387,4495,low,0,0,0,1,0.0,0.0,1.0,...,0.823646,-1.496501,0.653795,-0.376744,-0.155788,-0.915473,-0.788810,-0.615846,1.120284,1.496501
9615,7316152972,14495,medium,0,0,0,0,0.0,0.0,1.0,...,0.903947,-0.556869,-0.250872,-0.654060,-0.155788,-0.453583,-0.788810,1.623784,-1.374972,0.556869
9616,7310993818,8995,low,1,0,0,0,0.0,0.0,1.0,...,-1.628875,-0.087054,0.063061,-0.668253,-0.155788,1.509450,1.910669,-0.615846,0.122182,0.087054
9617,7306637427,31900,high,0,0,0,0,0.0,0.0,0.0,...,0.251959,0.539367,-0.459670,0.327100,-0.155788,-0.569055,-0.788810,-0.615846,-0.376870,-0.539367


In [181]:
# удалим колонки, которые косвенно содержат информацию о целевой переменной 
# (odometer/price_std, price_category)
df_for_linear.drop(['odometer/price_std', 'price_category'], axis= 1 , inplace= True )
df_for_linear.shape

x = df_for_linear.drop(['price'], axis=1)
y = df_for_linear['price']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)

In [182]:
# вызовем метод LinearRegression()
lr = LinearRegression()

In [183]:
# проведем обучение модели
lr.fit(x_train, y_train)

LinearRegression()

In [184]:
# рассчитаем предикт
y_pred = lr.predict(x_test)

In [185]:
# рассчитаем МАЕ
mae_1 = mean_absolute_error(y_test, y_pred)
mae_1

4600.34111672715

**Задача 1. Линейная регрессия**

Вспомните задачу по предсказанию стоимости подержанного автомобиля. Попробуйте обучить модель линейной регрессии для предсказания цены автомобиля (колонка `price`). Для этого сделайте шаги:

- подготовьте данные: удалите колонки, которые косвенно содержат информацию о целевой переменной (`odometer/price_std`, `price_category`);
- разделите выборку на треин и тест в отношении 70/30;
- обучите модель линейной регрессии с дефолтными параметрами;
- посчитайте значение метрики mae на тестовой выборке для линейной регрессии;
- выведите получившиеся коэффициенты линейной регрессии при каждом параметре обучающей выборки с помощью метода `coef_` (есть ли коэффициенты, которые равны нулю? Если есть, выведите названия фичей с нулевым коэффициентом);
- удалите фичи, коэффициенты которых равны нулю; переобучите модель; убедитесь, что значение метрики не изменилось.



In [186]:
# Создаем список из списков, где 1 - фича, 2 - каэффициент
columns_coef = sorted(list(zip(lr.coef_, x.columns)))
columns_coef


[(-33042.54113645779, 'short_model_v60'),
 (-30907.638426734444, 'short_model_Xx'),
 (-29838.589278080686, 'short_model_Flexible'),
 (-29591.17838982187, 'short_model_v90'),
 (-29245.704371728527, 'short_model_roadster'),
 (-29098.237401152386, 'short_model_CLICK'),
 (-28748.277559637507, 'short_model_xc40'),
 (-28606.51474569688, 'short_model_clubman'),
 (-27731.66442327471, 'short_model_cargo'),
 (-26862.30374993447, 'short_model_paceman'),
 (-26073.215126272185, 'short_model_cooper'),
 (-24885.387607836557, 'short_model_hardtop'),
 (-24883.653036714455, 'short_model_BUY'),
 (-22482.05090487213, 'short_model_ALL'),
 (-19629.44394255493, 'short_model_914'),
 (-19528.642518128647, 'short_model_PROGRAMS'),
 (-19458.238202591863, 'short_model_starcraft'),
 (-19442.802580366508, 'short_model_convertible'),
 (-17957.786028371702, 'short_model_328d'),
 (-17548.153422742358, 'short_model_countryman'),
 (-16755.97266722492, 'short_model_versa'),
 (-16275.353821922337, 'short_model_is250'),
 (

In [187]:
x.shape

(9619, 1460)

In [188]:
# найдем фичу, коэффициент которой равен  0 и удалим ее
for coef_in_linear in columns_coef:
    if coef_in_linear[0] == 0:
        print(coef_in_linear)
        x = x.drop([coef_in_linear[1]], axis = 1)

x.shape


(0.0, 'manufacturer_ferrari')


(9619, 1459)

In [189]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)
# проведем обучение модели
lr.fit(x_train, y_train)
# рассчитаем предикт
y_pred = lr.predict(x_test)
# рассчитаем МАЕ
mae_2 = mean_absolute_error(y_test, y_pred)
print(mae_2, mae_2 - mae_1)

4600.341116175132 -5.520178092410788e-07


In [190]:
# Удалим фичи, которые очень близки к нулю
# Создаем список из списков, где 1 - фича, 2 - каэффициент
columns_coef = sorted(list(zip(lr.coef_, x.columns)))
columns_coef
# найдем фичу, коэффициент которой бизки к 0
for coef_in_linear in columns_coef:
    if coef_in_linear[0] < 0.000001 and coef_in_linear[0] > -0.000001:
        print(coef_in_linear)
        x = x.drop([coef_in_linear[1]], axis = 1)

(-6.84813130646944e-07, 'short_model_MV-1')
(-6.282953108893707e-07, 'short_model_Jayco')


In [191]:
x.shape

(9619, 1457)

In [192]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)
# проведем обучение модели
lr.fit(x_train, y_train)
# рассчитаем предикт
y_pred = lr.predict(x_test)
# рассчитаем МАЕ
mae_3 = mean_absolute_error(y_test, y_pred)
print(mae_3, mae_2 - mae_1, mae_3 - mae_2)

4600.341117240526 -5.520178092410788e-07 1.0653939170879312e-06


**Задача 2. Логистическая регрессия**

Теперь в рамках тех же данных попробуйте предсказать `price_category` с помощью алгоритма логистической регрессии. Предварительно из датафрейма удалите переменные, в которых косвенно содержится информация о целевой переменной (`odometer/price_std`, `price`). 

Для обученной модели:

- рассчитайте и выведите метрику качества (accuracy) на тренировочной выборке;
- сделайте предикт на тестовых данных и положите его в переменную `logreg_pred`;
- рассчитайте и выведите accuracy и confusion_matrix на тестовой выборке.

Обратите внимание, что это задание засчитывается, если: 
- accuracy на тренировочной выборке > 87%;
- accuracy на тестовой выборке > 75.5%.

Для улучшения метрики можно преобразовывать входные данные и тюнить параметры логистической регрессии.

In [193]:
# удаляем odometer/price_std, price
print('Размерность датафрейма до удаления odometer/price_std, price', df_for_log.shape)
df_for_log.drop(['odometer/price_std', 'price'], axis= 1 , inplace= True )
print('Размерность датафрейма после удаления', df_for_log.shape)

Размерность датафрейма до удаления odometer/price_std, price (9619, 1463)
Размерность датафрейма после удаления (9619, 1461)


In [194]:
# Ваш код подготовки данных здесь. Допишите инициализацию входных фичей и целевую переменную
x = df_for_log.drop(['price_category'], axis=1)
y = df_for_log['price_category']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)



In [195]:
# проверим, ести ли пропущенные значения в датасете
# команда any проверяет все записи по каждой колонке, если найдет хоть один пропуск - выдаст True
if_is_null = x.isnull().any().tolist()
for param in if_is_null:
    if param == True:
        print(param)

Все значения заполнены

In [196]:
# вызовем модуль логистической регрессии
logreg = LogisticRegression()
# обучим модель 
logreg.fit(x_train, y_train)

# найдем предикт на тестовых данных и выведим метрику точности модели
logreg_pred = logreg.predict(x_test)
accuracy_score(y_test, logreg_pred)


0.32432432432432434

In [197]:
# выведем матрицу ошибок
confusion_matrix(y_test, pred)

array([[  0,   0, 997],
       [  0,   0, 953],
       [  0,   0, 936]], dtype=int64)

In [198]:
y.value_counts()

medium    3220
low       3200
high      3199
Name: price_category, dtype: int64

In [258]:
# вызовем модуль логистической регрессии  
# Logistic Regression supports only penalties in ['l1', 'l2', 'elasticnet', 'none']

logreg = LogisticRegression(C=1, 
                            max_iter=7,
                            multi_class='ovr', 
                            penalty='l1',
                            solver='liblinear'
                            )
    
# обучим модель 
logreg.fit(x_train, y_train)

# найдем предикт на тестовых данных и выведим метрику точности модели
logreg_pred = logreg.predict(x_test)
accuracy_score(y_test, logreg_pred)



0.7560637560637561

In [200]:
# выведем матрицу ошибок
confusion_matrix(y_test, logreg_pred)

array([[842,  34, 121],
       [ 27, 812, 114],
       [194, 220, 522]], dtype=int64)

In [201]:
# найдем предикт на тестовых данных и выведим метрику точности модели
logreg_pred = logreg.predict(x_train)
accuracy_score(y_train, logreg_pred)

0.814792811525323

In [202]:
x = x.drop('id', axis = 1)

In [203]:
# вызовем модуль логистической регрессии  
# Logistic Regression supports only penalties in ['l1', 'l2', 'elasticnet', 'none']

logreg = LogisticRegression(C=1, 
                            max_iter=7,
                            multi_class='ovr', 
                            penalty='l1',
                            solver='liblinear'
                            )
    
# обучим модель 
logreg.fit(x_train, y_train)

# найдем предикт на тестовых данных и выведим метрику точности модели
logreg_pred = logreg.predict(x_test)
accuracy_score(y_test, logreg_pred)



0.7529452529452529

In [204]:
# найдем предикт на тестовых данных и выведим метрику точности модели
logreg_pred = logreg.predict(x_train)
accuracy_score(y_train, logreg_pred)

0.8137531560968365

**Задача 3. Многослойный персептрон**

Решите задачу, поставленную в предыдущем задании, применив модель многослойного персептрона. С помощью данного алгоритма добейтесь лучших значений точности на тренировочной и тестовой выборках, чем на логистической регрессии. 

Увеличение точности в данном задании, по сравнению с предыдущим, должно быть больше увеличения 0.01 по метрике accuracy.

In [206]:
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size = 0.3, random_state=42)

In [207]:
# обучим модель на примере одной переменной 
logreg = LogisticRegression(random_state=42)
logreg.fit(train_x, train_y)

pred = logreg.predict(test_x)
accuracy_score(test_y, pred)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.7543312543312544

In [208]:
# обучим модель многослойный песептрон
mlp = MLPClassifier(random_state=42, max_iter=500)
mlp.fit(train_x, train_y)

MLPClassifier(max_iter=500, random_state=42)

In [209]:
# рассчитаем accuracy_score
pred_mlp = mlp.predict(test_x)
accuracy_score(test_y, pred_mlp)

0.7678447678447679

In [210]:
# изменим параметры персептрона
# hidden_layer_sizes=(100,20) 2 скрытых слоя 1 - 100, 2 - 20 нейронов
# activation = 'tanh' сменим на тангенс
mlp_tuned = MLPClassifier(random_state=42, max_iter=500, hidden_layer_sizes=(100,20), activation = 'tanh')
mlp_tuned.fit(train_x, train_y)

MLPClassifier(activation='tanh', hidden_layer_sizes=(100, 20), max_iter=500,
              random_state=42)

In [233]:
# выведем предсказанные моделью в predicted_train и predicted_test
predicted_train = mlp.predict(train_x)
predicted_test = mlp.predict(test_x)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(train_y, predicted_train))
print(accuracy_score(test_y, predicted_test))

0.9998514777959305
0.7678447678447679


In [234]:
# рассчитаем accuracy_score
pred_mlp = mlp.predict(test_x)
accuracy_score(test_y, pred_mlp)

0.7678447678447679

In [217]:
mlp_tuned.n_layers_

4

**Задача 4. Сравнение с древовидными моделями**

Обучите модель случайного леса на тех же данных для предсказания `price_category`. Сравните качество с моделью логистической регрессии и многослойного персептрона. Словами опишите, какая из моделей в каких случаях работает лучше по результатам на тестовой выборке, обоснуйте свой выбор.

In [232]:
# Ваш код здесь
from sklearn.tree import DecisionTreeClassifier
df_r_f = df_for_rand_forest.copy()
df_r_f.drop(['odometer/price_std', 'price'], axis= 1 , inplace= True)
# создаем датафрейм с фичами (x) и целевым признаком (y)
x = df_r_f.drop(['price_category'], axis=1)
y = df_r_f.price_category
# создаем тренировочный и тестируемый датасеты
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
# обучаем модель на x_train, y_train
clf = DecisionTreeClassifier()
clf.fit(x_train, y_train)
# выведем предсказанные моделью в predicted_train и predicted_test
predicted_train = clf.predict(x_train)
predicted_test = clf.predict(x_test)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(y_train, predicted_train))
print(accuracy_score(y_test, predicted_test))

1.0
0.6666666666666666


Модель на многослойном песептроне дает более высокое качество предсказания чем модели на линейной, логической регрессии и древовидной моделью

**Задача 5. Стратегия голосования**

Реализуйте стратегию голосования для предсказания целевой переменной.
Голосование в задаче классификации — это когда несколько моделей выдают свои предикты, и финальным выбирается тот предикт, который предсказали большинство моделей.

Для реализации этой стратегии проделайте следующее:

- сохраните предсказания каждой из моделей (случайный лес, многослойный персептрон, логистическая регрессия) для тестовой выборки в датафрейм `pred_df`;
- в четвёртую колонку `target` положите тот класс, который предсказало большинство классификаторов; например, если в строке были значения `high, medium, medium`, в `target` нужно положить `medium`;

     если в строке три разных класса (`high, medium, low`), придумайте свою стратегию по выбору значения; самая простая стратегия — выбрать рандомно одно значение из трёх;

- посчитайте точность предсказания с помощью голосования; выведите значения метрик accuracy и confusion_matrix.

Добейтесь значения точности > 78%.

In [239]:
# Ваш код здесь
from sklearn.ensemble import RandomForestClassifier
# создаем тренировочный и тестируемый датасеты
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
# создаем отдельную переменную rf_clf для классификатора случайного леса
rf_clf = RandomForestClassifier()
# обучим эту переменную
rf_clf.fit(x_train, y_train)
# выведем предсказанные моделью в predicted_train_rf и predicted_test_rf
predicted_train_rf = rf_clf.predict(x_train)
predicted_test_rf = rf_clf.predict(x_test)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(y_train, predicted_train_rf))
print(accuracy_score(y_test, predicted_test_rf))

0.9998514777959305
0.7477477477477478


In [432]:
# создаем датафрейм из предиктов
data = [] # создаем пустой список
data.append(logreg_pred) # добавляем в список предикты от логистической регрессии
data.append(predicted_test) # добавляем в список предикты от случайного леса
data.append(pred_mlp) # добавляем в список предикты от персептрона
pred_df = pd.DataFrame(data).transpose() # транспонируем в три столбца



In [433]:
# назовем столбца и добавим столбец 'target'
pred_df.columns = ['a', 'b', 'c']
pred_df['target'] = ''
pred_df

Unnamed: 0,a,b,c,target
0,high,high,high,
1,medium,medium,medium,
2,low,low,low,
3,low,low,low,
4,high,high,high,
...,...,...,...,...
2881,medium,medium,medium,
2882,low,low,low,
2883,low,low,low,
2884,high,medium,medium,


In [434]:
# присваивание значения для target
# посчитаем уникальные, если 2 то значит во всех трех одно и тоже + пустой target


uniq = pred_df.nunique(axis=1) # выведем список строк с количеством уникальных значений
i = 0

for un in uniq:
    if un == 2:
        pred_df.target[i] = pred_df.a[i] # тогда можем сразу записать значение в таргет
     
    if un == 3: # если три тогда значит какого-то значения больше
        if pred_df.a[i] == pred_df.b[i] or pred_df.a[i] == pred_df.c[i]: 
            pred_df.target[i] = pred_df.a[i] # найдем и присвоим
        else:
            pred_df.target[i] = pred_df.b[i] # или это
            print(pred_df.target[i]) # справочно выведем процесс
           
    if un == 4: # если 4 то все разные. у меня такого случая не было...
        print('----------------------------------------------')
    print(i)
    i=i+1
    
#pred_df

0
1
2
3
4
5
medium
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
medium
24
25
26
27
28
high
29
30
31
32
33
34
35
medium
36
37
38
39
40
41
medium
42
43
44
45
46
medium
47
48
49
50
51
52
medium
53
medium
54
medium
55
56
57
58
59
60
61
62
low
63
64
low
65
66
medium
67
68
69
70
71
72
73
medium
74
high
75
medium
76
77
medium
78
79
80
low
81
82
83
low
84
85
86
87
88
89
medium
90
91
92
93
94
95
96
97
98
99
100
101
102
medium
103
medium
104
medium
105
medium
106
107
low
108
109
110
111
medium
112
113
114
115
116
117
118
119
120
121
122
medium
123
medium
124
125
126
medium
127
128
129
130
131
medium
132
133
134
135
136
medium
137
138
139
medium
140
141
142
143
144
145
146
147
148
149
150
151
152
low
153
medium
154
155
156
157
low
158
159
160
161
162
low
163
medium
164
165
166
167
168
169
high
170
171
172
high
173
174
175
low
176
177
178
179
180
181
182
183
high
184
185
186
187
188
189
190
191
192
193
194
195
medium
196
197
medium
198
199
200
201
high
202
203
204
205
medium
206
207
medium
20

2712
2713
2714
2715
2716
2717
medium
2718
2719
2720
high
2721
2722
2723
2724
2725
2726
2727
2728
2729
2730
2731
2732
2733
2734
2735
2736
2737
2738
2739
2740
2741
medium
2742
2743
medium
2744
high
2745
2746
2747
high
2748
2749
2750
2751
low
2752
2753
2754
low
2755
2756
2757
2758
2759
2760
2761
high
2762
2763
2764
2765
2766
2767
2768
2769
2770
2771
2772
2773
2774
2775
2776
2777
2778
2779
2780
2781
medium
2782
2783
2784
2785
2786
2787
2788
2789
2790
2791
2792
2793
medium
2794
2795
2796
2797
2798
2799
2800
high
2801
2802
2803
2804
2805
2806
2807
2808
2809
2810
2811
high
2812
2813
2814
2815
2816
2817
medium
2818
2819
2820
2821
low
2822
2823
2824
medium
2825
2826
2827
2828
2829
2830
2831
medium
2832
2833
2834
low
2835
medium
2836
2837
2838
2839
2840
2841
2842
2843
2844
2845
2846
medium
2847
2848
2849
2850
2851
2852
2853
2854
2855
medium
2856
2857
2858
2859
2860
2861
2862
2863
2864
2865
2866
2867
medium
2868
medium
2869
medium
2870
medium
2871
2872
2873
2874
2875
2876
2877
2878
2879
2880
2881

In [435]:
# проверим, что везде все уникально и пропусков нет
pred_df.nunique()

a         3
b         3
c         3
target    3
dtype: int64

In [440]:
print(accuracy_score(y_train, predicted_train))
print(accuracy_score(y_test, pred_df.target))

0.9998514777959305
0.7678447678447679


In [438]:
# выведем матрицу ошибок
confusion_matrix(y_test, pred_df.target)

array([[813,  29, 155],
       [ 17, 774, 162],
       [142, 165, 629]], dtype=int64)

**Примечание**

В этой практической работе перед вами встал выбор: включать ли колонку `id`. При удалении данной колонки во время обучения логистической регрессии качество заметно улучшается.

Обучать любую модель (будь то логистическая, линейная регрессия или древовидный алгоритм) на данных айдишников не считается хорошей практикой. Как правило, между `id` и целевой переменной не должно быть никаких взаимосвязей. Включая колонку `id` в качества атрибута в обучение, вы стараетесь подогнать результаты своей модели под айдишники записей. Таким образом модель обучится на некотором наборе частных случаев и, возможно, не обратит внимание на общие зависимости.   