# Машинное обучение. Практическая работа

В этой практической работе четыре обязательные задачи.

Они помогут понять, что вы действительно усвоили материал модуля. 


Удачи!

## Цели практической работы

Научиться:
- обучать модели, основанные на деревьях решений;
- научиться оценивать и увеличивать их качество.

## Что входит в практическую работу

1. Загрузите датасет и ознакомьтесь с ним.
2. Подготовьте базовую модель дерева решений и измерьте её качество.
3. Подготовьте базовую модель случайного леса и измерьте её качество.
4. Увеличьте точность модели случайного леса на тестовых данных.
5. Проведите анализ влияния признаков на модель.

## Что оценивается

* Выполнены все четыре задачи. Для каждой:
 * в коде нет ручных перечислений, все действия автоматизированы;
 * результаты вычислений и применённых операций корректны;
 * ответы на вопросы, где требуется, корректны и обоснованы; 
 * код читабелен: переменным даны осмысленные названия, соблюдены отступы и правила расстановки пробелов; стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).

* Репозиторий проекта оформлен корректно:
 * содержит осмысленные коммиты, содержащие конкретные реализованные фичи;
 * ветки названы согласно назначению;
 * файлы, не связанные с проектом, не хранятся в репозитории.


## Как отправить работу на проверку

Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Обязательные задачи

### Описание датасета:
- `id`— идентификатор записи;
- `is_manufacturer_name`— признак производителя автомобиля;

- `region_*`— регион;
- `x0_*`— тип топлива;
- `manufacturer_*`— производитель;
- `short_model_*`— сокращённая модель автомобиля;
- `title_status_*`— статус;
- `transmission_*`— коробка передач;
- `state_*`— штат;
- `age_category_*`— возрастная категория автомобиля;

- `std_scaled_odometer`— количество пройденных миль (после стандартизации);
- `year_std`— год выпуска (после стандартизации);
- `lat_std`— широта (после стандартизации);
- `long_std`— долгота (после стандартизации);
- `odometer/price_std`— отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`— количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`— количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`— длина наименования автомобиля (после стандартизации);
- `model_word_count_std`— количество слов в наименовании автомобиля (после стандартизации);
- `month_std`— номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`— день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`— количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);

- `price`— стоимость;
- `price_category`— категория цены.

1. Подготовка базовой модели

Обучите простую модель классификации с помощью DecisionTreeClassifier на данных из датасета vehicles_dataset_prepared.csv. Для этого сделайте шаги:

1. Обучите модель дерева решений с зафиксированным random_state на тренировочной выборке.
2. Сделайте предикт на тестовой выборке.
3. Замерьте точность на тестовой выборке и выведите матрицу ошибок. 
4. Удалите фичи с нулевыми весами по feature_importance из тренировочной и тестовой выборок.
5. Заново обучите модель и измерьте качество.

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, confusion_matrix 

In [2]:
df = pd.read_csv('data/vehicles_dataset_prepared.csv')

df_prepared = df.copy()
df_prepared = df_prepared.drop(['price', 'odometer/price_std'], axis=1)

x = df_prepared.drop(['price_category'], axis=1)
y = df_prepared['price_category']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [3]:
# Ваш код здесь 
clf = DecisionTreeClassifier(random_state=42)
clf.fit(x_train, y_train)

DecisionTreeClassifier(random_state=42)

In [4]:
predicted_train = clf.predict(x_train)
predicted_test = clf.predict(x_test)

In [5]:
print(accuracy_score(y_train, predicted_train))
print(accuracy_score(y_test, predicted_test))

1.0
0.6704781704781705


In [6]:
confusion_matrix(y_test, predicted_test)

array([[738,  54, 205],
       [ 46, 688, 219],
       [198, 229, 509]], dtype=int64)

In [7]:
# выведем важность фичей для каждой колонки датасета
clf.feature_importances_

array([0.03381229, 0.00041354, 0.00263035, ..., 0.00123605, 0.01337808,
       0.01336986])

In [8]:
#  выведем список фич и их важности
f_imp_list = list(zip(x_train.columns, clf.feature_importances_))
len(f_imp_list)

1460

In [9]:
# отсортируем по [1], то есть по важности в порядке убывания
f_imp_list.sort(key = lambda x: x[1], reverse=True)
f_imp_list

[('age_category_new', 0.17513190799837455),
 ('model_len_std', 0.0803194933127084),
 ('std_scaled_odometer', 0.08016567920455406),
 ('desc_len_std', 0.0694646534867301),
 ('year_std', 0.05068921069891506),
 ('lat_std', 0.04422168234859874),
 ('long_std', 0.038100653282804695),
 ('id', 0.03381229358186751),
 ('x0_diesel', 0.03309796144918516),
 ('dayofweek_std', 0.01337808260070307),
 ('diff_years_std', 0.013369860358314781),
 ('manufacturer_kia', 0.009459613218696275),
 ('short_model_wrangler', 0.009440932301132961),
 ('manufacturer_ram', 0.008750927873828838),
 ('manufacturer_hyundai', 0.006408681921554389),
 ('short_model_f-150', 0.006324703250549752),
 ('short_model_silverado', 0.005776937527678851),
 ('model_word_count_std', 0.005064439619491224),
 ('manufacturer_chevrolet', 0.00502710498444803),
 ('manufacturer_volkswagen', 0.0049867819674347625),
 ('short_model_Scion', 0.004865746378858324),
 ('manufacturer_mercedes-benz', 0.004590363002455257),
 ('model_in_desc_std', 0.004529057

In [10]:
for i in range(len(f_imp_list)): #переберем из списка всех фич
    if f_imp_list[i][1] == 0: # если значение равно 0
        
        x_train = x_train.drop([f_imp_list[i][0]], axis=1) #удаляем этот столбец из x_train
        x_test = x_test.drop([f_imp_list[i][0]], axis=1) #удаляем этот столбец из x_test
len(x_train.columns) #ПРОВЕРИМ СКОЛЬКО ОСТАЛОСЬ

364

In [11]:
clf = DecisionTreeClassifier(random_state=42)
clf.fit(x_train, y_train)

DecisionTreeClassifier(random_state=42)

In [12]:
predicted_train = clf.predict(x_train)
predicted_test = clf.predict(x_test)

In [13]:
print(accuracy_score(y_train, predicted_train))
print(accuracy_score(y_test, predicted_test))

1.0
0.6725571725571725


In [14]:
confusion_matrix(y_test, predicted_test)

array([[730,  54, 213],
       [ 42, 696, 215],
       [192, 229, 515]], dtype=int64)

In [15]:
clf.feature_importances_

array([3.43353344e-02, 4.13536957e-04, 4.44991971e-03, 5.24521566e-03,
       7.75102363e-04, 3.42379966e-02, 7.14174583e-04, 3.23547384e-03,
       1.38580224e-03, 2.63296967e-04, 8.05465929e-02, 7.37481144e-04,
       0.00000000e+00, 0.00000000e+00, 4.22115231e-04, 3.88250368e-04,
       4.13160898e-04, 3.69755981e-04, 4.40719458e-04, 1.63088847e-03,
       8.26908290e-04, 4.13823124e-04, 4.05105765e-04, 4.86574638e-03,
       3.99860764e-04, 0.00000000e+00, 1.50621010e-03, 1.07127428e-03,
       0.00000000e+00, 4.11338161e-04, 4.14208499e-04, 4.25361053e-04,
       9.67613448e-04, 0.00000000e+00, 4.32112816e-04, 4.40646208e-04,
       1.22216638e-03, 6.90321136e-04, 2.52779092e-03, 1.79236352e-03,
       0.00000000e+00, 2.55511006e-03, 3.89688784e-04, 7.44550637e-04,
       6.11716783e-04, 4.31138600e-04, 7.22584684e-04, 4.29829245e-04,
       7.93005914e-04, 0.00000000e+00, 4.36332667e-04, 1.42139074e-03,
       0.00000000e+00, 6.44259866e-04, 9.13390215e-04, 2.30900787e-03,
      

In [16]:
f_imp_list = list(zip(x_train.columns, clf.feature_importances_))
f_imp_list

[('id', 0.03433533441946541),
 ('is_audi', 0.0004135369574176561),
 ('is_ford', 0.004449919708662052),
 ('is_chevrolet', 0.005245215659415799),
 ('is_toyota', 0.0007751023629605245),
 ('x0_diesel', 0.03423799658843502),
 ('x0_electric', 0.0007141745827292685),
 ('x0_gas', 0.0032354738397729027),
 ('x0_hybrid', 0.0013858022386644174),
 ('x0_other', 0.00026329696711896927),
 ('std_scaled_odometer', 0.08054659290927571),
 ('short_model_1500', 0.0007374811437909025),
 ('short_model_200', 0.0),
 ('short_model_2500', 0.0),
 ('short_model_325is', 0.00042211523055373445),
 ('short_model_328xi', 0.0003882503682906916),
 ('short_model_330xi', 0.0004131608979428074),
 ('short_model_380sl', 0.0003697559805121375),
 ('short_model_428', 0.0004407194582059117),
 ('short_model_4runner', 0.0016308884701415102),
 ('short_model_500', 0.0008269082904487314),
 ('short_model_CLICK', 0.0004138231241984923),
 ('short_model_Plymouth', 0.00040510576461351503),
 ('short_model_Scion', 0.004865746378858322),
 ('sh

In [17]:
f_imp_list.sort(key = lambda x: x[1], reverse=True)
len(f_imp_list)

364

2. Подготовка модели случайного леса

Обучите простую модель классификации с помощью RandomForestClassifier. Для этого на новых урезанных семплах тренировочной и тестовой выборок обучите модель случайного леса с зафиксированным random_state=50. 

In [18]:
# Ваш код здесь 
# импортируем классификатор случайного леса
from sklearn.ensemble import RandomForestClassifier
# создаем отдельную переменную rf_clf для классификатора случайного леса
rf_clf = RandomForestClassifier(random_state=50)
# обучим эту переменную
rf_clf.fit(x_train, y_train)

RandomForestClassifier(random_state=50)

2. Сделайте предикт, посчитайте точность модели и матрицу ошибок. Сравните с предыдущей моделью дерева решений. Есть ли случаи, когда модель из пункта 1 отрабатывает лучше, чем модель случайного леса?

In [19]:
# Ваш код здесь 
# выведем предсказанные моделью в predicted_train_rf и predicted_test_rf
predicted_train_rf = rf_clf.predict(x_train)
predicted_test_rf = rf_clf.predict(x_test)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(y_train, predicted_train_rf))
print(accuracy_score(y_test, predicted_test_rf))

1.0
0.7418572418572419


Модель случайного леса показывает 0.74 против 0.67 модели из пункта 1

3. Тюнинг модели случайного леса

Увеличьте точность модели на тестовом датасете RandomForestClassifier c помощью тюнинга параметров. 

Параметры, которые можно настраивать для увеличения точности:
```
    `bootstrap'
    'max_depth'
    'max_features'
    'min_samples_leaf'
    'min_samples_split'
    'random_state'
    'n_estimators'

```

С описанием каждого из параметров можно ознакомиться [в документации](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html).

Задание засчитывается, если значение метрики строго выше 0.76 на тестовом датасете.

In [20]:
# Ваш код здесь 
# создаем отдельную переменную rf_clf для классификатора случайного леса
rf_clf = RandomForestClassifier(random_state=50, n_estimators=200, min_samples_split=3,
                                max_depth=35, max_features='auto', min_samples_leaf=1,
                                bootstrap=False)
# обучим эту переменную
rf_clf.fit(x_train, y_train)
predicted_train_rf = rf_clf.predict(x_train)
predicted_test_rf = rf_clf.predict(x_test)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(y_train, predicted_train_rf))
print(accuracy_score(y_test, predicted_test_rf))

1.0
0.7671517671517671


4. Анализ влияния фичей на модель

До этого в задачах вы работали над подготовленным датасетом, где фичи были заранее извлечены из текстовых переменных, отскейлены и пропущены через OneHotEncoder. Сравним, какой была бы предсказательная способность модели, если бы мы использовали только сырые данные из исходного датасета. Для этого проделайте следующие шаги:

1. Загрузите датасет `vehicles_dataset_old.csv`.
2. Удалите из него переменную `price` и все строковые колонки. Дерево решений и случайный лес не умеют самостоятельно работать со строковыми значениями.
3. Сформируйте x_train и x_test так же, как они были сформированы в предыдущих заданиях.
4. Обучите свою лучшую модель случайного леса на новых данных и замерьте качество. Убедитесь, что оно ухудшилось.
5. Найдите три фичи, которые лучшим образом повлияли на предсказательную способность модели.

In [33]:
df_old = pd.read_csv('data/vehicles_dataset_old.csv')
df_old.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category,date
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,clean,other,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,tn,35.06,-85.25,2021-04-17T12:30:50-0400,high,2021-04-17 16:30:50+00:00
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,clean,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium,2021-05-03 19:40:21+00:00
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,clean,other,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high,2021-04-28 10:52:20+00:00
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,clean,automatic,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium,2021-04-17 14:08:57+00:00
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,clean,other,https://images.craigslist.org/00F0F_5UAXmOzC18...,Carvana is the safer way to buy a car During t...,tn,35.97,-83.94,2021-04-08T15:10:56-0400,medium,2021-04-08 19:10:56+00:00


In [34]:
df_old.shape # проверим размерностьи

(9619, 20)

In [67]:
# Ваш код здесь
df_old_processed = df_old.copy(deep=True) # создадим копию датафрейма для обработки
df_old_processed.pop('price') # удаляем столбец 'price'
df_old_processed.shape # выведим размерность 


(9619, 19)

In [68]:
df_old_processed = df_old_processed.select_dtypes(include='number') # выберем только числовые столбцы
df_old_processed

Unnamed: 0,id,year,odometer,lat,long
0,7308295377,2020,27442,35.060000,-85.250000
1,7316380095,2016,60023,40.821805,-74.061962
2,7313733749,2017,14048,33.779214,-84.411811
3,7308210929,2013,117291,35.715954,-78.655304
4,7303797340,2012,80465,35.970000,-83.940000
...,...,...,...,...,...
9614,7304876387,2002,150000,42.123900,-79.189500
9615,7316152972,2008,113573,43.216990,-77.755610
9616,7310993818,2011,150184,44.925908,-122.982753
9617,7306637427,2015,61943,43.029559,-89.397796


In [69]:
# добавляем столбец price_category так как это целевая переменная
df_old_processed = df_old_processed.join(df_old.price_category) 

In [70]:
# выведим размерность
df_old_processed.shape



(9619, 6)

In [71]:
# готовим выборки для обучения
x = df_old_processed.drop(['price_category'], axis=1) # х - не содержит категорию
y = df_old_processed['price_category'] # у - только категория
# создаем выборки для обучения и для тестирования
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [90]:
# проводим обучение ДЕРЕВО РЕШЕНИЙ
clf = DecisionTreeClassifier(random_state=42)
clf.fit(x_train, y_train)

DecisionTreeClassifier(random_state=42)

In [91]:
# находим predict (предсказание) для  x_train, x_test 
predicted_train = clf.predict(x_train)
predicted_test = clf.predict(x_test)

In [92]:
# выведим метрику модели ДЕРЕВО РЕШЕНИЙ
print(accuracy_score(y_train, predicted_train))
print(accuracy_score(y_test, predicted_test))

1.0
0.545045045045045


0.54 - низкая точность модели ДЕРЕВО РЕШЕНИЙ

In [98]:
# находим три фичи, которые лучшим образом повлияли на предсказательную способность модели.
f_imp_list.sort(key = lambda x: x[1], reverse=True)
f_imp_list[0:3]

[('year', 0.2598828655879754),
 ('odometer', 0.2464977388786056),
 ('long', 0.1694801487534133)]

In [94]:
# проводим обучение СЛУЧАЙНЫЙ ЛЕС
# создаем отдельную переменную rf_clf для классификатора случайного леса
rf_clf = RandomForestClassifier(random_state=42)
# обучим эту переменную
rf_clf.fit(x_train, y_train)

RandomForestClassifier(random_state=42)

In [95]:
# выведем предсказанные моделью в predicted_train_rf и predicted_test_rf
predicted_train_rf = rf_clf.predict(x_train)
predicted_test_rf = rf_clf.predict(x_test)
# посчитаем доли правильно предугаданных значений
print(accuracy_score(y_train, predicted_train_rf))
print(accuracy_score(y_test, predicted_test_rf))

1.0
0.6337491337491338


0.63 - низкая точность модели СЛУЧАЙНЫЙ ЛЕС

In [96]:
# находим три фичи, которые лучшим образом повлияли на предсказательную способность модели.
f_imp_list.sort(key = lambda x: x[1], reverse=True)
f_imp_list[0:3]

[('year', 0.2598828655879754),
 ('odometer', 0.2464977388786056),
 ('long', 0.1694801487534133)]