# Подготовка базовой модели
Обучите простую модель классификации с помощью DecisionTreeClassifier на данных из датасета vehicles_dataset_prepared.csv. Для этого сделайте следующие шаги:

# Обучите модель дерева решений с зафиксированным random_state на тренировочной выборке.
# Сделайте предикт на тестовой выборке.
# Замерьте точность на тестовой выборке и выведите матрицу ошибок.
# Удалите фичи с нулевыми весами по feature_importance из тренировочной и тестовой выборок.
# Заново обучите модель и измерьте качество.

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, confusion_matrix 

In [2]:
df = pd.read_csv('vehicles_dataset_prepared.csv')

df_prepared = df.copy()
df_prepared = df_prepared.drop(['price', 'odometer/price_std'], axis=1)

x = df_prepared.drop(['price_category'], axis=1)
y = df_prepared['price_category']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [3]:
x_train.shape, x_test.shape

((6733, 1460), (2886, 1460))

In [4]:
clf = DecisionTreeClassifier()
clf.fit(x_train, y_train)

DecisionTreeClassifier()

In [5]:
predicted_test = clf.predict(x_test)

In [6]:
print(accuracy_score(y_test, predicted_test))
confusion_matrix(y_test, predicted_test)

0.6722106722106722


array([[740,  50, 207],
       [ 46, 688, 219],
       [196, 228, 512]], dtype=int64)

In [7]:
clf.feature_importances_

array([0.03158202, 0.00041354, 0.00179785, ..., 0.00273258, 0.01544665,
       0.02331827])

In [8]:
f_imp_list = list(zip(x_train.columns, clf.feature_importances_))
f_imp_list

[('id', 0.03158202261840626),
 ('is_audi', 0.0004135369574176561),
 ('is_ford', 0.001797849737979432),
 ('is_chevrolet', 0.0036328771792079216),
 ('is_toyota', 0.0024952016341785142),
 ('x0_diesel', 0.033097961449185156),
 ('x0_electric', 0.0006947852275420483),
 ('x0_gas', 0.002624342857727372),
 ('x0_hybrid', 0.0013858022386644174),
 ('x0_other', 0.000798036576408809),
 ('std_scaled_odometer', 0.07976968187721656),
 ('short_model_-benz', 0.0),
 ('short_model_1', 0.0),
 ('short_model_124', 0.0),
 ('short_model_128i', 0.0),
 ('short_model_135i', 0.0),
 ('short_model_1500', 0.00103455870450748),
 ('short_model_163869', 0.0),
 ('short_model_1928', 0.0),
 ('short_model_1951', 0.0),
 ('short_model_1954', 0.0),
 ('short_model_1960s', 0.0),
 ('short_model_1966', 0.00038346458824074065),
 ('short_model_1968', 0.0),
 ('short_model_1972', 0.0),
 ('short_model_1977', 0.0),
 ('short_model_1978', 0.0),
 ('short_model_198.5', 0.0),
 ('short_model_1988', 0.0),
 ('short_model_1994', 0.0),
 ('short_mo

In [9]:
f_imp_list.sort(key = lambda x: x[1], reverse=True)

In [10]:
f_imp_list

[('year_std', 0.22128740407133865),
 ('std_scaled_odometer', 0.07976968187721656),
 ('model_len_std', 0.07873061412074053),
 ('desc_len_std', 0.06812597488103386),
 ('lat_std', 0.04015134882966277),
 ('long_std', 0.03812066844638895),
 ('x0_diesel', 0.033097961449185156),
 ('id', 0.03158202261840626),
 ('diff_years_std', 0.023318267030183797),
 ('dayofweek_std', 0.015446646949240084),
 ('short_model_wrangler', 0.009177720322663148),
 ('manufacturer_kia', 0.009142192303278451),
 ('manufacturer_ram', 0.008979406064711346),
 ('model_word_count_std', 0.008545448593160644),
 ('short_model_silverado', 0.0062841192842969535),
 ('short_model_f-150', 0.006112665483013556),
 ('manufacturer_hyundai', 0.005663759938057568),
 ('manufacturer_gmc', 0.005541462547103364),
 ('model_in_desc_std', 0.005264499360151503),
 ('manufacturer_volkswagen', 0.005086759992675917),
 ('short_model_Scion', 0.004865746378858322),
 ('manufacturer_mercedes-benz', 0.004614266590743073),
 ('manufacturer_dodge', 0.00458398

In [11]:
columns_mask = (clf.feature_importances_ != 0)
x_train_clear = x_train[x_train.columns[columns_mask]]
x_test_clear = x_test[x_test.columns[columns_mask]]

In [12]:
x_train_clear, x_test_clear, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [13]:
x_train_clear.shape, x_test_clear.shape

((6733, 1460), (2886, 1460))

In [14]:
clf = DecisionTreeClassifier()
clf.fit(x_train_clear, y_train)

DecisionTreeClassifier()

In [15]:
predicted_test = clf.predict(x_test_clear)

In [16]:
print(accuracy_score(y_test, predicted_test))
confusion_matrix(y_test, predicted_test)

0.674982674982675


array([[749,  48, 200],
       [ 40, 681, 232],
       [191, 227, 518]], dtype=int64)

# 1. Подготовка модели случайного леса
Обучите простую модель классификации с помощью RandomForestClassifier. Для этого сделайте следующие шаги:

# 1) На новых урезанных семплах тренировочной и тестовой выборок обучите модель случайного леса с зафиксированным random_state=50.

# 2) Сделайте предикт и посчитайте точность модели и матрицу ошибок. Сравните с предыдущей моделью дерева решений. Есть ли случаи, когда модель из пункта 1 отрабатывает лучше, чем модель случайного леса?

In [17]:
from sklearn.ensemble import RandomForestClassifier

In [18]:
x_train_clear, x_test_clear, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=50)

In [19]:
rf_clf = RandomForestClassifier()
rf_clf.fit(x_train_clear, y_train)

RandomForestClassifier()

In [20]:
predicted_train_rf = rf_clf.predict(x_train_clear)
predicted_test_rf = rf_clf.predict(x_test_clear)

In [21]:
print(accuracy_score(y_test, predicted_test_rf))
confusion_matrix(y_test, predicted_test)

0.7588357588357588


array([[305, 314, 327],
       [328, 343, 304],
       [347, 299, 319]], dtype=int64)

# Сразу бросается в глаза в первой переработанной модели FP (50) количество элементов класса 2, неверно предсказанных как 1 меньше в 6 раз чем в модели случайного леса 319/50=6.38 и FN(50) количество элементов класса 1, неверно предсказанных как 2 меньше в 6,5 раз чем в модели случайного леса 319/50=6.58.

 # 2. Тюнинг модели случайного леса
Увеличьте точность модели на тестовом датасете RandomForestClassifier c помощью тюнинга параметров.

Параметры, которые можно настраивать для увеличения точности:
  `bootstrap'
    'max_depth'
    'max_features'
    'min_samples_leaf'
    'min_samples_split'
    'random_state'
    'n_estimators'
Задание засчитывается, если значение метрики строго выше 0,76 на тестовом датасете.

In [22]:
x_train_clear, x_test_clear, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state = 50)

In [23]:
rf_clf_2 = RandomForestClassifier(bootstrap=False, random_state = 30, n_estimators = 100, max_depth = None, max_features = 'sqrt',
                                  min_samples_leaf = 1, min_samples_split = 2)
rf_clf_2.fit(x_train_clear, y_train)

RandomForestClassifier(bootstrap=False, max_features='sqrt', random_state=30)

In [24]:
predicted_train_rf_2 = rf_clf_2.predict(x_train_clear)
predicted_test_rf_2 = rf_clf_2.predict(x_test_clear)

In [25]:
print(accuracy_score(y_test, predicted_test_rf_2))
confusion_matrix(y_test, predicted_test)

0.7758142758142759


array([[305, 314, 327],
       [328, 343, 304],
       [347, 299, 319]], dtype=int64)

# Перебирал разные варианты семи предложенных параметров к изменению и остановился на такой комбинации.

# 3. Анализ влияния фичей на модель
Во всех задачах до вы работали над подготовленным датасетом, где фичи были заранее извлечены из текстовых переменных, отскейлены и пропущены через One Hot Encoder. Сравним, какой была бы предсказательная способность модели, если бы мы использовали только сырые данные из исходного датасета. Для этого проделайте следующие шаги:

# 1) Загрузите датасет vehicles_dataset_old.csv

In [26]:
df_old = pd.read_csv('vehicles_dataset_old.csv')
df_old.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category,date
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020,ram,2500 crew cab big horn,diesel,27442,clean,other,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,tn,35.06,-85.25,2021-04-17T12:30:50-0400,high,2021-04-17 16:30:50+00:00
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016,ford,explorer 4wd 4dr xlt,other,60023,clean,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium,2021-05-03 19:40:21+00:00
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017,volkswagen,golf r hatchback,gas,14048,clean,other,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high,2021-04-28 10:52:20+00:00
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013,toyota,rav4,gas,117291,clean,automatic,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium,2021-04-17 14:08:57+00:00
4,7303797340,https://knoxville.craigslist.org/ctd/d/knoxvil...,knoxville,https://knoxville.craigslist.org,14590,2012,bmw,1 series 128i coupe 2d,other,80465,clean,other,https://images.craigslist.org/00F0F_5UAXmOzC18...,Carvana is the safer way to buy a car During t...,tn,35.97,-83.94,2021-04-08T15:10:56-0400,medium,2021-04-08 19:10:56+00:00


# 2) Удалите из него переменную price и все строковые колонки. Дерево решений и случайный лес не умеют самостоятельно работать со строковыми значениями.

In [40]:
df_old_2 = df_old.copy()

In [41]:
y = df_old_2['price_category']

In [42]:
df_old_2 = df_old_2.drop(columns = ['price'])

In [43]:
df_old_2.shape

(9619, 19)

In [44]:
x = df_old_2.select_dtypes(exclude=['object'])
x.head()

Unnamed: 0,id,year,odometer,lat,long
0,7308295377,2020,27442,35.06,-85.25
1,7316380095,2016,60023,40.821805,-74.061962
2,7313733749,2017,14048,33.779214,-84.411811
3,7308210929,2013,117291,35.715954,-78.655304
4,7303797340,2012,80465,35.97,-83.94


# 3. Сформируйте x_train и x_test так же, как они были сформированы в предыдущих заданиях.

In [50]:
x2 = df_old_2.select_dtypes(exclude=['object'])
y2 = df_old_2['price_category']

x2_train, x2_test, y2_train, y2_test = train_test_split(x2, y2, test_size=0.3, random_state=50)

# 4. Обучите свою лучшую модель случайного леса на новых данных и замерьте качество. Убедитесь, что оно ухудшилось.

In [51]:
rf_clf_3 = RandomForestClassifier(bootstrap=False, random_state = 30, n_estimators = 100, max_depth = None, max_features = 'sqrt',
                                  min_samples_leaf = 1, min_samples_split = 2)
rf_clf_3.fit(x2_train, y2_train)

RandomForestClassifier(bootstrap=False, max_features='sqrt', random_state=30)

In [52]:
predicted_train_rf_3 = rf_clf_3.predict(x2_train)
predicted_test_rf_3 = rf_clf_3.predict(x2_test)

In [53]:
print(accuracy_score(y_test, predicted_test_rf_3))
confusion_matrix(y2_test, predicted_test)

0.6198891198891199


array([[305, 314, 327],
       [328, 343, 304],
       [347, 299, 319]], dtype=int64)

Да действительно ухудшилось 0.6198891198891199 < 0.7758142758142759.

# 5. Найдите три фичи, которые лучшим образом повлияли на предсказательную способность модели.

In [54]:
rf_clf_3.feature_importances_

array([0.16984627, 0.21927546, 0.27846047, 0.16662342, 0.16579438])

In [55]:
f_imp_list_new = list(zip(x2_train.columns, rf_clf_3.feature_importances_))
f_imp_list_new

[('id', 0.16984626752071738),
 ('year', 0.21927546100175935),
 ('odometer', 0.27846046686697035),
 ('lat', 0.16662342321276888),
 ('long', 0.16579438139778407)]

In [60]:
f_imp_list_new.sort(key = lambda x: x[1], reverse=True)
f_imp_list_new[0:3]

[('odometer', 0.27846046686697035),
 ('year', 0.21927546100175935),
 ('id', 0.16984626752071738)]