In [175]:
import pandas as pd

'''
В процессе работы с фреймами в pandas или обучении могут быть исключения, 
которые снижают читабельность кода. Выключим их вывод:
'''

import warnings
warnings.filterwarnings("ignore")

In [110]:
### Текущая ячейка отвечает за кол-во столбцов, отображаемых при выводе фрейма. Уберём ограничение ###

pd.set_option('display.max_columns', None)

In [111]:
### Прочитаем таблицу .XLSX и выведем первые 5 строчек ###

df = pd.read_excel("auto_complectations.xlsx")
df.head()

Unnamed: 0,brand,model,complect,type_car,seats,doors,Двигатель,Мощность,Крутящий момент двигателя,Коробка передач,Привод,Разгон до сотни,Максимальная скорость,Расход топлива (л/100 км)\nгород / трасса / смешанный,Дорожный просвет,Габариты (длина × ширина × высота),Колёсная база,Объём багажника,Объём багажника максимальный,Объём топливного бака,Масса автомобиля
0,Audi,A3 Sedan,1.4 TFSI 7AMT,Седан класса C,5,4,бензиновый (1395 см³),150 л. с.,250 Н·м,роботизированная (7 ступеней),передний,8.2 секунды,224 км/ч,5.9 / 4.1 / 4.8,165 мм,4458 × 1796 × 1416,2637 мм,425 л,880 л,50 л,1320 кг
1,Audi,A3 Sedan,sport 1.4 TFSI 7AMT,Седан класса C,5,4,бензиновый (1395 см³),150 л. с.,250 Н·м,роботизированная (7 ступеней),передний,8.2 секунды,224 км/ч,5.9 / 4.1 / 4.8,165 мм,4458 × 1796 × 1416,2637 мм,425 л,880 л,50 л,1320 кг
2,Audi,A3 Sedan,2.0 TFSI 7AMT,Седан класса C,5,4,бензиновый (1984 см³),190 л. с.,320 Н·м,роботизированная (7 ступеней),передний,6.8 секунды,250 км/ч,7.2 / 4.7 / 5.6,165 мм,4458 × 1796 × 1416,2637 мм,425 л,880 л,50 л,1395 кг
3,Audi,A3 Sedan,2.0 TFSI 7AMT quattro,Седан класса C,5,4,бензиновый (1984 см³),190 л. с.,320 Н·м,роботизированная (7 ступеней),полный,6.2 секунды,242 км/ч,7.2 / 4.8 / 5.7,165 мм,4458 × 1796 × 1416,2637 мм,390 л,845 л,55 л,1465 кг
4,Audi,A3 Sedan,sport 2.0 TFSI 7AMT,Седан класса C,5,4,бензиновый (1984 см³),190 л. с.,320 Н·м,роботизированная (7 ступеней),передний,6.8 секунды,242 км/ч,7.2 / 4.7 / 5.6,165 мм,4458 × 1796 × 1416,2637 мм,425 л,880 л,50 л,1395 кг


### Посмотрим на размер данных, названия признаков и их типы ↓

In [3]:
print(df.shape)
print(df.info())

(1703, 21)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1703 entries, 0 to 1702
Data columns (total 21 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   brand                                                 1703 non-null   object
 1   model                                                 1703 non-null   object
 2   complect                                              1703 non-null   object
 3   type_car                                              1703 non-null   object
 4   seats                                                 1703 non-null   int64 
 5   doors                                                 1703 non-null   int64 
 6   Двигатель                                             1703 non-null   object
 7   Мощность                                              1703 non-null   object
 8   Крутящий момент двигателя                             170

Всё говорит о том, что пропущенных значений в строчках нет. Проверим это позднее

In [113]:
'''
В фрейме имеются строчки с размерностями, а это не позволит использовать соответствующие столбцы
в процессе обучения моделей классификации. Так что сохраним только значения:
'''

only_values = ['Мощность', 'Крутящий момент двигателя', 'Разгон до сотни', 
               'Максимальная скорость', 'Дорожный просвет', 'Колёсная база', 'Объём багажника', 
               'Объём багажника максимальный', 'Объём топливного бака', 'Масса автомобиля']

for col in only_values:
    df[f"{col}"] = df[f"{col}"].apply(lambda x: x.split(' ')[0])

df

Unnamed: 0,brand,model,complect,type_car,seats,doors,Двигатель,Мощность,Крутящий момент двигателя,Коробка передач,Привод,Разгон до сотни,Максимальная скорость,Расход топлива (л/100 км)\nгород / трасса / смешанный,Дорожный просвет,Габариты (длина × ширина × высота),Колёсная база,Объём багажника,Объём багажника максимальный,Объём топливного бака,Масса автомобиля
0,Audi,A3 Sedan,1.4 TFSI 7AMT,Седан класса C,5,4,бензиновый (1395 см³),150,250,роботизированная (7 ступеней),передний,8.2,224,5.9 / 4.1 / 4.8,165,4458 × 1796 × 1416,2637,425,880,50,1320
1,Audi,A3 Sedan,sport 1.4 TFSI 7AMT,Седан класса C,5,4,бензиновый (1395 см³),150,250,роботизированная (7 ступеней),передний,8.2,224,5.9 / 4.1 / 4.8,165,4458 × 1796 × 1416,2637,425,880,50,1320
2,Audi,A3 Sedan,2.0 TFSI 7AMT,Седан класса C,5,4,бензиновый (1984 см³),190,320,роботизированная (7 ступеней),передний,6.8,250,7.2 / 4.7 / 5.6,165,4458 × 1796 × 1416,2637,425,880,50,1395
3,Audi,A3 Sedan,2.0 TFSI 7AMT quattro,Седан класса C,5,4,бензиновый (1984 см³),190,320,роботизированная (7 ступеней),полный,6.2,242,7.2 / 4.8 / 5.7,165,4458 × 1796 × 1416,2637,390,845,55,1465
4,Audi,A3 Sedan,sport 2.0 TFSI 7AMT,Седан класса C,5,4,бензиновый (1984 см³),190,320,роботизированная (7 ступеней),передний,6.8,242,7.2 / 4.7 / 5.6,165,4458 × 1796 × 1416,2637,425,880,50,1395
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1698,Volvo,XC90,D5 AT 5S R-Design,Большой кроссовер,5,5,дизельный (1969 см³),235,480,автоматическая (8 ступеней),полный,7.8,220,6.4 / 5.5 / 5.8,237,4950 × 2008 × 1776,2984,721,1899,71,1969
1699,Volvo,XC90,T6 AT 7S R-Design,Большой кроссовер,7,5,бензиновый (1969 см³),320,400,автоматическая (8 ступеней),полный,6.5,230,0 / 0 / 8.3,237,4950 × 2008 × 1776,2984,692,1899,71,2004
1700,Volvo,XC90,D5 AT 7S R-Design,Большой кроссовер,7,5,дизельный (1969 см³),235,480,автоматическая (8 ступеней),полный,7.8,220,6.4 / 5.5 / 5.8,237,4950 × 2008 × 1776,2984,692,1899,71,2009
1701,Volvo,XC90,T8 AT 7S Inscription,Большой кроссовер,7,5,гибридный (1969 см³),407,640,автоматическая (8 ступеней),полный,5.6,230,0 / 0 / 2.1,237,4950 × 2008 × 1776,2984,640,1899,70,2350


In [114]:
'''
Также есть 2 столбца, включающие непрерывную величину и категориальную - впоследствии дискретную - величины
одновременно. Разделим каждый на 2, записывая в столбец "тип" категорию, а в "значение" - непрерывное значение.
В конце избавимся от изначальных столбцов, так как они будут просто дублировать информацию:
'''

split_columns = ['Двигатель', 'Коробка передач']

for col in split_columns:
    df[f"{col} тип"] = df[f"{col}"].apply(lambda x: x.split(' ')[0])
    df[f"{col} значение"] = df[f"{col}"].apply(lambda x: x.split(' ')[1].split('(')[1])

df = df.drop(split_columns, 1)

df

Unnamed: 0,brand,model,complect,type_car,seats,doors,Мощность,Крутящий момент двигателя,Привод,Разгон до сотни,Максимальная скорость,Расход топлива (л/100 км)\nгород / трасса / смешанный,Дорожный просвет,Габариты (длина × ширина × высота),Колёсная база,Объём багажника,Объём багажника максимальный,Объём топливного бака,Масса автомобиля,Двигатель тип,Двигатель значение,Коробка передач тип,Коробка передач значение
0,Audi,A3 Sedan,1.4 TFSI 7AMT,Седан класса C,5,4,150,250,передний,8.2,224,5.9 / 4.1 / 4.8,165,4458 × 1796 × 1416,2637,425,880,50,1320,бензиновый,1395,роботизированная,7
1,Audi,A3 Sedan,sport 1.4 TFSI 7AMT,Седан класса C,5,4,150,250,передний,8.2,224,5.9 / 4.1 / 4.8,165,4458 × 1796 × 1416,2637,425,880,50,1320,бензиновый,1395,роботизированная,7
2,Audi,A3 Sedan,2.0 TFSI 7AMT,Седан класса C,5,4,190,320,передний,6.8,250,7.2 / 4.7 / 5.6,165,4458 × 1796 × 1416,2637,425,880,50,1395,бензиновый,1984,роботизированная,7
3,Audi,A3 Sedan,2.0 TFSI 7AMT quattro,Седан класса C,5,4,190,320,полный,6.2,242,7.2 / 4.8 / 5.7,165,4458 × 1796 × 1416,2637,390,845,55,1465,бензиновый,1984,роботизированная,7
4,Audi,A3 Sedan,sport 2.0 TFSI 7AMT,Седан класса C,5,4,190,320,передний,6.8,242,7.2 / 4.7 / 5.6,165,4458 × 1796 × 1416,2637,425,880,50,1395,бензиновый,1984,роботизированная,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1698,Volvo,XC90,D5 AT 5S R-Design,Большой кроссовер,5,5,235,480,полный,7.8,220,6.4 / 5.5 / 5.8,237,4950 × 2008 × 1776,2984,721,1899,71,1969,дизельный,1969,автоматическая,8
1699,Volvo,XC90,T6 AT 7S R-Design,Большой кроссовер,7,5,320,400,полный,6.5,230,0 / 0 / 8.3,237,4950 × 2008 × 1776,2984,692,1899,71,2004,бензиновый,1969,автоматическая,8
1700,Volvo,XC90,D5 AT 7S R-Design,Большой кроссовер,7,5,235,480,полный,7.8,220,6.4 / 5.5 / 5.8,237,4950 × 2008 × 1776,2984,692,1899,71,2009,дизельный,1969,автоматическая,8
1701,Volvo,XC90,T8 AT 7S Inscription,Большой кроссовер,7,5,407,640,полный,5.6,230,0 / 0 / 2.1,237,4950 × 2008 × 1776,2984,640,1899,70,2350,гибридный,1969,автоматическая,8


In [115]:
'''
Последняя итерация на данном этапе. Необходимо произвести очень похожую процедуру, как в предыдущей
ячейке, только теперь разбиение проводить на 3 столбца, а символ разбиения строки не просто пробел, а 
комбинация символов " / " и " × ". Также не забываем избавиться от изначальнх столбцов:
'''


df["Расход на 100 км город"] = df["Расход топлива (л/100 км)\nгород / трасса / смешанный"].apply(lambda x: x.split(' / ')[0])
df["Расход на 100 км трасса"] = df["Расход топлива (л/100 км)\nгород / трасса / смешанный"].apply(lambda x: x.split(' / ')[1])
df["Расход на 100 км смешанный"] = df["Расход топлива (л/100 км)\nгород / трасса / смешанный"].apply(lambda x: x.split(' / ')[2])

df["Габариты длина"] = df["Габариты (длина × ширина × высота)"].apply(lambda x: x.split(' × ')[0])
df["Габариты ширина"] = df["Габариты (длина × ширина × высота)"].apply(lambda x: x.split(' × ')[1])
df["Габариты высота"] = df["Габариты (длина × ширина × высота)"].apply(lambda x: x.split(' × ')[2])

df = df.drop(['Расход топлива (л/100 км)\nгород / трасса / смешанный', 'Габариты (длина × ширина × высота)'], 1)

df

Unnamed: 0,brand,model,complect,type_car,seats,doors,Мощность,Крутящий момент двигателя,Привод,Разгон до сотни,Максимальная скорость,Дорожный просвет,Колёсная база,Объём багажника,Объём багажника максимальный,Объём топливного бака,Масса автомобиля,Двигатель тип,Двигатель значение,Коробка передач тип,Коробка передач значение,Расход на 100 км город,Расход на 100 км трасса,Расход на 100 км смешанный,Габариты длина,Габариты ширина,Габариты высота
0,Audi,A3 Sedan,1.4 TFSI 7AMT,Седан класса C,5,4,150,250,передний,8.2,224,165,2637,425,880,50,1320,бензиновый,1395,роботизированная,7,5.9,4.1,4.8,4458,1796,1416
1,Audi,A3 Sedan,sport 1.4 TFSI 7AMT,Седан класса C,5,4,150,250,передний,8.2,224,165,2637,425,880,50,1320,бензиновый,1395,роботизированная,7,5.9,4.1,4.8,4458,1796,1416
2,Audi,A3 Sedan,2.0 TFSI 7AMT,Седан класса C,5,4,190,320,передний,6.8,250,165,2637,425,880,50,1395,бензиновый,1984,роботизированная,7,7.2,4.7,5.6,4458,1796,1416
3,Audi,A3 Sedan,2.0 TFSI 7AMT quattro,Седан класса C,5,4,190,320,полный,6.2,242,165,2637,390,845,55,1465,бензиновый,1984,роботизированная,7,7.2,4.8,5.7,4458,1796,1416
4,Audi,A3 Sedan,sport 2.0 TFSI 7AMT,Седан класса C,5,4,190,320,передний,6.8,242,165,2637,425,880,50,1395,бензиновый,1984,роботизированная,7,7.2,4.7,5.6,4458,1796,1416
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1698,Volvo,XC90,D5 AT 5S R-Design,Большой кроссовер,5,5,235,480,полный,7.8,220,237,2984,721,1899,71,1969,дизельный,1969,автоматическая,8,6.4,5.5,5.8,4950,2008,1776
1699,Volvo,XC90,T6 AT 7S R-Design,Большой кроссовер,7,5,320,400,полный,6.5,230,237,2984,692,1899,71,2004,бензиновый,1969,автоматическая,8,0,0,8.3,4950,2008,1776
1700,Volvo,XC90,D5 AT 7S R-Design,Большой кроссовер,7,5,235,480,полный,7.8,220,237,2984,692,1899,71,2009,дизельный,1969,автоматическая,8,6.4,5.5,5.8,4950,2008,1776
1701,Volvo,XC90,T8 AT 7S Inscription,Большой кроссовер,7,5,407,640,полный,5.6,230,237,2984,640,1899,70,2350,гибридный,1969,автоматическая,8,0,0,2.1,4950,2008,1776


In [116]:
'''
Кроме перевода всех изначальных и получившихся столбцов с непрерывными значениями из строковых
в числовые, всё таки проверим, возможно ли это сделать со всеми "фичами". Если вдруг в столбце 
вречается хотя бы 1 запись, не позволяющая произвести подобный перевод, напечатаем название этого столбца: 
'''


cols = ['seats', 'doors', 'Мощность', 'Крутящий момент двигателя', 
         'Разгон до сотни', 'Максимальная скорость', 'Дорожный просвет', 
         'Колёсная база', 'Объём багажника', 'Объём багажника максимальный', 
         'Объём топливного бака', 'Масса автомобиля', 'Двигатель значение', 
         'Коробка передач значение', 'Расход на 100 км город',
         'Расход на 100 км трасса', 'Расход на 100 км смешанный', 
         'Габариты длина', 'Габариты ширина', 'Габариты высота']

for col in cols:
    try:
        df[f"{col}"] = df[f"{col}"].astype(float)
    except:
        print(col)

Разгон до сотни


В столбце "Разгон до сотни" есть значения (забегая вперёд, это записи типа "нет"), которые невозможно привести к числовому виду. Избавимся от них

In [117]:
df = df[df['Разгон до сотни']!='нет'].reset_index()
df = df.drop('index', 1)

### Теперь приведём значения в последнем оставшемся столбце к числовому виду ###

df['Разгон до сотни'] = df['Разгон до сотни'].astype(float)

df

Unnamed: 0,brand,model,complect,type_car,seats,doors,Мощность,Крутящий момент двигателя,Привод,Разгон до сотни,Максимальная скорость,Дорожный просвет,Колёсная база,Объём багажника,Объём багажника максимальный,Объём топливного бака,Масса автомобиля,Двигатель тип,Двигатель значение,Коробка передач тип,Коробка передач значение,Расход на 100 км город,Расход на 100 км трасса,Расход на 100 км смешанный,Габариты длина,Габариты ширина,Габариты высота
0,Audi,A3 Sedan,1.4 TFSI 7AMT,Седан класса C,5.0,4.0,150.0,250.0,передний,8.2,224.0,165.0,2637.0,425.0,880.0,50.0,1320.0,бензиновый,1395.0,роботизированная,7.0,5.9,4.1,4.8,4458.0,1796.0,1416.0
1,Audi,A3 Sedan,sport 1.4 TFSI 7AMT,Седан класса C,5.0,4.0,150.0,250.0,передний,8.2,224.0,165.0,2637.0,425.0,880.0,50.0,1320.0,бензиновый,1395.0,роботизированная,7.0,5.9,4.1,4.8,4458.0,1796.0,1416.0
2,Audi,A3 Sedan,2.0 TFSI 7AMT,Седан класса C,5.0,4.0,190.0,320.0,передний,6.8,250.0,165.0,2637.0,425.0,880.0,50.0,1395.0,бензиновый,1984.0,роботизированная,7.0,7.2,4.7,5.6,4458.0,1796.0,1416.0
3,Audi,A3 Sedan,2.0 TFSI 7AMT quattro,Седан класса C,5.0,4.0,190.0,320.0,полный,6.2,242.0,165.0,2637.0,390.0,845.0,55.0,1465.0,бензиновый,1984.0,роботизированная,7.0,7.2,4.8,5.7,4458.0,1796.0,1416.0
4,Audi,A3 Sedan,sport 2.0 TFSI 7AMT,Седан класса C,5.0,4.0,190.0,320.0,передний,6.8,242.0,165.0,2637.0,425.0,880.0,50.0,1395.0,бензиновый,1984.0,роботизированная,7.0,7.2,4.7,5.6,4458.0,1796.0,1416.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1627,Volvo,XC90,D5 AT 5S R-Design,Большой кроссовер,5.0,5.0,235.0,480.0,полный,7.8,220.0,237.0,2984.0,721.0,1899.0,71.0,1969.0,дизельный,1969.0,автоматическая,8.0,6.4,5.5,5.8,4950.0,2008.0,1776.0
1628,Volvo,XC90,T6 AT 7S R-Design,Большой кроссовер,7.0,5.0,320.0,400.0,полный,6.5,230.0,237.0,2984.0,692.0,1899.0,71.0,2004.0,бензиновый,1969.0,автоматическая,8.0,0.0,0.0,8.3,4950.0,2008.0,1776.0
1629,Volvo,XC90,D5 AT 7S R-Design,Большой кроссовер,7.0,5.0,235.0,480.0,полный,7.8,220.0,237.0,2984.0,692.0,1899.0,71.0,2009.0,дизельный,1969.0,автоматическая,8.0,6.4,5.5,5.8,4950.0,2008.0,1776.0
1630,Volvo,XC90,T8 AT 7S Inscription,Большой кроссовер,7.0,5.0,407.0,640.0,полный,5.6,230.0,237.0,2984.0,640.0,1899.0,70.0,2350.0,гибридный,1969.0,автоматическая,8.0,0.0,0.0,2.1,4950.0,2008.0,1776.0


In [118]:
### Удалим столбец "complect", ведь он дублирует другие столбцы ("двигатель" и "коробка передач")###

df = df.drop('complect', 1)

In [119]:
'''
Переведём категориальные и бинарные признаки в вид, 
корректно воспринимаемый алгоритмами машинного обучения, 
в дискретные значения:
'''

df = pd.get_dummies(df, columns = ["brand", "model", "Привод", "Двигатель тип", "Коробка передач тип"])

### Сгрупируем данные по целевому признаку, типу кузова:

In [121]:
'''
Нам предстоит произвести много группировок, а столбцов стало в разы больше. 
Так что уменьшим количество  выводимых столбцов до, например, 5:
'''

pd.set_option('display.max_columns', 5)

### Сгрупируем по столбцу "type_car" ###

type_car_group_df = df.groupby("type_car").count().reset_index()
type_car_group_df

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,Большой внедорожник,123,...,123,123
1,Большой кроссовер,113,...,113,113
2,Внедорожник класса B,9,...,9,9
3,Вэн,21,...,21,21
4,Горячий седан класса C,3,...,3,3
5,Горячий хэтчбек класса C,3,...,3,3
6,Кабриолет с мягкой крышей,5,...,5,5
7,Компактвэн,39,...,39,39
8,Компактный кроссовер,375,...,375,375
9,Кроссовер класса B,24,...,24,24


### В результате группировки можно обратить внимание, что в датасете 37 уникальных типов кузовов, с подклассами. По заданию же требуется проводить классификацию только лишь на 4 класса. Так что модифицируем колонку *type_car*, избавимся от деления на подклассы.

In [122]:
### Проверим вхождение названий 4 классов в строки таблицы и произведём соответствующие замены ###


df["type_car"] = df["type_car"].apply(lambda x: x.replace(x, "седан") if "седан" in x or "Седан" in x else x)
df["type_car"] = df["type_car"].apply(lambda x: x.replace(x, "кроссовер") if "кроссовер" in x or "Кроссовер" in x else x)
df["type_car"] = df["type_car"].apply(lambda x: x.replace(x, "хэтчбек") if "хэтчбек" in x or "Хэтчбек" in x else x)
df["type_car"] = df["type_car"].apply(lambda x: x.replace(x, "внедорожник") if "внедорожник" in x or "Внедорожник" in x else x)

df.groupby("type_car").count().reset_index()

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,Вэн,21,...,21,21
1,Кабриолет с мягкой крышей,5,...,5,5
2,Компактвэн,39,...,39,39
3,Купе класса C,3,...,3,3
4,Купе класса D,16,...,16,16
5,Купе класса E,2,...,2,2
6,Минивэн,2,...,2,2
7,Пикап,18,...,18,18
8,Родстер,9,...,9,9
9,Спорткупе,16,...,16,16


После преобразования оказалось, что остались и другие типы кузова, которые не являются ничем из __Седан - Хетчбек - Кроссовер - Внедорожник__. В таком случае есть несколько вариантов фильтрации. Сделаем копии датафрейма для обработки разных вариантов фильтрации оставшихся типов кузова 

In [123]:
### Удалены все записи, не относяшиеся к классам из ТЗ ###
df_4types = df.copy(deep=True)

### Агрегация оставшихся типов кузова в соответствующие классы из ТЗ ###
df_4types_plus = df.copy(deep=True)

### 4 класса из ТЗ + все оставшиеся типы кузова агрегированы в класс "другой кузов" ###
df_5types = df.copy(deep=True)

### 4 класса из ТЗ + 4 класса остальных (Вэн, Компактвэн и Минивэн объединены в класс "многоместный") ###
df_all_types = df.copy(deep=True)

In [124]:
### Удалим ненужную копию, чтобы освободить память ###

del df

In [125]:
'''
Сохраним только те записи, в которых класс соответствует класса из ТЗ, 
а после сгруппируем по тому же столбцу, чтобы проверить результат выполнения ячейки:
'''

df_4types = df_4types.loc[df_4types['type_car'].isin(["седан", "кроссовер", "хэтчбек", "внедорожник"])]

df_4types.groupby("type_car").count().reset_index()

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,внедорожник,157,...,157,157
1,кроссовер,748,...,748,748
2,седан,408,...,408,408
3,хэтчбек,128,...,128,128


In [126]:
'''
- На самом деле, различий между купе и седаном особо нет 
(см. https://favorit-motors.ru/articles/vybor-avtomobilya/kupe/), 
так что будем считать это одним и тем же классом. 
Родстер - своего рода тоже седан (см. https://ru.wikipedia.org/wiki/%D0%A0%D0%BE%D0%B4%D1%81%D1%82%D0%B5%D1%80),
аналогично и с кабриолетом, которые в большинстве своём являются двухдверными автомобилями.

- Разница между универсалом и хэтчбеком заключается исключительно в размере багажника 
(см. https://favorit-motors.ru/articles/vybor-avtomobilya/universal/), так что их тоже - с определённой скидкой -
можно считать одинаковым типом.

- Подобно предыдущему случаю, разница между внедорожником и пикапом тоже в багажнике - 
она даже менее значительная - так что объединим в один класс
'''

df_4types_plus["type_car"] = df_4types_plus["type_car"].apply(lambda x: x.replace(x, "седан") if "Купе" in x or "купе" in x or "Родстер" in x or "Кабриолет" in x else x)
df_4types_plus["type_car"] = df_4types_plus["type_car"].apply(lambda x: x.replace(x, "хэтчбек") if "Универсал" in x else x)
df_4types_plus["type_car"] = df_4types_plus["type_car"].apply(lambda x: x.replace(x, "внедорожник") if "Пикап" in x else x)

df_4types_plus = df_4types_plus.loc[df_4types_plus['type_car'].isin(["седан", "кроссовер", "хэтчбек", "внедорожник"])]

df_4types_plus.groupby("type_car").count().reset_index()

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,внедорожник,175,...,175,175
1,кроссовер,748,...,748,748
2,седан,465,...,465,465
3,хэтчбек,182,...,182,182


In [127]:
### Заменяем в колонке type_car все записи, кроме соотв. классов из ТЗ, на "другой кузов" ###

df_5types["type_car"] = df_5types["type_car"].apply(lambda x: x.replace(x, "другой кузов") if "внедорожник"!=x and "кроссовер"!=x and "седан"!=x and "хэтчбек"!=x else x)

df_5types.groupby("type_car").count().reset_index()

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,внедорожник,157,...,157,157
1,другой кузов,191,...,191,191
2,кроссовер,748,...,748,748
3,седан,408,...,408,408
4,хэтчбек,128,...,128,128


In [128]:
### Добавляем к классам из ТЗ "купе", "универсал", "многоместный" и "Пикап" ###

df_all_types["type_car"] = df_all_types["type_car"].apply(lambda x: x.replace(x, "универсал") if "Универсал" in x else x)
df_all_types["type_car"] = df_all_types["type_car"].apply(lambda x: x.replace(x, "купе") if "купе" in x or "Купе" in x or "Родстер" in x or "Кабриолет" in x else x)
df_all_types["type_car"] = df_all_types["type_car"].apply(lambda x: x.replace(x, "многоместный") if "Вэн" in x or "вэн" in x else x)

df_all_types.groupby("type_car").count().reset_index()

Unnamed: 0,type_car,seats,...,Коробка передач тип_механическая,Коробка передач тип_роботизированная
0,Пикап,18,...,18,18
1,внедорожник,157,...,157,157
2,кроссовер,748,...,748,748
3,купе,57,...,57,57
4,многоместный,62,...,62,62
5,седан,408,...,408,408
6,универсал,54,...,54,54
7,хэтчбек,128,...,128,128


## Вспомогательный код:

In [129]:
df_all_types.to_csv("df_all_types.csv")
df_5types.to_csv("df_5types.csv")
df_4types_plus.to_csv("df_4types_plus.csv")
df_4types.to_csv("df_4types.csv")

## Работа с моделями

In [137]:
### Заменим записи в колонке целевой переменной на индексы классов для корректной работы моделей ###

import numpy as np 

df_4types['type_car'] = df_4types['type_car'].map({'внедорожник': 0, 
                                                   'кроссовер': 1, 
                                                   'седан': 2, 
                                                   'хэтчбек': 3}) 

df_4types_plus['type_car'] = df_4types_plus['type_car'].map({'внедорожник': 0, 
                                                             'кроссовер': 1, 
                                                             'седан': 2, 
                                                             'хэтчбек': 3}) 

df_5types['type_car'] = df_5types['type_car'].map({'внедорожник': 0, 
                                                   'кроссовер': 1, 
                                                   'седан': 2, 
                                                   'хэтчбек': 3, 
                                                   'другой кузов': 4})

df_all_types['type_car'] = df_all_types['type_car'].map({'внедорожник': 0, 
                                                         'кроссовер': 1, 
                                                         'седан': 2, 
                                                         'хэтчбек': 3, 
                                                         'Пикап': 4,
                                                         'купе': 5,
                                                         'универсал': 6,
                                                         'многоместный': 7})

In [138]:
''' 
Будем работать с таблицей, в которой содержатся записи только тех классов, которые 
были указаны в ТЗ, без агрегации с остальными. Однако весь пайплайн обучения будет 
абсолютно идентичным и для других фреймов.
'''

X = df_4types.drop("type_car", axis=1)
y = df_4types["type_car"].astype('int')

In [139]:
### Разделим данные на тренировочные (для обучения) и валидационные (для определения качества) ###

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [141]:
!pip install imblearn

Collecting imblearn
  Downloading imblearn-0.0-py2.py3-none-any.whl (1.9 kB)
Collecting imbalanced-learn
  Downloading imbalanced_learn-0.8.0-py3-none-any.whl (206 kB)
Installing collected packages: imbalanced-learn, imblearn
Successfully installed imbalanced-learn-0.8.0 imblearn-0.0


Как выяснились после группировки данных по полю __type_car__, наш набор данных несбалансирован: превалируют классы *кроссовер* и *седан*. Из-за этого необходимо стандартизировать признаковое пространство через **StandardScaler** и применить **RandomUnderSampler**, который представляет из себя - выдрежка из документации - способ сбалансировать данные путем случайного выбора подмножества данных для целевых классов 

In [143]:
from imblearn.under_sampling import RandomUnderSampler
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)

rus = RandomUnderSampler()
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

In [147]:
!pip install xgboost

Collecting xgboost
  Downloading xgboost-1.4.2-py3-none-win_amd64.whl (97.8 MB)
Installing collected packages: xgboost
Successfully installed xgboost-1.4.2


### В качестве моделей машинного будут использоваться:

1.   **Logistic Regression**, являющаяся одной из самых первых(фундоментальных) моделей классификации, с которыми знакомятся в задаче классификации. К тому же на её основе строится объяснение работы нейрона и нейронной сети. Так что стало интересно, как такой, с виду базовый, алгоритм себя покажет в реальной задаче.
2.   **XGBoost**, причины выбора которого, во-первых, совпадают с его широкой распространённостью и популярностью в интернете (например, во многих соревнованиях Kaggle именно эту модель используют в реализациях), во-вторых, так как он обладает возможностью понять, какие признаки являются наиболее важными в наборе данных (*plot_importance*)
3.   **Gaussian Naive Bayes**, который может быть удивительно быстрым, точным и простым в реализации, но в то же время обладает недостатком в своей концепции, который в кейсе данной курсовой может негативно сыграть на результатах метрик (требование к независимости признаков), так что решено проверить его работу в том числе.
4.   **DecisionTreeClassifier**, хорошо интерпретируемый в бизнес-кейсах, например, банковские скоринговые системы.  В нашем случае он также может быть к месту. К тому же многие статьи, охватывающие задачу классификации автомобилей, включают в себя использование именно этой модели.

In [187]:
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_validate

lr = LogisticRegression()
xgb = XGBClassifier()
gnb = GaussianNB()
dtc = DecisionTreeClassifier()

'''
Проверим на кросс-валидации, какое качество (accuracy/доля правильных ответов) на ТРЕНИРОВОЧНЫХ данных
покажет каждая из моделей. Выбранная метрика используется достаточно редко (можно было бы использовать, 
например, precision, recall или F-score, которые гораздо чаще применяются. Однако из-за отсутствия 
каких-либо уточнений в специфике кейса, который мы стремимся решить, решено для общности использовать 
всё-таки accuracy.
'''

model_a = []
cross_val_a = []
accuracy = []

### Сохраняем название каждой модели и скор на кросс-валидации ###

for i in (lr, xgb, gnb, dtc):
    model_a.append(i.__class__.__name__)
    cross_val_a.append(cross_validate(i, X_train_rus, y_train_rus, scoring="accuracy"))

for d in range(len(cross_val_a)):
    accuracy.append(cross_val_a[d]['test_score'].mean())
    
accuracy_arr = np.array(accuracy)
model_recall = pd.DataFrame
pd.DataFrame(data=accuracy_arr, index=model_a, columns=["accuracy"])



Unnamed: 0,accuracy
LogisticRegression,0.970702
XGBClassifier,0.989333
GaussianNB,0.856281
DecisionTreeClassifier,0.970667


### GridSearchCV для определения наилучших гиперпараметров (результаты запусков не поспособствовали улучшению качества моделей, так что данный  этап игнорируется) 

In [177]:
from sklearn.model_selection import GridSearchCV

# Logistic Regression

param_grid = {'solver': ['newton-cg', 'lbfgs', 'liblinear'], 'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100]}
grid_search = GridSearchCV(lr, param_grid, scoring='accuracy')
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_result.best_params_}')

Best result: 0.970701754385965 for {'C': 0.01, 'solver': 'newton-cg'}


In [181]:
# XGBoost

param_grid = {'n_estimators': range(0,1000,25)}
grid_search = GridSearchCV(xgb, param_grid, scoring='accuracy')
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_result.best_params_}')















Best result: 0.9893333333333333 for {'n_estimators': 25}


In [183]:
xgb = XGBClassifier(n_estimators=25)
param_grid = {'max_depth': range(1,8,1), 'min_child_weight': np.arange(0.0001, 0.5, 0.001)}
grid_search = GridSearchCV(xgb, param_grid, scoring='accuracy', n_jobs=-1)
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_result.best_params_}')

Best result: 0.9813333333333333 for {'max_depth': 4, 'min_child_weight': 0.48009999999999997}


In [184]:
xgb = XGBClassifier(n_estimators=25)
param_grid = {'gama': np.arange(0.0,20.0,0.05)}
grid_search = GridSearchCV(xgb, param_grid, scoring='accuracy', n_jobs=-1)
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_search.best_params_}')

Parameters: { "gama" } might not be used.

  This may not be accurate due to some parameters are only used in language bindings but
  passed down to XGBoost core.  Or some parameters are not used but slip through this
  verification. Please open an issue if you find above cases.


Best result: 0.9893333333333333 for {'gama': 0.0}


In [185]:
# DecisionTreeClassifier

param_grid = {'max_depth': range(1,15), 'max_features': range(2,40)}
grid_search = GridSearchCV(dtc, param_grid, scoring='accuracy')
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_result.best_params_}')

Best result: 0.9654035087719299 for {'max_depth': 13, 'max_features': 32}


In [188]:
dtc = DecisionTreeClassifier(max_depth=13, max_features=32)

param_grid = {"criterion": ['gini', "entropy"], "splitter": ["best", "random"]}
grid_search = GridSearchCV(dtc, param_grid, scoring='accuracy')
grid_result = grid_search.fit(X_train_rus, y_train_rus)
print(f'Best result: {grid_result.best_score_} for {grid_result.best_params_}')

Best result: 0.9468771929824561 for {'criterion': 'gini', 'splitter': 'best'}


## Проверка на валидации

In [212]:
### Трансформируем тестовый набор и вычислим score каждой модели на валидации ###

X_test_ = scaler.transform(X_test)

lr = LogisticRegression()
xgb = XGBClassifier()
gnb = GaussianNB()
dtc = DecisionTreeClassifier()

### Будем записывать в словарь пары ключ(модель) : скор на тестовой выборке ###

results = {}
for model in (lr, xgb, gnb, dtc):
    model.fit(X_train_rus, y_train_rus)
    pred = model.predict(X_test_)
    metric = accuracy_score(y_test, pred)
    results[f"{model.__class__.__name__}"] = metric



In [213]:
pd.DataFrame(results.items(), 
             columns=['model', 'accuracy']).sort_values(by=["accuracy"], 
             ascending=False).set_index('model')

Unnamed: 0_level_0,accuracy
model,Unnamed: 1_level_1
GaussianNB,0.764543
DecisionTreeClassifier,0.121884
LogisticRegression,0.113573
XGBClassifier,0.113573


Результаты удручают. Очень низкий *accuracy*. НО: все модели с низким "скором" так или иначе зависят от размерности признакового пространства, а оно у нас после всех модицикаций стало очень большим (из +- 30 фичей стало почти 300). Так что посмотрим на то, какие именно признаки действительно влияют на классификацию.

In [216]:
from xgboost import plot_importance
import operator

### Будем в словарь записывать пары ключ (название признака) : соотв. значение ###

importance = {}
for col,score in zip(X.columns, xgb.feature_importances_):
    importance[col] = score

### Теперь отсортируем этот словарь по значениям и удалим все пары с нулевыми значениями ###
sorted_imp = dict(sorted(importance.items(), key=operator.itemgetter(1),reverse=True))
wiped_imp = {k: v for k, v in sorted_imp.items() if v}

## Исключили признаки, которые не влияют на результат. Теперь повторим весб пайплайн, но в этот раз только лишь с теми признаками, которые дейсвительно влияют на классификацию

In [221]:
X = df_4types[wiped_imp.keys()]
y = df_4types["type_car"].astype('int')

In [224]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [225]:
scaler = StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)

rus = RandomUnderSampler()
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

In [226]:
lr = LogisticRegression()
xgb = XGBClassifier()
gnb = GaussianNB()
dtc = DecisionTreeClassifier()

model_a = []
cross_val_a = []
accuracy = []
for i in (lr, xgb, gnb, dtc):
    model_a.append(i.__class__.__name__)
    cross_val_a.append(cross_validate(i, X_train_rus, y_train_rus, scoring="accuracy"))

for d in range(len(cross_val_a)):
    accuracy.append(cross_val_a[d]['test_score'].mean())
    
accuracy_arr = np.array(accuracy)
model_recall = pd.DataFrame
pd.DataFrame(data=accuracy_arr, index=model_a, columns=["accuracy"])



Unnamed: 0,accuracy
LogisticRegression,0.968105
XGBClassifier,0.986737
GaussianNB,0.819228
DecisionTreeClassifier,0.989404


Пока рано делать какие-либо выводы. Поменялось значение только Байесовоского алгоритма, но всё равно слабо. Сделаем предсказания на тестовых данных и вычислим скор на валидации

In [227]:
X_test_ = scaler.transform(X_test)

lr = LogisticRegression()
xgb = XGBClassifier()
gnb = GaussianNB()
dtc = DecisionTreeClassifier()

results = {}
for model in (lr, xgb, gnb, dtc):
    model.fit(X_train_rus, y_train_rus)
    pred = model.predict(X_test_)
    metric = accuracy_score(y_test, pred)
    results[f"{model.__class__.__name__}"] = metric



In [228]:
pd.DataFrame(results.items(), 
             columns=['model', 'accuracy']).sort_values(by=["accuracy"], 
             ascending=False).set_index('model')

Unnamed: 0_level_0,accuracy
model,Unnamed: 1_level_1
XGBClassifier,0.98615
DecisionTreeClassifier,0.975069
LogisticRegression,0.969529
GaussianNB,0.68144


Теперь по метрике accuracy на валидации просто отличные результаты! Байесовский алгоритм закономерно показывает результаты ниже, так как признаки всё таки коррелируют друг с другом (например, чем больше объём багажника, тем выше масса автомобиля; чем больше мощность двигателя тем больше - обычно - расход топлива и т.д.). Лучше всего себя показал XGBClassifier, являющийся по своей сути модификацией алгоритма деревьев решений, но с градиентным спуском.

В заключении повторюсь: идентичный пайплайн можно использовать и с другими таблицами, которые получились у нас после агрегации. В зависимости от задачии и конечной цели будет уместнее использовать тот или иной подход к этой самой агрегации и делении на классы. Также вероятно всего в случае изменения датасета поменяется и пул признаков, которые влияют на предсказание, так что feature_importance нужно будет пересчитать.