In [1]:
import pandas as pd
from unidecode import unidecode
import Levenshtein as lev
import calendar
import matplotlib.pyplot as plt

# Анализ авторынка Казахстана

Описание проекта: Целью проекта является анализ авторынка Республики Казахстан.

Описание данных: В нашем распоряжении "сырые" данные по продажам автомобилей в Казахстане за 2019 год. Данные получены из
официальной статистики VAG, после перевода из эксель в csv обнаружились множественные
проблемы с исходными данными: некорректные разделители десятичных разрядов, несоответствие
данных типу данных. Дополнительной проблемой является то, что статистику собирал не один
человек, поэтому есть неявные дубликаты, а также одни и те же
признаки могут быть записаны как на русском, так и на английском языке.
План работы:
1. Очистка данных  
    1.1 Правильно загрузить данные с нужным разделителем десятичных разрядов;  
    1.2 Привести данные в столбцах к корректным типам;  
    1.3 Избавиться от лишних столбцов;  
    1.4 Избавиться от неявных дубликатов в столбца;  
    1.5 Решить что сделать с пропусками данных;  
    1.6 Разобраться с аномалиями;  
    1.7 Добавить категориальные столбцы.  
2. Исследовательский анализ:  
    2.1 Признаки столбцов     
    2.2 Анализ строк (Упорядочены ли строки: по индексу/дате/признаку/что-то_ещё. Есть ли мутлтииндексы.)  
    2.3 Анализ явных дубликатов.  
    2.4 Анализ пропусков (Определение типа пропусков (MCAR, MAR, MNAR))    
    2.5 Анализ типов данных. Разделить на числовые категориальные (упорядоченные/неупорядоченные), текстовые, временные.  
    2.6 Изменение типа данных и кодирование переменных.  
    2.7 Анализ числовых признаков.  
    2.8 Анализ категориальных признаков.
3. Анализ рынка   
    3.1 Топовые марки на рынке Казахстана.  
    3.2 Продажи на рынке Казахстана всех марок в денежном и натуральном выражении.  
    3.3 Динамика продаж в целом по рынку (помесячно).  
    3.4 Динамика продаж по категориям (помесячно): тип топлива, класс, сегмент.  
    3.5 Продажи по регионам.  
    3.6 Продажи по автоцентрам. 

## Очистка данных

In [2]:
#загрузим датасет
file_path = 'C:\\Users\\Redmi\\Desktop\\авторынок  казахстана\\auto_kz_2019.csv'
df = pd.read_csv(file_path, sep = ';',decimal=",")
print(df.head())

    Год   Месяц     Компания Бренд Модель Модификация Год выпуска  \
0  2019     Май  Mercur Auto  Audi     A3        TFSI        2018   
1  2019  Август  Mercur Auto  Audi     A3        TFSI        2018   
2  2019  Апрель  Mercur Auto  Audi     A4        TFSI        2018   
3  2019    Июль  Mercur Auto  Audi     A4        TFSI        2018   
4  2019    Июль  Mercur Auto  Audi     A4        TFSI        2018   

  Страна-производитель Вид топлива Объём двиг, л,  ... Тип клиента  \
0             Германия      Бензин            1,4  ...   Физ. Лицо   
1             Германия      Бензин            1,4  ...    Юр. Лицо   
2             Германия      Бензин            1,4  ...   Физ. Лицо   
3             Германия      Бензин            1,4  ...    Юр. Лицо   
4             Германия      Бензин            1,4  ...   Физ. Лицо   

  Форма расчета Количество Цена, USD Продажа, USD   Область  \
0   безналичный        1.0  28115.00     28115.00  г.Алматы   
1      наличный        1.0  32246.99  

In [3]:
# Приводим названия столбцов к нижнему регистру
df.columns = df.columns.str.lower()
# Заменяем пробелы и дефисы на нижние подчеркивания
df.columns = df.columns.str.replace('[ \-]', '_', regex=True)
# Заменяем пробелы с запятыми и запятые на пробелы
df.columns = df.columns.str.replace('[ ,\,]', '', regex=True)

In [4]:
#перевод названия столбцов на английский
translation_dict = {
    'год': 'year',
    'месяц': 'month',
    'компания': 'company',
    'бренд': 'brand',
    'модель': 'model',
    'модификация': 'modification',
    'год_выпуска': 'manufacturing_year',
    'страна_производитель': 'manufacturer_country',
    'вид_топлива': 'fuel_type',
    'объём_двиг_л': 'engine_capacity_liters',
    'коробка_передач': 'transmission_type',
    'тип_привода': 'drive_type',
    'сегмент': 'segment',
    'регион': 'region',
    'наименование_дилерского_центра': 'dealer_center_name',
    'тип_клиента': 'customer_type',
    'форма_расчета': 'payment_form',
    'количество': 'quantity',
    'цена_usd': 'price_usd',
    'продажа_usd': 'sale_usd',
    'область': 'area',
    'сегментация_2013': 'segmentation_2013',
    'класс_2013': 'class_2013',
    'сегментация_eng': 'segmentation_eng',
    'локализация_производства': 'production_localization'
}

In [5]:
# Применяем перевод названий столбцов
df = df.rename(columns=translation_dict)

По какой-то причине в столбце с объёмом двигателя разделитель не поменялся на точку, сделаем замену методом replace.

In [6]:
# Преобразование столбца price_usd с заменой запятых на точки
df['engine_capacity_liters'] = df['engine_capacity_liters'].str.replace(',', '.')


In [7]:
#удалим лишние столбцы
df = df.drop(['modification', 'segment', 'dealer_center_name', 'payment_form', 'segmentation_eng', 'production_localization'], axis=1)

In [8]:
#посмотрим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39966 entries, 0 to 39965
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   year                    39966 non-null  int64  
 1   month                   39966 non-null  object 
 2   company                 39966 non-null  object 
 3   brand                   39966 non-null  object 
 4   model                   39966 non-null  object 
 5   manufacturing_year      39465 non-null  object 
 6   manufacturer_country    39966 non-null  object 
 7   fuel_type               36826 non-null  object 
 8   engine_capacity_liters  35708 non-null  object 
 9   transmission_type       36711 non-null  object 
 10  drive_type              35677 non-null  object 
 11  region                  39966 non-null  object 
 12  customer_type           32919 non-null  object 
 13  quantity                39960 non-null  float64
 14  price_usd               39966 non-null

Распишем смысл каждого столбца. Оценим важность каждого столбца для исследования.
* year – год продажи (2019)  
* month – месяц продажи (январь - сентябрь) - важный столбец  
* company – название автоцентра в котором продана машина - важный столбец, например, для оценки наиболее рентабельных автоцентров  
* brand – название продаваемой марки автомобиля - важный столбец, потому что необходимо знать, какие бренды чаще или реже продвются  
* model – название модели автомобиля - важный столбец, потому что необходимо знать, какие модели чаще или реже продвются  
* manufacturing_year – год производства автомобиля - важный столбец  
* manufacturer_country – страна, где произведен автомобиль - важный столбец  
* fuel_type – бензин, дизель, электричество, гибрид    
* engine_capacity_liters – объем двигателя автомобиля в литрах    
* transmission_type – тип коробки переключения передач   
* drive_type – тип привода   
* region – регион продажи - важный столбец, так как нам необходимо знать, в каких регионах лучше или хуже продаются авто  
* quantity – количество автомобилей в заказе - важный столбец, благодаря ему, например, можно посчитать среднее количество машин в 1 чеке  
* price_usd – цена автомобиля USD  - важный столбец, например, для сравнения цен на авто в разных автоцентрах  
* sale_usd – цена заказа USD (цена авто умноженная на количество и за вычетом скидок если есть)  - важный столбец, например, для подсчёта выручки или среднего чека  
* area – область продажи - важный столбец   
* segmentation_2013 – сегмент автомобиля,   
* class_2013 – класс автомобиля актуальный  

In [9]:
#посмотрим количество пропусков
df.isna().sum()

year                         0
month                        0
company                      0
brand                        0
model                        0
manufacturing_year         501
manufacturer_country         0
fuel_type                 3140
engine_capacity_liters    4258
transmission_type         3255
drive_type                4289
region                       0
customer_type             7047
quantity                     6
price_usd                    0
sale_usd                     0
area                         0
segmentation_2013            0
class_2013                   0
dtype: int64

In [10]:
#удалим строки, где в quantity пропуски
df=df.dropna(subset=['quantity'])
#проверим изменения
df.quantity.count()

39960

В столбце manufacturing_year немного пропусков 501, 
fuel_type 3140 пропусков, 
engine_capacity_liters 4258, 
transmission_type 3255 и drive_type 4289. Эти столбцы отражают характеристики авто, они не столь важны для анализа рынка, поэтому просто поставим на место пропусков заглушки в виде 0 для удобства работы.

In [11]:
#заменим пропуски
def fill_missing_values(df_to_fill, columns_to_fill):
    for column in columns_to_fill:
        df_to_fill[column] = df_to_fill[column].fillna('0')
    return df_to_fill

# Применим функцию к DataFrame
columns_to_fill = ['manufacturing_year', 'fuel_type', 'engine_capacity_liters', 'transmission_type', 'drive_type','customer_type']
df = fill_missing_values(df, columns_to_fill)
df.isna().sum()

year                      0
month                     0
company                   0
brand                     0
model                     0
manufacturing_year        0
manufacturer_country      0
fuel_type                 0
engine_capacity_liters    0
transmission_type         0
drive_type                0
region                    0
customer_type             0
quantity                  0
price_usd                 0
sale_usd                  0
area                      0
segmentation_2013         0
class_2013                0
dtype: int64

In [12]:
# удаление лишних пробелов в конце значений строковых столбцов
for column in df.columns:
    if df[column].dtype == "object":
        df[column] = df[column].str.replace(r' $', '', regex=True)

In [13]:
#функция для поиска неявных дублей
def translate_and_find_similar(df, columns_to_compare):
    def similar_values(value1, value2):
        value1_lower = unidecode(value1).lower()
        value2_lower = unidecode(value2).lower()
        return lev.distance(value1_lower, value2_lower) <= 2
    
    for column in columns_to_compare:
        if df[column].dtype == "object":
            unique_values = df[column].unique()
            num_unique_values = len(unique_values)
            
            for i in range(num_unique_values):
                for j in range(i + 1, num_unique_values):
                    value1, value2 = unique_values[i], unique_values[j]
                    if similar_values(value1, value2):
                        print(f"Similar values found in '{column}': '{value1}' and '{value2}'")

# Список столбцов, по которым нужно искать похожие значения
columns_to_compare = ['company','customer_type']

# Применение функции
print("Неявные дубликаты:")
translate_and_find_similar(df, columns_to_compare)

Неявные дубликаты:
Similar values found in 'company': 'Mercur Auto' and 'Mercur Autos'
Similar values found in 'company': 'Caspian Motors' and 'Каспиан Моторс'
Similar values found in 'company': 'Autokapital' and 'Автокапитал'
Similar values found in 'company': 'ММС Рус' and 'MMC RUS'
Similar values found in 'company': 'Равон Моторс Казахстан' and 'Ravon Motors Kazakstan'
Similar values found in 'customer_type': 'Физ. Лицо' and 'физ.лицо'
Similar values found in 'customer_type': 'Физ. Лицо' and 'ФизЛицо'
Similar values found in 'customer_type': 'Юр. Лицо' and 'Юр.Лицо'
Similar values found in 'customer_type': 'Юр. Лицо' and 'ЮрЛицо'
Similar values found in 'customer_type': 'Юр.Лицо' and 'ЮрЛицо'
Similar values found in 'customer_type': 'физ.лицо' and 'ФизЛицо'


In [14]:
# функция для просмотра уникальных значений во всех столбцах
for column in df.columns:
    unique_values = df[column].sort_values().unique()
    print(f"Уникальные значения в '{column}': {unique_values}\n")

Уникальные значения в 'year': [2019]

Уникальные значения в 'month': ['Август' 'Апрель' 'Июль' 'Июнь' 'Май' 'Март' 'Сентябрь' 'Февраль'
 'Январь']

Уникальные значения в 'company': ['Allur Auto' 'Almaty Motors Premium' 'Astana Motors' 'Autokapital'
 'Caspian Motors' 'Daewoo Bus Kazakhstan' 'Eurasia Motor Premium'
 'Hino Motors' 'Hyundai Com Trans Kazakhstan' 'MAN Truck & Bus Kazakhstan'
 'MMC RUS' 'Mercur Auto' 'Mercur Autos' 'Nissan Manufacturing RUS'
 'Ravon Motors Kazakstan' 'Renault Россия' 'Scandinavian Motors'
 'Scania Central Asia' 'Subaru Kazakhstan' 'TERRA MOTORS'
 'Toyota Motor Kazakhstan' 'Volkswagen Group Rus' 'Автодом Motors KST'
 'Автокапитал' 'Автомир ГК' 'Автомир-Центр' 'Автоцентр-Бавария'
 'БИПЭК АВТО' 'Вираж' 'Каспиан Моторс' 'Лифан Моторс Рус' 'ММС Рус'
 'Равон Моторс Казахстан' 'СВС-ТРАНС' 'СемАЗ' 'ТК КАМАЗ'
 'ТОО "Eurasia Motor Zhaik"' 'УзАвто-Казахстан' 'Хино Моторс Казахстан']

Уникальные значения в 'brand': ['ANKAI' 'Audi' 'BMW' 'Cadillac' 'Chevrolet' 'Daewoo' '

* Дубли в company: 'Mercur Auto' and 'Mercur Autos' - это разные компании с похожими названиями, остальное - дубликаты: 'Caspian Motors' and 'Каспиан Моторс', 'Autokapital' and 'Автокапитал', 'ММС Рус' and 'MMC RUS', 'Равон Моторс Казахстан' and 'Ravon Motors Kazakstan'
* В brand дублей нет
* В model: 3 и 3 серия, '6' '6 серия' похоже на дубли, в значении 'TQ-1/H-1' как будто слиплись 2 вида моделей. Изучить модели и сравнить модели с брендом.
* manufacturing_year есть 2 странных значения '2\xa0018' '2\xa0019'. Необходимо детальнее изучить столбец
* В manufacturer_country нет дубликатов
* fuel_type 1.6, 2 - эти значения не относятся к виду топлива, скорее всего в этот столбец попал объём двигателя, а значение 0 не может относиться ни к тому ни к другому. 
* engine_capacity_liters '#Н/Д', '0', '88 KWH', '400 Л.С.', 'AT', 'MT' - в этот столбец попали значения из других столбцов - мощность двигателя и тип коробки передач. Также есть неявные дубли '2' '2.0' '2.0h' '3' '3.0 L' '4' '4.0' '4.3' '4.3.' '4.98' '4.98 L.' '6.7' '6.7L'  Необходимо детальнее изучить столбец
* transmission_type '#Н/Д', '4WD', 'Передний' - значения из drive_type. Странные значения 'TDI' (двигатель на дизеле) и просто '8', Необходимо детальнее изучить столбец и разбить на механику и автомат. С помощью сервиса regex  удалось структурировать значения, после их анализа выяснилось, что все значения, где есть M(рус или англ) - это механика. После анализа оставшихся значений стало понятно, что все остальные значения, а именно: с буквой A(рус или англ), DSG, DCT, tronic(Tronic), CVT, Powershift, РЕДУКТОР, относятся к автомату.
* drive_type '#Н/Д' ('FWD', 'FF', 2 WD' '2WD'-передний) ('AWD' 'quattro' '4Motion' '4 WD''4WD'  '4X4'  '4x4'  '4х4'-полный) ('4X2' '4x2' '4х2' '4х2.2'-неполный) ('RWD' задний), попало значение 'Астана'. Необходимо детальнее изучить столбец и разбить на передний, задний, полный и неполный приводы.
* region нет дублей
* customer_type': 'Физ. Лицо' and 'физ.лицо', 'ФизЛицо', 'Юр. Лицо', 'Юр.Лицо', 'ЮрЛицо'
* В quantity значение '-1' - это возврат, а большое число проданных автомобилей 100 и 115 (возможно опт продажа таксопарку или на экспорт).
* price_usd - необходимо посмотреть выбросы (построить boxplot)
* В sale_usd странные значения -35588.25 (скорее всего сумма возврата) и 0 (проусков нет и заглушек в 0 нет) - надо посмотреть количество таких значений и тоже проверить на выбросы
* В area всё впорядке
* segmentation_2013 норм
* В class_2013 всё норм

In [15]:
# задаём условия для удаления строк с ошибочными значениями в столбцах
condition = (
    (df['fuel_type'].isin(['2', '1,6'])) |
    (df['engine_capacity_liters'].isin(['88 KWH', 'AT', 'MT'])) |
    (df['transmission_type'].isin(['TDI', '8', '4WD', 'Передний'])) |
    (df['manufacturing_year'].isin(['2\xa0018', '2\xa0019'])) |
    (df['drive_type'] == 'Астана')
)

# Подсчет количества удаляемых строк
count_deleted = len(df[condition])
print(f'Будет удалено строк: {count_deleted}')



Будет удалено строк: 1316


In [16]:
# Удаление строк
df = df[~condition]
#проверим результат
print(39960 - df['model'].count())

1316


 
Далее: 
* удалим столбцы месяц и год
* удаляем неявные дубликаты
* кодируем страны в столбце страна производства в alpha3 (RUS, KAZ, USA и т.д.)
* кодируем тип топлива в (F - fuel, D - diesel, E - electro, HYB - hybrid)
* приведем в порядок столбец объем двигателя 
* столбцы регион и область - привести к нижнему регистру с заглавной буквы
* столбец тип трансмиссии - оставим два типа трансмиссии: механика и автомат
* столбцы тип топлива, тип трансмиссии, тип привода, сегмент 2013 и класс 2013 переводим в категориальные

Строки удалились корректно. Теперь удалим неявные дубликаты.

In [17]:
#удалим дубли в company: 'Caspian Motors' and 'Каспиан Моторс', 'Autokapital' and 'Автокапитал', 'ММС Рус' and 'MMC RUS', 'Равон Моторс Казахстан' and 'Ravon Motors Kazakstan'
duplicates_company = {
    'Каспиан Моторс':'Caspian Motors', 
    'Автокапитал':'Autokapital', 
    'MMC RUS':'ММС Рус', 
    'Равон Моторс Казахстан':'Ravon Motors Kazakstan',
    'Hino Motors':'Хино Моторс Казахстан'}
df['company'] = df['company'].replace(duplicates_company)
#проверим, удалились ли дубликаты с помощью функции
print(translate_and_find_similar(df, ['company']))


Similar values found in 'company': 'Mercur Auto' and 'Mercur Autos'
None


In [18]:
# сравним модели и бренды 
df.query('model == "3"|model == "3 серия"|model == "6"|model == "6 серия"|model == "TQ-1/H-1"')[['model', 'brand']].drop_duplicates()


Unnamed: 0,model,brand
31,3 серия,BMW
62,6 серия,BMW
9566,TQ-1/H-1,Hyundai
20223,3,Mazda
20228,6,Mazda


Получились уникальные значения, получается, в model нет дублей.

In [19]:
#посмотрим у какой модели вместо объёма двигателя мощность
df.query('engine_capacity_liters == "400 Л.С."')[['brand','model']].drop_duplicates()

Unnamed: 0,brand,model
39544,Jaguar,I-Pace


In [20]:
# удалим дубли в engine_capacity_liters '2' '2.0' '2.0h' '3' '3.0 L' '4' '4.0' '4.3' '4.3.' '4.98' '4.98 L.' '6.7' '6.7L'
duplicates_engine_capacity_liters = {
    '2':'2.0', 
    '2.0h':'2.0', 
    '3':'3.0', 
    '3.0 L':'3.0',
    '4':'4.0',
    '4.3.':'4.3',
    '4.98 L.':'4.98',
    '6.7L':'6.7',
    '8.4 L.':'8.4'}
df['company'] = df['company'].replace(duplicates_company)

In [21]:
#оценим соответствие модели и объёма двигателя
print(df.groupby('engine_capacity_liters')['model'].unique())

engine_capacity_liters
#Н/Д                                    [Corolla, HILUX DC]
0         [BJ3253DMPKB-AD, 2310, 2705, 2752, 3221, 3302,...
1.2                                      [Qashqai, X-Trail]
1.248                                     [Cerato, Picanto]
1.2T                                                 [C-HR]
                                ...                        
7.6                                                   [500]
7.7                                                  [Niva]
8.4 L.                                        [HFF6127GZ-4]
8.7                                       [Niva, NMR, Polo]
9.7                                                  [Niva]
Name: model, Length: 99, dtype: object


In [22]:
#удалим неявные дубли в customer_type': 'Физ. Лицо' and 'физ.лицо', 'ФизЛицо', 'Юр. Лицо', 'Юр.Лицо', 'ЮрЛицо' с использованием регулярных выражений
df['customer_type'] = df['customer_type'].str.replace(r'(?i)физ(\.)? *лицо|физическое', 'Физ. Лицо', regex=True)
df['customer_type'] = df['customer_type'].str.replace(r'(?i)(юр(\.)? *лицо|юридическое|корп(\.)? *клиент)', 'Юр. Лицо', regex=True)
#проверим изменения
df['customer_type'].unique()

array(['Физ. Лицо', 'Юр. Лицо', '0'], dtype=object)

In [23]:
display("Модель авто возврат:", df.query('quantity == -1')[['model', 'brand', 'sale_usd']])
print("Количество заказов с 1 машиной в чеке:", round((df.query('quantity == 1')['model'].count())/df['model'].count()*100, 2), "%")
display("Модели, количество которых в чеке больше 50:",df.query('quantity >= 50')[['brand','model', 'quantity']].sort_values(by='quantity'))


'Модель авто возврат:'

Unnamed: 0,model,brand,sale_usd
25728,Superb,Skoda,-35588.25


Количество заказов с 1 машиной в чеке: 92.87 %


'Модели, количество которых в чеке больше 50:'

Unnamed: 0,brand,model,quantity
17031,Lada,Granta,50.0
17102,Lada,Granta,50.0
17194,Lada,Granta,50.0
17684,Lada,Largus,50.0
39561,Daewoo,BC 095,50.0
17525,Lada,Largus,51.0
16858,Lada,4x4,54.0
16363,Kia,Rio,60.0
38423,Volkswagen,Polo,62.0
38424,Volkswagen,Polo,62.0


* "-1" это точно возврат - цена Superb Skoda правда около 3.5 млн
* большинство заказов (92.87 %) - 1 машина в чеке
* Больших заказов (от 50 машин в чеке) немного (16), в них бюджетные авто, скорее всего это оптовые заказы(таксопарки, курьерские доставки и т.д.)

In [24]:
#кодируем страны в столбце страна производства в alpha3 (RUS, KAZ, USA и т.д.)
country_codes = {'Австрия': "AUT",
        "Белоруссия": "BLR",
        "Бельгия": "BEL",
        "Венгрия": "HUN",
        "Германия": "DEU",
        "Испания": "ESP",
        "Китай": "CHN",
        "Корея": "KOR",
        "Нидерланды": "NLD",
        "Польша": "POL",
        "Республика Казахстан": "KAZ",
        "Российская Федерация": "RUS",
        "США": "USA",
        "Таиланд": "THA",
        "Турция": "TUR",
        "Узбекистан": "UZB",
        "Швеция": "SWE",
        "Япония": "JPN",
    }
for index, row in df.iterrows():
    country=row['manufacturer_country']
    if country in country_codes:
        df.at[index, 'manufacturer_country']=country_codes[country]
df['manufacturer_country'].unique()

array(['DEU', 'USA', 'AUT', 'KAZ', 'RUS', 'KOR', 'JPN', 'THA', 'CHN',
       'UK', 'UZB', 'HUN', 'TUR', 'ESP', 'NLD', 'POL', 'SWE', 'BLR',
       'BEL'], dtype=object)

In [25]:
#кодируем тип топлива (F - fuel, D - diesel, E - electro, HYB - hybrid)
df['fuel_type'] = df['fuel_type'].str.replace('бензин', 'Бензин').str.replace('дизель', 'Дизель').str.replace('Электричество', 'Электро').str.replace('гибрид', 'Гибрид')
df['fuel_type'].unique()

array(['Бензин', 'Дизель', '0', 'Гибрид', 'Электро'], dtype=object)

In [26]:
#кодирукм тип привода ('FWD', 'FF', 2 WD' '2WD'-передний) ('AWD' 'quattro' '4Motion' '4 WD''4WD'  '4X4'  '4x4'  '4х4'-полный) ('4X2' '4x2' '4х2' '4х2.2'-неполный) ('RWD' задний)
def code_drive_type(cell):
    if cell in ['4WD', 'quattro', 'Полный', 'полный', 'AWD', '4 WD', '4Motion','4X4', '4x4', '4х4']:
        return '4WD - полный привод'
    elif cell in ['передний', 'FWD', 'Передний', 'Передний (FF)', 'FF']:
        return 'FWD - передний привод'
    elif cell in ['Задний', 'RWD']:
        return 'RWD - задний привод'
    elif cell in ['4X2', '4x2', '4х2', '4х2.2', '2 WD', '2WD']:
        return '2WD - неполный привод'
    else:
        return cell
df['drive_type'] = df['drive_type'].apply(code_drive_type)
df['drive_type'].unique()

array(['FWD - передний привод', '4WD - полный привод',
       'RWD - задний привод', '2WD - неполный привод', '0', '#Н/Д'],
      dtype=object)

In [44]:
#столбец тип трансмиссии - оставим два типа трансмиссии: механика и автомат
# Фильтрация строк, содержащих искомую подстроку
filtered_df = df[df['transmission_type'].str.contains(r'.*[МM].*', case=False, na=False)]
# Получение списка строк из отфильтрованного DataFrame
result_list = filtered_df['transmission_type'].tolist()
# Создание Series, чтоб посмотреть уникальные значения и их количество
pd.Series(result_list).value_counts()

MT      3295
Мех.    2044
5МТ      993
5 МТ     618
5MT      568
AMT      396
6MT      357
6 MT     197
МТ       104
МКП       35
МКПП      34
6МТ       20
МT        17
6M/T      16
5M        12
6 МТ       9
5М         5
М/T        5
M/T        2
dtype: int64

In [28]:
#столбцы регион и область - привести к нижнему регистру с заглавной буквы 


In [29]:
#преобразуем названия месяцев в числа
def monthToNum(shortMonth):
    return {
            'Январь': 1,
            'Февраль': 2,
            'Март': 3,
            'Апрель': 4,
            'Май': 5,
            'Июнь': 6,
            'Июль': 7,
            'Август': 8,
            'Сентябрь': 9, 
            'Октябрь': 10,
            'Ноябрь': 11,
            'Декабрь': 12
    }[shortMonth]
# Применяем функцию к столбцу 'month' и создаем новый столбец 'number_month'
df['number_month'] = df['month'].apply(monthToNum)
#преобразуем месяц и год в строковые значения для объединения в один столбец
df['year'] = df['year'].astype('str')
df['number_month'] = df['number_month'].astype('str')
# Объединяем год и месяц с разделителем '-'
df['date'] = df['year'] + '-' + df['number_month']
# Преобразовываем столбец 'date' в тип данных datetime
df['date'] = pd.to_datetime(df['date'], format='%Y-%m')
#проверим изменения 
df['date'].head()

0   2019-05-01
1   2019-08-01
2   2019-04-01
3   2019-07-01
4   2019-07-01
Name: date, dtype: datetime64[ns]

In [30]:
#df['engine_capacity_liters']=df['engine_capacity_liters'].astype('float')

In [31]:
#изменяем тип данных в нужных столбцах на int
def type_str(df, value):
    df[value] = df[value].astype('int')
    return df
s = ['year','number_month', 'manufacturing_year','quantity']
df = type_str(df, s)

In [32]:
#изменяем тип данных в нужных столбцах на string
def type_str(df, value):
    df[value] = df[value].astype('string')
    return df
s = ['month', 'company', 'model', 'brand','manufacturer_country','transmission_type','region','customer_type','area']
df = type_str(df, s)

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 38644 entries, 0 to 39965
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   year                    38644 non-null  int32         
 1   month                   38644 non-null  string        
 2   company                 38644 non-null  string        
 3   brand                   38644 non-null  string        
 4   model                   38644 non-null  string        
 5   manufacturing_year      38644 non-null  int32         
 6   manufacturer_country    38644 non-null  string        
 7   fuel_type               38644 non-null  object        
 8   engine_capacity_liters  38644 non-null  object        
 9   transmission_type       38644 non-null  string        
 10  drive_type              38644 non-null  object        
 11  region                  38644 non-null  string        
 12  customer_type           38644 non-null  string

In [34]:
df = df.drop(['year', 'month'], axis =1)

## Исследовательский анализ

In [35]:
print("Количество дубликатов:", df.duplicated().sum())
print("Количество дубликатов в процентах:", round(df.duplicated().sum()/df['model'].count()*100, 2), "%")

Количество дубликатов: 21423
Количество дубликатов в процентах: 55.44 %


Большое количество дубликатов. 

In [36]:
#df.duplicated(keep=False)