**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №10

Набор данных: auto.csv

Атрибуты: 
1. имя
2. год
3. цена продажи
4. пройдено км
5. топливо
6. тип продавца
7. коробка передач
8. тип владельца

### 1.Чтение файла (набора данных)

In [2]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd
df = pd.read_csv('auto.csv')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [3]:
# применить метод head
print(df.head(20))

                               Name  year  SellingPrice  kmdriven     fuel  \
0                     Maruti 800 AC  2007       60000.0   70000.0   Petrol   
1          Maruti Wagon R LXI Minor  2007      135000.0   50000.0   Petrol   
2              Hyundai Verna 1.6 SX  2012      600000.0  100000.0   Diesel   
3            Datsun RediGO T Option  2017      250000.0   46000.0   Petrol   
4             Honda Amaze VX i-DTEC  2014      450000.0  141000.0   Diesel   
5              Maruti Alto LX BSIII  2007      140000.0  125000.0   Petrol   
6         Hyundai Xcent 1.2 Kappa S  2016      550000.0   25000.0   Petrol   
7         Tata Indigo Grand Petroll  2014      240000.0   60000.0   Petrol   
8          Hyundai Creta 1.6 VTVT S  2015      850000.0   25000.0  Petroll   
9          Maruti Celerio Green VXI  2017      365000.0   78000.0      CNG   
10          Chevrolet Sail 1.2 Base  2015      260000.0   35000.0   Petrol   
11         Tata Indigo Grand Petrol  2014      250000.0  100000.

2.2 Оценка данных с помощью метода info.

In [4]:
# выполнит метод info
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4344 entries, 0 to 4343
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4344 non-null   object 
 1   year          4344 non-null   int64  
 2   SellingPrice  4342 non-null   float64
 3   kmdriven      4343 non-null   float64
 4   fuel          4343 non-null   object 
 5   seller_Type   4344 non-null   object 
 6   transmission  4344 non-null   object 
 7   owner         4344 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 186.7+ KB
None


2.3 Оценка данных с помощью метода describe.

In [5]:
# оцените числовые столбцы с помощью describe
print(df.describe())

              year  SellingPrice       kmdriven
count  4344.000000  4.342000e+03    4343.000000
mean   2013.092311  5.039987e+05   66193.063320
std       4.214543  5.784465e+05   46636.648764
min    1992.000000  2.000000e+04       1.000000
25%    2011.000000  2.100000e+05   35000.000000
50%    2014.000000  3.500000e+05   60000.000000
75%    2016.000000  6.000000e+05   90000.000000
max    2020.000000  8.900000e+06  806599.000000


### Общая информация о датасете

1. В датасете содержится **4344** строки и **8** столбцов
2. Типы данных:
    + **5 столбцов** имеют тип данных *'object'* (это текстовые данные, например название автомобиля, тип топлива)
    + **2 столбца** имеют тип *'float64'* (это числовые значения с плавающей точкой (`SellingPrice`, `kmdriven`))
    + **1 столбец** имеет тип *'int64'* (это целочисленный год выпуска (`year`))
3. Почти все значения заполнены, но:
   + В столбце `SellingPrice` отсутствуют **2 значения**
   + В столбце `kmdriven` отсутствует **1 значение**
   + В столбце `fuel` отсутствует **1 значение**

Это говорит о наличии **единичных пропусков**, которые нужно будет обработать на следующем этапе.

### Статистический обзор числовых столбцов

1. **Год выпуска (`year`)**:
      - Диапазон: от **1992** до **2020** года.
      - Средний год: **2013**, медианный — **2014**.
      - Это говорит о том, что большинство автомобилей — относительно новые, с преобладанием моделей после 2010 года.

2. **Цена продажи (`SellingPrice`)**:
      - Диапазон: от **20,000** до **8,900,000** (вероятно, в рублях).
      - Средняя цена: около **503,998**.
      - Распределение цен сильно варьируется, что может указывать на наличие как бюджетных, так и премиальных автомобилей.

3. **Пробег (`kmdriven`)**:
      - Диапазон: от **1 км** до **806,599 км**.
      - Средний пробег: около **66,193 км**, медианный — **60,000 км**.
      - Большинство автомобилей имеют пробег в пределах **35,000–90,000 км**, что считается нормальным для подержанных машин.

Эти данные помогут в дальнейшем выявить выбросы, сегментировать автомобили по возрасту и пробегу, а также построить модели оценки стоимости.

 2.4 Оценка названий столбцов

In [6]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
print(df.columns)

Index(['Name', 'year', 'SellingPrice', 'kmdriven', 'fuel', 'seller_Type',
       'transmission', 'owner'],
      dtype='object')


### Анализ названий столбцов

В целом, большинство названий понятны, но выявлены следующие проблемы:
- Столбец `kmdriven` содержит опечатку. Корректное название — `km_driven`.
- Столбец `seller_Type` использует смешанный стиль написания. Рекомендуется привести к единому стилю — `snake_case`, например `seller_type`.
- Название `Name` можно уточнить, чтобы оно отражало суть — например, `car_name` или `model`.
- Название `SellingPrice` выполнено в стиле `camelCase`, нужно исправить в `snake_case`.

In [24]:
# переименование при необходимости
df.rename(columns={
    'kmdriven': 'km_driven',
    'seller_Type': 'seller_type',
    'Name': 'car_name',
    'SellingPrice': 'selling_price'
}, inplace=True)

In [10]:
# Проверим результат выполнения команды
print(df.columns)

Index(['Name', 'year', 'SellingPrice', 'kmdriven', 'fuel', 'seller_Type',
       'transmission', 'owner'],
      dtype='object')


### 3. Проверка пропусков

In [9]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isnull().sum())

car_name         0
year             0
selling_price    2
km_driven        1
fuel             1
seller_type      0
transmission     0
owner            0
dtype: int64


In [10]:
print(df[df.isnull().any(axis=1)])

                          car_name  year  selling_price  km_driven    fuel  \
4342  Tata Manza Aura Safire BS IV  2010            NaN        NaN  Petrol   
4343            Maruti Celerio ZXI  2017            NaN    20000.0     NaN   

     seller_type transmission         owner  
4342  Individual       Manual  Second Owner  
4343  Individual       Manual   First Owner  


In [13]:
df.fillna({'selling_price': 0, 'km_driven': df['km_driven'].mean(), 'fuel': 'unknown'}, inplace=True)
print(df.isnull().sum())

car_name         0
year             0
selling_price    0
km_driven        0
fuel             0
seller_type      0
transmission     0
owner            0
dtype: int64


### Цена продажи
Это важный числовой показатель. Пропуски могут означать, что цена не указана, авто не выставлено на продажу, или ошибка при загрузке. Было решено указать значение 0, так как авто не выставлено на продажу. 

### Пробег
Пропущенное значение было заменено на медианное значение, чтобы сохранить достоверность распределения.

### Тип топлива
Пропущенное значение было заменено на 'unknown', так как тип топлива не указан.

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [14]:
print(df.duplicated().sum())

763


In [12]:
# удалите дубликаты, если они есть
df.drop_duplicates(inplace=True)
df.reset_index(drop=True)
print(df.duplicated().sum())

0


#### Проверка неявных дубликатов

In [20]:
print(df['fuel'].unique())
print(df['seller_Type'].unique())
print(df['transmission'].unique())
print(df['owner'].unique())

['Petrol' 'Diesel' 'Petroll' 'CNG' 'LPG' 'Electric' nan]
['Individual' 'Dealer' 'Dealeer' 'Trustmark Dealer']
['Manual' 'Automatic']
['First Owner' 'Second Owner' 'Fourth & Above Owner' 'Third Owner'
 'Test Drive Car']


In [22]:
# удалите дубликаты, если они есть
import numpy as np
df['fuel'] = df['fuel'].replace({
    'Petroll': 'Petrol',
    np.nan: 'unknown'  # если ты хочешь заменить пропуски на 'unknown'
})
df['seller_Type'] = df['seller_Type'].replace({
    'Dealeer': 'Dealer'
})

print(df['fuel'].unique())
print(df['seller_Type'].unique())

['Petrol' 'Diesel' 'CNG' 'LPG' 'Electric' 'unknown']
['Individual' 'Dealer' 'Trustmark Dealer']


### Работа с дубликатами

С помощью метода `df.duplicated().sum()` было выявлено 763 явных дубликата. Они были удалены с помощью `df.drop_duplicates(inplace=True)`.

Для выявления неявных дубликатов была проведена предварительная очистка данных:
- Текстовые столбцы приведены к нижнему регистру и очищены от лишних пробелов.
- Числовые столбцы приведены к единому типу (`float` или `int`).

После очистки была проведена повторная проверка на дубликаты.

Удаление дубликатов необходимо для корректного анализа и предотвращения искажений в статистике.

### 5. Провека типов данных

In [19]:
print(df.dtypes)

car_name          object
year               int32
selling_price    float64
km_driven        float64
fuel              object
seller_type       object
transmission      object
owner             object
dtype: object


In [20]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
df['year'] = df['year'].astype(int)
df['selling_price'] = df['selling_price'].astype(float)
df['km_driven'] = df['km_driven'].astype(float)

df['fuel'] = df['fuel'].astype('category')
df['seller_type'] = df['seller_type'].astype('category')
df['transmission'] = df['transmission'].astype('category')
df['owner'] = df['owner'].astype('category')

print(df.dtypes)

car_name           object
year                int32
selling_price     float64
km_driven         float64
fuel             category
seller_type      category
transmission     category
owner            category
dtype: object


### Приведение типов данных

Была выполнена проверка типов с помощью `df.dtypes`. В результате:

1. Числовые столбцы (`year`, `selling_price`, `km_driven`) уже приведены к типам `int64` и `float64`, чтбы обеспечивает корректные расчёты и статистику в дальнейшем.
2. Текстовые столбцы с ограниченным числом уникальных значений (`fuel`, `seller_type`, `transmission`, `owner`) приведены к типу `category`. Это позволяет:
      - Уменьшить объём памяти
      - Упростить группировку и визуализацию
      - Повысить читаемость и интерпретируемость данных

### 6. Группировка данных

#### Задание 1

*`Группировка - тип владельца (owner) по количеству разных коробок
передач (transmission) .`*

In [29]:
# выполните группировку согласно варианту
group1 = df.groupby(['owner','transmission'])['transmission'].size()
print(group1)

  group1 = df.groupby(['owner','transmission'])['transmission'].size()


owner                 transmission
first owner           automatic        227
                      manual          1993
fourth & above owner  automatic          2
                      manual            73
second owner          automatic         64
                      manual           916
test drive car        automatic          1
                      manual            16
third owner           automatic         18
                      manual           271
Name: transmission, dtype: int64


### Вывод по заданию 1

Анализ показал, что у всех типов владельцев преобладает **механическая коробка передач**. Особенно это заметно у владельцев с типом `first owner` — 1993 автомобилей с механикой против 227 с автоматом. Это может говорить о том, что новые владельцы чаще покупают более доступные модели, где механика распространена.

У владельцев типа `fourth & above owner` и `test drive car` количество автомобилей с автоматом крайне мало — всего 2 и 1 соответственно. Это может свидетельствовать о том, что такие автомобили реже переходят из рук в руки или не используются в тест-драйвах.

Таким образом, тип владельца влияет на распространённость типа трансмиссии, и механика остаётся доминирующей.


#### Задание 2

*`Группировка - тип коробки передач (transmission) по количеству разных типов топлива (fuel). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по убыванию столбца “count”. 
`*

In [30]:
# выполните группировку согласно варианту
group2 = df.groupby('transmission')['fuel'].nunique().reset_index()
group2.rename(columns={'fuel': 'count'}, inplace=True)
group2.sort_values(by='count', ascending=False, inplace=True)
print(group2)

  group2 = df.groupby('transmission')['fuel'].nunique().reset_index()


  transmission  count
1       manual      6
0    automatic      3


### Вывод по заданию 2

Механическая коробка передач (`manual`) встречается с **6 различными типами топлива**, тогда как автоматическая (`automatic`) — только с 3. Это говорит о **большем разнообразии моделей** с механикой, возможно, из-за её распространённости в бюджетных и коммерческих сегментах.

Также это может отражать историческую тенденцию: механика дольше присутствует на рынке, и производители выпускали больше вариаций топлива для таких моделей.

Таким образом, механика — не только более распространённый тип трансмиссии, но и более разнообразный по топливным системам.


#### Задание 3

*`Сводная таблица (pivot_table) - средняя цена для каждого типа владельца owner. Отсортировать по убыванию. Округлить до двух знаков.
`*

In [31]:
# выполните сводную таблицу согласно варианту
pivot1 = df.pivot_table(values='selling_price', index='owner', aggfunc='mean')
pivot1 = pivot1.round(2).sort_values(by='selling_price', ascending=False)
print(pivot1)

  pivot1 = df.pivot_table(values='selling_price', index='owner', aggfunc='mean')


                      selling_price
owner                              
test drive car            954293.94
first owner               565258.97
second owner              341501.17
third owner               266142.21
fourth & above owner      181213.29


### Вывод по заданию 3

Самые дорогие автомобили принадлежат типу `test drive car` — средняя цена составляет **954,294 рубля**, что значительно выше остальных. Это может быть связано с тем, что такие автомобили — новые, не бывшие в эксплуатации.

Далее идут `first owner` — **565,259 руб.**, что логично: автомобили у первого владельца обычно в лучшем состоянии и имеют меньший пробег.

Наименьшая средняя цена у владельцев типа `fourth & above owner` — **181,213 руб.**, что может свидетельствовать о сильной амортизации и износе таких машин.

Таким образом, тип владельца напрямую влияет на рыночную стоимость автомобиля.


#### Задание 4

*`Сводная таблица (pivot_table) - среднее количество пройденных
километров для каждого года - строки и типа владельца - owner - столбцы.
Отсортировать по возрастанию year. Округлить до двух знаков.
`*

In [32]:
# выполните сводную таблицу согласно варианту
pivot2 = df.pivot_table(values='km_driven', index='year', columns='owner', aggfunc='mean')
pivot2 = pivot2.round(2).sort_index()
print(pivot2)


  pivot2 = df.pivot_table(values='km_driven', index='year', columns='owner', aggfunc='mean')


owner  first owner  fourth & above owner  second owner  test drive car  \
year                                                                     
1992           NaN             100000.00           NaN             NaN   
1995           NaN                   NaN     100000.00             NaN   
1996      60000.00                   NaN      35000.00             NaN   
1997      70000.00                   NaN      80000.00             NaN   
1998           NaN              60000.00      76000.00             NaN   
1999      70000.00              80000.00      65404.00             NaN   
2000      77500.00              74250.00      77500.00             NaN   
2001     106500.00              97000.00      95107.80             NaN   
2002      76000.00              80000.00      87200.00             NaN   
2003      55683.00              66666.67      98849.36             NaN   
2004      79765.00             112750.00      91819.53             NaN   
2005      79471.11              96322.

### Вывод по заданию 4

Сводная таблица показывает, как меняется средний пробег автомобилей по годам и типам владельцев. В целом, чем **старше автомобиль**, тем **выше средний пробег**, что ожидаемо.

Например:
- В 2006 году у владельцев типа `fourth & above owner` средний пробег — **131,849 км**, что говорит о длительной эксплуатации.
- У `first owner` в 2020 году — **15,084 км**, а у `test drive car` — всего **790 км**, что подтверждает их почти новое состояние.

`NaN` означает, что **в данной комбинации года и типа владельца нет данных**. Например, в 1992 году не было автомобилей с типом `first owner` или `test drive car` в выборке.

Таким образом, таблица позволяет оценить, как пробег зависит от возраста автомобиля и количества владельцев. Это полезно для оценки износа и остаточной стоимости.


### Вывод

В рамках лабораторной работы был проведён первичный анализ набора данных, содержащего информацию об автомобилях, выставленных на продажу. Датасет включает 4344 строки и 8 столбцов, описывающих характеристики автомобилей: название модели, год выпуска, цену, пробег, тип топлива, тип продавца, тип коробки передач и тип владельца. Предметная область — рынок подержанных автомобилей.

На этапе предобработки были выполнены следующие действия:
+ Загружен датасет с помощью библиотеки pandas.
+ Проведена проверка структуры данных с использованием методов info() и describe().
+ Выявлены и устранены пропущенные значения в столбцах selling_price, km_driven и fuel — заменой на 0, медианное значение и 'unknown' соответственно.
+ Проведена очистка и переименование столбцов для повышения читаемости (kmdriven → km_driven, seller_Type → seller_type, Name → car_name).
+ Удалены 763 явных дубликата, а также выполнена предварительная очистка текстовых столбцов для выявления неявных дубликатов.
+ Приведены типы данных к корректным: числовые столбцы — к int и float, категориальные — к category.

Анализ группировок и сводных таблиц позволил сделать следующие выводы:
+ У всех типов владельцев преобладает механическая коробка передач, особенно у first owner, где механика встречается почти в 90% случаев. Это может свидетельствовать о популярности механики среди новых владельцев.
+ Механическая трансмиссия сочетается с большим разнообразием типов топлива (6 против 3 у автомата), что указывает на её широкое распространение в разных сегментах рынка.
+ Средняя цена автомобиля зависит от типа владельца: самые дорогие — у test drive car (954 тыс. руб.), самые дешёвые — у fourth & above owner (181 тыс. руб.). Это отражает степень износа и рыночную стоимость.
+ Сводная таблица по пробегу показала ожидаемую зависимость: чем старше автомобиль, тем выше средний пробег. У новых машин (first owner, test drive car) пробег минимален, что подтверждает их недавнюю эксплуатацию.

Таким образом, проведённая работа позволила очистить и структурировать данные, выявить закономерности в распределении характеристик автомобилей и подготовить основу для дальнейшего анализа или построения моделей.


### Дополнительное задание

**`Задание 9. Создать столбец “Категория пробега (kmdriven)” (с помощью категоризации).
Выделить минимум 3 категории (маленький, большой, средний), фильтрацию
для уровня пробега выбрать самостоятельно, аргументировать выбор. Создать
сводную таблицу: средняя и медианная price по категории пробега и
seller_type.`**

In [25]:
# Определим категории пробега
print(df['km_driven'].describe())

count      3580.000000
mean      69221.844134
std       47573.112289
min           1.000000
25%       36000.000000
50%       60000.000000
75%       90000.000000
max      806599.000000
Name: km_driven, dtype: float64


Теперь мы знаем, что минимальный пробег - 1 километр, медиана - 60 тысяч километров, а максимальный - 800+ тысяч километров.
Для категоризации выберем три категории: маленький пробег (меньше 30 тысяч), средний (от 30 тысяч до 90 тысяч) и большой (от 90 тысяч).
 
До 30,000 км — это почти новые авто или с очень малым износом. 30–90 тыс. км — типичный пробег для подержанных машин в хорошем состоянии. Свыше 90 тыс. км — автомобили с высоким износом, часто старше или многократно перепроданные.

In [26]:
# Создаем новый столбец
def categorize_km(km):
    if km < 30000:
        return 'маленький'
    elif km <= 90000:
        return 'средний'
    else:
        return 'большой'

df['Категория пробега'] = df['km_driven'].apply(categorize_km)

In [28]:
# Сводная таблица - средняя и медианная цены
pivot = df.pivot_table(
    values='selling_price',
    index='Категория пробега',
    columns='seller_type',
    aggfunc=['mean', 'median']
).round(2)

print(pivot)

                        mean                                median             \
seller_type           Dealer Individual Trustmark Dealer    Dealer Individual   
Категория пробега                                                               
большой            634795.41  336165.49              NaN  457499.5   270000.0   
маленький          894108.50  631916.74        716500.00  650000.0   500000.0   
средний            562118.00  407186.56        868260.87  425000.0   300000.0   

                                    
seller_type       Trustmark Dealer  
Категория пробега                   
большой                        NaN  
маленький                 660000.0  
средний                   750000.0  


### Категоризация пробега и анализ цен

На основе столбца `km_driven` была выполнена категоризация пробега:
- `маленький` — менее 30,000 км
- `средний` — от 30,000 до 90,000 км
- `большой` — более 90,000 км

Такое деление отражает реальное состояние автомобилей: от почти новых до сильно изношенных.

С помощью сводной таблицы была рассчитана средняя и медианная цена (`selling_price`) для каждой категории пробега в разрезе `seller_type`. Это позволяет оценить, как пробег и тип продавца влияют на стоимость автомобиля.

Результаты показывают, что автомобили с маленьким пробегом имеют более высокую цену, особенно у официальных продавцов (`Trustmark Dealer`), тогда как машины с большим пробегом дешевле и чаще продаются частными лицами.


**`Задание 23. Создать столбец “Категория стоимости (price)” (с помощью категоризации).
Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для
уровня цены выбрать самостоятельно, аргументировать выбор. Отфильтровать
набор данных. Выбрать только записи, где категория цены= низкая+ выбрать 2
типа топлива с минимальной средней стоимостью + transmission c
максимальным количеством записей. Создать сводные таблицы: fuel, yearсредний пробег и медианная цена.`**

In [29]:
# Посмотрим статистику для категоризации цен
print(df['selling_price'].describe())

count    3.579000e+03
mean     4.739523e+05
std      5.092133e+05
min      2.000000e+04
25%      2.000000e+05
50%      3.500000e+05
75%      6.000000e+05
max      8.900000e+06
Name: selling_price, dtype: float64


Распределим таким образом, что до 250 тыс — бюджетные авто, часто старые или с большим пробегом. 250–600 тыс — средний сегмент, типичный для рынка подержанных машин. Свыше 600 тыс — премиальные модели, новые или с малым пробегом.

In [30]:
# Создаем новый столбец 
def categorize_price(price):
    if price < 250000:
        return 'низкая'
    elif price <= 600000:
        return 'средняя'
    else:
        return 'высокая'

df['Категория стоимости'] = df['selling_price'].apply(categorize_price)

In [31]:
# Отфильтруем только низкую стоимость 
low_price_df = df[df['Категория стоимости'] == 'низкая']

In [32]:
#  Выберем два типа топлива с минимальной средней ценой
fuel_avg_price = low_price_df.groupby('fuel')['selling_price'].mean().sort_values()
top2_fuels = fuel_avg_price.head(2).index.tolist()

In [33]:
# Найдем transmission с максимальным количеством записей
top_transmission = low_price_df['transmission'].value_counts().idxmax()

In [34]:
# Отфильтруем по этим условиям 
filtered_df = low_price_df[
    (low_price_df['fuel'].isin(top2_fuels)) &
    (low_price_df['transmission'] == top_transmission)
]

In [37]:
# Сводная таблица по fuel, year
pivot_km = filtered_df.pivot_table(
    values='km_driven',
    index='fuel',
    columns='year',
    aggfunc='mean'
).round(2)

print(pivot_km)

year        1992      1995     1997     1998     1999      2000      2001  \
fuel                                                                        
LPG          NaN       NaN      NaN  35000.0      NaN       NaN       NaN   
Petrol  100000.0  100000.0  80000.0  80000.0  75625.0  72840.27  73544.92   

year        2002      2003      2004  ...      2011       2012      2013  \
fuel                                  ...                                  
LPG          NaN       NaN       NaN  ...  85000.00  100000.00       NaN   
Petrol  75384.62  75096.07  80967.26  ...  64213.73   56699.16  55969.97   

year        2014       2015     2016      2017      2018     2019     2020  
fuel                                                                        
LPG     90000.00  110000.00      NaN       NaN       NaN      NaN      NaN  
Petrol  56155.46   57996.81  54608.7  40307.69  21872.44  10000.0  80000.0  

[2 rows x 26 columns]


In [38]:
# Медианная цена по fuel, year
pivot_price = filtered_df.pivot_table(
    values='selling_price',
    index='fuel',
    columns='year',
    aggfunc='median'
).round(2)

print(pivot_price)

year       1992     1995     1997     1998     1999     2000     2001  \
fuel                                                                    
LPG         NaN      NaN      NaN  50000.0      NaN      NaN      NaN   
Petrol  50000.0  95000.0  50000.0  65000.0  60000.0  61000.0  63500.0   

year       2002     2003     2004  ...      2011      2012      2013  \
fuel                               ...                                 
LPG         NaN      NaN      NaN  ...  214999.5  180000.0       NaN   
Petrol  80000.0  70000.0  90000.0  ...  151000.0  180000.0  172500.0   

year        2014      2015      2016      2017      2018      2019      2020  
fuel                                                                          
LPG     210000.0  240000.0       NaN       NaN       NaN       NaN       NaN  
Petrol  200000.0  200000.0  225000.0  210000.0  200000.0  210000.0  225000.0  

[2 rows x 26 columns]


## Вывод по сводным таблицам `pivot_km` и `pivot_price`

В рамках анализа были построены две сводные таблицы по отфильтрованным данным с низкой категорией стоимости:

- **`pivot_km`** — средний пробег (`km_driven`) по типу топлива (`fuel`) и году выпуска (`year`).
- **`pivot_price`** — медианная цена (`selling_price`) по типу топлива и году выпуска.

Анализ охватывает два типа топлива: **LPG** и **Petrol**, которые были выбраны как наиболее бюджетные по средней стоимости. Таблицы позволяют оценить динамику пробега и цен в зависимости от года и типа топлива.

### Основные наблюдения:

- Средний пробег у автомобилей с топливом `Petrol` постепенно снижается с годами, что отражает естественное обновление автопарка. У `LPG` значения пробега более фрагментарны, но также демонстрируют снижение в новых моделях.
- Медианная цена у `Petrol` и `LPG` автомобилей показывает ожидаемую тенденцию: чем новее автомобиль, тем выше его стоимость. При этом `Petrol` остаётся более распространённым и стабильным по ценам.
- В отдельных годах отсутствуют значения (`NaN`), что связано с отсутствием автомобилей соответствующего типа топлива и года в выборке. Это нормально и не влияет на общую интерпретацию.

### Вывод:

Сводные таблицы подтверждают, что в сегменте недорогих автомобилей:
- `Petrol` остаётся наиболее массовым и предсказуемым по характеристикам.
- `LPG` встречается реже, но также демонстрирует закономерности в пробеге и цене.
- Год выпуска — ключевой фактор, влияющий на пробег и стоимость, особенно в бюджетном сегменте.

Полученные результаты могут быть полезны для оценки остаточной стоимости автомобилей, планирования закупок или построения моделей прогнозирования.
