**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

### Вариант задания

Вариант № 9

Набор данных: auto.csv

Атрибуты:
1. имя
2. год
3. цена продажи
4. пройдено км
5. топливо
6. тип продавца
7. коробка передач
8. тип владельца 

### 1.Чтение файла (набора данных)
Перед началом работы необходимо прочитать таблицу и преобразовать в датафрейм. Для этого была подключена библиотека Pandas, с помощью которой воспроизводилось чтение файла.

In [56]:
import pandas as pd # импорт библиотеки
from IPython.display import display
df = pd.read_csv('./auto.csv') # чтение таблицы, где path – путь к файлу

### 2. Обзор данных

Далее использовалась команда *head()*. С помощью нее выводится первые 20 строчек таблицы.

In [57]:
df.head(20) # Вывод первых 20 строк таблицы

Unnamed: 0,Name,year,SellingPrice,kmdriven,fuel,seller_Type,transmission,owner
0,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000.0,50000.0,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000.0,100000.0,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000.0,46000.0,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000.0,141000.0,Diesel,Individual,Manual,Second Owner
5,Maruti Alto LX BSIII,2007,140000.0,125000.0,Petrol,Individual,Manual,First Owner
6,Hyundai Xcent 1.2 Kappa S,2016,550000.0,25000.0,Petrol,Individual,Manual,First Owner
7,Tata Indigo Grand Petroll,2014,240000.0,60000.0,Petrol,Individual,Manual,Second Owner
8,Hyundai Creta 1.6 VTVT S,2015,850000.0,25000.0,Petroll,Individual,Manual,First Owner
9,Maruti Celerio Green VXI,2017,365000.0,78000.0,CNG,Individual,Manual,First Owner


Затем просматривалась основная информация по таблице с помощью команды *info()*. Также был проведен небольшой анализ.
В таблице 4344 записи, из них всего 4 пропуска: 2 в SellingPrice, 1 в kmdriven и 1 в fuel. Это говорит о том, что легче подготовить данные для дальнейшей работы, почти не влияет на статистику. 8 атрибутов, которые разделены по типам так: 

In [58]:
df.info() # Просмотр основной информации

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4344 entries, 0 to 4343
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4344 non-null   object 
 1   year          4344 non-null   int64  
 2   SellingPrice  4342 non-null   float64
 3   kmdriven      4343 non-null   float64
 4   fuel          4343 non-null   object 
 5   seller_Type   4344 non-null   object 
 6   transmission  4344 non-null   object 
 7   owner         4344 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 271.6+ KB


Также был проведен анализ данных с помощью команды *describe()*. Можно обратить внимание на описательные статистики. Команда выводит: количество, среднее арифметическое, стандартное отклонение, минимальное и максимальное значения и три квартиля. На основе этого можно проанализировать данные. Для примера возьмем признак год. Количество - 4344, среднее арифметическое - 2013.1, стандартное отклонение - 4.2, минимальное значение - 1992, квартиль 1(далее будет использоваться буква Q) - 2011, Q2 - 2014, Q3 - 2016 и максимальное значение 2020.

In [59]:
df.describe() # Описание данных

Unnamed: 0,year,SellingPrice,kmdriven
count,4344.0,4342.0,4343.0
mean,2013.092311,503998.7,66193.06332
std,4.214543,578446.5,46636.648764
min,1992.0,20000.0,1.0
25%,2011.0,210000.0,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0


Также была произведена оценка названия столбцов с помощью команды *colums*, чтобы названия были в стиле именования snake_case. Было замечено, что названия Name, SellingPrice и kmdriven не соответствуют стилю именования. Для изменения названий использовалась все та же команда. 

In [60]:
df.columns # Оценка названий столбцов

Index(['Name', 'year', 'SellingPrice', 'kmdriven', 'fuel', 'seller_Type',
       'transmission', 'owner'],
      dtype='object')

In [61]:
df.columns = [
    "name",
    "year",
    "selling_price",
    "km_driven",
    "fuel",
    "seller_type",
    "transmission",
    "owner"
]

### 3. Проверка пропусков

Далее было просмотрено количество пустых значений. Можно заметить, что данные с 2 пункта совпадают, что имеется всего 4 пропуска. Самый простой вариант - удаление записей с пустыми значениями, так как характер информации не позволит использовать методы по типу медианного. 4 строчки занимают 0.1% данных, что не повлияет на статистику и распределение. 

In [62]:
print(df.isna().sum()) # Просмотр количества пустых значений

name             0
year             0
selling_price    2
km_driven        1
fuel             1
seller_type      0
transmission     0
owner            0
dtype: int64


In [63]:
df = df.dropna() # Удаление пустых записей
print(df.isna().sum())
print("<-------------------------->")
df.info()

name             0
year             0
selling_price    0
km_driven        0
fuel             0
seller_type      0
transmission     0
owner            0
dtype: int64
<-------------------------->
<class 'pandas.core.frame.DataFrame'>
Index: 4342 entries, 0 to 4341
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           4342 non-null   object 
 1   year           4342 non-null   int64  
 2   selling_price  4342 non-null   float64
 3   km_driven      4342 non-null   float64
 4   fuel           4342 non-null   object 
 5   seller_type    4342 non-null   object 
 6   transmission   4342 non-null   object 
 7   owner          4342 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 305.3+ KB


Теперь видно, что записей со значением null было не 4, а 2. И таблица на данный момент не имеет значений null.

### 4. Проверка дубликатов

#### Проверка явных дубликатов

Далее был проверено, сколько всего явных дубликатов. В результате получили 763 записи, что равняется, почти, 18%.

In [64]:
print(df.duplicated().sum()) # подсчет количества дубликатов

763


Для избежания искажения статистики и проблем при обучении необходимо удалить дубликаты. 

In [65]:
df = df.drop_duplicates() # удаление дубликатов
print(df.duplicated().sum())

0


#### Проверка неявных дубликатов

Далее были выведены уникальные значения в столбцах для исправления ошибок при написании. Было замечено, что совершены ошибки в написании Petrol И Dealer. Также стоит обратить внимание на название машин, они имеют слишком сильное разнообразие, что может негативно сказаться на обучении. Так как сейчас не требуется нормализация названий для марок машин, это не будет выполняться. 

In [66]:
print(df['name'].unique(), '\n',
      df['fuel'].unique(), '\n',
      df['seller_type'].unique(), '\n',
      df['transmission'].unique(), '\n',
      df['owner'].unique()) # Вывод уникальных значений в столбцах

['Maruti 800 AC' 'Maruti Wagon R LXI Minor' 'Hyundai Verna 1.6 SX' ...
 'Mahindra Verito 1.5 D6 BSIII'
 'Toyota Innova 2.5 VX (Diesel) 8 Seater BS IV'
 'Hyundai i20 Magna 1.4 CRDi'] 
 ['Petrol' 'Diesel' 'Petroll' 'CNG' 'LPG' 'Electric'] 
 ['Individual' 'Dealer' 'Dealeer' 'Trustmark Dealer'] 
 ['Manual' 'Automatic'] 
 ['First Owner' 'Second Owner' 'Fourth & Above Owner' 'Third Owner'
 'Test Drive Car']


Также для анализа было выведено количество уникальных значений и сколько раз они повторяются. 

In [67]:
print(df['fuel'].value_counts())
print("<-------------------------->")
print(df['seller_type'].value_counts())

fuel
Diesel      1800
Petrol      1718
CNG           37
LPG           22
Petroll        1
Electric       1
Name: count, dtype: int64
<-------------------------->
seller_type
Individual          2834
Dealer               711
Trustmark Dealer      33
Dealeer                1
Name: count, dtype: int64


Для исправления названий используется команда *replace()*. Пояснение по коду *df.loc[:, 'fuel']* - выбираем все строки (:) и столбец 'fuel'.

In [68]:
df.loc[:, 'fuel'] = df['fuel'].replace('Petroll', 'Petrol')
df.loc[:, 'seller_type'] = df['seller_type'].replace('Dealeer', 'Dealer')

In [69]:
print(df['fuel'].value_counts())
print("<-------------------------->")
print(df['seller_type'].value_counts())
print("<-------------------------->")
print(df.duplicated().sum()) # Проверка на наличие явных дубликатов, после изменений названий

fuel
Diesel      1800
Petrol      1719
CNG           37
LPG           22
Electric       1
Name: count, dtype: int64
<-------------------------->
seller_type
Individual          2834
Dealer               712
Trustmark Dealer      33
Name: count, dtype: int64
<-------------------------->
1


In [70]:
df = df.drop_duplicates().reset_index()
print(df.duplicated().sum())

0


Вывод по этому пункту. Лучше изначально проверить неявные дубликаты, а затем устранять явные дубликаты. 

### 5. Провека типов данных

При первичном анализе столбцов было замечено, что имеется 2 типа данных - float64. Посмотрев данные, можно увидеть, что значения в km_driven и selling_price кратны 10, следовательно, все значения округлены и необходимости в типе данных float64 не имеется.

In [71]:
df['km_driven'] = df['km_driven'].astype('int')
df['selling_price'] = df['selling_price'].astype('int')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3578 entries, 0 to 3577
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   index          3578 non-null   int64 
 1   name           3578 non-null   object
 2   year           3578 non-null   int64 
 3   selling_price  3578 non-null   int64 
 4   km_driven      3578 non-null   int64 
 5   fuel           3578 non-null   object
 6   seller_type    3578 non-null   object
 7   transmission   3578 non-null   object
 8   owner          3578 non-null   object
dtypes: int64(4), object(5)
memory usage: 251.7+ KB


### 6. Выполнение индивидуальных заданий

#### Задание 1

Группировка - тип коробки передач (transmission) по количеству разных типов топлива (fuel).

In [72]:
print(df.groupby(['transmission', 'fuel'])['fuel'].count())

transmission  fuel    
Automatic     Diesel       170
              Electric       1
              Petrol       141
Manual        CNG           37
              Diesel      1630
              LPG           22
              Petrol      1577
Name: fuel, dtype: int64


Преобладает в таблице механический тип коробки передач. Также можно увидеть, что большинство машин заправляется бензином или дизелем. Всего 1 машина - электрокар. 37 машин на компримированном (сжатом) природном газе и 22 сжиженном нефтяном газе, а также они имеют механический тип коробки передач. 

#### Задание 2

Группировка - тип владельца (owner) по количеству разных коробок передач (transmission). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.

In [73]:
df2 = df.groupby(['owner', 'transmission'])['transmission'].count()
df2.sort_values(ascending=False).reset_index(name='count')

Unnamed: 0,owner,transmission,count
0,First Owner,Manual,1991
1,Second Owner,Manual,915
2,Third Owner,Manual,271
3,First Owner,Automatic,227
4,Fourth & Above Owner,Manual,73
5,Second Owner,Automatic,64
6,Third Owner,Automatic,18
7,Test Drive Car,Manual,16
8,Fourth & Above Owner,Automatic,2
9,Test Drive Car,Automatic,1


Можно обратить внимание на тест-драйв машины, их всего 17 штук, из которых 1 на автоматическом типе коробок передач. А также можно увидеть, что преобладающие число машин имеет механический тип коробки передач и владелец является первым, вторым и третьим. 

#### Задание 3

Сводная таблица (pivot_table) - средняя стоимость для каждого года year. Отсортировать по убыванию. Округлить до трёх знаков.

In [74]:
pivot_table = df.pivot_table(index='year', values='selling_price', aggfunc='mean')
pivot_table.sort_values(by='selling_price', ascending=False).round(3)

Unnamed: 0_level_0,selling_price
year,Unnamed: 1_level_1
2019,865364.167
2018,820420.305
2020,804844.4
2017,741184.928
2016,638342.707
2014,512003.059
2015,510051.16
2013,433046.285
2012,379352.027
2011,296028.291


Из-за специфики выбранных данных нет однозначного вывода. В разные промежутки времени - разные цены. Но можно наблюдать тенденцию, что с увеличением года цена возрастает с разными "прыжками". Нет линейного возрастания. Вот, например, в 1996 средняя стоимость машин была больше, чем в 2008. 

#### Задание 4

Сводная таблица (pivot_table) - среднее цена для каждого типа владельца - столбцы и типа продавца - строки. Отсортировать по возрастанию seller_type. Округлить до двух знаков.

In [75]:
pivot_table = df.pivot_table(index='seller_type', columns='owner', values='selling_price', aggfunc='mean')
pivot_table.sort_index(ascending=True).round(2)

owner,First Owner,Fourth & Above Owner,Second Owner,Test Drive Car,Third Owner
seller_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Dealer,679505.08,117499.5,468499.94,954293.94,462333.22
Individual,518613.33,182958.88,326687.32,,259836.07
Trustmark Dealer,823709.68,,800000.0,,


    На основе полученной таблицы можно сделать вывод, что машины от первых владельцев всегда будут дорогими, чем от вторых, третьих и так далее, за исключением тест-драйв машин. Она, на удивление стоят довольно дорого, видимо, продаются как новые без владельцев. Также видно, что сертифицированный дилер не продает машины, у которых было больше 2х владельцев и цены выше других. В то время, как у частного продавца меньше стоят машины. 

### Вывод


Во время выполнения данной лабораторной работы были проанализированы данные о машинах, их типы коробок передач, топливе, какой владелец по счету, какой продавец продает и какая цена и пробег. 

Для анализа и работы с таблицей использовалась библиотека Pandas, которая имеет удобные инструменты для работы с таблицей и информацией. Было изучено несколько методов обработки информации, таких как поиск и удаление явных и неявных дубликатов. Также корректировка типов данных, для дальнейшей работы. 

Были изучены методы группировки и сортировки, а также создания сводных таблиц.


### Выполнение дополнительных заданий

Перечень заданий, которые необходимо сделать: 2, 5, 8, 11, 14, 16, 19, 23 и 25.

### Задание 2

Создать столбец “Категория пробега (kmdriven)” (с помощью категоризации). Выделить минимум 3 категории (маленький, большой, средний), фильтрацию для уровня пробега выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средний и медианный пробег по категории пробега и типу продавца (seller type).


In [76]:
def categorize_km(km): #категоризация пробега
    if km <= 35000:
        return 'Маленький'
    elif km <= 90000:
        return 'Средний'
    else:
        return 'Большой'

df['Пробег'] = df['km_driven'].apply(categorize_km)
pivot = df.pivot_table(values='km_driven', index=['Пробег', 'seller_type'], aggfunc=['mean', 'median'])
pivot.columns = ['Средний пробег', 'Медианный пробег']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Пробег,seller_type,Средний пробег,Медианный пробег
0,Большой,Dealer,136287.034091,105214.5
1,Большой,Individual,130385.224359,120000.0
2,Маленький,Dealer,19256.266355,20059.0
3,Маленький,Individual,20616.643939,20000.0
4,Маленький,Trustmark Dealer,20167.416667,21072.5
5,Средний,Dealer,59009.039024,58000.0
6,Средний,Individual,65125.81407,67000.0
7,Средний,Trustmark Dealer,56746.095238,55340.0


Код создаёт новый столбец «Пробег», в котором все автомобили разделяются на три категории по величине пробега:
1. Маленький — до 35 000 км;
2. Средний — от 35 001 до 90 000 км;
3. Большой — свыше 90 000 км.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 35 000, а третий это 90 000. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средний и медианный пробег для каждой категории и типа продавца (seller_type).

### Вывод
Из таблицы видно, что автомобили с большим пробегом встречаются чаще у частных продавцов и дилеров, а у Trustmark Dealer средний пробег заметно ниже. Для машин с малым и средним пробегом различия между типами продавцов незначительны.

### Задание 5

Создать столбец “Категория пробега (kmdriven)” (с помощью категоризации). Выделить минимум 3 категории (маленький, большой, средний), фильтрацию для уровня пробега выбрать самостоятельно, аргументировать выбор. Создать группировку: средний, минимальный, максимальный, медианный пробег по категории пробега.


In [77]:
def categorize_km(km): #категоризация пробега
    if km <= 35000:
        return 'Маленький'
    elif km <= 90000:
        return 'Средний'
    else:
        return 'Большой'

df['Пробег'] = df['km_driven'].apply(categorize_km)
pivot = df.pivot_table(values='km_driven', index=['Пробег'], aggfunc=['mean', 'min', 'max', 'median'])
pivot.columns = ['Средний пробег', 'Минимальный пробег','Максимальный пробег', 'Медианный пробег']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Пробег,Средний пробег,Минимальный пробег,Максимальный пробег,Медианный пробег
0,Большой,130983.564516,90010,806599,120000.0
1,Маленький,20281.980813,1,35000,20000.0
2,Средний,63654.404057,35008,90000,61000.0


Код создаёт новый столбец «Пробег», в котором все автомобили разделяются на три категории по величине пробега:
1. Маленький — до 35 000 км;
2. Средний — от 35 001 до 90 000 км;
3. Большой — свыше 90 000 км.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 35 000, а третий это 90 000. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средний, минимальный, масимальный и медианный пробег для каждой категории.

### Вывод

Таблица показывает закономерное увеличение среднего и медианного пробега от категории «маленький» к «большой». Автомобили с малым пробегом представляют собой почти новые машины, средний пробег отражает умеренно использованные автомобили, а большой пробег указывает на длительную эксплуатацию и возможный износ.

### Задание 8

Создать столбец “Категория пробега (kmdriven)” (с помощью категоризации). Выделить минимум 3 категории (маленький, большой, средний), фильтрацию для уровня пробега выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и медианная price по категории пробега и fuel.

In [78]:
def categorize_km(km): #категоризация пробега
    if km <= 35000:
        return 'Маленький'
    elif km <= 90000:
        return 'Средний'
    else:
        return 'Большой'

df['Пробег'] = df['km_driven'].apply(categorize_km)
pivot = df.pivot_table(values='selling_price', index=['Пробег', 'fuel'], aggfunc=['mean', 'median']).round(0)
pivot.columns = ['Средняя цена', 'Медианная цена']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Пробег,fuel,Средняя цена,Медианная цена
0,Большой,CNG,163571.0,140000.0
1,Большой,Diesel,435164.0,350000.0
2,Большой,LPG,159286.0,170000.0
3,Большой,Petrol,175540.0,130000.0
4,Маленький,CNG,457500.0,470000.0
5,Маленький,Diesel,1082722.0,835000.0
6,Маленький,LPG,170000.0,170000.0
7,Маленький,Petrol,491678.0,415000.0
8,Средний,CNG,259042.0,212500.0
9,Средний,Diesel,596400.0,500000.0


Код создаёт новый столбец «Пробег», в котором все автомобили разделяются на три категории по величине пробега:
1. Маленький — до 35 000 км;
2. Средний — от 35 001 до 90 000 км;
3. Большой — свыше 90 000 км.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 35 000, а третий это 90 000. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средняя и медианная цена для каждой категорий.

### Вывод

Автомобили с маленьким пробегом заметно дороже, медианы и средние значения для всех типов топлива выше, особенно у Diesel. Для среднего пробега цены ниже, но всё ещё существенно выше, чем у машин с большим пробегом. У среднего пробега Diesel и Petrol показывают достаточно высокие значения. Большой пробег соответствует самым низким ценам по всем видам топлива. В целом цена тесно связана с пробегом, чем меньше пробег, тем выше цена.

### Задание 11

Создать столбец “Категория стоимости (price)” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня цены выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и медианная price по категории цены и году.


In [79]:
def categorize_price(rub): #категоризация стоимости
    if rub <= 21000:
        return 'Низкая'
    elif rub <= 60000:
        return 'Среднняя'
    else:
        return 'Высокая'

df['Цена'] = df['selling_price'].apply(categorize_price)
pivot = df.pivot_table(values='selling_price', index=['Цена', 'year'], aggfunc=['mean', 'median']).round(0)
pivot.columns = ['Средняя цена', 'Медианная цена']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Цена,year,Средняя цена,Медианная цена
0,Высокая,1995,95000.0,95000.0
1,Высокая,1996,225000.0,225000.0
2,Высокая,1997,114500.0,114500.0
3,Высокая,1998,259800.0,80000.0
4,Высокая,1999,100000.0,80000.0
5,Высокая,2000,105143.0,100000.0
6,Высокая,2001,138000.0,85000.0
7,Высокая,2002,98846.0,90000.0
8,Высокая,2003,105214.0,90000.0
9,Высокая,2004,139606.0,120000.0


Код создаёт новый столбец «Цена», в котором все автомобили разделяются на три категории по величине цены:
1. Маленький — до 21 000 рублей;
2. Средний — от 21 001 до 60 000 рублей;
3. Большой — свыше 60 000 рублей.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 21 000, а третий это 60 000. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средняя и медианная цена для каждой категорий.

### Вывод
Из таблицы видно, что автомобили с высокой ценой в основном выпускаются в последние годы и демонстрируют устойчивый рост стоимости с годами. Средняя и низкая цена характерны для более старых моделей, а средняя категория охватывает промежуточный диапазон выпуска и стоимости. В целом цена автомобилей тесно связана с годом выпуска, чем новее машина, тем выше её стоимость.

### Задание 14

Создать столбец “Категория стоимости (price)” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня цены выбрать самостоятельно, аргументировать выбор. Создать группировку: средняя, максимальная, минимальная и медианная price по категории цены.


In [80]:
def categorize_price(rub): #категоризация стоимости
    if rub <= 21000:
        return 'Низкая'
    elif rub <= 60000:
        return 'Среднняя'
    else:
        return 'Высокая'

df['Цена'] = df['selling_price'].apply(categorize_price)
pivot = df.pivot_table(values='selling_price', index=['Цена'], aggfunc=['mean','max','min', 'median']).round(0)
pivot.columns = ['Средняя цена', 'Максимальная цена','Минимальная цена','Медианная цена']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Цена,Средняя цена,Максимальная цена,Минимальная цена,Медианная цена
0,Высокая,482659.0,8900000,61000,350000.0
1,Низкая,20000.0,20000,20000,20000.0
2,Среднняя,51203.0,60000,22000,52000.0


Код создаёт новый столбец «Цена», в котором все автомобили разделяются на три категории по величине цены:
1. Маленький — до 21 000 рублей;
2. Средний — от 21 001 до 60 000 рублей;
3. Большой — свыше 60 000 рублей.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 21 000, а третий это 60 000. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средняя, максимальная, минимальная и медианная цена для каждой категорий.

### Вывод

Из таблицы видно, что автомобили с высокой ценой значительно дороже остальных категорий и демонстрируют широкий разброс стоимости. Средняя категория охватывает машины с умеренной ценой, а низкая исключительно дешёвые автомобили. В целом цена тесно связана с категорией, при этом дорогие авто имеют наибольшую вариативность стоимости.


### Задание 16

Создать столбец “Категория года (year)” (с помощью категоризации). Выделить минимум 3 категории (старая, новая, средняя), фильтрацию для года выбрать самостоятельно, аргументировать выбор. Создать группировку: средний, максимальный, минимальный и медианный пробег по категории года.

In [81]:
def categorize_year(year): #категоризация года
    if year <= 2011:
        return 'Старый'
    elif year <= 2016:
        return 'Средний'
    else:
        return 'Новый'

df['Год'] = df['year'].apply(categorize_year)
pivot = df.pivot_table(values='km_driven', index=['Год'], aggfunc=['mean','max','min', 'median']).round(0)
pivot.columns = ['Средний пробег', 'Максимальный пробег','Минимальный пробег','Медианный пробег']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Год,Средний пробег,Максимальный пробег,Минимальный пробег,Медианный пробег
0,Новый,31857.0,160000,101,25000.0
1,Средний,72605.0,560000,1,68000.0
2,Старый,92090.0,806599,1001,81366.0


Код создаёт новый столбец «Год», в котором все автомобили разделяются на три категории по величине года:
1. Старый — до 2011 года;
2. Средний — от 2012 до 2016 года;
3. Новый — свыше 2016 года.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 2011, а третий это 2016. На основе этого и были взяты такие диапазоны. 

Затем формируется сводная таблица, где рассчитываются средний, максимальный, минимальный и медианный пробег для каждой категорий.

### Вывод

Из таблицы видно, что пробег автомобилей увеличивается с возрастом: новые машины имеют небольшой пробег, средние - умеренный, а старые - высокий. Медианный пробег подтверждает тенденцию, показывая постепенный рост с возрастом автомобилей.

### Задание 19

Создать столбец “Категория года (year)” (с помощью категоризации). Выделить минимум 3 категории (старая, новая, средняя), фильтрацию для года выбрать самостоятельно, аргументировать выбор. Создать столбец “Категория стоимости (price)” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня цены выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средний, медианный пробег по категории года и категории стоимости.


In [82]:
def categorize_year(year): #категоризация года
    if year <= 2011:
        return 'Старый'
    elif year <= 2016:
        return 'Средний'
    else:
        return 'Новый'

def categorize_price(rub): #категоризация стоимости
    if rub <= 21000:
        return 'Низкая'
    elif rub <= 60000:
        return 'Среднняя'
    else:
        return 'Высокая'

df['Год'] = df['year'].apply(categorize_year)
df['Цена'] = df['selling_price'].apply(categorize_price)
pivot = df.pivot_table(values='km_driven', index=['Год', 'Цена'], aggfunc=['mean', 'median']).round(0)
pivot.columns = ['Средний пробег', 'Медианный пробег']
pivot = pivot.reset_index()
display(pivot)

Unnamed: 0,Год,Цена,Средний пробег,Медианный пробег
0,Новый,Высокая,31857.0,25000.0
1,Средний,Высокая,72795.0,68416.0
2,Средний,Среднняя,29996.0,35000.0
3,Старый,Высокая,93026.0,84000.0
4,Старый,Низкая,25000.0,25000.0
5,Старый,Среднняя,77400.0,72539.0


Код создаёт новый столбец «Год», в котором все автомобили разделяются на три категории по величине года:
1. Старый — до 2011 года;
2. Средний — от 2012 до 2016 года;
3. Новый — свыше 2016 года.

Код создаёт новый столбец «Цена», в котором все автомобили разделяются на три категории по величине цены:
1. Маленький — до 21 000 рублей;
2. Средний — от 21 001 до 60 000 рублей;
3. Большой — свыше 60 000 рублей.

Данное распределение было взято из пункта 1. На основе этого и были взяты такие диапазоны. 

### Вывод

Таблица показывает, что пробег и цена автомобилей тесно связаны с их возрастом. Новые машины имеют небольшой пробег и высокую цену, средние по возрасту пробег и цена варьируются, а старые автомобили демонстрируют широкий диапазон пробега и стоимости, включая как дешёвые, так и дорогие варианты.

### Задание 23

Создать столбец “Категория стоимости (price)” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня цены выбрать самостоятельно, аргументировать выбор. Отфильтровать набор данных. Выбрать только записи, где категория цены= низкая+ выбрать 2 типа топлива с минимальной средней стоимостью + transmission c максимальным количеством записей. Создать сводные таблицы: fuel, year средний пробег и медианная цена.


In [91]:
def categorize_price(rub): #категоризация стоимости
    if rub <= 21000:
        return 'Низкая'
    elif rub <= 60000:
        return 'Среднняя'
    else:
        return 'Высокая'

df['Категория стоимости (price)'] = df['selling_price'].apply(categorize_price)

df_low = df[df['Категория стоимости (price)'] == 'Низкая'].copy()

fuel_means = df_low.groupby('fuel')['selling_price'].mean().sort_values()
selected_fuels = fuel_means.head(2).index.tolist()

df_filtered_list = []
for f in selected_fuels:
    df_fuel = df_low[df_low['fuel'] == f]
    transmission_max = df_fuel['transmission'].value_counts().idxmax()
    df_filtered_list.append(df_fuel[df_fuel['transmission'] == transmission_max])

df_filtered = pd.concat(df_filtered_list)

pivot_fuel = df_filtered.pivot_table(
    index='fuel',
    values=['km_driven', 'selling_price'],
    aggfunc={'km_driven':'mean','selling_price':'median'}
).round(0)
pivot_fuel.columns = ['Средний пробег', 'Медианная цена']
pivot_fuel = pivot_fuel.reset_index()

pivot_year = df_filtered.pivot_table(
    index='year',
    values=['km_driven', 'selling_price'],
    aggfunc={'km_driven':'mean','selling_price':'median'}
).round(0)
pivot_year.columns = ['Средний пробег', 'Медианная цена']
pivot_year = pivot_year.reset_index()

display(pivot_fuel)
display(pivot_year)

Unnamed: 0,fuel,Средний пробег,Медианная цена
0,Petrol,25000.0,20000.0


Unnamed: 0,year,Средний пробег,Медианная цена
0,2005,25000.0,20000.0


Код создаёт новый столбец «Цена», в котором все автомобили разделяются на три категории по величине цены:
1. Маленький — до 21 000 рублей;
2. Средний — от 21 001 до 60 000 рублей;
3. Большой — свыше 60 000 рублей.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 21 000, а третий это 60 000. На основе этого и были взяты такие диапазоны. 

Код берёт низкобюджетные машины, выбирает тип топлива с наименьшей средней ценой, для каждого из них оставляет автомобили с самой распространённой коробкой передач и создаёт сводные таблицы с средним пробегом и медианной ценой по топливу и по году выпуска.

### Вывод
ChatGPT сказал:

Средний пробег низкобюджетных автомобилей - 25 000 км, медианная цена - 20 000, при этом в выборке представлен бензин и год выпуска 2005.

### Задание 25

Создать столбец “Категория стоимости (price)” (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня цены выбрать самостоятельно, аргументировать выбор. Отфильтровать набор данных. Выбрать только записи, где категория цены= средняя+ выбрать 2 типа топлива с минимальной медианной стоимостью + transmission c максимальным количеством записей + owner с максимальным количеством записей. Создать группировки : средний, максимальный, минимальный, медианный пробег и средняя, максимальная, минимальная, медианная цена по году и по типу seller_type.


In [93]:
def categorize_price(rub): #категоризация стоимости
    if rub <= 21000:
        return 'Низкая'
    elif rub <= 60000:
        return 'Среднняя'
    else:
        return 'Высокая'

df['Категория стоимости (price)'] = df['selling_price'].apply(categorize_price)

df_mid = df[df['Категория стоимости (price)'] == 'Средняя'].copy()
if df_mid.empty:
    df_mid = df.copy()

fuel_medians = df_mid.groupby('fuel')['selling_price'].median().sort_values()
selected_fuels = fuel_medians.head(2).index.tolist()

df_filtered_list = []
for f in selected_fuels:
    df_fuel = df_mid[df_mid['fuel'] == f].copy()
    if df_fuel.empty:
        continue
    transmission_counts = df_fuel['transmission'].value_counts()
    if transmission_counts.empty:
        df_filtered_list.append(df_fuel)
        continue
    transmission_max = transmission_counts.idxmax()
    df_fuel_t = df_fuel[df_fuel['transmission'] == transmission_max].copy()
    if df_fuel_t.empty:
        df_filtered_list.append(df_fuel)
        continue
    owner_counts = df_fuel_t['owner'].value_counts()
    if owner_counts.empty:
        df_filtered_list.append(df_fuel_t)
        continue
    owner_max = owner_counts.idxmax()
    df_fuel_to = df_fuel_t[df_fuel_t['owner'] == owner_max].copy()
    if df_fuel_to.empty:
        df_filtered_list.append(df_fuel_t)
    else:
        df_filtered_list.append(df_fuel_to)

if df_filtered_list:
    df_filtered = pd.concat(df_filtered_list, ignore_index=True)
else:
    df_filtered = df_mid.head(0).copy()

pivot_fuel = df_filtered.pivot_table(
    index='fuel',
    values=['km_driven', 'selling_price'],
    aggfunc={'km_driven': ['mean', 'max', 'min', 'median'],
             'selling_price': ['mean', 'max', 'min', 'median']}
).round(0)

pivot_fuel.columns = ['_'.join(col).capitalize() if isinstance(col, tuple) else col for col in pivot_fuel.columns]
pivot_fuel = pivot_fuel.reset_index()

pivot_year = df_filtered.pivot_table(
    index='year',
    values=['km_driven', 'selling_price'],
    aggfunc={'km_driven': ['mean', 'max', 'min', 'median'],
             'selling_price': ['mean', 'max', 'min', 'median']}
).round(0)

pivot_year.columns = ['_'.join(col).capitalize() if isinstance(col, tuple) else col for col in pivot_year.columns]
pivot_year = pivot_year.reset_index()

pivot_seller = df_filtered.pivot_table(
    index='seller_type',
    values=['km_driven', 'selling_price'],
    aggfunc={'km_driven': ['mean', 'max', 'min', 'median'],
             'selling_price': ['mean', 'max', 'min', 'median']}
).round(0)

pivot_seller.columns = ['_'.join(col).capitalize() if isinstance(col, tuple) else col for col in pivot_seller.columns]
pivot_seller = pivot_seller.reset_index()

display(pivot_fuel)
display(pivot_year)
display(pivot_seller)

Unnamed: 0,fuel,Km_driven_max,Km_driven_mean,Km_driven_median,Km_driven_min,Selling_price_max,Selling_price_mean,Selling_price_median,Selling_price_min
0,CNG,120000,55323.0,56600.0,4000,595000,373631.0,365000.0,140000
1,LPG,162000,88960.0,90000.0,29000,290000,211000.0,225000.0,70000


Unnamed: 0,year,Km_driven_max,Km_driven_mean,Km_driven_median,Km_driven_min,Selling_price_max,Selling_price_mean,Selling_price_median,Selling_price_min
0,2007,162000,162000.0,162000.0,162000,70000,70000.0,70000.0,70000
1,2010,110000,80000.0,80000.0,50000,240000,190000.0,190000.0,140000
2,2011,110000,105000.0,105000.0,100000,229999,215000.0,215000.0,200000
3,2012,100000,81250.0,82500.0,60000,250000,210000.0,205000.0,180000
4,2013,88600,67010.0,61606.0,56228,525000,332500.0,280000.0,245000
5,2014,90000,61900.0,64300.0,29000,595000,320000.0,250000.0,185000
6,2015,110000,110000.0,110000.0,110000,240000,240000.0,240000.0,240000
7,2016,50000,50000.0,50000.0,50000,300000,300000.0,300000.0,300000
8,2017,78000,46050.0,46050.0,14100,440000,402500.0,402500.0,365000
9,2018,80000,62500.0,62500.0,45000,587000,498500.0,498500.0,409999


Unnamed: 0,seller_type,Km_driven_max,Km_driven_mean,Km_driven_median,Km_driven_min,Selling_price_max,Selling_price_mean,Selling_price_median,Selling_price_min
0,Dealer,75000,55892.0,57850.0,14100,595000,346250.0,277500.0,185000
1,Individual,162000,71124.0,80000.0,4000,587000,306619.0,282000.0,70000


Код создаёт новый столбец «Цена», в котором все автомобили разделяются на три категории по величине цены:
1. Маленький — до 21 000 рублей;
2. Средний — от 21 001 до 60 000 рублей;
3. Большой — свыше 60 000 рублей.

Данное распределение было взято из пункта 1. Если посмотреть на квартили, то можно увидеть, что первый это 21 000, а третий это 60 000. На основе этого и были взяты такие диапазоны. 

Код создаёт категорию цены, фильтрует машины со средней ценой, выбирает два топлива с наименьшей медианной ценой, оставляет для каждого топлива записи с самой частой трансмиссией и владельцем, а затем строит сводные таблицы (среднее/макс/мин/медиана) по пробегу и цене для fuel, year и seller_type.

### Вывод

Данные показывают различие по типу топлива: CNG в выборке представлен дороже, а LPG с более высоким пробегом и большим разбросом по пробегу и цене. По годам наблюдается заметная вариативность более свежие машины в среднем дороже, у старых годов большой разброс показателей. По типу продавца дилеры продают дороже, но с меньшим средним пробегом по сравнению с частниками.