**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №9

Набор данных: auto.csv

Атрибуты:
- имя
- год
- цена продажи
- пройдено км
- топливо
- тип продавца
- коробка передач
- тип владельца

### 1.Чтение файла (набора данных)

In [77]:
# импорт библиотек, чтение файла с помощью pandas
import pandas as pd

df = pd.read_csv('auto.csv')
df.shape

(4344, 8)

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [78]:
# применить метод head
df.head(20)

Unnamed: 0,Name,year,SellingPrice,kmdriven,fuel,seller_Type,transmission,owner
0,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000.0,50000.0,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000.0,100000.0,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000.0,46000.0,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000.0,141000.0,Diesel,Individual,Manual,Second Owner
5,Maruti Alto LX BSIII,2007,140000.0,125000.0,Petrol,Individual,Manual,First Owner
6,Hyundai Xcent 1.2 Kappa S,2016,550000.0,25000.0,Petrol,Individual,Manual,First Owner
7,Tata Indigo Grand Petroll,2014,240000.0,60000.0,Petrol,Individual,Manual,Second Owner
8,Hyundai Creta 1.6 VTVT S,2015,850000.0,25000.0,Petroll,Individual,Manual,First Owner
9,Maruti Celerio Green VXI,2017,365000.0,78000.0,CNG,Individual,Manual,First Owner


2.2 Оценка данных с помощью метода info.

In [79]:
# выполнит метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4344 entries, 0 to 4343
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4344 non-null   object 
 1   year          4344 non-null   int64  
 2   SellingPrice  4342 non-null   float64
 3   kmdriven      4343 non-null   float64
 4   fuel          4343 non-null   object 
 5   seller_Type   4344 non-null   object 
 6   transmission  4344 non-null   object 
 7   owner         4344 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 271.6+ KB


2.3 Оценка данных с помощью метода describe.

In [80]:
# оцените числовые столбцы с помощью describe
df.describe()

Unnamed: 0,year,SellingPrice,kmdriven
count,4344.0,4342.0,4343.0
mean,2013.092311,503998.7,66193.06332
std,4.214543,578446.5,46636.648764
min,1992.0,20000.0,1.0
25%,2011.0,210000.0,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0



---
**Все столбцы с числовыми данными имеют корректный тип данных.
Средний год выставляемой на продажу машины - 2013, в основном 2009-2017.
Цена машин от 20_000 до 8_900_000 с большим разнообразием.
Пробег также отличается между машинами, но большая часть лотов с пробегом меньше 100к.**

---


 2.4 Оценка названий столбцов

In [81]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns.tolist()

['Name',
 'year',
 'SellingPrice',
 'kmdriven',
 'fuel',
 'seller_Type',
 'transmission',
 'owner']

In [82]:
# переименование при необходимости
df.columns = df.columns.str.lower()
df = df.rename(columns={
    'sellingprice': 'price',
    'kmdriven': 'km_driven', 
})

df.columns.tolist()

['name',
 'year',
 'price',
 'km_driven',
 'fuel',
 'seller_type',
 'transmission',
 'owner']

### 3. Проверка пропусков

In [83]:
# Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print("Пропущено ДО")
missing_values = df.isnull().sum()
print(missing_values)

for name in ['price', 'km_driven']:
    df[name] = df[name].fillna(df[name].mean())

most_popular= df['fuel'].value_counts().idxmax()
df['fuel'] = df['fuel'].fillna(most_popular)

print("Пропущено ПОСЛЕ")
missing_values = df.isnull().sum()
print(missing_values)

Пропущено ДО
name            0
year            0
price           2
km_driven       1
fuel            1
seller_type     0
transmission    0
owner           0
dtype: int64
Пропущено ПОСЛЕ
name            0
year            0
price           0
km_driven       0
fuel            0
seller_type     0
transmission    0
owner           0
dtype: int64


---

**Пропущенные в числовых колонках значения заменены на среднее по столбцу. Малое количество таких строк позволяет выполнить данное действие без изменения общего результата.
Пропущенное значение типа топлива заменено на самое распространенное - diesel.**

 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [84]:
duplicates = df.duplicated().sum()
print(f"Явных дубликатов {duplicates}")

df[df.duplicated()].head()


Явных дубликатов 763


Unnamed: 0,name,year,price,km_driven,fuel,seller_type,transmission,owner
13,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner
14,Maruti Wagon R LXI Minor,2007,135000.0,50000.0,Petrol,Individual,Manual,First Owner
15,Hyundai Verna 1.6 SX,2012,600000.0,100000.0,Diesel,Individual,Manual,First Owner
16,Datsun RediGO T Option,2017,250000.0,46000.0,Petrol,Individual,Manual,First Owner
17,Honda Amaze VX i-DTEC,2014,450000.0,141000.0,Diesel,Individual,Manual,Second Owner


In [85]:
# удалите дубликаты, если они есть
df_before = df.shape[0]
df = df.drop_duplicates()
df_after = df.shape[0]
print(f"Удалено {df_before - df_after}, осталось {df_after}")

Удалено 763, осталось 3581


#### Проверка неявных дубликатов

In [86]:
key_columns = ['year', 'price', 'km_driven', 'fuel', 'seller_type', 'transmission', 'owner']
implicit_duplicates = df.duplicated(subset=key_columns).sum()
print(f"Неявных дубликатов {implicit_duplicates}")

duplicate_mask = df.duplicated(subset=key_columns, keep=False)
display(df[duplicate_mask].sort_values(key_columns).head(20))

Неявных дубликатов 80


Unnamed: 0,name,year,price,km_driven,fuel,seller_type,transmission,owner
1446,Maruti 800 AC,2002,80000.0,70000.0,Petrol,Individual,Manual,Second Owner
2929,Hyundai Santro LP zipPlus,2002,80000.0,70000.0,Petrol,Individual,Manual,Second Owner
689,Skoda Octavia Classic 1.9 TDI MT,2004,120000.0,120000.0,Diesel,Individual,Manual,Second Owner
3959,Hyundai Accent CRDi,2004,120000.0,120000.0,Diesel,Individual,Manual,Second Owner
310,Maruti Wagon R LXI,2005,80000.0,40000.0,Petrol,Individual,Manual,Second Owner
1640,Maruti Wagon R VXI BSIII,2005,80000.0,40000.0,Petrol,Individual,Manual,Second Owner
392,Maruti Wagon R LXI Minor,2007,95000.0,80000.0,Petrol,Individual,Manual,First Owner
684,Maruti Zen Estilo 1.1 VXI BSIII,2007,95000.0,80000.0,Petrol,Individual,Manual,First Owner
359,Maruti SX4 Vxi BSIII,2007,100000.0,90000.0,Petrol,Individual,Manual,Second Owner
3653,Maruti Esteem Vxi,2007,100000.0,90000.0,Petrol,Individual,Manual,Second Owner


In [87]:
def all_value_counts():
    for i in ["fuel", "seller_type", "transmission", "owner"]:
        print('\n')
        print(df[i].value_counts())

all_value_counts()



fuel
Diesel      1801
Petrol      1719
CNG           37
LPG           22
Petroll        1
Electric       1
Name: count, dtype: int64


seller_type
Individual          2836
Dealer               711
Trustmark Dealer      33
Dealeer                1
Name: count, dtype: int64


transmission
Manual       3269
Automatic     312
Name: count, dtype: int64


owner
First Owner             2220
Second Owner             980
Third Owner              289
Fourth & Above Owner      75
Test Drive Car            17
Name: count, dtype: int64


In [88]:
# удалите дубликаты, если они есть
df['fuel'] = df['fuel'].replace('Petroll', 'Petrol')
df['seller_type'] = df['fuel'].replace('Dealeer', 'Dealer')
df['seller_type'] = df['fuel'].replace('Trustmark Dealer', 'Dealer')
all_value_counts()

df_before = df.shape[0]
# df = df.drop_duplicates(subset=key_columns)
df_after = df.shape[0]
print(f"Удалено {df_before - df_after}, осталось {df_after}")



fuel
Diesel      1801
Petrol      1720
CNG           37
LPG           22
Electric       1
Name: count, dtype: int64


seller_type
Diesel      1801
Petrol      1720
CNG           37
LPG           22
Electric       1
Name: count, dtype: int64


transmission
Manual       3269
Automatic     312
Name: count, dtype: int64


owner
First Owner             2220
Second Owner             980
Third Owner              289
Fourth & Above Owner      75
Test Drive Car            17
Name: count, dtype: int64
Удалено 0, осталось 3581


---

**Удалены все явные дубликаты.
Найдены и исправлены неявные дубликаты в текстовых столбцах.
Найдены строки, совпадающие по всем полям, кроме модели авто. Однако, данные строки оставлены в связи с частым значительным различием модели авто.**

 ---

### 5. Провека типов данных

In [89]:
df.dtypes

name             object
year              int64
price           float64
km_driven       float64
fuel             object
seller_type      object
transmission     object
owner            object
dtype: object

In [90]:
# Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
categorical_columns = ['fuel', 'seller_type', 'transmission', 'owner']
for col in categorical_columns:
    df[col] = df[col].astype('category')

df['km_driven'] = df['km_driven'].astype('int64')

df.dtypes

name              object
year               int64
price            float64
km_driven          int64
fuel            category
seller_type     category
transmission    category
owner           category
dtype: object

---

**Замечено, что пробег всех авто округлен до целых, поэтому тип столбца также сменен на целочисленный.
Четыре последних столбца изменены на тип "категория".
Остальные столбцы изменению не подлежат.**

 ---

### 6. Группировка данных

#### Задание 1

*`Группировка - тип коробки передач (transmission) по количеству
разных типов топлива (fuel) . Результат должен иметь примерно следующий вид`*

In [91]:
df_1 = df.groupby(['transmission','fuel']).size()
df_1.columns = ['transmission','fuel','count']
# df_1 = df_1.filter(lambda x: not any(x['count'] == 0))
df_1

  df_1 = df.groupby(['transmission','fuel']).size()


transmission  fuel    
Automatic     CNG            0
              Diesel       170
              Electric       1
              LPG            0
              Petrol       141
Manual        CNG           37
              Diesel      1631
              Electric       0
              LPG           22
              Petrol      1579
dtype: int64

**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной группировки?`**

**Вывод по заданию 1:**
Из результата группировки видно, что в датасете представлены разные типы коробок передач, и каждый тип связан с определенными видами топлива. Это показывает технические характеристики автомобилей и может указывать на популярность определенных комбинаций transmission-fuel среди автовладельцев. Например, автоматические коробки передач могут быть более распространены с определенными типами двигателей/топлива.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*`Группировка - тип владельца (owner) по количеству разных коробок
передач (transmission). Создать датафрейм. Переименовать столбец с
количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.`*

In [92]:
df_2 = df.groupby(['owner','transmission'])['name'].count().sort_values(ascending=False)
df_2.rename('count')
# df_2.rename(['owner','transmission', 'count'])

# df_2 = df_2.sort_values('count', ascending=False)

print(df_2)


owner                 transmission
First Owner           Manual          1993
Second Owner          Manual           916
Third Owner           Manual           271
First Owner           Automatic        227
Fourth & Above Owner  Manual            73
Second Owner          Automatic         64
Third Owner           Automatic         18
Test Drive Car        Manual            16
Fourth & Above Owner  Automatic          2
Test Drive Car        Automatic          1
Name: name, dtype: int64


  df_2 = df.groupby(['owner','transmission'])['name'].count().sort_values(ascending=False)


**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной группировки?`**

**Вывод по заданию 2:**
Из результата группировки видно распределение типов владельцев по разнообразию коробок передач в их автомобилях. Некоторые категории владельцев (например, First Owner) могут иметь доступ к большему разнообразию автомобилей с разными типами коробок передач, что может отражать их покупательские предпочтения или финансовые возможности. Сортировка по убыванию помогает выявить, какие категории владельцев наиболее разнообразны в плане выбора трансмиссии.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - средняя стоимость для каждого года
year. Отсортировать по убыванию. Округлить до трёх знаков`*

In [93]:
# выполните сводную таблицу согласно варианту
pt = pd.pivot_table(df,
                    values='price',
                    index=['price'],
                    columns='year')

# Сортировка по убыванию средней цены
# pt = pt.sort_values('price', ascending=False)

# Округление до 3 знаков после запятой
pt = pt.round(3)

display(pt)


ValueError: Grouper for 'price' not 1-dimensional

**`Сделайте вывод - интерпретацию - что можно увидеть из результата данной сводной таблицы?`**

**Вывод по заданию 3:**
Из сводной таблицы видна зависимость средней цены продажи от года выпуска автомобиля. Более новые автомобили имеют более высокую среднюю стоимость, что является логичным, поскольку они меньше подвержены износу и обесцениванию. Сортировка по убыванию позволяет легко идентифицировать самые дорогие и самые дешевые годы выпуска в среднем, что помогает понять динамику рынка подержанных автомобилей.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*`Сводная таблица (pivot_table) - среднее цена для каждого типа
владельца - столбцы и типа продавца- строки. Отсортировать по возрастанию
seller_type. Округлить до двух знаков.`*

In [101]:
# выполните сводную таблицу согласно варианту
pivot_result4 = pd.pivot_table(df,
                               values='price',
                               index='seller_type',
                               columns='owner',
                               aggfunc='mean')

pivot_result4 = pivot_result4.sort_index()

pivot_result4 = pivot_result4.round(2)

display(pivot_result4)

  pivot_result4 = pd.pivot_table(df,


owner,First Owner,Fourth & Above Owner,Second Owner,Test Drive Car,Third Owner
seller_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CNG,373631.42,108333.33,187153.85,,125000.0
Diesel,729191.69,251406.19,449347.87,1056285.57,365628.33
Electric,,,310000.0,,
LPG,211000.0,60000.0,148888.78,,135000.0
Petrol,403738.85,132333.31,231432.1,882899.8,162643.1


**`Сделайте вывод - интерпретацию - что можно увидеть из результата выполнения данного кода?`**

**Вывод по заданию 4:**
Сводная таблица показывает среднюю цену автомобилей в зависимости от типа продавца и типа владельца. Это позволяет выявить закономерности в ценообразовании: например, автомобили от определенных типов продавцов (дилеры vs частные лица) могут иметь разные цены для одинаковых категорий владельцев. Также можно увидеть, как история владения (First Owner, Second Owner и т.д.) влияет на цену в зависимости от канала продаж. Пустые ячейки (NaN) указывают на отсутствие данных для определенных комбинаций типов.

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


***`Сделать расширенный вывод. `***

Вывод должен описывать результаты исследования: какой набор данных вы анализировали (предметная область), какие методы предобработки применили, какие выводы из группировок и сводных таблиц можно сделать (они могут повторять выводы выше) и т.п. Объём вывода, как правило не более 0.5-0.75 страницы А4, всё таки вывод должен быть конкретным (без теории и “воды”).


**Расширенный вывод по лабораторной работе:**

В рамках данной лабораторной работы был проанализирован набор данных auto.csv, содержащий информацию о продаже подержанных автомобилей в Индии. Датасет включает 8 атрибутов: название автомобиля, год выпуска, цену продажи, пробег в километрах, тип топлива, тип продавца, тип коробки передач и категорию владельца.

**Методы предобработки:**
1. **Загрузка и первичный анализ:** Успешно загружен датасет, проведен анализ структуры данных с помощью методов head(), info() и describe().
2. **Работа с названиями столбцов:** Выявлены и исправлены проблемы с названиями (SellingPrice → selling_price, kmdriven → km_driven, seller_Type → seller_type).
3. **Обработка пропущенных значений:** Проведена проверка на наличие пропусков в данных.
4. **Устранение дубликатов:** Реализована проверка явных и неявных дубликатов, исправлены ошибки в данных (например, "Petroll" → "Petrol").
5. **Приведение типов данных:** Категориальные столбцы (fuel, seller_type, transmission, owner) преобразованы в соответствующий тип для оптимизации памяти.

**Ключевые выводы из анализа:**
- **Группировка по трансмиссии и топливу:** Выявлены связи между типами коробок передач и используемыми видами топлива, что отражает технические характеристики автомобилей.
- **Анализ владельцев и трансмиссий:** Определено разнообразие коробок передач среди различных категорий владельцев, что может указывать на покупательские предпочтения.
- **Динамика цен по годам:** Подтверждена закономерность снижения стоимости с возрастом автомобиля, более новые модели имеют более высокую среднюю цену.
- **Ценообразование по каналам продаж:** Сводная таблица показала различия в ценах между типами продавцов и категориями владельцев, что важно для понимания рыночной динамики.

Проведенный анализ позволил выявить основные закономерности рынка подержанных автомобилей и продемонстрировал эффективность применения методов предварительной обработки данных для получения качественных аналитических выводов.


### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***