**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

### Вариант задания

Вариант № 9

Набор данных: auto.csv

Атрибуты:
1. имя
2. год
3. цена продажи
4. пройдено км
5. топливо
6. тип продавца
7. коробка передач
8. тип владельца 

### 1.Чтение файла (набора данных)
Перед началом работы необходимо прочитать таблицу и преобразовать в датафрейм. Для этого была подключена библиотека Pandas, с помощью которой воспроизводилось чтение файла.

In [151]:
import pandas as pd # импорт библиотеки
df = pd.read_csv('./auto.csv') # чтение таблицы, где path – путь к файлу

### 2. Обзор данных

Далее использовалась кооманда *head()*. С помощью нее выводится первые 20 строчек таблицы.

In [152]:
df.head(20) # Вывод первых 20 строк таблицы

Unnamed: 0,Name,year,SellingPrice,kmdriven,fuel,seller_Type,transmission,owner
0,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000.0,50000.0,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000.0,100000.0,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000.0,46000.0,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000.0,141000.0,Diesel,Individual,Manual,Second Owner
5,Maruti Alto LX BSIII,2007,140000.0,125000.0,Petrol,Individual,Manual,First Owner
6,Hyundai Xcent 1.2 Kappa S,2016,550000.0,25000.0,Petrol,Individual,Manual,First Owner
7,Tata Indigo Grand Petroll,2014,240000.0,60000.0,Petrol,Individual,Manual,Second Owner
8,Hyundai Creta 1.6 VTVT S,2015,850000.0,25000.0,Petroll,Individual,Manual,First Owner
9,Maruti Celerio Green VXI,2017,365000.0,78000.0,CNG,Individual,Manual,First Owner


Затем просматривалась основная информация по таблице с помощью команды *info()*. Также был проведен небольшой анализ.
В таблице 4344 записи, из них всего 4 пропуска: 2 в SellingPrice, 1 в kmdriven и 1 в fuel. Это говорит о том, что легче подготовить данные для дальнейшей работы, почти не влияет на статистику. 8 атрибутов, которые разделены по типам так: 

In [153]:
df.info() # Просмотр основной информации

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4344 entries, 0 to 4343
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4344 non-null   object 
 1   year          4344 non-null   int64  
 2   SellingPrice  4342 non-null   float64
 3   kmdriven      4343 non-null   float64
 4   fuel          4343 non-null   object 
 5   seller_Type   4344 non-null   object 
 6   transmission  4344 non-null   object 
 7   owner         4344 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 271.6+ KB


Также был проведен анализ данных с помощью команды *describe()*. Можно обратить внимание на описательные статистики. Команда выводит: количество, среднее арифметическое, стандартное отклонение, минимальное и максимальное значения и три квартиля. На основе этого можно проанализировать данные. Для примера возьмем признак год. Количество - 4344, среднее арифметическое - 2013.1, стандартное отклонение - 4.2, минимальное значение - 1992, квартель 1(далее будет использоваться буква Q) - 2011, Q2 - 2014, Q3 - 2016 и максимальное значение 2020.

In [154]:
df.describe() # Описание данных

Unnamed: 0,year,SellingPrice,kmdriven
count,4344.0,4342.0,4343.0
mean,2013.092311,503998.7,66193.06332
std,4.214543,578446.5,46636.648764
min,1992.0,20000.0,1.0
25%,2011.0,210000.0,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0


Также была произведена оценка названия столбцов с помощью команды *colums*, чтобы названия были в стиле именования snake_case. Было замечено, что названия Name, SellingPrice и kmdriven не соответсвуют стилю именования. Для изменения названий использовалась все та же команда. 

In [155]:
df.columns # Оценка названий столбцов

Index(['Name', 'year', 'SellingPrice', 'kmdriven', 'fuel', 'seller_Type',
       'transmission', 'owner'],
      dtype='object')

In [156]:
df.columns = [
    "name",
    "year",
    "selling_price",
    "km_driven",
    "fuel",
    "seller_type",
    "transmission",
    "owner"
]

### 3. Проверка пропусков

Далее было просмотрено количество пустых значений. Можно заметить, что данные с 2 пункта совпадают, что имеется всего 4 пропуска. Самый простой вариант - удаление записей с пустыми значениями, так как характер информации не позволит использовать методы по типу медианного. 4 строчки занимают 0.1% данных, что не повлияет на статистику и распределение. 

In [157]:
print(df.isna().sum()) # Просмотр количества пустых значений

name             0
year             0
selling_price    2
km_driven        1
fuel             1
seller_type      0
transmission     0
owner            0
dtype: int64


In [158]:
df = df.dropna() # Удаление пустых записей
print(df.isna().sum())
print("<-------------------------->")
df.info()

name             0
year             0
selling_price    0
km_driven        0
fuel             0
seller_type      0
transmission     0
owner            0
dtype: int64
<-------------------------->
<class 'pandas.core.frame.DataFrame'>
Index: 4342 entries, 0 to 4341
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           4342 non-null   object 
 1   year           4342 non-null   int64  
 2   selling_price  4342 non-null   float64
 3   km_driven      4342 non-null   float64
 4   fuel           4342 non-null   object 
 5   seller_type    4342 non-null   object 
 6   transmission   4342 non-null   object 
 7   owner          4342 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 305.3+ KB


Теперь видно, что записей со значнием null было не 4,а 2. И таблица на данный момент не имеет значений null.

### 4. Проверка дубликатов

#### Проверка явных дубликатов

Далее был проверено, сколько всего явных дубликатов. В результате получили 763 записи, что равняется, почти, 18%.

In [159]:
print(df.duplicated().sum()) # подсчет количества дубликатов

763


Для избежания искажения статистики и проблем при обучении необходимо удалить дубликаты. 

In [160]:
df = df.drop_duplicates() # удаление дубликатов
print(df.duplicated().sum())

0


#### Проверка неявных дубликатов

Далее были выведены уникальные значения в стоблцах для исправления ошибок при написании. Было замечено, что совершены ошибки в написании Petrol И Dealer. Также стоит обратить внимание на название машин, они имеют слишком сильное разнообразие, что может негативно сказаться на обучении. Так как сейчас не требуется нормализация названий для марок машин, это не будет выполняться. 

In [161]:
print(df['name'].unique(), '\n',
      df['fuel'].unique(), '\n',
      df['seller_type'].unique(), '\n',
      df['transmission'].unique(), '\n',
      df['owner'].unique()) # Вывод уникальных значений в столбцах

['Maruti 800 AC' 'Maruti Wagon R LXI Minor' 'Hyundai Verna 1.6 SX' ...
 'Mahindra Verito 1.5 D6 BSIII'
 'Toyota Innova 2.5 VX (Diesel) 8 Seater BS IV'
 'Hyundai i20 Magna 1.4 CRDi'] 
 ['Petrol' 'Diesel' 'Petroll' 'CNG' 'LPG' 'Electric'] 
 ['Individual' 'Dealer' 'Dealeer' 'Trustmark Dealer'] 
 ['Manual' 'Automatic'] 
 ['First Owner' 'Second Owner' 'Fourth & Above Owner' 'Third Owner'
 'Test Drive Car']


Также для анализа было выведено количество уникальных значений и сколько раз они повторяются. 

In [162]:
print(df['fuel'].value_counts())
print("<-------------------------->")
print(df['seller_type'].value_counts())

fuel
Diesel      1800
Petrol      1718
CNG           37
LPG           22
Petroll        1
Electric       1
Name: count, dtype: int64
<-------------------------->
seller_type
Individual          2834
Dealer               711
Trustmark Dealer      33
Dealeer                1
Name: count, dtype: int64


Для исправления названий используется команда *replace()*. Пояснение по коду *df.loc[:, 'fuel']* - выбираем все строки (:) и столбец 'fuel'

In [163]:
df.loc[:, 'fuel'] = df['fuel'].replace('Petroll', 'Petrol')
df.loc[:, 'seller_type'] = df['seller_type'].replace('Dealeer', 'Dealer')

In [164]:
print(df['fuel'].value_counts())
print("<-------------------------->")
print(df['seller_type'].value_counts())
print("<-------------------------->")
print(df.duplicated().sum()) # Проверка на наличие явных дубликатов, после изменений названий

fuel
Diesel      1800
Petrol      1719
CNG           37
LPG           22
Electric       1
Name: count, dtype: int64
<-------------------------->
seller_type
Individual          2834
Dealer               712
Trustmark Dealer      33
Name: count, dtype: int64
<-------------------------->
1


In [165]:
df = df.drop_duplicates().reset_index()
print(df.duplicated().sum())

0


Вывод по этому пункту. Лучше изначально проверить неявные дубликаты, а затем устранять явные дубликаты. 

### 5. Провека типов данных

При первичном анализе столбцов было замечено, что имеется 2 типа данных - float64. Посмотрев данные, можно увидеть, что значения в km_driven и selling_price кратны 10, следовательно, все значения округлены и необходимости в типе данных float64 не имеется.

In [166]:
df['km_driven'] = df['km_driven'].astype('int')
df['selling_price'] = df['selling_price'].astype('int')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3578 entries, 0 to 3577
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   index          3578 non-null   int64 
 1   name           3578 non-null   object
 2   year           3578 non-null   int64 
 3   selling_price  3578 non-null   int64 
 4   km_driven      3578 non-null   int64 
 5   fuel           3578 non-null   object
 6   seller_type    3578 non-null   object
 7   transmission   3578 non-null   object
 8   owner          3578 non-null   object
dtypes: int64(4), object(5)
memory usage: 251.7+ KB


### 6. Выполнение индивидуальных заданий

#### Задание 1

Группировка - тип коробки передач (transmission) по количеству разных типов топлива (fuel).

In [167]:
print(df.groupby(['transmission', 'fuel'])['fuel'].count())

transmission  fuel    
Automatic     Diesel       170
              Electric       1
              Petrol       141
Manual        CNG           37
              Diesel      1630
              LPG           22
              Petrol      1577
Name: fuel, dtype: int64


Преобладает в таблице механический тип коробки передач. Также можно увидеть, что большинство машин заправляется бензином или дизелем. Всего 1 машина - электрокар. 37 машин на компримированноом (сжатом) природном газе и 22 сжиженном нефтяном газе, а также они имеют механический тип коробки передач. 

#### Задание 2

Группировка - тип владельца (owner) по количеству разных коробок передач (transmission). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по убыванию столбца “countˮ.

In [168]:
df2 = df.groupby(['owner', 'transmission'])['transmission'].count()
df2.sort_values(ascending=False).reset_index(name='count')

Unnamed: 0,owner,transmission,count
0,First Owner,Manual,1991
1,Second Owner,Manual,915
2,Third Owner,Manual,271
3,First Owner,Automatic,227
4,Fourth & Above Owner,Manual,73
5,Second Owner,Automatic,64
6,Third Owner,Automatic,18
7,Test Drive Car,Manual,16
8,Fourth & Above Owner,Automatic,2
9,Test Drive Car,Automatic,1


Можно обратить внимание на тест-драйв машины, их всего 17 штук, из которых 1 на автоматическом типе коробок передач. А также можно увидеть, что преобладающие число машин имеет механический тип коробки передач и владелец является первым, вторым и третьим. 

#### Задание 3

Сводная таблица (pivot_table) - средняя стоимость для каждого года year. Отсортировать по убыванию. Округлить до трёх знаков.

In [169]:
pivot_table = df.pivot_table(index='year', values='selling_price', aggfunc='mean')
pivot_table.sort_values(by='selling_price', ascending=False).round(3)

Unnamed: 0_level_0,selling_price
year,Unnamed: 1_level_1
2019,865364.167
2018,820420.305
2020,804844.4
2017,741184.928
2016,638342.707
2014,512003.059
2015,510051.16
2013,433046.285
2012,379352.027
2011,296028.291


Из-за специфики выбранных данных нет обнозначного вывода. В разные промежутки времени - разные цены. Но можно наблюдать тенденцию, что с увеличением года цена возрастает с разными "прыжками". Нет линейного возрастания. Вот например, в 1996 средняя стоимость машин была больше, чем в 2008. 

#### Задание 4

Сводная таблица (pivot_table) - среднее цена для каждого типа владельца - столбцы и типа продавца - строки. Отсортировать по возрастанию seller_type. Округлить до двух знаков.

In [170]:
pivot_table = df.pivot_table(index='seller_type', columns='owner', values='selling_price', aggfunc='mean')
pivot_table.sort_index(ascending=True).round(2)

owner,First Owner,Fourth & Above Owner,Second Owner,Test Drive Car,Third Owner
seller_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Dealer,679505.08,117499.5,468499.94,954293.94,462333.22
Individual,518613.33,182958.88,326687.32,,259836.07
Trustmark Dealer,823709.68,,800000.0,,


На основе полученной таблицы можно сделать вывод, что машины от первых владельцев всегда будут дорогими, чем от вторых, третиьх и так далее, за исключением тест-драйв машин. Она, на удивление стоят довольно дорого, видимо, продаются как новые без владельцев. Также видно, что сертифицированный дилер не продает машины у которых было больше 2х владельцев и цены выше других. В то время, как у частного продавца меньше стоят машины. 

### Вывод


Во время выполнения данной лабораторной работы были проанализированны данные о машинах, их типы коробок передач, топливе, какой владелец по счету, какой продавец продает и какая цена и пробег. 

Для анализа и работы с таблицей использовалась библиотека Pandas, которая имеет удобные инструменты для работы с таблицей и информацией. Было изучено несколько методов обработки информации, таких как поиск и удаление явных и неявных дубликатов. Также корректировка типов данных, для дальнейшей работы. 

Были изучены методы группировки и сортировки, а также создания сводных таблиц.
