С помощью библиотеки pandas загружается датасет, указанный в индивидуальном варианте, и выполняется вывод первых 20 строк с помощью метода head.

In [1]:
import pandas as pd
df = pd.read_csv('auto.csv')
display(df.head(20))

Unnamed: 0,Name,year,SellingPrice,kmdriven,fuel,seller_Type,transmission,owner
0,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000.0,50000.0,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000.0,100000.0,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000.0,46000.0,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000.0,141000.0,Diesel,Individual,Manual,Second Owner
5,Maruti Alto LX BSIII,2007,140000.0,125000.0,Petrol,Individual,Manual,First Owner
6,Hyundai Xcent 1.2 Kappa S,2016,550000.0,25000.0,Petrol,Individual,Manual,First Owner
7,Tata Indigo Grand Petroll,2014,240000.0,60000.0,Petrol,Individual,Manual,Second Owner
8,Hyundai Creta 1.6 VTVT S,2015,850000.0,25000.0,Petroll,Individual,Manual,First Owner
9,Maruti Celerio Green VXI,2017,365000.0,78000.0,CNG,Individual,Manual,First Owner


По выводу первых строк датасета видно, что датасет содержит данные о продаже подержанных автомобилей, включая следующие столбцы: Name — название модели автомобиля, year — год выпуска автомобиля, SellingPrice — цена продажи автомобиля, kmdriven — количество километров, которые автомобиль проехал, fuel — тип топлива (например, бензин, дизель, природный газ), seller_Type — тип продавца (дилер или частное лицо), transmission — тип коробки передач (автоматическая или механическая), owner — количество предыдущих владельцев автомобиля. Этот набор данных предоставляет информацию, которая может быть полезна для анализа рынка подержанных автомобилей, оценки влияния различных факторов (типа топлива, владельцев и т.д.) на цену продажи.

Оценка данных (есть ли пропуски, сколько всего строк, какие типы данных у столбцов):

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4344 entries, 0 to 4343
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4344 non-null   object 
 1   year          4344 non-null   int64  
 2   SellingPrice  4342 non-null   float64
 3   kmdriven      4343 non-null   float64
 4   fuel          4343 non-null   object 
 5   seller_Type   4344 non-null   object 
 6   transmission  4344 non-null   object 
 7   owner         4344 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 271.6+ KB


Таким образом, в датасете 4344 строки, 8 столбцов. Столбцы и их типы данных: Name — строка (object), year — целое число (int64), SellingPrice — вещественное число (float64), имеются пропуски (2 строки отсутствуют), kmDriven — вещественное число (float64) (1 строка отсутствует), fuel — строка (object), seller_Type — строка (object), transmission — строка (object), owner — строка (object). В столбцах SellingPrice и kmDriven есть пропущенные значения (по 2 и 1 строке соответственно).

Оценка числовых столбцов:

In [53]:
display(df.describe())

Unnamed: 0,year,SellingPrice,kmdriven
count,4344.0,4342.0,4343.0
mean,2013.092311,503998.7,66193.06332
std,4.214543,578446.5,46636.648764
min,1992.0,20000.0,1.0
25%,2011.0,210000.0,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0


В столбце year автомобили варьируются по году выпуска с 1992 до 2020 года, со средним значением - 2013 год. Для SellingPrice (цена продажи) диапазон варьируется от 20000 до 8.9 млн, при этом средняя цена составляет около 503998. В столбце kmDriven (пробег) минимальное значение — 1 км, максимальное — 806599 км, а среднее — около 66193 км.


Вывод названий столбцов:


In [54]:
print(df.columns)

Index(['Name', 'year', 'SellingPrice', 'kmdriven', 'fuel', 'seller_Type',
       'transmission', 'owner'],
      dtype='object')


Изменение названий столбцов:

In [55]:
df.rename(columns={
    'Name': 'name',
    'year': 'year',
    'SellingPrice': 'selling_price',
    'kmdriven': 'kilometers_driven',
    'fuel': 'fuel',
    'seller_Type': 'seller_type',
    'transmission': 'transmission',
    'owner': 'owner'
}, inplace=True) # inplace=True - изменяется текущий DataFrame вместо создания нового

# Проверяем новые названия
print(df.columns)

Index(['name', 'year', 'selling_price', 'kilometers_driven', 'fuel',
       'seller_type', 'transmission', 'owner'],
      dtype='object')


Ниже приведена проверка данных на наличие пропусков. Метод isna() находит пропуски (по результатам – в последних трех строчках датасета), а isna().sum() подсчитывает их количество в каждом столбце. 

In [56]:
display(df.isna())
display(df.isna().sum())

Unnamed: 0,name,year,selling_price,kilometers_driven,fuel,seller_type,transmission,owner
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
4339,False,False,False,False,False,False,False,False
4340,False,False,False,False,False,False,False,False
4341,False,False,False,False,False,False,False,False
4342,False,False,True,True,False,False,False,False


name                 0
year                 0
selling_price        2
kilometers_driven    1
fuel                 1
seller_type          0
transmission         0
owner                0
dtype: int64

Видно, что пропуски имеют только последние две строчки. Так как замена не будет в этом случае эффективной, лучшим решением будет их удалить в виду их малочисленности. Для удаления строк, содержащих пропуски, используется метод dropna, принимающий в виде аргумента столбцы, в которых следует искать отсутствующие элементы. Метод tail использовался для вывода последних трёх строчек датасета с целью проверки результатов удаления:

In [57]:
df = df.dropna(subset=['selling_price', 'kilometers_driven', 'fuel'])
display(df.tail(3))

Unnamed: 0,name,year,selling_price,kilometers_driven,fuel,seller_type,transmission,owner
4339,Renault KWID RXT,2016,225000.0,40000.0,Petrol,Individual,Manual,First Owner
4340,Renault KWID RXT,2016,225000.0,40000.0,Petrol,Individual,Manual,First Owner
4341,Renault KWID RXT,2016,225000.0,40000.0,Petrol,Individual,Manual,First Owner


Получение и удаление явных дубликатов:

Далее используется метод duplicated() для обнаружения явных дубликатов в данных. Метод возвращает логический индекс, показывающий, какие строки являются дубликатами, а sum() подсчитывает их количество — в данном случае, найдено 763 дубликата. После этого метод drop_duplicates() удаляет эти дубликаты, и обновленная таблица перезагружается с помощью метода reset_index(drop=True), чтобы не сохранять старые индексы. После удаления дубликатов проверяется, что их больше нет. 

In [58]:
df[df.duplicated()] # Получение явных дубликатов с помощью логической индексации
print(df.duplicated().sum()) # Подсчет количества явных дубликатов

763


In [59]:
df = df.drop_duplicates().reset_index(drop=True) # Удаление дубликатов и обновление индексации
                                             # аргумент drop, чтобы не создавать столбец index
print(df.duplicated().sum()) # Подсчет количества явных дубликатов

0


Получение и удаление (замена) неявных дубликатов:

Далее исследуются неявные дубликаты. Используя unique(), выводятся уникальные значения для столбцов fuel, seller_type, transmission и owner. Обнаружено, что есть неявные дубликаты, такие как "Petrol" и "petrol", которые исправляются с помощью метода replace(), заменяя значения на единообразные. После замены проверяется, что уникальные значения стали однородными.

In [60]:
print(df['fuel'].unique()) # Поиск уникальных значений для выявления неявных дубликатов
print(df['seller_type'].unique())
print(df['transmission'].unique())
print(df['owner'].unique())

['Petrol' 'Diesel' 'Petroll' 'CNG' 'LPG' 'Electric']
['Individual' 'Dealer' 'Dealeer' 'Trustmark Dealer']
['Manual' 'Automatic']
['First Owner' 'Second Owner' 'Fourth & Above Owner' 'Third Owner'
 'Test Drive Car']


In [61]:
df['fuel'] = df['fuel'].replace('Petroll', 'Petrol') # Удаление неявных дубликатов путём замены
df['seller_type'] = df['seller_type'].replace('Dealeer', 'Dealer')
print(df['fuel'].unique()) # Проверка путём определения уникальных значений
print(df['seller_type'].unique())

['Petrol' 'Diesel' 'CNG' 'LPG' 'Electric']
['Individual' 'Dealer' 'Trustmark Dealer']


Далее была произведена проверка на типы данных и их изменение на более логичные. Так типы selling_price и kilometers_driven были изменены со значения float64 на int64, так как набор чисел данных столбцов – целочисленный. Были использованы методы dtypes (для проверки) и astypes (для указания нового типа). Дополнительно были выведены первые строки датасета до и после внесения изменений

In [62]:
display(df.dtypes)
display(df.head(1))

name                  object
year                   int64
selling_price        float64
kilometers_driven    float64
fuel                  object
seller_type           object
transmission          object
owner                 object
dtype: object

Unnamed: 0,name,year,selling_price,kilometers_driven,fuel,seller_type,transmission,owner
0,Maruti 800 AC,2007,60000.0,70000.0,Petrol,Individual,Manual,First Owner


In [63]:
df['selling_price'] = df['selling_price'].astype('int64') # Применение метода astype для перевода в нужный тип
df['kilometers_driven'] = df['kilometers_driven'].astype('int64')
display(df.dtypes)
display(df.head(1))

name                 object
year                  int64
selling_price         int64
kilometers_driven     int64
fuel                 object
seller_type          object
transmission         object
owner                object
dtype: object

Unnamed: 0,name,year,selling_price,kilometers_driven,fuel,seller_type,transmission,owner
0,Maruti 800 AC,2007,60000,70000,Petrol,Individual,Manual,First Owner


Задание 1. Группировка - тип топлива (fuel) по количеству типа продавца (seller_type). 

In [64]:
grouped_fuel_seller = df.groupby(['fuel', 'seller_type']).size() # Группировка fuel по количеству seller_type
display(grouped_fuel_seller)

fuel      seller_type     
CNG       Dealer                 9
          Individual            28
Diesel    Dealer               377
          Individual          1409
          Trustmark Dealer      14
Electric  Dealer                 1
LPG       Dealer                 1
          Individual            21
Petrol    Dealer               324
          Individual          1376
          Trustmark Dealer      19
dtype: int64

Задание 2. Группировка - тип топлива (fuel) по количеству типа продавца (seller_type). Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”

In [65]:
df_fuel_seller = grouped_fuel_seller.reset_index() # Создание DataFrame из группировки
df_fuel_seller.columns = ['fuel', 'seller_type', 'count'] # Переименование столбца с количеством в 'count'
df_fuel_seller_sorted = df_fuel_seller.sort_values(by='count', ascending=False) # Сортировка по столбцу 'count' (ascending=False - по убыванию)
display(df_fuel_seller_sorted)

Unnamed: 0,fuel,seller_type,count
3,Diesel,Individual,1409
9,Petrol,Individual,1376
2,Diesel,Dealer,377
8,Petrol,Dealer,324
1,CNG,Individual,28
7,LPG,Individual,21
10,Petrol,Trustmark Dealer,19
4,Diesel,Trustmark Dealer,14
0,CNG,Dealer,9
6,LPG,Dealer,1


Задание 3. Сводная таблица (pivot_table) - средняя цена для каждого типа владельца owner. Отсортировать по убыванию. Округлить до двух знаков. 

In [66]:
pivot_owner_price = df.pivot_table(values='selling_price', index='owner') # Создание сводной таблицы с расчетом средней цены по владельцам
pivot_owner_price_sorted = pivot_owner_price.sort_values(by='selling_price', ascending=False) # Сортировка по убыванию средней цены
pivot_owner_price_sorted = pivot_owner_price_sorted.round(2) # Округление до двух знаков
display(pivot_owner_price_sorted)

Unnamed: 0_level_0,selling_price
owner,Unnamed: 1_level_1
Test Drive Car,954293.94
First Owner,565513.71
Second Owner,341850.0
Third Owner,266142.21
Fourth & Above Owner,181213.29


Задание 4. Сводная таблица (pivot_table) - среднее цена для каждого типа владельца - столбцы и типа продавца- строки. Отсортировать по возрастанию seller_type. Округлить до двух знаков.

In [67]:
pivot_owner_seller_price = df.pivot_table(values='selling_price', index='seller_type', columns='owner') # Создание сводной таблицы с типом продавца
                                                                                                        # в строках и типом владельца в столбцах
pivot_owner_seller_price_sorted = pivot_owner_seller_price.sort_index() # Сортировка по возрастанию по seller_type
pivot_owner_seller_price_sorted = pivot_owner_seller_price_sorted.round(2) # Округление до двух знаков
display(pivot_owner_seller_price_sorted)

owner,First Owner,Fourth & Above Owner,Second Owner,Test Drive Car,Third Owner
seller_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Dealer,679505.08,117499.5,468499.94,954293.94,462333.22
Individual,518820.19,182958.88,326687.32,,259836.07
Trustmark Dealer,823709.68,,800000.0,,


Дополнительное задание №1: группировка по типу продавца, году и средней цены.

In [72]:
grouped_year_seller = df.groupby(['year', 'seller_type']).agg({'selling_price': ['mean']}) 
display(grouped_year_seller)

Unnamed: 0_level_0,Unnamed: 1_level_0,selling_price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean
year,seller_type,Unnamed: 2_level_2
1992,Individual,50000.0
1995,Individual,95000.0
1996,Individual,225000.0
1997,Individual,93000.0
1998,Dealer,65000.0
1998,Individual,177625.0
1999,Individual,73888.89
2000,Dealer,22000.0
2000,Individual,86909.09
2001,Dealer,150000.0


Дополнительное задание №1: группировка по типу продавца, году и средней цены (вариант 2).

In [73]:
grouped_year_seller_2 = df.groupby(['year', 'seller_type'])['selling_price'].mean()
display(grouped_year_seller_2) 

year  seller_type     
1992  Individual          5.000000e+04
1995  Individual          9.500000e+04
1996  Individual          2.250000e+05
1997  Individual          9.300000e+04
1998  Dealer              6.500000e+04
      Individual          1.776250e+05
1999  Individual          7.388889e+04
2000  Dealer              2.200000e+04
      Individual          8.690909e+04
2001  Dealer              1.500000e+05
      Individual          1.068666e+05
2002  Individual          8.611111e+04
2003  Individual          8.709091e+04
2004  Dealer              2.550000e+05
      Individual          1.157000e+05
2005  Dealer              1.009996e+05
      Individual          1.160555e+05
2006  Dealer              3.564286e+05
      Individual          1.377209e+05
2007  Dealer              2.540000e+05
      Individual          1.522353e+05
2008  Dealer              2.384444e+05
      Individual          1.731100e+05
2009  Dealer              3.500526e+05
      Individual          2.209533e+05
20

Дополнительное задание №2: добавление дополнительного столбца, в котором будут категории по стоимости. Чтобы добавить новый столбец с категориями по стоимости в датасет, был использован метод pd.cut(), который позволил разбить значения на категории на основе диапазонов. Например, можно разделить автомобили на категории по стоимости: "Низкая цена" и "Высокая цена".

In [83]:
bins = [df['selling_price'].min(), df['selling_price'].mean(), df['selling_price'].max()]
labels = ['Низкая цена','Высокая цена']
df['price'] = pd.cut(df['selling_price'], bins=bins, labels=labels, include_lowest=True)
display(df.head(10))

Unnamed: 0,name,year,selling_price,kilometers_driven,fuel,seller_type,transmission,owner,price
0,Maruti 800 AC,2007,60000,70000,Petrol,Individual,Manual,First Owner,Низкая цена
1,Maruti Wagon R LXI Minor,2007,135000,50000,Petrol,Individual,Manual,First Owner,Низкая цена
2,Hyundai Verna 1.6 SX,2012,600000,100000,Diesel,Individual,Manual,First Owner,Высокая цена
3,Datsun RediGO T Option,2017,250000,46000,Petrol,Individual,Manual,First Owner,Низкая цена
4,Honda Amaze VX i-DTEC,2014,450000,141000,Diesel,Individual,Manual,Second Owner,Низкая цена
5,Maruti Alto LX BSIII,2007,140000,125000,Petrol,Individual,Manual,First Owner,Низкая цена
6,Hyundai Xcent 1.2 Kappa S,2016,550000,25000,Petrol,Individual,Manual,First Owner,Высокая цена
7,Tata Indigo Grand Petroll,2014,240000,60000,Petrol,Individual,Manual,Second Owner,Низкая цена
8,Hyundai Creta 1.6 VTVT S,2015,850000,25000,Petrol,Individual,Manual,First Owner,Высокая цена
9,Maruti Celerio Green VXI,2017,365000,78000,CNG,Individual,Manual,First Owner,Низкая цена


В ходе выполнения работы был проведен детальный анализ данных о поддержанных автомобилях, включающий обработку данных, выявление и устранение дубликатов, а также анализ пропусков. С использованием инструментов библиотеки pandas в рамках выполнения основных заданий лабораторной работы были выполнены группировки по типу топлива и типу продавца, а также созданы сводные таблицы для анализа средней цены автомобилей в зависимости от типа владельца и продавца. Эти действия позволили выявить определённые тенденции в данных, такие как наиболее популярные комбинации топлива и типа продавца, а также распределение цен среди различных категорий владельцев и продавцов. В результате работы удалось очистить данные от неявных дубликатов, пропусков и привести их в удобный для дальнейшего анализа формат.