## Работа с данными. EDA

## Загрузка и первичный осмотр данных

Подгрузка библиотек



In [13]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns

#### Pandas Series

Одной из основных структур данных в библиотеке Pandas является Pandas Series. Элемент Pandas Series похож на столбец в таблице: это одномерный массив, содержащий данные любого типа.

Элементы Pandas Series помечаются номерами индексов. Первое значение имеет индекс 0, второе - индекс 1 и т. д.

Заведем столбец Series из обычного питоновского массива:

In [14]:
a = [1, 7, 2]

series = pd.Series(a)

series

0    1
1    7
2    2
dtype: int64

#### Dataframe 

Pandas DataFrame - это двумерная структура данных, подобная двумерному массиву или таблице со строками и столбцами. Иными словами, Pandas Series - это один столбец таблицы, а DataFrame - это вся таблица.

In [15]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45], 
  "weight": [60, 65, 80]
}

# можно создать таблицу из Python Dict
# keys словаря будут названиями столбцов
df = pd.DataFrame(data)
df

Unnamed: 0,calories,duration,weight
0,420,50,60
1,380,40,65
2,390,45,80


In [16]:
df['calories']

0    420
1    380
2    390
Name: calories, dtype: int64

In [17]:
df.loc[1, "duration"]

np.int64(40)

In [18]:
df.iloc[1, 2]

np.int64(65)

### Работа с реальными данными (EDA)

In [19]:
## Подгрузка данных

df = pd.read_csv('vehicles_us.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  date_posted   51525 non-null  object 
 11  days_listed   51525 non-null  int64  
dtypes: float64(3), int64(2), object(7)
memory usage: 4.7+ MB


In [20]:
df.columns

Index(['price', 'model_year', 'model', 'condition', 'cylinders', 'fuel',
       'odometer', 'transmission', 'type', 'paint_color', 'date_posted',
       'days_listed'],
      dtype='object')

In [21]:
df.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,2019-04-02,28


#### 1. Чистка данных

In [22]:
# Проверка нулевых значении 
df.isnull().sum().sort_values(ascending = False)

paint_color     9267
odometer        7892
cylinders       5260
model_year      3619
condition          0
model              0
price              0
fuel               0
transmission       0
type               0
date_posted        0
days_listed        0
dtype: int64

In [23]:
print(df.model_year.median())
print(df.model_year.mean())
print(df.model_year.mode())
print(df.model_year.min())
print(df.model_year.max())
print(df.model_year.std())
print(df.model_year.var())

2011.0
2009.75046966977
0    2013.0
Name: model_year, dtype: float64
1908.0
2019.0
6.282064792174014
39.46433805307233


In [24]:
df_test = df.copy()

In [25]:
df_test['model_year'] = df_test['model_year'].fillna(df_test['model_year'].median())
df_test["model_year"].isnull().sum()

np.int64(0)

In [26]:
df_test.isnull().sum().sort_values(ascending=False)

paint_color     9267
odometer        7892
cylinders       5260
price              0
condition          0
model              0
model_year         0
fuel               0
transmission       0
type               0
date_posted        0
days_listed        0
dtype: int64

In [27]:
# Удаление всех пустых значении
df_new = df.dropna()
df_new.isnull().sum().sort_values(ascending=False)

price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
paint_color     0
date_posted     0
days_listed     0
dtype: int64

In [28]:
# Удаление дубликатов
df_clean = df_new.drop_duplicates()
print(f"Размер до удаления дубликатов: {df_new.shape}")
print(f"Размер после удаления дубликатов: {df_clean.shape}")

Размер до удаления дубликатов: (29916, 12)
Размер после удаления дубликатов: (29916, 12)


#### 2. Обработка данных

In [29]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29916 entries, 2 to 51523
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         29916 non-null  int64  
 1   model_year    29916 non-null  float64
 2   model         29916 non-null  object 
 3   condition     29916 non-null  object 
 4   cylinders     29916 non-null  float64
 5   fuel          29916 non-null  object 
 6   odometer      29916 non-null  float64
 7   transmission  29916 non-null  object 
 8   type          29916 non-null  object 
 9   paint_color   29916 non-null  object 
 10  date_posted   29916 non-null  object 
 11  days_listed   29916 non-null  int64  
dtypes: float64(3), int64(2), object(7)
memory usage: 3.0+ MB


In [30]:
# # Filter for vehicles posted after January 1, 2019
# filtered_df = df[df['date_posted'] > '2019-01-01']

# filtered_df

In [31]:
# Преобразование 'model_year' в целочисленный тип
df_clean['model_year'] = df_clean['model_year'].astype(int)

In [32]:
# Преобразование 'date_posted' в тип datetime
df_clean['date_posted'] = pd.to_datetime(df_clean['date_posted'])

In [33]:
df_clean.describe()

Unnamed: 0,price,model_year,cylinders,odometer,date_posted,days_listed
count,29916.0,29916.0,29916.0,29916.0,29916,29916.0
mean,12197.222189,2009.746557,6.134343,115458.763003,2018-10-25 05:36:01.732851968,39.635446
min,1.0,1908.0,3.0,0.0,2018-05-01 00:00:00,0.0
25%,5000.0,2006.0,4.0,69840.0,2018-07-29 18:00:00,19.0
50%,9000.0,2011.0,6.0,113000.0,2018-10-25 00:00:00,33.0
75%,16900.0,2014.0,8.0,155115.5,2019-01-22 00:00:00,53.0
max,375000.0,2019.0,12.0,990000.0,2019-04-19 00:00:00,267.0
std,10152.572328,6.274394,1.659248,65299.301405,,28.106683


In [34]:
# Топ-5 самых частых моделей
df_clean['model'].value_counts().head()

model
ford f-150                  1655
chevrolet silverado 1500    1257
ram 1500                    1012
chevrolet silverado          745
jeep wrangler                628
Name: count, dtype: int64

In [35]:
# Средняя цена по типу автомобиля
print(df_clean.groupby('type')['price'].mean().sort_values(ascending=False))

type
bus            17924.937500
truck          16683.409739
pickup         16310.337750
offroad        14402.440299
convertible    14322.462094
coupe          14042.070290
SUV            11317.119760
other          11058.394558
van             9249.258258
wagon           8844.068736
mini-van        8259.362018
sedan           7005.352050
hatchback       6720.656947
Name: price, dtype: float64


In [36]:
df_clean.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,date_posted,days_listed
2,5500,2013,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,2019-02-07,79
4,14900,2017,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,2019-04-02,28
5,14990,2014,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,2018-06-20,15
6,12990,2015,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,2018-12-27,73
7,15990,2013,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,2019-01-07,68


#### Filtering

In [47]:
expensive_cars = df_clean[df_clean["price"] > 20000]
expensive_cars.shape

(5121, 15)

In [38]:
# Сортировка по цене (от высокой к низкой)
expensive_cars_sorted = expensive_cars.sort_values('price', ascending=False)
print(expensive_cars_sorted[['model', 'price']].head(15))

                          model   price
12504           nissan frontier  375000
34389                ford f-150  189000
33434                ford f-150  189000
1309                 ford f-150  189000
27375                ford f-150  189000
34206         gmc sierra 2500hd  175000
24999                  ram 2500  140000
29810        chevrolet suburban  123456
45263  chevrolet silverado 1500  120000
22833     ford f-250 super duty  115000
4113                 ford f-150   90577
37904      ford f350 super duty   90000
12485             honda odyssey   78000
50664         cadillac escalade   76995
2790         chevrolet corvette   76000


In [39]:
# Подсчет уникальных значений в категориальных столбцах
for col in ['condition', 'fuel', 'transmission', 'type', 'paint_color']:
    print(f"\nУникальные значения в столбце '{col}':")
    print(df_clean[col].value_counts())


Уникальные значения в столбце 'condition':
condition
excellent    14361
good         11701
like new      2767
fair           934
new             88
salvage         65
Name: count, dtype: int64

Уникальные значения в столбце 'fuel':
fuel
gas         27481
diesel       2137
hybrid        240
other          56
electric        2
Name: count, dtype: int64

Уникальные значения в столбце 'transmission':
transmission
automatic    27263
manual        1631
other         1022
Name: count, dtype: int64

Уникальные значения в столбце 'type':
type
truck          7290
SUV            7181
sedan          6999
pickup         4000
coupe          1380
wagon           902
mini-van        674
hatchback       583
van             333
convertible     277
other           147
offroad         134
bus              16
Name: count, dtype: int64

Уникальные значения в столбце 'paint_color':
paint_color
white     7140
black     5432
silver    4408
grey      3563
red       3179
blue      3152
green      950
brown     

In [40]:
# Корреляция между числовыми столбцами
correlation = df_clean[['price', 'model_year', 'odometer', 'days_listed']].corr()

print("\nКорреляционная матрица:")
print(correlation)


Корреляционная матрица:
                price  model_year  odometer  days_listed
price        1.000000    0.430031 -0.418083     0.002341
model_year   0.430031    1.000000 -0.472805    -0.004062
odometer    -0.418083   -0.472805  1.000000     0.005526
days_listed  0.002341   -0.004062  0.005526     1.000000


In [41]:
# Группировка по году выпуска и расчет средней цены
year_price = df_clean.groupby('model_year')['price'].mean().sort_index()
print("\nСредняя цена по году выпуска:")
print(year_price)


Средняя цена по году выпуска:
model_year
1908    12995.000000
1936     5000.000000
1948    21000.000000
1955    23900.000000
1958    35000.000000
            ...     
2015    18195.430029
2016    19691.361262
2017    21096.704950
2018    24817.915061
2019    25740.365546
Name: price, Length: 65, dtype: float64


In [42]:
# Извлечение месяца и года из даты публикации
df_clean['month_posted'] = df_clean['date_posted'].dt.to_period('M')

# Анализ количества объявлений по месяцам
monthly_counts = df_clean['month_posted'].value_counts().sort_index()
print("\nКоличество объявлений по месяцам:")
print(monthly_counts)

# Средняя цена по месяцам
monthly_avg_price = df_clean.groupby('month_posted')['price'].mean()
print("\nСредняя цена по месяцам:")
print(monthly_avg_price)


Количество объявлений по месяцам:
month_posted
2018-05    2569
2018-06    2489
2018-07    2578
2018-08    2602
2018-09    2598
2018-10    2716
2018-11    2538
2018-12    2637
2019-01    2535
2019-02    2311
2019-03    2697
2019-04    1646
Freq: M, Name: count, dtype: int64

Средняя цена по месяцам:
month_posted
2018-05    12354.541456
2018-06    11857.104058
2018-07    12276.624903
2018-08    12594.227133
2018-09    12229.697460
2018-10    11702.660530
2018-11    12049.389283
2018-12    12197.221843
2019-01    12127.782643
2019-02    12404.138035
2019-03    12357.996663
2019-04    12259.792831
Freq: M, Name: price, dtype: float64


In [43]:
# Создание признака 'age' (возраст автомобиля)
current_year = df_clean['date_posted'].dt.year.max()
df_clean['age'] = current_year - df_clean['model_year']

# Создание признака 'price_per_mile'
df_clean['price_per_mile'] = df_clean['price'] / df_clean['odometer']

# Анализ новых признаков
print("\nСредний возраст автомобиля по типу:")
print(df_clean.groupby('type')['age'].mean().sort_values(ascending=False))

print("\nСредняя цена за милю по типу автомобиля:")
print(df_clean.groupby('type')['price_per_mile'].mean().sort_values(ascending=False))


Средний возраст автомобиля по типу:
type
convertible    16.476534
offroad        13.708955
coupe          11.542029
other          11.374150
bus            10.312500
pickup          9.547250
wagon           9.381375
van             9.327327
truck           9.322222
SUV             9.144687
hatchback       9.046312
mini-van        9.037092
sedan           8.274182
Name: age, dtype: float64

Средняя цена за милю по типу автомобиля:
type
SUV                 inf
convertible         inf
coupe               inf
hatchback           inf
pickup              inf
van                 inf
other               inf
truck               inf
sedan               inf
wagon               inf
offroad        6.067921
bus            0.870837
mini-van       0.533630
Name: price_per_mile, dtype: float64


In [44]:
# Найти все SUV с пробегом менее 100000 миль
suv = df_clean[(df_clean['type'] == 'SUV') & 
                   (df_clean['odometer'] < 100000)]

print("\nКоличество SUV с полным приводом и пробегом менее 100000 миль:", len(suv))
print("Примеры таких автомобилей:")
print(suv[['model', 'price', 'odometer']].head())

# Найти самые дешевые автомобили каждого типа в хорошем состоянии
cheapest_by_type = df_clean[df_clean['condition'] == 'good'].groupby('type')['price'].idxmin()
cheapest_cars = df_clean.loc[cheapest_by_type]

print("\nСамые дешевые автомобили каждого типа в хорошем состоянии:")
print(cheapest_cars[['type', 'model', 'price']])


Количество SUV с полным приводом и пробегом менее 100000 миль: 2734
Примеры таких автомобилей:
                          model  price  odometer
40            chevrolet equinox  11499   54772.0
73   jeep grand cherokee laredo   1900     207.0
93                  honda pilot  32000   32104.0
127                   ford edge  10999   98193.0
148             ford expedition   6995   92546.0

Самые дешевые автомобили каждого типа в хорошем состоянии:
              type                    model  price
3808           SUV          chevrolet tahoe      1
6780           bus            ford explorer   4995
24550  convertible             ford mustang   1600
11444        coupe              honda civic      1
6307     hatchback           subaru outback     36
35219     mini-van            honda odyssey    600
46655      offroad      chevrolet silverado     15
46075        other              ford taurus   1000
50393       pickup        gmc sierra 2500hd      1
40939        sedan             toyota ca

In [45]:
import numpy as np

def detect_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers

price_outliers = detect_outliers(df_clean, 'price')
print("\nКоличество выбросов по цене:", len(price_outliers))
print("Примеры выбросов по цене:")
print(price_outliers[['model', 'price']].head())

odometer_outliers = detect_outliers(df_clean, 'odometer')
print("\nКоличество выбросов по пробегу:", len(odometer_outliers))
print("Примеры выбросов по пробегу:")
print(odometer_outliers[['model', 'odometer']].head())


Количество выбросов по цене: 965
Примеры выбросов по цене:
                             model  price
124  chevrolet silverado 1500 crew  37000
188           ford f350 super duty  52000
285                       ram 3500  41999
286                       ram 2500  35999
434        jeep wrangler unlimited  47995

Количество выбросов по пробегу: 320
Примеры выбросов по пробегу:
              model  odometer
33   subaru outback  300000.0
267       ford f150  296000.0
439       ford f150  285000.0
655     honda pilot  288000.0
713       ford f350  304515.0
