# Исследуем данные

**Разделы:**
- [Импортируем бибилиотеки и загрузим данные](#импортируем-бибилиотеки-и-загрузим-данные)
- [Первичный анализ данных](#первичный-анализ-данных)

## Импортируем бибилиотеки и загрузим данные

In [3]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Загрузка данных из data/raw/
data_path = os.path.join('..', 'data', 'raw', 'bmw.csv')
df = pd.read_csv(data_path)

print("Размер датасета:", df.shape)
df.head()

Размер датасета: (10781, 9)


Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize
0,5 Series,2014,11200,Automatic,67068,Diesel,125,57.6,2.0
1,6 Series,2018,27000,Automatic,14827,Petrol,145,42.8,2.0
2,5 Series,2016,16000,Automatic,62794,Diesel,160,51.4,3.0
3,1 Series,2017,12750,Automatic,26676,Diesel,145,72.4,1.5
4,7 Series,2014,14500,Automatic,39554,Diesel,160,50.4,3.0


In [4]:
df.columns

Index(['model', 'year', 'price', 'transmission', 'mileage', 'fuelType', 'tax',
       'mpg', 'engineSize'],
      dtype='object')

Описание признаков нашего набора данных.



1) Модель ('model'): 
    * Описание: модель bmw. 
    * Тип данных: *категориальный параметр*
2) Год (`year`):
    * Описание: год производства. 
    * Тип данных: *числовой признак*
3) Цена (`price`):
    * Описание: цена автомобиля
    * Тип данных: *числовой признак*
4) Трансмиссия (`transmission`):
    * Описание: тип трансмиссии
    * Тип данных: *категориальный признак*
5) Километраж (`mileage`):
    * Описание: количество пройденных миль. автомобилем
    * Тип данных: *числовой признак*
6) Тип топлива (`Fuel Type`):
    * Описание: тип топлива
    * Тип данных: *категориальный признак* (Petrol/Diesel/Hybrid/etc)
7) Налог (`tax`):
    * Описание: налог на авто
    * Тип данных: *числовой признак*
8) Экономичность автомобился (`mpg`):
    * Описание: сколько топлива потребляет авто за 1 милю
    * Тип данных: *числовой признак*
9) Объем двигателя (`engineSize`):
    * Описание: объём двигателя
    * Тип данных: *числовой признак*

## Первичный анализ данных

In [5]:
import sys
sys.path.append('..')
from utils.preprocessing import print_info_unique_vals

print_info_unique_vals(df)

| model           (count: 24)
| [' 5 Series' ' 6 Series' ' 1 Series' ' 7 Series' ' 2 Series' ' 4 Series'
 ' X3' ' 3 Series' ' X5' ' X4' ' i3' ' X1' ' M4' ' X2' ' X6' ' 8 Series'
 ' Z4' ' X7' ' M5' ' i8' ' M2' ' M3' ' M6' ' Z3']
| transmission    (count:  3)
| ['Automatic' 'Manual' 'Semi-Auto']
| fuelType        (count:  5)
| ['Diesel' 'Petrol' 'Other' 'Hybrid' 'Electric']


In [6]:
print("Информация о датасете:")
print(df.info())

print('\n', '-'*20, '\n')

print("\nПропущенные значения:")
print(df.isnull().sum())

print('\n', '-'*20, '\n')

print("\nСтатистика числовых признаков:")
print(df.describe())

Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10781 entries, 0 to 10780
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   model         10781 non-null  object 
 1   year          10781 non-null  int64  
 2   price         10781 non-null  int64  
 3   transmission  10781 non-null  object 
 4   mileage       10781 non-null  int64  
 5   fuelType      10781 non-null  object 
 6   tax           10781 non-null  int64  
 7   mpg           10781 non-null  float64
 8   engineSize    10781 non-null  float64
dtypes: float64(2), int64(4), object(3)
memory usage: 758.2+ KB
None

 -------------------- 


Пропущенные значения:
model           0
year            0
price           0
transmission    0
mileage         0
fuelType        0
tax             0
mpg             0
engineSize      0
dtype: int64

 -------------------- 


Статистика числовых признаков:
               year          price        milea