In [None]:

## Импорт пакетов
- `matplotlib.pyplot`, `pylab`, `seaborn` - рисование графиков
- `pandas` - работа с таблицами
- `numpy` - работа с матрицами

In [None]:
import matplotlib.pyplot as plt
import pylab as pl
import seaborn as sns

import pandas as pd

import numpy as np

%matplotlib inline

## Анализ данных

`FuelConsumption.csv` (Рейтинги расхода топлива):

[Dataset source](https://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)

-   **MODELYEAR** e.g. 2014
-   **MAKE** e.g. Acura
-   **MODEL** e.g. ILX
-   **VEHICLE CLASS** e.g. SUV
-   **ENGINE SIZE** e.g. 4.7
-   **CYLINDERS** e.g 6
-   **TRANSMISSION** e.g. A6
-   **FUEL CONSUMPTION in CITY(L/100 km)** e.g. 9.9
-   **FUEL CONSUMPTION in HWY (L/100 km)** e.g. 8.9
-   **FUEL CONSUMPTION COMB (L/100 km)** e.g. 9.2
-   **CO2 EMISSIONS (g/km)** e.g. 182   --> low --> 0


### Загрузка данных

In [None]:
import os
notebook_path = os.path.abspath("Notebook.ipynb")    # получить "точку отсчета" для поиска файла
data_csv = os.path.join(os.path.dirname(notebook_path), "data/FuelConsumptionCo2.csv")
df = pd.read_csv(data_csv)

# вывести первые 5 строк из таблицы
df.head()

In [None]:
# вывести последние 5 строк таблицы
df.tail()

In [None]:
df.info()

### Исследование данных (Data Exploration)

**По умолчанию будет выдана информация только для количественных признаков.**
- `count` - количество элементов
- `mean` - среднее значение
- `std` - стандартное отклонение
- `min` - минимальное значение
- `25%` - нижний квартиль
- `50%` - медиана
- `75%` - верхний квартиль
- `max` - максимальное значение

In [None]:
# обзор Dataframe из файла FuelConsumptionCo2.csv
df.describe()

In [None]:
# вывести первые 9 строк
df.head(9)

In [None]:
# гистограмма
df.hist(figsize=(10, 10))
plt.tight_layout()
plt.show()

In [None]:
plt.scatter(df.FUELCONSUMPTION_COMB,
            df.CO2EMISSIONS,
            color='green')
plt.xlabel("FUELCONSUMPTION_COMB", fontsize=20)
plt.ylabel("Emission", fontsize=20)
plt.show()

In [None]:
plt.scatter(df.ENGINESIZE,
            df.CO2EMISSIONS,
            color='red')
plt.xlabel("Engine size", fontsize=20)
plt.ylabel("Emission", fontsize=20)
plt.show()

In [None]:
plt.scatter(df.CYLINDERS,
            df.CO2EMISSIONS,
            color='chocolate')
plt.xlabel("Cylinders", fontsize=20)
plt.ylabel("Emission", fontsize=20)
plt.show()

In [None]:
correlation_matrix = df.corr()

plt.figure(figsize=(15, 10))

ax = sns.heatmap(
    correlation_matrix,
    vmax=1,
    square=True,
    annot=True,
    fmt='.2f',
    cmap='GnBu',
    cbar_kws={"shrink": .5},
    robust=True
)

plt.title('Correlation Matrix of features', fontsize=20)
plt.show()