# **Создание модели на основе данных о качестве воздуха**

В этом проекте наша команда будет исследовать набор данных о качестве воздуха, чтобы обучить модель машинного обучения (ML), способную предсказывать концентрацию угарного газа в воздухе на основе концентрации различных загрязнителей, таких как металлические оксиды и углеводороды. Это также даст нам возможность работать с временными рядами.

Данные были получены из репозитория машинного обучения UCI здесь [UCI Machine Learning Repository - Air Quality Dataset](https://archive.ics.uci.edu/ml/datasets/Air+Quality). Этот набор данных охватывает данные датчиков по различным загрязнителям, собранные с марта 2004 года по февраль 2005 года (1 год).

# **О наборе данных**

Этот набор данных содержит ответы устройства многосенсорного газового детектора, размещенного на местности в итальянском городе. В нем записаны средние почасовые показания вместе с эталонными концентрациями газов, полученными с помощью сертифицированного анализатора. Данные взяты из репозитория машинного обучения UCI: [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)

Набор данных содержит 9357 экземпляров почасовых усредненных ответов от массива из 5 химических сенсоров на основе металлических оксидов, встроенных в многосенсорное устройство контроля качества воздуха. Устройство было расположено на местности в значительно загрязненной области, на уровне дороги, в итальянском городе. Данные записывались с марта 2004 года по февраль 2005 года (один год), представляя самую длительную бесплатно доступную запись ответов устройств детектирования качества воздуха на местности. Почасовые усредненные концентрации для CO, неметановых углеводородов, бензола, общих оксидов азота (NOx) и диоксида азота (NO2) были предоставлены совместно расположенным эталонным сертифицированным анализатором. Присутствуют доказательства перекрестных чувствительностей, а также концептуальных и сенсорных сдвигов, как описано в работе Де Вито и др., Sens. And Act. B, Vol. 129,2,2008 (требуется цитирование), в конечном итоге влияющих на способности оценки концентраций сенсорами. Отсутствующие значения помечены значением -200. Этот набор данных может использоваться исключительно в исследовательских целях. Коммерческое использование полностью исключено.

## **Открытие данных и изучение общей информации**

In [3]:
# импортируем необходимы библиотеки для работы с данными
import pandas as pd
import numpy as np
import datetime

# для работы с визуализациями
import plotly.graph_objects as go
import plotly.express as px

In [4]:
# считываем csv-файл датасета в перемнную data с использованием разделителей '\'
df = pd.read_csv('AirQuality.csv', sep=';')

In [5]:
# рассмотрим данные датасета (первые и последние 20 строчек)
display(df.head(20))
display(df.tail(20))

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
0,10/03/2004,18.00.00,26,1360.0,150.0,119,1046.0,166.0,1056.0,113.0,1692.0,1268.0,136,489,7578,,
1,10/03/2004,19.00.00,2,1292.0,112.0,94,955.0,103.0,1174.0,92.0,1559.0,972.0,133,477,7255,,
2,10/03/2004,20.00.00,22,1402.0,88.0,90,939.0,131.0,1140.0,114.0,1555.0,1074.0,119,540,7502,,
3,10/03/2004,21.00.00,22,1376.0,80.0,92,948.0,172.0,1092.0,122.0,1584.0,1203.0,110,600,7867,,
4,10/03/2004,22.00.00,16,1272.0,51.0,65,836.0,131.0,1205.0,116.0,1490.0,1110.0,112,596,7888,,
5,10/03/2004,23.00.00,12,1197.0,38.0,47,750.0,89.0,1337.0,96.0,1393.0,949.0,112,592,7848,,
6,11/03/2004,00.00.00,12,1185.0,31.0,36,690.0,62.0,1462.0,77.0,1333.0,733.0,113,568,7603,,
7,11/03/2004,01.00.00,1,1136.0,31.0,33,672.0,62.0,1453.0,76.0,1333.0,730.0,107,600,7702,,
8,11/03/2004,02.00.00,9,1094.0,24.0,23,609.0,45.0,1579.0,60.0,1276.0,620.0,107,597,7648,,
9,11/03/2004,03.00.00,6,1010.0,19.0,17,561.0,-200.0,1705.0,-200.0,1235.0,501.0,103,602,7517,,


Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
9451,,,,,,,,,,,,,,,,,
9452,,,,,,,,,,,,,,,,,
9453,,,,,,,,,,,,,,,,,
9454,,,,,,,,,,,,,,,,,
9455,,,,,,,,,,,,,,,,,
9456,,,,,,,,,,,,,,,,,
9457,,,,,,,,,,,,,,,,,
9458,,,,,,,,,,,,,,,,,
9459,,,,,,,,,,,,,,,,,
9460,,,,,,,,,,,,,,,,,


In [58]:
# посмотрим основную информацию по датасету
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Date           9357 non-null   object 
 1   Time           9357 non-null   object 
 2   CO(GT)         9357 non-null   object 
 3   PT08.S1(CO)    9357 non-null   float64
 4   NMHC(GT)       9357 non-null   float64
 5   C6H6(GT)       9357 non-null   object 
 6   PT08.S2(NMHC)  9357 non-null   float64
 7   NOx(GT)        9357 non-null   float64
 8   PT08.S3(NOx)   9357 non-null   float64
 9   NO2(GT)        9357 non-null   float64
 10  PT08.S4(NO2)   9357 non-null   float64
 11  PT08.S5(O3)    9357 non-null   float64
 12  T              9357 non-null   object 
 13  RH             9357 non-null   object 
 14  AH             9357 non-null   object 
 15  Unnamed: 15    0 non-null      float64
 16  Unnamed: 16    0 non-null      float64
dtypes: float64(10), object(7)
memory usage: 1.2+ MB


**Описание данных**

- 0 `Date` - дата (ДД/ММ/ГГГГ)
- 1 `Time` - время (ЧЧ.ММ.СС)
- 2 `CO(GT)` - истинная почасовая усредненная концентрация CO в мг/м^3 (эталонный анализатор)
- 3 `PT08.S1(CO)` - оксид олова; почасовой усредненный отклик сенсора (номинально нацеленный на CO)
- 4 `NMHC(GT)` - истинная почасовая усредненная общая концентрация неметановых углеводородов в микрог/м^3 (эталонный анализатор)
- 5 `C6H6(GT)` - истинная почасовая усредненная концентрация бензола в микрог/м^3 (эталонный анализатор)
- 6 `PT08.S2(NMHC)` - почасовой усредненный отклик сенсора (номинально нацеленный на NMHC)
- 7 `NOx(GT)` - истинная почасовая усредненная концентрация NOx в ппб (эталонный анализатор)
- 8 `PT08.S3(NOx)` - почасовой усредненный отклик сенсора (номинально нацеленный на NOx)
- 9 `NO2(GT)` - истинная почасовая усредненная концентрация NO2 в микрог/м^3 (эталонный анализатор)
- 10 `PT08.S4(NO2)` - почасовой усредненный отклик сенсора (номинально нацеленный на NO2)
- 11 `PT08.S5(O3)` - почасовой усредненный отклик сенсора (номинально нацеленный на O3)
- 12 `T` - температура в °C
- 13 `RH` - относительная влажность (%)
- 14 `AH` - абсолютная влажность

**По первоночальному ознакомлению с датасетом можно сказать следующее:**
- в датасете 17 столбцов с количеством строк - 9357
- в датасете присутствуют пропуски со значением `NaN` хотя в информации о датасете пропусков нет
- столбцы со временем и датой лучше объединить и преобразовать в формат `datetime`
- необходимо удалить столбцы `Unnamed: 15` и `Unnamed: 16`
- столбцах `CO(GT)`, `C6H6(GT)`, `T`, `RH`, `AH` необходимо поменять формат данных на float64

## **Предобработка данных**

Сначала удалим столбцы `Unnamed: 15` и `Unnamed: 16`

In [6]:
# удалим ненужные столбцы из датасета
df.drop(['Unnamed: 15','Unnamed: 16'], axis=1, inplace=True, errors = 'ignore') 
df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,10/03/2004,18.00.00,26,1360.0,150.0,119,1046.0,166.0,1056.0,113.0,1692.0,1268.0,136,489,7578
1,10/03/2004,19.00.00,2,1292.0,112.0,94,955.0,103.0,1174.0,92.0,1559.0,972.0,133,477,7255
2,10/03/2004,20.00.00,22,1402.0,88.0,90,939.0,131.0,1140.0,114.0,1555.0,1074.0,119,540,7502
3,10/03/2004,21.00.00,22,1376.0,80.0,92,948.0,172.0,1092.0,122.0,1584.0,1203.0,110,600,7867
4,10/03/2004,22.00.00,16,1272.0,51.0,65,836.0,131.0,1205.0,116.0,1490.0,1110.0,112,596,7888


Преобразуем столбцы `CO(GT)`, `C6H6(GT)`, `T`, `RH`, `AH` в формат float, при этом поменяем все запятые на точки, чтобы значения не исчезли

In [7]:
# преобразуем столбцы в формат float64
for col in ['CO(GT)', 'C6H6(GT)', 'T', 'RH', 'AH']:
    df[col] = df[col].str.replace(',', '.').astype(float)

Теперь поработаем над скрытыми пропусками. Из документации нам известно, что при значении `-200` замера не осуществлялось. Заменим эти значения на NaN

In [8]:
# Заменим значения -200 на NaN
df.replace(to_replace = -200, value = np.nan, inplace = True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Date           9357 non-null   object 
 1   Time           9357 non-null   object 
 2   CO(GT)         7674 non-null   float64
 3   PT08.S1(CO)    8991 non-null   float64
 4   NMHC(GT)       914 non-null    float64
 5   C6H6(GT)       8991 non-null   float64
 6   PT08.S2(NMHC)  8991 non-null   float64
 7   NOx(GT)        7718 non-null   float64
 8   PT08.S3(NOx)   8991 non-null   float64
 9   NO2(GT)        7715 non-null   float64
 10  PT08.S4(NO2)   8991 non-null   float64
 11  PT08.S5(O3)    8991 non-null   float64
 12  T              8991 non-null   float64
 13  RH             8991 non-null   float64
 14  AH             8991 non-null   float64
dtypes: float64(13), object(2)
memory usage: 1.1+ MB


Похоже, что в столбце `NMHC(GT)` много некорректных показаний по сравнению со всеми другими датчиками. Посмотрим какой процент составляют нулевые значения относительно общего числа значений и решим стоит ли сохранять этот столбец или удалить его.

In [9]:
# создадим необходимые списки
percent_NaN = []
columns = df.columns
# создадим цикл определяющий процент пустых значений в столбцах
for col in columns:
    pNaN =  (df[col].isna().sum()/df.shape[0]) * 100
    percent_NaN.append(pNaN)
nan_percent_df = pd.DataFrame(percent_NaN,
                              index=columns,
                              columns=['%_NaN_in_Column']).sort_values('%_NaN_in_Column',ascending = False)
# посмотрим на полученные доли пустых значений в столбцах
nan_percent_df

Unnamed: 0,%_NaN_in_Column
NMHC(GT),90.349488
CO(GT),18.973709
NO2(GT),18.540809
NOx(GT),18.509133
PT08.S1(CO),5.068103
C6H6(GT),5.068103
PT08.S2(NMHC),5.068103
PT08.S3(NOx),5.068103
PT08.S4(NO2),5.068103
PT08.S5(O3),5.068103


Как видим количество путсых значений в столбце `NMHC(GT)` более 90%. Его можно удалить. Также удалим все строки с пустыми значениями и продолжим предобработку датасета.

In [10]:
# удалим столбец NMHC(GT)
df.drop('NMHC(GT)', axis=1, inplace=True, errors = 'ignore') 
# удалим пропуски из датасета
df = df.dropna()
df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,10/03/2004,18.00.00,2.6,1360.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578
1,10/03/2004,19.00.00,2.0,1292.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255
2,10/03/2004,20.00.00,2.2,1402.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502
3,10/03/2004,21.00.00,2.2,1376.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867
4,10/03/2004,22.00.00,1.6,1272.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888


In [11]:
# посмотрим информацию по датасету
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6941 entries, 0 to 9356
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Date           6941 non-null   object 
 1   Time           6941 non-null   object 
 2   CO(GT)         6941 non-null   float64
 3   PT08.S1(CO)    6941 non-null   float64
 4   C6H6(GT)       6941 non-null   float64
 5   PT08.S2(NMHC)  6941 non-null   float64
 6   NOx(GT)        6941 non-null   float64
 7   PT08.S3(NOx)   6941 non-null   float64
 8   NO2(GT)        6941 non-null   float64
 9   PT08.S4(NO2)   6941 non-null   float64
 10  PT08.S5(O3)    6941 non-null   float64
 11  T              6941 non-null   float64
 12  RH             6941 non-null   float64
 13  AH             6941 non-null   float64
dtypes: float64(12), object(2)
memory usage: 813.4+ KB


Осталось почти 7 тыс строк. Этого должно хватить для анализа и создания модели

Столбцы со временем и датой объединим и преобразуем в формат `datetime`

In [12]:
# создадим новый столбец со временем и датой
df['DateTime'] =  (df['Date']) + ' ' + (df['Time'])
# преобразуем его в формат datetime
df['DateTime'] = df['DateTime'].apply(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y %H.%M.%S'))
df

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,DateTime
0,10/03/2004,18.00.00,2.6,1360.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578,2004-03-10 18:00:00
1,10/03/2004,19.00.00,2.0,1292.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255,2004-03-10 19:00:00
2,10/03/2004,20.00.00,2.2,1402.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502,2004-03-10 20:00:00
3,10/03/2004,21.00.00,2.2,1376.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867,2004-03-10 21:00:00
4,10/03/2004,22.00.00,1.6,1272.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888,2004-03-10 22:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9352,04/04/2005,10.00.00,3.1,1314.0,13.5,1101.0,472.0,539.0,190.0,1374.0,1729.0,21.9,29.3,0.7568,2005-04-04 10:00:00
9353,04/04/2005,11.00.00,2.4,1163.0,11.4,1027.0,353.0,604.0,179.0,1264.0,1269.0,24.3,23.7,0.7119,2005-04-04 11:00:00
9354,04/04/2005,12.00.00,2.4,1142.0,12.4,1063.0,293.0,603.0,175.0,1241.0,1092.0,26.9,18.3,0.6406,2005-04-04 12:00:00
9355,04/04/2005,13.00.00,2.1,1003.0,9.5,961.0,235.0,702.0,156.0,1041.0,770.0,28.3,13.5,0.5139,2005-04-04 13:00:00


Теперь создадим столбцы даты, дня недели, месяца и часа (ну вдруг понадобятся) и удалим столбец `Time`

In [15]:
# создадим новые столбцы
df['Weekday'] = df['DateTime'].dt.weekday
df['Month']   = df['DateTime'].dt.month
df['Hour']    = df['DateTime'].dt.hour
# изменим формат столбца Date
df['Date']    = pd.to_datetime(df['Date'], format='%d/%m/%Y')
# удалим столбец Time
df.drop('Time', axis=1, inplace=True, errors = 'ignore') 
# посмотрим начало датасета
df.head()

Unnamed: 0,Date,CO(GT),PT08.S1(CO),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,DateTime,Weekday,Month,Hour
0,2004-03-10,2.6,1360.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578,2004-03-10 18:00:00,2,3,18
1,2004-03-10,2.0,1292.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255,2004-03-10 19:00:00,2,3,19
2,2004-03-10,2.2,1402.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502,2004-03-10 20:00:00,2,3,20
3,2004-03-10,2.2,1376.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867,2004-03-10 21:00:00,2,3,21
4,2004-03-10,1.6,1272.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888,2004-03-10 22:00:00,2,3,22


Изменим порядок столбцов для удобства

In [19]:
df.drop('DateTime', axis=1, inplace=True, errors = 'ignore') 
df.drop('Date', axis=1, inplace=True, errors = 'ignore') 
# изменим порядок столбцов
df = df[['Month', 'Weekday', 'Hour', 'CO(GT)','PT08.S1(CO)', 'C6H6(GT)', 'PT08.S2(NMHC)', 
         'NOx(GT)', 'PT08.S3(NOx)', 'NO2(GT)', 'PT08.S4(NO2)', 'PT08.S5(O3)', 'T', 'RH', 'AH']]
# посмотрим начало датасета
df.head()

Unnamed: 0,Month,Weekday,Hour,CO(GT),PT08.S1(CO),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,3,2,18,2.6,1360.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578
1,3,2,19,2.0,1292.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255
2,3,2,20,2.2,1402.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502
3,3,2,21,2.2,1376.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867
4,3,2,22,1.6,1272.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888


In [20]:
# посмотрим информацию по датасету
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6941 entries, 0 to 9356
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Month          6941 non-null   int64  
 1   Weekday        6941 non-null   int64  
 2   Hour           6941 non-null   int64  
 3   CO(GT)         6941 non-null   float64
 4   PT08.S1(CO)    6941 non-null   float64
 5   C6H6(GT)       6941 non-null   float64
 6   PT08.S2(NMHC)  6941 non-null   float64
 7   NOx(GT)        6941 non-null   float64
 8   PT08.S3(NOx)   6941 non-null   float64
 9   NO2(GT)        6941 non-null   float64
 10  PT08.S4(NO2)   6941 non-null   float64
 11  PT08.S5(O3)    6941 non-null   float64
 12  T              6941 non-null   float64
 13  RH             6941 non-null   float64
 14  AH             6941 non-null   float64
dtypes: float64(12), int64(3)
memory usage: 867.6 KB


**Описание данных после предобработки**

- 1 `Month` - месяц замера
- 1 `Weekday` - день недели замера
- 2 `Hour` - Час замера
- 3 `CO(GT)` - истинная почасовая усредненная концентрация CO в мг/м^3 (эталонный анализатор)
- 4 `PT08.S1(CO)` - оксид олова; почасовой усредненный отклик сенсора (номинально нацеленный на CO)
- 5 `C6H6(GT)` - истинная почасовая усредненная концентрация бензола в микрог/м^3 (эталонный анализатор)
- 6 `PT08.S2(NMHC)` - почасовой усредненный отклик сенсора (номинально нацеленный на NMHC)
- 7 `NOx(GT)` - истинная почасовая усредненная концентрация NOx в ппб (эталонный анализатор)
- 8 `PT08.S3(NOx)` - почасовой усредненный отклик сенсора (номинально нацеленный на NOx)
- 9 `NO2(GT)` - истинная почасовая усредненная концентрация NO2 в микрог/м^3 (эталонный анализатор)
- 10 `PT08.S4(NO2)` - почасовой усредненный отклик сенсора (номинально нацеленный на NO2)
- 11 `PT08.S5(O3)` - почасовой усредненный отклик сенсора (номинально нацеленный на O3)
- 12 `T` - температура в °C
- 13 `RH` - относительная влажность (%)
- 14 `AH` - абсолютная влажность

In [21]:
# посмотрим характеристики по датасету
df.describe()

Unnamed: 0,Month,Weekday,Hour,CO(GT),PT08.S1(CO),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
count,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0,6941.0
mean,6.02723,3.04034,12.02017,2.182467,1119.913269,10.554488,958.543005,250.671949,816.893387,113.874082,1452.648898,1057.756519,17.755323,48.881905,0.985573
std,3.48971,2.017314,6.813924,1.441158,218.733754,7.465226,264.055002,208.611371,251.8972,47.475017,353.301576,406.509957,8.844909,17.433193,0.401097
min,1.0,0.0,0.0,0.1,647.0,0.2,390.0,2.0,322.0,2.0,551.0,221.0,-1.9,9.2,0.1847
25%,3.0,1.0,7.0,1.1,956.0,4.9,760.0,103.0,642.0,79.0,1207.0,760.0,11.2,35.3,0.6941
50%,6.0,3.0,12.0,1.9,1085.0,8.8,931.0,186.0,786.0,110.0,1457.0,1006.0,16.8,49.2,0.9539
75%,9.0,5.0,18.0,2.9,1254.0,14.6,1135.0,335.0,947.0,142.0,1683.0,1322.0,23.7,62.2,1.2516
max,12.0,6.0,23.0,11.9,2040.0,63.7,2214.0,1479.0,2683.0,333.0,2775.0,2523.0,44.6,88.7,2.1806


In [22]:
df.to_csv('processd_df.csv', sep = ';')

## Разведывательный анализ данных