## Разведочный анализ данных (exploratory data analysis, EDA)

Задачи, которые ставятся перед аналитиками, достаточно разнообразны. Однако всё начинается с данных.

Нужно понимать, что данные не берутся "из воздуха". Как и задачи, связанные с ними. В книге Билла Фрэнкса об операционной аналитике автор акцентирует внимание на том, что непродуманные инвестиции в сбор и хранение данных по принципу "а вдруг потом пригодятся" зачастую себя не оправдывают. Только после того, как поставлена определённая цель, можно начинать процесс сбора (или, возможно, покупки) и анализа данных.

К сожалению, на практике данные в "сыром" виде обычно малопригодны для анализа. Процесс подготовки и очистки данных (препроцессинг, англ. data preparation, pre-processing, data cleaning) может быть весьма трудоёмким и по времени занимать больше, чем собственно построение и валидация моделей на основе данных. Выделим некоторые составляющие этого процесса:

- data specification (понимание данных)
- data editing (редактирование данных, исправление ошибок --- ручное, автоматическое или их комбинация)
- работа с пропущенными значениями
- нормализация
- feature extraction and selection (создание и отбор признаков)

В результате получаем данные в удобном для анализа формате, как правило, табличном. Таблица (или датафрейм) имеет структуру "объекты-признаки": строки соответствуют отдельным сущностям (объектам, примерам, экземплярам), а столбцы --- атрибутам этих сущностей (признакам).

## Подготовка

### Импорты

In [None]:
import pandas as pd
import numpy as np

In [15]:
from datetime import datetime

In [None]:
from sqlalchemy import create_engine
import psycopg2
#для связи с postgresql

In [16]:
import matplotlib.pyplot as plt

In [17]:
from pandas.plotting import register_matplotlib_converters

# конвертеры, которые позволяют использовать типы pandas в matplotlib 

In [None]:
import seaborn as sns

In [None]:
import plotly.express as px

In [None]:
from plotly import graph_objects as go

In [None]:
import math as mth

In [None]:
import scipy.stats

In [None]:
from scipy import stats as st

In [None]:
import sys

In [None]:
import getopt

In [None]:
import csv
from io import StringIO

In [None]:
import sqlite3

In [None]:
import os

### Опции

In [None]:
# pd.set_option('max_rows', 5)

# количество строк в таблице не больше 5, чтобы не писать head() за каждым фреймом
# при необходимости раскрыть из комментария полный вывод данных в колонке
# pd.set_option('display.max_colwidth', None)

In [None]:
pd.set_option('display.float_format', '{:,.2f}'.format)
# разделитель ',' и два знака после запятой у чисел с плавающей точкой

#### опции для графики

In [None]:
large = 16; med = 12; small = 10
params = {'axes.titlesize': large,
          'legend.fontsize': med,
          'figure.figsize': (12, 8),
          'axes.labelsize': med,
          'axes.titlesize': med,
          'xtick.labelsize': med,
          'ytick.labelsize': med,
          'figure.titlesize': large}

plt.rcParams.update(params)
plt.style.use('seaborn-whitegrid')

In [None]:
sns.set_palette('deep') 
sns.set_style("whitegrid")

### Заливка данных

In [None]:
df = pd.read_csv('path_to_file')

In [1]:
# см. template_data_filling.ipynb
# см. template_data_load.ipynb

### Ознакомление с данными

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.isna().sum()
# поиск пропущенных значений

In [None]:
df.duplicated().sum()
#поиск абсолютных дубликатов

#### просмотр интересующих столбцов

In [None]:
# Максимум, минимум, среднее

(df['name_column'].max(),
df['name_column'].min(),
df['name_column'].mean())

In [None]:
agg_func_math = {
    'name_column_with_data': ['count', 'sum', 'mean', 'median', 'min', 'max', 'std', 'var', 'mad', 'prod']
}
# задаем список функций по определенному столбцу с расчетными данными

df.groupby('name_column', dropna=False).agg(agg_func_math).round(2)
# учитываем строки с NaN: dropna=False

In [None]:
agg_func_describe = {'name_column_with_data': ['describe']}
# describe вызывается описательная статистика
df.groupby('name_column').agg(agg_func_describe).round(2)

### Предобработка

#### переименование столбцов

In [None]:
df = df.rename(columns=lambda x: x.lower().replace(' ', '_'))

#### удаление столбца

In [None]:
df = df.drop('name_collumn', 1)

#### удаление дубликатов

In [None]:
df = df.drop_duplicates().reset_index(drop=True)
# удаление дубликатов

#### преобразование строк в дату и время

In [None]:
df['name_collumn'] = pd.to_datetime(df['name_collumn'])