# День 01 — Дескриптивный и разведочный анализ данных

Пришло время познакомиться с данными получше. Когда начинаешь дескриптивный и разведочный анализ, никогда не знаешь, что найдешь. И найдешь ли что-то интересное вообще? Посмотрим, удастся ли нам найти какие-то любопытные инсайты на этом этапе анализа данных.

Для начала импортируй библиотеки, которые понадобятся нам в работе.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [1]:
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

Если ячейка выше **не запускается**, то, скорее всего, **не установлена какая-либо библиотека**. **Чтобы установить библиотеку, напиши**:
`pip install matplotlib` или `pip install seaborn` или `pip install pandas`

## Загрузка данных

Сегодня мы проведем дескриптивный анализ наших данных. Прежде чем приступать к дескриптивному анализу, необходимо понять, с какими данными мы имеем дело, и заблаговременно принять меры по их изменению или доработке.

Загрузим наши данные

In [2]:
dataset_01_06 = pd.read_csv("путь к файлу dataset_01_06.csv")
dataset_07_12 = pd.read_csv("путь к файлу dataset_07_12.csv")

Атрибут `.shape` выведет разметы датасета: (Количество строк, Количество столбцов).

In [3]:
dataset_01_06.shape

(32092, 3648)

In [4]:
dataset_07_12.shape

(34661, 3648)

## Добавление нового признака

Для удобства проведения EDA давай объединим 2 датасета, но перед эти добавим признак `period`.

In [5]:
dataset_01_06["period"] = "1 полугодие"
dataset_07_12["period"] = "2 полугодие"

In [6]:
dataset_01_06["period"].head(5)

0    1 полугодие
1    1 полугодие
2    1 полугодие
3    1 полугодие
4    1 полугодие
Name: period, dtype: object

## Задание 1

Объедини датасеты `dataset_01_06` и `dataset_07_12` в один под названием `dataset`. 

Выведи размеры получившегося датасета.

In [7]:
# Код тут

## Сбросить индекс

Так как ты объединил 2 датасета, у нас могут дублироваться индексы строк. Поэтому для удобства воспользуемся методом `reset_index` для того, чтобы спросить индексы строк.

In [None]:
dataset = dataset.reset_index()

## Фильтрация

Так как у нас данные за два полугодия, в нашем датасете могут оказаться данные по одному и тому же пользователю. Например, выберем пользователя с `id` 34657. Для этого отфильруем данные с помощью следующей конструкции:

`dataset['условие по выбору строк']`

In [None]:
# Выберем из датасета только те строки, которые удовлетволяют условию client_id = 106606
dataset[dataset["client_id"] == 34657] 

## Задание 2

Пока у нас нет задачи изучить наших клиентов «в динамике», мы просто хотим описать нашего клиента.

Давай создадим переменную `dataset_unique`. В нее сохраним **последние** данные об **уникальных** клиентах. 
В этом тебе поможет метод [drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html) 
и его параметр `keep`.

Выведи количество строк получившегося датасета. Чтобы убедиться, что ты все выполнил верно, 
выполни код `assert len(dataset_unique) == 60699`. Он должен выполниться без ошибок.

In [None]:
# Код тут

In [None]:
assert len(dataset_unique) == 60699

## Подсчет количества значений

Чтобы подсчитать **количество значений у признака**: 
Сначала в квадратных скобочках выбери признак, который тебя интересует. Например, `['gender_1m']` — признак пола клиента. А затем воспользуйся методом `.value_counts()`.

In [None]:
dataset_unique['gender_1m'].value_counts()

В файле `attributes.xlsx` сказано:
> 0 - Неизвестно, 1 -
> Мужской, 2 - Женский

## Отрисовка графиков

In [None]:
dataset_unique['gender_1m'].value_counts().plot.bar();

**Чтобы нарисовать график**, используй метод `.plot` и соответствующее название графика. Чтобы отрисовать стобцовую диаграмму, допиши `.bar()`

## Задание 3

Построй круговую диаграмму [pie-plot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.pie.html) 
по количеству ушедших клиентов. За отток клиента отвечает признак `label`.

Чтобы красиво дополнить график, добавь эти аргументы `autopct='%1.1f%%', legend=True, title='Ушедшие 
пользователи', ylabel=''`, в метод `pie()`. 

Какой процент пользователей отказался от наших услуг?

In [None]:
# Код тут

## Задание 4

Первая гипотеза, которую все хотят проверить — если клиент часто обращается в поддержку, 
то ему что-то не нравится, и, возможно, он собирается отказаться от наших услуг (хотя на самом деле, часто все наоборот). 

C помощью функции [sns.boxplot](https://seaborn.pydata.org/generated/seaborn.boxplot.html) построй график «ящик с усами» 
по количеству обращений клиента **за 3 месяца** по ушедшим и оставшимся клиентам. В этом тебе поможет аргумент `hue`.

Отличается ли медиана количества обращений у ушедших и оставшихся клиентов?

In [None]:
# Код тут

# Задание 5

У нас имеются данные баланса клиента. Данные баланса клиента **за 3 месяца** собраны в колонке `balance_sum_3m`. 
Интересно посмотреть, сколько в среднем клиенты держат на счетах. 

C помощью функции диаграмму [hist-plot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hist.html) 
построй гистограмму баланса пользователей. Для функции `hist` используй аргумент `bins=200`. 

Также рассчитай среднее и медиану для колонки `balance_sum_3m`. Сохрани их в переменные `mean` и `median`. 
С помощью функции `plt.axvline` добавь эти статистики на гистограмму.

In [None]:
mean = # Код тут
mean

In [None]:
median = # Код тут
median

In [None]:
# Код тут

plt.axvline(x=mean, color='r', label='Mean')
plt.axvline(x=median, color='g', label='Median')
plt.xlim([0, 20000]) # Ограничение оси Х от 0 до 20.000
plt.legend();

## Сводная таблица

Теперь было бы интересно посмотреть изменение количества ушедших/оставшихся пользователей. В этом нам помогут сводные таблицы.
Воспользуемся функцией `pd.pivot_table`.

In [None]:
table = pd.pivot_table(
    dataset,  # Указываем нашу таблицу
    values='client_id',  # Указываем значение, по которому будем осуществлять сводку. В данном случае это уникальный id клиента
    index='period', # Индекс таблицы
    columns='label',  # Колонки таблицы
    aggfunc='count' # Какую функцию будет применять к values.
)

In [None]:
table

In [None]:
table.plot.bar(legend=True, title='Ушедшие пользователи', stacked=True);

## Задание 6

А какую статистику о клиенте хотел бы про визуализировать ты? Надеемся, что за предыдущие задания у тебя уже появились 
гипотезы, которые бы ты хотел визуализировать.

Используй инструменты, с которыми ты познакомился ранее, и визуализируй статистики, интересные лично тебе. 
Чем больше, тем лучше. :)


In [None]:
# Код тут

## Задание 7

Используя библиотеку [Plotly и функции Density Heatmap](https://plotly.com/python/mapbox-density-heatmaps/), отрисуй тепловую карту клиентов. 
За маркер используй **время жизни клиента**.

In [None]:
# Код тут