# День 00 - Сбор данных

## Введение

По мере роста вашего бизнеса и смещения акцента с приобретения новых клиентов на удержание существующих, **задача оттока** становится все более важной.

**Задача оттока** клиентов заключается в идентификации и прогнозировании клиентов, которые могут прекратить пользоваться услугами компании или перейти к конкурентам. Целью этой задачи является **уменьшение потерь клиентов** и **увеличение лояльности** аудитории. 
Для решения этой задачи используются различные методы анализа данных, машинного обучения и статистики, которые позволяют определить факторы, влияющие на отток клиентов, и разработать стратегии удержания клиентов.

**Первый шаг** к созданию модели оттока - это **сбор соответствующих данных**, включая данные об использовании продуктов и прямые отзывы из опросов клиентов, информация о его транзакциях и т.п.
<center><img src="../../DSpy00.ID_1421591/misc/images/churn.jpg"/>

## Атрибуты

У нас есть данные о клиентах за 2021 года. Список всех атрибутов, которые мы храним можно найти в файле `datasets/attribute.xlsx`. Так ты сможешь узнать какие данные у нас имеются для анализа. Все атрибуты разбиты на "Предметные области" и лежат в различных источниках. 

## Задание 1
Изучи файл `datasets/attribute.xlsx` с атрибутами. Узнай какие данные мы можем использовать для анализа. \
В клетке ниже запиши на **сколько предметных областей** разбиты атрибуты. 
Также предложи **несколько** атрибутов, которых у нас нет, но которые пригодились бы нам в анализе. Запиши их **списком**.

**Предметных областей:** ...

**Предложения по атрибутам:** 
- ...

## Загрузка датасета

Всем вам доступен кусочек данных с общими данными о клиентах за первую квартал 2021 года. Он храниться в файле `datasets/client_2021_01_03.csv`. Строки индексируются по полю `id` (уникальный идентификатор клиента)

<center><img src="../../DSpy00.ID_1421591/misc/images/client.png" width="500" height="600"/>

Давайте с помощью языка программирования **Python** и библиотеки для работы с табличными данными **pandas** загрузим эти данные и изучим.
Для начала подгрузим библиотеку **pandas**.

In [1]:
import pandas as pd;  # Импортируем библиотку pandas

Теперь, чтобы обратиться к функциям из библиотеки pandas можно писать `pd.название` функции

Для того, чтобы загрузить таблицу нам потребуется функция `read_csv('путь к файлу')`:

In [2]:
client_2021_01_03 = pd.read_csv('../../data/v2/day00/client_2021_01_03.csv')

In [3]:
client_2021_01_03

Unnamed: 0,address_name_1m,age_1m,apartment_decorating_id_1m,area_name_1m,bad_debt_1m,bad_debt_2m,bad_debt_3m,bad_debt_d1m,bad_debt_d2m,bad_debt_d3m,...,prepay_sum_p2m,prepay_sum_p3m,quality_code_1m,subject_name_1m,subject_type_1m,top1000_ind_1m,top400_ind_1m,upks_1m,year_of_construction_1m,year_of_deployment_1m
126746,Комсомольская,48.0,,Семилукский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,23993.65,1959.0,1964.0
143236,Ленина,,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,18758.07,2002.0,
155829,Набережная,58.0,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,,,
132263,Ленина,88.0,,Верхнехавский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,,,
4070,Газовый,30.0,,,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,,2014.0,2014.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
136212,Титова,40.0,,Лискинский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,,2014.0,2015.0
12759,Карла Маркса,60.0,,Поворинский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,9329.99,1936.0,
11583,Московский,37.0,1.111021e+09,,0.0,473.0,473.0,-1.0,0.0,-0.363897,...,0.0,0.0,1.0,Воронежская,Область,,,,,
44188,Малиновского,29.0,,Россошанский,0.0,0.0,0.0,0.0,0.0,0.000000,...,0.0,0.0,1.0,Воронежская,Область,,,28738.64,2011.0,2011.0


Теперь наша таблица с данными хранится в переменной `client_2021_01_03`. Чтобы посмотреть на первые 5 записей напишите `client_2021_01_03.head(5)`

In [4]:
client_2021_01_03.head(5)

Unnamed: 0,address_name_1m,age_1m,apartment_decorating_id_1m,area_name_1m,bad_debt_1m,bad_debt_2m,bad_debt_3m,bad_debt_d1m,bad_debt_d2m,bad_debt_d3m,...,prepay_sum_p2m,prepay_sum_p3m,quality_code_1m,subject_name_1m,subject_type_1m,top1000_ind_1m,top400_ind_1m,upks_1m,year_of_construction_1m,year_of_deployment_1m
126746,Комсомольская,48.0,,Семилукский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,Воронежская,Область,,,23993.65,1959.0,1964.0
143236,Ленина,,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,Воронежская,Область,,,18758.07,2002.0,
155829,Набережная,58.0,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,Воронежская,Область,,,,,
132263,Ленина,88.0,,Верхнехавский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,Воронежская,Область,,,,,
4070,Газовый,30.0,,,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,Воронежская,Область,,,,2014.0,2014.0


Теперь мы можем посмотреть на первые 5 значений по ряду колонок в таблице.

Для того, чтобы посмотреть сколько строк в таблице `client_2021_01_03` воспользуйтесь функцией `len`:

In [5]:
len(client_2021_01_03)

16046

В нашей таблице 16046 строк - информация о 16046 клиенте

## Задание 2

Каждому из вас в RocketChat прислали кусочек датасета за определенный период, за определенную предметную область. 
Найди способ обменяться кусочками датасета между коллегами. Собери их все и сохрани в папку `datasets`. \
В клетке ниже **запиши сколько файлов с данными у тебя получилось** (включая тот, который у вас был изначально).

**Файлов получилось:** .....

## Задание 3
Загрузи все данные, которые ты собрал. \
Выведи количество строк в данных по любой предметной области за **второй квартал** 2021 года.

In [6]:
client_2021_04_06 = pd.read_csv('../../data/v2/day00/client_2021_04_06.csv')

# Appeals
appeals_2021_01_03 = pd.read_csv('../../data/v2/day00/appeals_2021_01_03.csv')
appeals_2021_04_06 = pd.read_csv('../../data/v2/day00/appeals_2021_04_06.csv')

# Failures
failures_2021_01_03 = pd.read_csv('../../data/v2/day00/failures_2021_01_03.csv')
failures_2021_04_06 = pd.read_csv('../../data/v2/day00/failures_2021_04_06.csv')

# Geography
geography_2021_01_03 = pd.read_csv('../../data/v2/day00/geography_2021_01_03.csv')
geography_2021_04_06 = pd.read_csv('../../data/v2/day00/geography_2021_04_06.csv')

# IPTV
iptv_2021_01_03 = pd.read_csv('../../data/v2/day00/iptv_2021_01_03.csv')
iptv_2021_04_06 = pd.read_csv('../../data/v2/day00/iptv_2021_04_06.csv')

# Services
services_2021_01_03 = pd.read_csv('../../data/v2/day00/services_2021_01_03.csv')
services_2021_04_06 = pd.read_csv('../../data/v2/day00/services_2021_04_06.csv')

In [7]:
len(client_2021_04_06)

16046

## Объединение данных

Конечно же нам хотелось бы использовать данные за весь год. Для этого нам потребуется объединить две таблицы в одну таблицу. В этом нам поможет функция [pd.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html). Принцип её работы описан на этой картинке:

<center><img src="../../DSpy00.ID_1421591/misc/images/concat.png" width="500" height="640" />

Ниже приведен пример, как работает функция `pd.concat`:

In [8]:
table_1 = pd.DataFrame(
    [['A', 61 , 66, 50], ['B', 91, 95, 89], ['C', 77, 83, 82], ['D', 70, 66, 79]], 
    columns=['name', 'chemistry', 'physics', 'math']
)
table_2 = pd.DataFrame(
    [['E', 56 , 60, 90], ['F', 95, 89, 81], ['G', 83, 82, 78], ['H', 66, 70, 90]], 
    columns=['name', 'chemistry', 'physics', 'math']
)

In [9]:
table_1

Unnamed: 0,name,chemistry,physics,math
0,A,61,66,50
1,B,91,95,89
2,C,77,83,82
3,D,70,66,79


In [10]:
table_2

Unnamed: 0,name,chemistry,physics,math
0,E,56,60,90
1,F,95,89,81
2,G,83,82,78
3,H,66,70,90


In [11]:
all_table = pd.concat([table_1, table_2])

In [12]:
all_table

Unnamed: 0,name,chemistry,physics,math
0,A,61,66,50
1,B,91,95,89
2,C,77,83,82
3,D,70,66,79
0,E,56,60,90
1,F,95,89,81
2,G,83,82,78
3,H,66,70,90


## Задание 4

Попарно объедините друг с другом данные по одинаковым предметным областям для каждой предметной области
Выведи количество строк в данных по любой предметной области за **первое полугодие 2021 год**.

<center><img src="../../DSpy00.ID_1421591/misc/images/half-year.png" width="1000" height="1000" />

In [13]:
appeals_data = pd.concat([appeals_2021_01_03, appeals_2021_04_06])
client_data = pd.concat([client_2021_01_03, client_2021_04_06])
failures_data = pd.concat([failures_2021_01_03, failures_2021_04_06])
geography_data = pd.concat([geography_2021_01_03, geography_2021_04_06])
iptv_data = pd.concat([iptv_2021_01_03, iptv_2021_04_06])
services_data = pd.concat([services_2021_01_03, services_2021_04_06])

In [14]:
len(appeals_data), len(client_data), len(failures_data)

(32092, 32092, 32092)

In [15]:
len(geography_data), len(iptv_data), len(services_data)

(32092, 32092, 32092)

## Присоединение данных

Все наши таблицы связаны между собой через признак `client_id`. Ниже представлена схема связи различных источников:

<center><img src="../../DSpy00.ID_1421591/misc/images/scheme.png" width="1000" height="700" />


Чтобы объединиться таблицы вам потребуется функция [pd.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html#pandas.merge). Принцип её работы показан на картинке:

<center><img src="../../DSpy00.ID_1421591/misc/images/merge.png" width="700" height="700" />

Ниже приведен пример, как работает функция `pd.merge`:

In [16]:
table_1 = pd.DataFrame(
    [[1, "Tom"], [2, "Jenny"], [3, "James"], [4, "Dan"]], 
    columns=['id', 'name']
)
table_2 = pd.DataFrame(
    [[2, 31 , "F"], [3, 20 , "M"], [4, 40 , "M"], [5, 70 , "F"]], 
    columns=['id', 'age', 'sex']
)

In [17]:
pd.merge(table_1, table_2, left_on="id", right_on="id")

Unnamed: 0,id,name,age,sex
0,2,Jenny,31,F
1,3,James,20,M
2,4,Dan,40,M


## Задание 5

Объедини таблицы из разных предметных областей в одну итоговую таблицу. В этом тебе пригодится метод [.drop()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) \
Выведи сколько **строк и столбцов** получилось в итоговой таблице.

In [18]:
dataset = pd.merge(client_data, appeals_data, left_on="id", right_on="client_id").drop(columns=["client_id"])
dataset = pd.merge(left=dataset, right=failures_data, left_on="id", right_on="client_id").drop(columns=["client_id"])
dataset = pd.merge(left=dataset, right=geography_data, left_on="id", right_on="client_id").drop(columns=["client_id"])
dataset = pd.merge(left=dataset, right=iptv_data, left_on="id", right_on="client_id").drop(columns=["client_id"])
dataset = pd.merge(left=dataset, right=services_data, left_on="id", right_on="client_id").drop(columns=["client_id"])

In [19]:
dataset

Unnamed: 0,address_name_1m,age_1m,apartment_decorating_id_1m,area_name_1m,bad_debt_1m,bad_debt_2m,bad_debt_3m,bad_debt_d1m,bad_debt_d2m,bad_debt_d3m,...,yandex_drive_p3m,yandex_drive_promo_1m,yandex_drive_promo_2m,yandex_drive_promo_3m,yandex_drive_promo_d1m,yandex_drive_promo_d2m,yandex_drive_promo_d3m,yandex_drive_promo_p1m,yandex_drive_promo_p2m,yandex_drive_promo_p3m
0,Комсомольская,48.0,,Семилукский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Ленина,,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,Набережная,58.0,,Острогожский,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,0.0,0.0,0.0,,,
3,Ленина,88.0,,Верхнехавский,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,0.0,0.0,0.0,,,
4,Газовый,30.0,,,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,0.0,0.0,0.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32087,Красная,71.0,,Грибановский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
32088,Разина,53.0,,Кантемировский,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,0.0,0.0,0.0,,,
32089,Красноармейская,69.0,,,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,0.0,0.0,0.0,,,
32090,Красная,44.0,,Поворинский,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [20]:
# dataset.to_csv("../data/day01/data_01_06.csv")