# <center> Открытый региональный конкурс по информатике и программированию
## <center> Отборочный этап (БДиМО)

## Вступление

Многие считают что 80% рабочего времени аналитики данных обучают модели машинного обучения, подбирая гипер-параметры нейросетей, случайных лесов, градиентных методов (xgboost, lgbm). Но на самом деле это требует не более 20% от всех трудозатрат. Большая же часть времени уходит на подготовку данных: устранение аномалий, приведение данных к требуемой форме (например, извлечение изображений из медицинских данных формата .dicom), на генерацию новых признаков (или новых "фич" от англ. feature, в матрицах данных это столбцы), на исследование зависимостей между столбцами матриц данных или на сбор данных. Таким образом, очень важным навыком является умение работать с такими библиотеками как pandas, numpy, PIL, glob, torch, albumentations, tensorflow. Если речь идет о классическом машинном обучении (чаще всего это задачи, связанные с табличными данными), то главным инструментом будет являться библиотека pandas. Навыки работы именно с этой библиотекой вам и предстоит продемонстрировать в рамках данного этапа. Для тех, кто еще не знаком с данной библиотекой, вы можете изучить [материал](https://habr.com/en/company/ods/blog/322626/), подготовленный членами сообщества Open Data Science в рамках курса по классическому машинному обучению. 

## Правила

Работать будем с датасетом (от англ. Data Set - набор данных), собранным компаниями Tinkoff и McKinsey&Company ([ссылка на датасет и сопутствующие материалы]()). В нем представлено 4 таблицы в формате comma-separated values (csv): *customer_info.csv*, *stories_description.csv*, *stories_reaction.csv*, *transactions.csv*. Описание столбцов каждой таблицы можно найти в файле *data_desc.xlsx*. В рамках данного этапа вам предлагается заняться подготовкой данных и вычислением статистик. Всего потребуется вычислить 7 статистик (например, средний возраст женщин в датасете), выбрать вариант ответа из предложенных и заполнить форму с ответами ([ссылка на форму]()). За каждое задание вы можете получить от 1 до 3 баллов (в зависимости от сложности). Рейтинг участников будет определяться по сумме набранных баллов.

## Задачи

Для начала импортируйте pandas и считайте данные (которые вы скачали по ссылке):

In [None]:
# ваш код здесь

---
### Вопрос 1. 
Какой средний возраст покупателей в таблице customer_info? 


In [None]:
# ваш код здесь

варианты ответа (выберите самое близкое значение, [ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов) : 

- 33.5
- 34.1
- 32.7
- 33.9
- 31.2

---
### Вопрос 2. 
Какая средняя сумма транзакции в таблице transactions? 


In [None]:
# ваш код здесь

варианты ответа (выберите самое близкое значение, [ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов) : 

- 976.7
- 865.2
- 2351.5
- 1213.0
- 564.3

---
### Вопрос 3. 
Как много "лайков" встречается в таблице stories_reaction? 


In [None]:
# ваш код здесь

варианты ответа (выберите самое близкое значение, [ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов) : 

- 167567
- 6575
- 120989
- 25432
- 45690
- 56687

---
### Вопрос 4. 

Какой месяц в году "приносит" больше всего новых пользователей?

*P.S.* Здесь вам надо будет обработать столбец first_session_dttm из таблицы customer_info, именно из него можно извлечь информацию о том, в каком месяце был зарегистрирован каждый покупатель.

In [None]:
# ваш код здесь

варианты ответа ([ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов): 

- Июль
- Март
- Январь
- Май
- Апрель
- Октябрь

---
### Вопрос 5. 

Какое среднее количество детей у отцов и матерей в таблице customer_info (здесь потребуется воспользоваться логической индексацией [см. материалы](https://habr.com/en/company/ods/blog/322626/))

In [None]:
# ваш код здесь

варианты ответа соответственно отцы и матери (выберите самые близкие значения, [ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов) : 

- 1.466 и 1.464
- 1.466 и 1.461
- 1.462 и 1.464
- 1.462 и 1.461
- 1.461 и 1.464
- 1.464 и 1.462

---
### Вопрос 6. 
Какие максимальные суммы транзакций были совершены покупателем-мужчиной и покупателем-женщиной? 

*P.S.* Для того, чтобы вычислить данную статистику, вам потребуется использовать информацию из двух таблиц: customer_info и transactions. С помощью методов "*groupby*" и "*join*" данные статистики можно вычислить за 4 строки кода (ознакомиться с этими методами можно в [материалах](https://habr.com/en/company/ods/blog/322626/) от Open Data Science)

In [None]:
# ваш код здесь

варианты ответа (выберите самые близкие значения, [ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов): 

- 1205000, 1798000
- 1854500, 1066000
- 1353400, 1351300
- 1452300, 1244500
- 964500, 850420

---
### Вопрос 7. 

Какие категории занимаемой должности (столбец *job_position_cd* в таблице *customer_info*) ставят больше всего дизлайков?

In [None]:
# ваш код здесь

варианты ответа ([ссылка](https://forms.gle/ZjRjUXvcoUyn3dKk7) на форму для ответов): 

- 2, 21
- 5, 9
- 15, 17
- 5, 14
- 16, 22
- 9, 13
- 1, 17
- 4, 8
- 6, 20