 # О чём этот модуль и его структура 
Мы подошли к feature engineering - здесь мы будем более глубоко исследовать те данные, которые мы загрузили и слегка почистили в модуле B4.  

Сначала мы закончим чистку, так как в данных остались пропуски и дубли.  

Дубли обычно не несут никакой информации, поэтому мы от них избавимся. С пропусками ситуация серьезнее: они означают, что мы владеем неполной информацией, и их нужно как-то обрабатывать. Например, большинство алгоритмов машинного обучения просто не работают с пропусками. Если вы подадите на вход такому алгоритму данные с пропусками - он упадет с ошибкой. Есть несколько способов обработки пропусков, их мы и рассмотрим в этом модуле. 

После этого мы разберемся с признаком, который хранит время. Вы уже знаете, как в pandas преобразовывать строку со временем в специальный формат. Мы изучим подробнее, как работать со временем и извлекать из него интересные элементы.

Мы также научимся использовать фильтры и методы для агрегации, чтобы создать абсолютно новые признаки из имеющихся данных - это и есть настоящий feature engineering.

Еще один способ исследовать данные - группировать их и затем исследовать каждую группу отдельно. Для этого мы используем groupby и посмотрим, какую новую информацию дадут нам обобщённые данные.

В конце мы закрепим новые знания с помощью финального упражнения и подведем итоги.

В этом модуле мы глубже погрузимся в pandas.

Инструменты, которые вы изучите, помогут вам в дальнейшем работать с табличными данными любой сложности.

По итогам модуля вы сможете:
- удалять пропуски и дубли в данных  
- работать с датами и извлекать из них признаки
- заполнять пропуски константой или с помощью произвольной функции
- создавать новые признаки на основе предыдущих
- применять к признакам методы подсчета статистик (например, среднего)
- собирать разрозненные данные в единый датасет (при условии, что у них есть общие признаки)
- группировать данные по какому-либо признаку и анализировать их

Вы изучите (или вспомните) следующие функции:
- isna(), dropna(), fillna()
- drop_duplicates();
- to_datetime()
- mean(), median(), sum()
- value_counts()
- merge()
- groupby()

Так как внутри себя pandas использует numpy, многие методы numpy работают с pandas. Самый простой пример - вычисление статистик, например, среднего, с помощью метода mean().

Что можно почитать:

Документация pandas (https://pandas.pydata.org/pandas-docs/stable/)

Гайд по pandas на analyticsvidhya.com ( https://www.analyticsvidhya.com/blog/2015/04/comprehensive-guide-data-exploration-sas-using-python-numpy-scipy-matplotlib-pandas/)(советуем посмотреть и другие вещи на этом сайте)  
Конечно же, stackoverflow.com

Зачем вообще нам нужен feature engineering?
Когда мы работаем с данными, мы часто хотим построить предиктивные модели - алгоритмы, которые осуществляют то или иное предсказание исходя из данных.

Например, у нас есть данные о погоде за прошлые 100 лет. Мы хотим предсказать погоду на завтра. Что мы делаем? Строим модель, которая предсказывает погоду по входящим данным. 

Но иногда данных бывает недостаточно или они бывают плохие (на самом деле, данные всегда плохие, запомните это). В этом случае нужно прибегать к очистке данных и созданию новых признаков. 

Именно об этом будет модуль feature engineering. После его прохождения вы станете на один шаг ближе к профессии Data Scientist.

# О данных
## Что мы сделали с данными?
Итак, возвращаемся к нашему другу Коле и его данным по букмекерской конторе.  

Коля хочет расширять бизнес и увеличивать прибыль, и мы поможем ему с помощью аналитических навыков и знания нужных инструментов. Работать будем с теми же данными - log.csv и users.csv.

Что мы уже сделали?  
- Загрузили данные (и побороли ошибки, связанные с плохим форматом данных).
- Дали признакам (колонкам) соответствующие имена.
- Научились фильтровать данные и применять к ним apply.
- Обнаружили часть ошибок в данных.

Какие вопросы остались?  
Вспомним часть вопросов из прошедшего модуля.  
- Сколько раз человеку надо прийти, чтобы сделать ставку?
- Каков средний выигрыш в процентах?
- Каков баланс по каждому пользователю?
- Какие города самые выгодные?
- В каких городах самая высокая ставка?
- Сколько в среднем времени проходит от первого посещения сайта до первой попытки?

Мы постараемся ответить не только на эти, но и на многие другие вопросы.
Давайте приступим!

# 12.1 Пропущенные значения
Что такое пропущенные значения
Аналитикам часто приходится работать с данными, в которых есть пропуски. Более того, в реальных данных пропуски сплошь и рядом.

Когда могут появиться пропуски в данных? Например, если мы делаем опрос, люди могут просто не ответить на какие-то из вопросов. В этих местах появляется пропуск. Еще один пример — отправляем данные по протоколу UDP, часть данных теряется — снова пропуски. Ну и самый банальный случай — программа заглючила и не записала часть данных :).

Чтобы программа правильно интерпретировала пропуски, при чтении файла с помощью метода read_csv можно передать в параметр na_values значение или список значений, которые при чтении будут помечены как пропуски.

Какие бывают пропуски
Вот список значений, которые по умолчанию считаются как пропуски: '', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null'.  

Посмотрите внимательно на список значений выше: можно заметить, что первым значением в списке является пустая строка '' - это именно тот случай, когда значения в данных просто нет.

Почему так много значений считаются пропусками? Ответ уходит корнями в прошлое, но если кратко, то:
![image.png](attachment:image.png)

Еще немного информации об этом можно найти по ссылкам:

Ссылка на документацию (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)
Ответ на stackoverflow, который немного проясняет ситуацию (https://datascience.stackexchange.com/questions/37878/difference-between-isna-and-isnull-in-pandas)(но не так сильно, как картинка выше)
Ещё один ответ (https://stackoverflow.com/questions/26659941/pandas-read-csv-named-argument-na-values-default-values)
На практике чаще всего вы будете встречать '', 'NaN', 'nan', 'null'

In [2]:
import pandas as pd

In [3]:
# Соединим всё, что мы делали, и очистим файл log.csv. А именно:
import re
regular_expression = re.compile(r'user_\d+')
def cut_user_id(_user_id):
    new_user_id = re.findall(regular_expression, _user_id)
    if new_user_id:
        return new_user_id[0]
    return ''

# прочитаем файл в переменную log;
log = pd.read_csv('log.csv', header=None)
# добавим названия колонок user_id, time, bet, win;
log.columns = ['user_id','time','bet','win']
# удалим строки, которые содержат значения user_id с ошибками;
error_id = log.user_id.unique()[-1]
log = log[~log.user_id.str.contains(error_id, na=False)]
#оставим в поле user_id значение типа: "user_N", где N значение идентификатора;
log.user_id = log.user_id.apply(cut_user_id)
# уберём начальную скобку из поля time.
log.time = log.time.apply(lambda t: str(t)[1:] if (isinstance(t, str)) else t)

In [4]:
# Прочитайте файл в переменную users. Замените в нём названия колонок на: user_id, email, geo
users = pd.read_csv('users.csv', sep='\t', encoding='KOI8-R')
new_columns = ['user_id', 'email', 'geo']
users.columns = new_columns
# users.fillna('', inplace=True)
display(users)

Unnamed: 0,user_id,email,geo
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж
