# Очистка данных 

In [2]:
import pandas as pd

Мы приступаем к изучению темы предобработки данных. 

В текущем модуле мы поговорим о том, как работать с «сырыми» данными, сохраненными в неудобном формате, со странными кодировками и ошибками. В модулях мы будем применять на практике то, что вы знаете о Pandas.

Изучать модули мы будем на базе сквозного кейса — анализа данных букмекерской конторы.

Изучим: 
- read_csv с дополнительными параметрами
- df.columns
- df.column.unique()
- df.info()
- df[df.column > X]
- df.query('X<A<Y & B==Z')
- df[df.column.str.contains("string")]
- df[~df.column.str.contains("string")]
- df.apply(lambda x)
- df.apply (func)
- df['new_column'] = df.old_column.apply(func)

In [10]:
log_df = pd.read_csv('./../data/log.csv')
display(log_df.head())

Unnamed: 0,Запись пользователя № - user_919,[2019-01-01 14:06:51,Unnamed: 2,Unnamed: 3
0,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
1,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
2,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
3,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
4,Запись пользователя № - user_917,[2019-01-01 23:34:55,156789.0,


## Вспомним про read_csv
Мы уже много раз работали с **read_csv**, поэтому не будем говорить о нем подробно. Важно помнить, что у него есть ряд дополнительных параметров, которые могут быть полезными:

- **header** = None — загрузить без строки с заголовком,
- **skiprows=n** — пропустить n строк (часто у документов бывает техническая «шапка»),
- **encoding** — загрузить в конкретной кодировке,
- **na_values** — список значений, который нужно заменить на NaN (специальный объект, обозначающий пропущенное значение).


Давайте сделаем так, чтобы Pandas не считал первую строку заголовком.

In [11]:
log_df = pd.read_csv('./../data/log.csv', header=None)
display(log_df.head())

Unnamed: 0,0,1,2,3
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


In [15]:
sample_df = pd.read_csv('./../data/sample.csv')
display(sample_df.head())

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель


In [16]:
sample_df.columns

Index(['Name', 'City', 'Age', 'Profession'], dtype='object')

In [19]:
sample_df.columns = map(lambda x: x.lower(), sample_df.columns)
sample_df.columns

Index(['name', 'city', 'age', 'profession'], dtype='object')

In [42]:
users_df = pd.read_csv('./../data/users.csv', sep='\t', encoding='KOI8-R')
display(users_df.head())

Unnamed: 0,Юзверь,мейл,Гео
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,


#### Прочитайте файл в переменную users. Замените в нём названия колонок на:

- user_id
- email
- geo

In [45]:
users_df = pd.read_csv('./../data/users.csv', sep='\t', encoding='KOI8-R')
users_df.columns = ['user_id', 'email', 'geo']
display(users_df.head())

Unnamed: 0,user_id,email,geo
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,


Один из самых простых способов просмотреть данные — это воспользоваться функцией **.unique()**, которая выдаёт список уникальных значений колонки.

In [52]:
print('user_id:', len(users_df.user_id.unique()))
print('email:', len(users_df.email.unique()))
print('geo:', len(users_df.geo.unique()))

user_id: 100
email: 100
geo: 15


Если мы хотим получить агрегированную информацию о датасете, то нам поможет функция **.info()**. Она даёт в сжатом виде информацию о колонках. Например, так:

In [54]:
users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  100 non-null    object
 1   email    99 non-null     object
 2   geo      97 non-null     object
dtypes: object(3)
memory usage: 2.5+ KB


In [68]:
log_df.columns = ['user_id', 'time', 'bet', 'win']

In [69]:
log_df

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
995,Запись пользователя № - user_984,[2019-04-20 9:59:58,9754.0,
996,#error,,10054.0,29265.0
997,#error,,10454.0,
998,#error,,1000.0,


## Pandas: Filtering

Мы нашли ошибки в данных — пора исправлять. Вспомним, как отфильтровать данные, чтобы найти и удалить ошибочные. Фильтрация — одна из базовых и наиболее распространенных операций в библиотеке Pandas, которая имеет много вариантов.

Вспомним, как отфильтровать датафрейм по условию:

df[df['column']>X]

Если условий несколько, то к ним можно применить логические операции:

df[(df['column_name_1']>X) & (df['column_name_2']<Y)]


#### Создайте новый датафрейм sample2, в который будут входить только записи о людях в возрасте меньше 30 лет.

In [70]:
sample2_df = pd.read_csv('./../data/sample.csv')
sample2_df = sample2_df[sample2_df['Age'] < 30]
display(sample2_df)

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
2,Иванов,Москва,25,Клинер
5,Кузнецов,Сочи,19,Рабочий
6,Сажин,Сургут,29,Рабочий


#### Создайте новый датафрейм log_win, в который будут входить только записи, где пользователь выиграл. Посчитайте, сколько таких записей, и сохраните в переменной win_count.

In [72]:
log_win_df = log_df[log_df['win'] > 0]
win_count = log_win_df['win'].count()
print(win_count)

138


#### Создайте новый датафрейм sample2, в который будут входить только записи о рабочих младше 30 лет.

In [76]:
sample_df = pd.read_csv("./../data/sample.csv")
sample2_df = sample_df[(sample_df['Profession'] == 'Рабочий') & (sample_df['Age'] < 30)]
display(sample2_df)

Unnamed: 0,Name,City,Age,Profession
5,Кузнецов,Сочи,19,Рабочий
6,Сажин,Сургут,29,Рабочий


## Pandas: query

Pandas помогает фильтровать значения без создания циклов, главное — сформулировать, что именно ты ищешь. Наиболее мощный и удобный способ проводить фильтрацию — использовать функцию query. Она позволяет писать сложные запросы к датафрейму. Если вы работали с SQL-запросами, то принцип работы query будет вам понятен.

Среди запросов может быть сравнение. В примере мы получаем все элементы, для которых возраст больше 20:

In [78]:
sample_df.query('Age > 20')

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель
6,Сажин,Сургут,29,Рабочий
7,Котлеревский,Йошкар-Ола,32,Рабочий
8,Завалишина,Чебоксары,36,Менеджер
9,Левина,,55,Рабочий
10,Фикс,Рига,42,Рабочий


Запрос равенство:

In [79]:
sample_df.query('Age == 25')

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
2,Иванов,Москва,25,Клинер


Запрос входит в список:

In [81]:
sample_df.query('City in ["Рига", "Сочи"]')

Unnamed: 0,Name,City,Age,Profession
5,Кузнецов,Сочи,19,Рабочий
10,Фикс,Рига,42,Рабочий


Запрос несколько условий сразу:

In [83]:
sample_df.query('City in ["Рига", "Сочи", "Чебоксары", "Сургут"] & 21<Age<50 & Profession!="Менеджер"')

Unnamed: 0,Name,City,Age,Profession
6,Сажин,Сургут,29,Рабочий
10,Фикс,Рига,42,Рабочий


#### С помощью функции query найдите тех, у кого ставка меньше 2000, а выигрыш больше 0. Сохраните в новый датафрейм log2.

In [84]:
log = pd.read_csv('./../data/log.csv', header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log2 = log.query('bet<2000 & win>0')
display(log2)

Unnamed: 0,user_id,time,bet,win
151,Запись пользователя № - user_982,[2019-01-16 21:54:22,100.0,4749.0
189,Запись пользователя № - user_964,[2019-01-21 18:34:44,200.0,4667.0
205,Запись пользователя № - user_931,[2019-01-22 5:26:59,300.0,4319.0
232,Запись пользователя № - user_998,[2019-01-25 8:57:20,500.0,5069.0
265,Запись пользователя № - user_998,[2019-01-29 10:37:55,500.0,6294.0
...,...,...,...,...
962,Запись пользователя № - user_976,[2019-04-19 14:18:45,400.0,5997.0
965,Запись пользователя № - user_900,[2019-04-19 19:31:48,900.0,6767.0
967,Запись пользователя № - user_975,[2019-04-19 22:25:15,1000.0,6108.0
981,#error,,800.0,7035.0


## Pandas: str.match and str.contains

Часто приходится фильтровать значения в столбце по соответствию строке или её части. Для этого есть две полезные функции:

- **str.match ("abc")** — ищет строки, которые начинаются c abc,
- **str.contains ("abc")** — ищет строки, в которых есть abc.

Обе функции не могут работать с **NaN**, необходимо использовать параметр **na=False**:

In [85]:
sample_df.Name.str.match("К", na=False)

0     False
1     False
2     False
3     False
4     False
5      True
6     False
7      True
8     False
9     False
10    False
Name: Name, dtype: bool

В результате применения функции мы получаем своеобразную маску, которую мы можем наложить на датафрейм для фильтрации. Делается это так:

In [86]:
sample_df[sample_df.Name.str.match("К", na=False)]

Unnamed: 0,Name,City,Age,Profession
5,Кузнецов,Сочи,19,Рабочий
7,Котлеревский,Йошкар-Ола,32,Рабочий


С помощью такой маски можно получить не только датафрейм, который соответствует нашим условиям, но и противоположный датафрейм, то есть содержащий все значения, которые условию не удовлетворяют. Делается это так:

In [87]:
sample_df[~sample_df.Name.str.match("К", na=False)]

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель
6,Сажин,Сургут,29,Рабочий
8,Завалишина,Чебоксары,36,Менеджер
9,Левина,,55,Рабочий
10,Фикс,Рига,42,Рабочий


#### Сохраните в переменную new_log_df датафрейм, из которого удалены записи с ошибкой в поле user_id:

In [92]:
new_log_df = log_df[~log_df.user_id.str.match('#error')]
display(new_log_df)

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
991,Запись пользователя № - user_965,[2019-04-20 12:55:41,800.0,6927.0
992,Запись пользователя № - user_967,[2019-04-20 14:59:36,10154.0,
993,Запись пользователя № - user_973,[2019-04-20 17:09:56,10254.0,
994,Запись пользователя № - user_977,[2019-04-20 18:10:07,10354.0,


## Преобразование данных

Часто данные оказываются плохо приспособленными к анализу, поэтому их следует преобразовать. Для решения этой задачи используется функция apply.

df.column_name.apply(func)

- лямбда-функции (можно задать внутри apply),
- обычные именные функции (определяются через def).

Возведём возраст в sample в квадрат:

In [94]:
sample_df.Age.apply(lambda x:x**2)

0      625
1      961
2      625
3     1849
4     2500
5      361
6      841
7     1024
8     1296
9     3025
10    1764
Name: Age, dtype: int64

Обнулим значения возраста для всех возрастов больше 19:

In [96]:
def func(x):
    if x<20:
        return x
    else:
        return 0

sample_df.Age.apply(func)

0      0
1      0
2      0
3      0
4      0
5     19
6      0
7      0
8      0
9      0
10     0
Name: Age, dtype: int64

In [105]:
sample2_df = sample_df.copy()
sample2_df.Age = sample_df.Age.apply(lambda x: x+1)

In [106]:
sample2_df

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,28,Клинер
1,,Волгоград,34,Менеджер
2,Иванов,Москва,28,Клинер
3,sidorov,Владивосток,46,Менеджер
4,_______,Курск,53,Водитель
5,Кузнецов,Сочи,22,Рабочий
6,Сажин,Сургут,32,Рабочий
7,Котлеревский,Йошкар-Ола,35,Рабочий
8,Завалишина,Чебоксары,39,Менеджер
9,Левина,,58,Рабочий


С помощью apply и lambda-функции замените все буквы в поле City на маленькие и сохраните в sample2. Вам может понадобиться функция s.lower().

Обратите внимание: когда в столбце есть **пропущенные значения**, необходимо в явном виде указывать, что это **str**.

**str(s).lower()**

In [109]:
sample2_df = sample_df.copy()
sample2_df.City = sample_df.City.apply(lambda x: str(x).lower())
display(sample2_df)

Unnamed: 0,Name,City,Age,Profession
0,Иванов,москва,27,Клинер
1,,волгоград,33,Менеджер
2,Иванов,москва,27,Клинер
3,sidorov,владивосток,45,Менеджер
4,_______,курск,52,Водитель
5,Кузнецов,сочи,21,Рабочий
6,Сажин,сургут,31,Рабочий
7,Котлеревский,йошкар-ола,34,Рабочий
8,Завалишина,чебоксары,38,Менеджер
9,Левина,,57,Рабочий


#### Примените функцию age_category и apply, чтобы создать новую колонку в sample под названием 'Age_category'. Не забудьте загрузить датафрейм.

Вспомним, как создать новую колонку:

df['new_column'] = df.old_column.apply(func)

In [112]:
sample = pd.read_csv("./../data/sample.csv")

def age_category(age):
    if age < 23:
        return "молодой"
    elif age < 35:
        return "средний"
    else:
        return "зрелый"

sample['Age_category'] = sample.Age.apply(age_category)

display(sample)

Unnamed: 0,Name,City,Age,Profession,Age_category
0,Иванов,Москва,25,Клинер,средний
1,,Волгоград,31,Менеджер,средний
2,Иванов,Москва,25,Клинер,средний
3,sidorov,Владивосток,43,Менеджер,зрелый
4,_______,Курск,50,Водитель,зрелый
5,Кузнецов,Сочи,19,Рабочий,молодой
6,Сажин,Сургут,29,Рабочий,средний
7,Котлеревский,Йошкар-Ола,32,Рабочий,средний
8,Завалишина,Чебоксары,36,Менеджер,зрелый
9,Левина,,55,Рабочий,зрелый


#### Преобразуем поле user_id в датафрейме log, оставив только идентификатор пользователя. Например, вместо "Запись пользователя № — user_974" должно остаться только "user_974".

#### На месте записей с ошибками в user_id должна быть пустая строка "". Сделайте это через apply и новую функцию, которую вы создадите. Результат сохраните в log:

In [120]:
log = pd.read_csv('./../data/log.csv', header=None)
log.columns = ['user_id','time','bet','win']

def correct_user_id(user_id):
    if len(user_id) > 7:
        return user_id[24:]
    return ''

log.user_id = log.user_id.apply(correct_user_id)

display(log)

Unnamed: 0,user_id,time,bet,win
0,user_919,[2019-01-01 14:06:51,,
1,user_973,[2019-01-01 14:51:16,,
2,user_903,[2019-01-01 16:31:16,,
3,user_954,[2019-01-01 17:17:51,,
4,user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
995,user_984,[2019-04-20 9:59:58,9754.0,
996,,,10054.0,29265.0
997,,,10454.0,
998,,,1000.0,


In [139]:
log = pd.read_csv('./../data/log.csv', header=None)
log.columns = ['user_id','time','bet','win']

def correct_time(time):
    if len(str(time)) > 3:
        return time[1:]
    else:
        return time

log.time = log.time.apply(correct_time)

display(log)

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,2019-01-01 21:31:18,,
...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 9:59:58,9754.0,
996,#error,,10054.0,29265.0
997,#error,,10454.0,
998,#error,,1000.0,


## Финальное задание

Соединим всё, что мы делали, и очистим файл log.csv. А именно:

- прочитаем файл в переменную log;
- добавим названия колонок user_id, time, bet, win;
- удалим строки, которые содержат значения user_id с ошибками;
- оставим в user_id только значения идентификатора;
- уберём начальную скобку из поля time.