# Очистка данных 

In [2]:
import pandas as pd

Мы приступаем к изучению темы предобработки данных. 

В текущем модуле мы поговорим о том, как работать с «сырыми» данными, сохраненными в неудобном формате, со странными кодировками и ошибками. В модулях мы будем применять на практике то, что вы знаете о Pandas.

Изучать модули мы будем на базе сквозного кейса — анализа данных букмекерской конторы.

Изучим: 
- read_csv с дополнительными параметрами
- df.columns
- df.column.unique()
- df.info()
- df[df.column > X]
- df.query('X<A<Y & B==Z')
- df[df.column.str.contains("string")]
- df[~df.column.str.contains("string")]
- df.apply(lambda x)
- df.apply (func)
- df['new_column'] = df.old_column.apply(func)

In [10]:
log_df = pd.read_csv('./../data/log.csv')
display(log_df.head())

Unnamed: 0,Запись пользователя № - user_919,[2019-01-01 14:06:51,Unnamed: 2,Unnamed: 3
0,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
1,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
2,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
3,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
4,Запись пользователя № - user_917,[2019-01-01 23:34:55,156789.0,


## Вспомним про read_csv
Мы уже много раз работали с **read_csv**, поэтому не будем говорить о нем подробно. Важно помнить, что у него есть ряд дополнительных параметров, которые могут быть полезными:

- **header** = None — загрузить без строки с заголовком,
- **skiprows=n** — пропустить n строк (часто у документов бывает техническая «шапка»),
- **encoding** — загрузить в конкретной кодировке,
- **na_values** — список значений, который нужно заменить на NaN (специальный объект, обозначающий пропущенное значение).


Давайте сделаем так, чтобы Pandas не считал первую строку заголовком.

In [11]:
log_df = pd.read_csv('./../data/log.csv', header=None)
display(log_df.head())

Unnamed: 0,0,1,2,3
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


In [15]:
sample_df = pd.read_csv('./../data/sample.csv')
display(sample_df.head())

Unnamed: 0,Name,City,Age,Profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель


In [16]:
sample_df.columns

Index(['Name', 'City', 'Age', 'Profession'], dtype='object')

In [19]:
sample_df.columns = map(lambda x: x.lower(), sample_df.columns)
sample_df.columns

Index(['name', 'city', 'age', 'profession'], dtype='object')

In [42]:
users_df = pd.read_csv('./../data/users.csv', sep='\t', encoding='KOI8-R')
display(users_df.head())

Unnamed: 0,Юзверь,мейл,Гео
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,


#### Прочитайте файл в переменную users. Замените в нём названия колонок на:

- user_id
- email
- geo

In [45]:
users_df = pd.read_csv('./../data/users.csv', sep='\t', encoding='KOI8-R')
users_df.columns = ['user_id', 'email', 'geo']
display(users_df.head())

Unnamed: 0,user_id,email,geo
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
