## Очистка данных 

Предобработка данных состоит из следующих этапов:

1. Загрузка
2. Очистка
3. Обогащение / Feature Engineering
4. Анализ

header = None — загрузить без строки с заголовком;
skiprows=n — пропустить n строк (часто у документов бывает техническая «шапка»);
encoding — загрузить в конкретной кодировке;
na_values — список значений, который нужно заменить на NaN (специальный объект, обозначающий пропущенное значение).

In [6]:
import pandas as pd

log = pd.read_csv('data/log.csv', header = None)
log.head()

Unnamed: 0,0,1,2,3
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


In [2]:
log.columns = ["user_id", "time", "bet", "win"]
log.head()

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


In [3]:
users = pd.read_csv('data/users.csv', sep="\t", encoding="koi8_r")
users.columns = ["user_id", "email", "geo"]
users.head()

Unnamed: 0,user_id,email,geo
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,


In [4]:
sample = pd.read_csv('data/sample.csv')
columns = sample.columns
sample.columns = ["name", "city", "age", "profession"]
sample.head()

Unnamed: 0,name,city,age,profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель


In [5]:
sample.profession.unique()

array(['Клинер', 'Менеджер', 'Водитель', 'Рабочий'], dtype=object)

In [7]:
log.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   user_id  1000 non-null   object 
 1   time     985 non-null    object 
 2   bet      485 non-null    float64
 3   win      138 non-null    float64
dtypes: float64(2), object(2)
memory usage: 31.4+ KB


In [8]:
log.win.unique()

array([         nan, 1.987653e+06, 9.876543e+06, 4.749000e+03,
       4.667000e+03, 4.319000e+03, 2.706800e+04, 2.956500e+04,
       5.069000e+03, 6.294000e+03, 6.516000e+03, 5.290000e+03,
       6.067000e+03, 5.456000e+03, 6.726000e+03, 5.035000e+03,
       5.245000e+03, 5.266000e+03, 3.691000e+03, 4.829000e+03,
       5.066000e+03, 4.378000e+03, 4.894000e+03, 4.889000e+03,
       5.237000e+03, 5.590000e+03, 5.889000e+03, 3.927000e+03,
       5.323000e+03, 6.916000e+03, 6.480000e+03, 5.638000e+03,
       4.119000e+03, 4.216000e+03, 6.387000e+03, 3.834000e+03,
       5.409000e+03, 4.580000e+03, 4.845000e+03, 3.794000e+03,
       6.766000e+03, 4.021000e+03, 6.449000e+03, 4.056000e+03,
       5.326000e+03, 4.159000e+03, 6.621000e+03, 4.999000e+03,
       5.724000e+03, 5.950000e+03, 5.520000e+03, 5.629000e+03,
       5.650000e+03, 5.084000e+03, 5.260000e+03, 6.108000e+03,
       3.736000e+03, 7.032000e+03, 7.494000e+03, 6.080000e+03,
       7.189000e+03, 5.217000e+03, 4.733000e+03, 6.3590

In [15]:
log_win = log[log['win'] != None]
win_count = log_win['user_id'].count()
log_win.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   user_id  0 non-null      object 
 1   time     0 non-null      object 
 2   bet      0 non-null      float64
 3   win      0 non-null      float64
dtypes: float64(2), object(2)
memory usage: 0.0+ bytes


In [10]:
print(win_count)

1000


In [18]:
#Сравнение

sample.query('age > 20')

Unnamed: 0,name,city,age,profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель
6,Сажин,Сургут,29,Рабочий
7,Котлеревский,Йошкар-Ола,32,Рабочий
8,Завалишина,Чебоксары,36,Менеджер
9,Левина,,55,Рабочий
10,Фикс,Рига,42,Рабочий


In [19]:
#Равенство

sample.query('age==25')

Unnamed: 0,name,city,age,profession
0,Иванов,Москва,25,Клинер
2,Иванов,Москва,25,Клинер


In [21]:
#Входит в список

sample.query('city in ["Рига","Сочи"]')

Unnamed: 0,name,city,age,profession
5,Кузнецов,Сочи,19,Рабочий
10,Фикс,Рига,42,Рабочий


In [22]:
#Несколько условий сразу

sample.query('city in ["Рига", "Сочи", "Чебоксары", "Сургут"] & 21<age<50 & profession!="Менеджер"')

Unnamed: 0,name,city,age,profession
6,Сажин,Сургут,29,Рабочий
10,Фикс,Рига,42,Рабочий


Фильтрация с помощью str.match и str.contains

In [25]:
#str.match("abc") ищет строки которые начинаются c "abc";
#str.contains("abc") ищет строки в которых есть "abc".

#sample.name.str.match("К", na=False)
sample[sample.name.str.match("К", na=False)]

Unnamed: 0,name,city,age,profession
5,Кузнецов,Сочи,19,Рабочий
7,Котлеревский,Йошкар-Ола,32,Рабочий


In [27]:
sample[~sample.name.str.match("К", na=False)]

Unnamed: 0,name,city,age,profession
0,Иванов,Москва,25,Клинер
1,,Волгоград,31,Менеджер
2,Иванов,Москва,25,Клинер
3,sidorov,Владивосток,43,Менеджер
4,_______,Курск,50,Водитель
6,Сажин,Сургут,29,Рабочий
8,Завалишина,Чебоксары,36,Менеджер
9,Левина,,55,Рабочий
10,Фикс,Рига,42,Рабочий


In [28]:
sample[sample.name.str.contains("o", na=False)]

Unnamed: 0,name,city,age,profession
3,sidorov,Владивосток,43,Менеджер


In [34]:
log[~log.user_id.str.contains("#error", na=False)]

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
991,Запись пользователя № - user_965,[2019-04-20 12:55:41,800.0,6927.0
992,Запись пользователя № - user_967,[2019-04-20 14:59:36,10154.0,
993,Запись пользователя № - user_973,[2019-04-20 17:09:56,10254.0,
994,Запись пользователя № - user_977,[2019-04-20 18:10:07,10354.0,


Преобразование данных

In [36]:
# Лямбда-функция
sample.age.apply(lambda x:x**2)

0      625
1      961
2      625
3     1849
4     2500
5      361
6      841
7     1024
8     1296
9     3025
10    1764
Name: age, dtype: int64

In [38]:
# Именная функция
def func(x):
    if x < 20:
        return x
    else:
        return 0


sample.age.apply(func)

0      0
1      0
2      0
3      0
4      0
5     19
6      0
7      0
8      0
9      0
10     0
Name: age, dtype: int64

In [47]:
sample.city.apply(lambda x: str(x).lower())


0          москва
1       волгоград
2          москва
3     владивосток
4           курск
5            сочи
6          сургут
7      йошкар-ола
8       чебоксары
9             nan
10           рига
Name: city, dtype: object

In [52]:
def new_user(user):
    if user == '#error':
        return ""
    else :
        return user[24:]

log.user_id = log.user_id.apply(new_user)
print(log)

    user_id                  time      bet      win
0            [2019-01-01 14:06:51      NaN      NaN
1            [2019-01-01 14:51:16      NaN      NaN
2            [2019-01-01 16:31:16      NaN      NaN
3            [2019-01-01 17:17:51      NaN      NaN
4            [2019-01-01 21:31:18      NaN      NaN
..      ...                   ...      ...      ...
995           [2019-04-20 9:59:58   9754.0      NaN
996                           NaN  10054.0  29265.0
997                           NaN  10454.0      NaN
998                           NaN   1000.0      NaN
999                           NaN  10754.0      NaN

[1000 rows x 4 columns]


In [2]:
def correct_user_id (new_id):
    if new_id == '#error':
        return ''
    else:
        return new_id[24:]

log = pd.read_csv('data/log.csv', header=None)
log.columns = ['user_id','time','bet','win']
log = log.query('user_id != "#error"')
log['user_id'] = log.user_id.apply(correct_user_id)
log.time = log.time.str.strip('[')

NameError: name 'pd' is not defined