In [344]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
import os
from collections import Counter
from itertools import combinations
print(os.listdir("input"))

pd.options.display.max_rows = 50 # показывать больше строк
pd.set_option('display.max_columns', 50) # показывать больше колонок

['.ipynb_checkpoints', 'cacao_flavors_from_slack.csv', 'data.csv', 'log.csv', 'stud_math.csv', 'tips.csv', 'users.csv']


In [345]:
log_df = pd.read_csv('input/log.csv', header=None)
log_df.columns = ['user_id', 'time', 'bet', 'win']
log_df

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
995,Запись пользователя № - user_984,[2019-04-20 9:59:58,9754.0,
996,#error,,10054.0,29265.0
997,#error,,10454.0,
998,#error,,1000.0,


In [347]:
users_df = pd.read_csv('input/users.csv', encoding='koi8_r', sep='\t')
users_df.columns = ['user_id', 'email', 'geo']
users_df

Unnamed: 0,user_id,email,geo
0,User_943,Accumanst@gmail.com,Ижевск
1,User_908,Advismowr@mail.ru,Ижевск
2,User_962,Anachso@ukr.net,Краснодар
3,User_973,Antecia@inbox.ru,Пермь
4,User_902,Balliaryva@ukr.net,
...,...,...,...
95,User_959,UpdatesCurious@yahoo.com,Тюмень
96,User_901,V2artierso@mail.ru,Арзангелтск
97,User_970,Vashoterlo@bk.ru,Воронеж
98,User_965,Visuareda@yahoo.com,Воронеж


In [None]:
"""


Что такое пропущенные значения
Аналитикам часто приходится работать с данными, в которых есть пропуски. Более того, в реальных данных пропуски сплошь и рядом.

Когда могут появиться пропуски в данных? Например, если мы делаем опрос, люди могут просто не ответить на какие-то из вопросов. В этих местах появляется пропуск. Еще один пример — отправляем данные по протоколу UDP, часть данных теряется — снова пропуски. Ну и самый банальный случай — программа заглючила и не записала часть данных :).

Чтобы программа правильно интерпретировала пропуски, при чтении файла с помощью метода read_csv можно передать в параметр na_values значение или список значений, которые при чтении будут помечены как пропуски.
"""

In [None]:
"""
Какие бывают пропуски
Вот список значений, которые по умолчанию считаются как пропуски: '', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null'.  

Посмотрите внимательно на список значений выше: можно заметить, что первым значением в списке является пустая строка '' - это именно тот случай, когда значения в данных просто нет.

"""

In [None]:
"""
На практике чаще всего вы будете встречать '', 'NaN', 'nan', 'null'

"""

In [None]:
"""
Как найти пропуски
В pandas есть метод isna(), который возвращает таблицу такой же размерности, что и на вход, но значения в ней - True или False. True, если данное значение является пропуском, и False в ином случае.
"""

In [348]:
log_df.head().isna()

Unnamed: 0,user_id,time,bet,win
0,False,False,True,True
1,False,False,True,True
2,False,False,True,True
3,False,False,True,True
4,False,False,True,True


In [349]:
"""
Посчитайте количество пропусков в столбце time. Метод isna() есть не только у DataFrame, но и у Series. Это значит, что применять его можно не только ко всей таблице, но и к каждому столбцу отдельно.
"""

log_df.time.isna().sum()

15

In [None]:
"""
Удаление пропусков
Пропуски можно удалять автоматически. Во многих случаях это правильно, так как данные с большим количеством пропусков часто не имеют смысла и не приносят никакой пользы.  

Удалять данные с пропусками можно с помощью метода dropna().

Параметр axis в методе dropna() говорит методу, по какой оси удалять значения.  

Если нужно удалить строки, в которых встречается пропуск (NaN), следует указать axis=0.  Зачем это делать? Например, у нас из 1000 примеров данных про пользователей пропуски есть в пяти. Разумно их удалить, так как их количество пренебрежимо мало.
Если нужно удалить столбцы, в которых встречается пропуск (NaN), нужно указывать axis=1. Зачем? Иногда в одном конкретном столбце пропусков настолько много, что с ними просто не хочется возиться - смысла в них все равно почти нет. 
Еще один интересный параметр - subset. Что он делает? Если передать в него список значений по одной оси (например, названия столбцов) и задать при этом в параметре axis другую ось (в нашем случае 0), то мы удалим те строки, для которых в данных столбцах находится пропуск. То же самое работает и наоборот: нужно поменять axis на 1 и вместо названий столбцов передавать индексы строк.

Перед удалением строк обязательно сделайте бэкап.

"""

In [350]:
log_df_new = log_df.copy()
log_df_new.dropna(axis=1)

Unnamed: 0,user_id
0,Запись пользователя № - user_919
1,Запись пользователя № - user_973
2,Запись пользователя № - user_903
3,Запись пользователя № - user_954
4,Запись пользователя № - user_954
...,...
995,Запись пользователя № - user_984
996,#error
997,#error
998,#error


In [351]:
log_df_new2 = log_df.copy()
log_df_new2.dropna(axis=0)

Unnamed: 0,user_id,time,bet,win
14,Запись пользователя № - user_917,[2019-01-02 8:57:36,145732.0,1987653.0
29,Запись пользователя № - user_942,[2019-01-04 13:59:42,1678321.0,9876543.0
151,Запись пользователя № - user_982,[2019-01-16 21:54:22,100.0,4749.0
189,Запись пользователя № - user_964,[2019-01-21 18:34:44,200.0,4667.0
205,Запись пользователя № - user_931,[2019-01-22 5:26:59,300.0,4319.0
...,...,...,...,...
967,Запись пользователя № - user_975,[2019-04-19 22:25:15,1000.0,6108.0
971,Запись пользователя № - user_912,[2019-04-20 10:35:49,10554.0,31799.0
972,Запись пользователя № - user_926,[2019-04-20 10:35:50,10354.0,30244.0
976,Запись пользователя № - user_970,[2019-04-20 10:35:54,10354.0,30691.0


In [352]:
log_df_new3 = log_df.copy()

for id, c in enumerate(log_df_new3.columns):
    if (log_df_new3[c].isna().sum()>0) and (c=='time' or c=='user_id'):
        print(id, c)
        log_df_new3 = log_df_new3.drop(log_df_new3.columns[id], axis=1)

log_df_new3

1 time


Unnamed: 0,user_id,bet,win
0,Запись пользователя № - user_919,,
1,Запись пользователя № - user_973,,
2,Запись пользователя № - user_903,,
3,Запись пользователя № - user_954,,
4,Запись пользователя № - user_954,,
...,...,...,...
995,Запись пользователя № - user_984,9754.0,
996,#error,10054.0,29265.0
997,#error,10454.0,
998,#error,1000.0,


In [None]:
"""
Как удалить простые дубли

В pandas есть метод для удаления дублей (дубликатов) - drop_duplicates(). Он просто удаляет повторяющиеся строки

У данного метода тоже есть параметр subset, в этом случае нужно передавать список содержащий названия столбцов.  

"""

In [353]:
log_df_new4 = log_df.copy()

print('Всего дубликатов',log_df_new4.duplicated().sum())

Всего дубликатов 3


In [354]:
log_df_new4_1 = log_df_new4.drop_duplicates(subset=['user_id', 'time'], keep='first', inplace=False).reset_index()
display(log_df_new4_1)

Unnamed: 0,index,user_id,time,bet,win
0,0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...,...
981,991,Запись пользователя № - user_965,[2019-04-20 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,[2019-04-20 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,[2019-04-20 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,[2019-04-20 18:10:07,10354.0,


In [None]:
"""
Преобразование к datetime

Вспомним прошлый модуль по очистке данных: признак time был слегка испорчен, в начале каждой даты стоял лишний символ [, вы его убрали.  

Для преобразования столбца с датой в виде текста в дату формата datatime (см. Модуль "С1. Работа с датами"), необходимо использовать метод to_datetime() в библиотеке pandas.

"""

In [355]:
"""
Удалите квадратную скобку из первой строки в столбце time,
чтобы привести его к более привычному формату: t равен log.time[0]. Сохраните результат в t:

"""

log_df_new5 = log_df_new4_1.copy()
log_df_new5['time'] = log_df_new5.time.apply(lambda x: str(x).replace('[', ''))


log_df_new5

Unnamed: 0,index,user_id,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01 21:31:18,,
...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20 18:10:07,10354.0,


In [356]:
# Разбиваю колонку на две - дата и время - и переношу туда данные (отдельно дату и отдельно время из первичной колонки time)


# Новый датафрейм с разбитыми данными из нужно мне колонки 
new = log_df_new5["time"].str.split(" ", n = 1, expand = True) 
  
# Возьму теперь первую часть из нового созданного датафрейма и создам колонку с датой
log_df_new5["date"]= new[0] 
  
# Возьму теперь первую часть из нового созданного датафрейма и создам колонку со временем
log_df_new5["time"]= new[1] 
  
# Удалю старую колонку time (сейчас мне это не нужно - оно просто перезапишет нужные мне данные в старую колонку time)
# log_df_new5.drop(columns =["time"], inplace = True) 

# Изменю порядок столбцов
log_df_new5 = log_df_new5[['index', 'user_id', 'date', 'time', 'bet', 'win']]

log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,18:10:07,10354.0,


In [357]:
# Изменю порядок столбцов
log_df_new5 = log_df_new5[['index', 'user_id', 'date', 'time', 'bet', 'win']]

log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,18:10:07,10354.0,


In [358]:
log_df_new5['date'] = pd.to_datetime(log_df_new5['date'], format='%Y-%m-%d')
log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,18:10:07,10354.0,


In [359]:
from datetime import datetime, time

log_df_new5['time'] = pd.to_datetime(log_df_new5['time'], format='%H:%M:%S')

log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,1900-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,1900-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,1900-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,1900-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,1900-01-01 21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,1900-01-01 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,1900-01-01 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,1900-01-01 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,1900-01-01 18:10:07,10354.0,


In [360]:
log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,1900-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,1900-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,1900-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,1900-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,1900-01-01 21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,1900-01-01 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,1900-01-01 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,1900-01-01 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,1900-01-01 18:10:07,10354.0,


In [361]:
log_df_new6 = log_df_new5.copy()
log_df_new6

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,1900-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,1900-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,1900-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,1900-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,1900-01-01 21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,1900-01-01 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,1900-01-01 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,1900-01-01 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,1900-01-01 18:10:07,10354.0,


In [362]:
log_df_new5['time'] = pd.to_datetime(log_df_new5['time'], format='%Y-%m-%d %H:%M:%S')
log_df_new5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 986 entries, 0 to 985
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   index    986 non-null    int64         
 1   user_id  986 non-null    object        
 2   date     985 non-null    datetime64[ns]
 3   time     985 non-null    datetime64[ns]
 4   bet      472 non-null    float64       
 5   win      133 non-null    float64       
dtypes: datetime64[ns](2), float64(2), int64(1), object(1)
memory usage: 46.3+ KB


In [363]:
log_df_new5

Unnamed: 0,index,user_id,date,time,bet,win
0,0,Запись пользователя № - user_919,2019-01-01,1900-01-01 14:06:51,,
1,1,Запись пользователя № - user_973,2019-01-01,1900-01-01 14:51:16,,
2,2,Запись пользователя № - user_903,2019-01-01,1900-01-01 16:31:16,,
3,3,Запись пользователя № - user_954,2019-01-01,1900-01-01 17:17:51,,
4,4,Запись пользователя № - user_954,2019-01-01,1900-01-01 21:31:18,,
...,...,...,...,...,...,...
981,991,Запись пользователя № - user_965,2019-04-20,1900-01-01 12:55:41,800.0,6927.0
982,992,Запись пользователя № - user_967,2019-04-20,1900-01-01 14:59:36,10154.0,
983,993,Запись пользователя № - user_973,2019-04-20,1900-01-01 17:09:56,10254.0,
984,994,Запись пользователя № - user_977,2019-04-20,1900-01-01 18:10:07,10354.0,


In [364]:
minute_column = log_df_new5['time'].dt.minute
minute_column.value_counts()

36.0    25
31.0    23
6.0     22
50.0    22
14.0    21
        ..
52.0    10
46.0    10
8.0      9
26.0     9
11.0     6
Name: time, Length: 60, dtype: int64

In [365]:
month_column = log_df_new5['time'].dt.month
month_column.value_counts(ascending=True)

1.0    985
Name: time, dtype: int64

In [366]:
dayofweek_column = log_df_new5['time'].dt.dayofweek
dd = dayofweek_column.value_counts(ascending=True)
dsum = dd[5] + dd[6]
dsum

KeyError: 5.0

In [367]:
"""
Договоримся, что с 0 до 5 часов - ночь, с 6 до 11 - утро, с 12 до 17 - день, с 18 до 23 - вечер.

"""

def time_of_day(time):
    if 0 <= time.hour <= 5:
        return 'night'
    elif 6 <= time.hour <= 11:
        return 'morning'
    elif 12 <= time.hour <= 17:
        return 'day'
    elif 18 <= time.hour <= 23:
        return 'evening'

log_df_new5['time_of_day'] = log_df_new5.time.apply(time_of_day)
log_df_new5.time_of_day.value_counts()

night      265
morning    253
day        240
evening    227
Name: time_of_day, dtype: int64

In [368]:
# Загружаем файл
log = pd.read_csv("log.csv")

# Удаляем пропуски
log = log.dropna()

# Называем колонки
log.columns = ['user_id', 'time', 'bet', 'win']

# Убираем скобку перед временем
log['time'] = log['time'].apply(lambda x: x[1:])

# Переводим колонку время в нужный формат
log['time'] = pd.to_datetime(log['time'])

# Добавляем колонку "час" и наполняем ее нужными данными
log['hour'] = log['time'].apply(lambda x: x.hour)


In [369]:
# Загружаем файл
log = pd.read_csv("log.csv")

# Называем колонки
log.columns = ['user_id', 'time', 'bet', 'win']

# Удаляем пропуски
log = log.dropna()

# Убираем скобку перед временем
log['time'] = log['time'].apply(lambda x: x[1:])

# Переводим колонку время в нужный формат
log['time'] = pd.to_datetime(log['time'])

# Добавляем колонку "час" и наполняем ее нужными данными
log['hour'] = log['time'].dt.hour

log

Unnamed: 0,user_id,time,bet,win,hour
13,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0,8
28,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0,13
150,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0,21
188,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0,18
204,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0,5
...,...,...,...,...,...
966,Запись пользователя № - user_975,2019-04-19 22:25:15,1000.0,6108.0,22
970,Запись пользователя № - user_912,2019-04-20 10:35:49,10554.0,31799.0,10
971,Запись пользователя № - user_926,2019-04-20 10:35:50,10354.0,30244.0,10
975,Запись пользователя № - user_970,2019-04-20 10:35:54,10354.0,30691.0,10


In [None]:
"""

Заполнение константой
Что такое константа? Это просто число.

Посмотрим на признак bet в наших данных (log.csv).

"Bet" означает "ставка".  Некоторые значения в данных заполнены цифрами - поэтому мы можем сделать предположение, что это сумма в рублях, т.е. ставка. 

Можно также предположить, что если в данных в этом месте пропуск - значит, человек не делал ставку. Другими словами, ставка в данном случае равна 0.

Чтобы заполнить пропуски в столбце каким-то значением, можно использовать метод fillna() у самого столбца. Аргументом этого метода будет число, которое появится на месте пропусков.

Например:

log['bet'].fillna(0)  
В задании ниже вы заполните пропуски нулями. Почему бы просто не удалить строки с пропусками?

Дело в том, что в данном случае, скорее всего ,пропуски что-то означают. А именно, они означают (по крайней мере, мы это предполагаем), что человек приходил, но не делал ставку. Иначе говоря, ставка человека в этом случае равна 0.

Если мы удалим все строки с пропусками, останутся только строки, где ставка положительная. Это было бы нелогично, так как получится, что каждый пришедший в букмекерскую контору человек делает ставку. Иногда люди заходят просто посмотреть :)

"""

In [370]:
# Загружаем файл
log = pd.read_csv("log.csv", header=None)

# Называем колонки
log.columns = ['user_id', 'time', 'bet', 'win']

# Заполняем пропуски в колонке bet на 0 - человек может прийти и не сделать ставку, это нормально, не нужно удалять таких людей
log['bet'] = log['bet'].fillna(0)

# Убираем скобку перед временем
log['time'] = log.time.apply(lambda x: str(x).replace('[', ''))

# Переводим колонку время в нужный формат
log['time'] = pd.to_datetime(log['time'])

log

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,2019-01-01 14:06:51,0.0,
1,Запись пользователя № - user_973,2019-01-01 14:51:16,0.0,
2,Запись пользователя № - user_903,2019-01-01 16:31:16,0.0,
3,Запись пользователя № - user_954,2019-01-01 17:17:51,0.0,
4,Запись пользователя № - user_954,2019-01-01 21:31:18,0.0,
...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,
996,#error,NaT,10054.0,29265.0
997,#error,NaT,10454.0,
998,#error,NaT,1000.0,


In [371]:
log['bet'].value_counts()

0.0          515
500.0         50
100.0         48
300.0         42
800.0         42
200.0         40
400.0         40
700.0         38
600.0         37
1000.0        37
900.0         30
9754.0        10
10554.0       10
10154.0        7
10254.0        7
10454.0        6
9954.0         6
10754.0        5
10654.0        5
10354.0        4
10054.0        4
9854.0         2
5000.0         1
27000.0        1
9876.0         1
156789.0       1
12945.0        1
12548.0        1
145732.0       1
1678321.0      1
98753.0        1
123981.0       1
104540.0       1
8700.0         1
950.0          1
8734.0         1
7650.0         1
Name: bet, dtype: int64

In [None]:
"""

Заполнение с помощью функции
Теперь поработаем с признаком win, в котором тоже есть пропуски.

Иногда нужно заполнять пропуски не одним и тем же числом, а разными, в зависимости от какого-то условия. Перед нами именно этот случай.

Предположим, что если в признаке win находится пропуск, то выигрыша не было. Здесь два возможных случая:

Человек не делал ставки и ничего не выиграл. То есть просто пришел, посмотрел и ушел.
Человек делал ставку, но не выиграл. Значит, выигрыш на самом деле является отрицательным значением - это проигрыш.
Предлагаем вам написать метод, который заполнит пропуски в признаке win в соответствии с предположением выше. 

Для этого можно применить метод apply() ко всей таблице и передать ему функцию, которая вычисляет размер выигрыша (или проигрыша) по следующей схеме:

Если значение в столбце win существует (не пропуск) - вернуть это же значение. Это значит, что человек выиграл.
Если вместо значения в столбце win пропуск, вернуть 0.
На выходе получится столбец без пропусков. Следующим шагом будет замена старого столбца win на новый.

Выглядеть это будет примерно так:

def fillna_win(row):  
    # Нужно дописать  
  
# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  
  
# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win  

"""

In [372]:
def fillna_win(row):
    if row.bet>0:
        if row.win>0:
            # человек сделал ставку и нам известно, что он выиграл - оставляем все как есть
            return row.win
        else:
            # человек сделал ставку, но проиграл
            return -row.bet
    else:
        # человек не делал ставку и ничего не выиграл
        return 0
  
# Применяем функцию  
log['win'] = log.apply(lambda row: fillna_win(row), axis=1)

log
  


Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,2019-01-01 14:06:51,0.0,0.0
1,Запись пользователя № - user_973,2019-01-01 14:51:16,0.0,0.0
2,Запись пользователя № - user_903,2019-01-01 16:31:16,0.0,0.0
3,Запись пользователя № - user_954,2019-01-01 17:17:51,0.0,0.0
4,Запись пользователя № - user_954,2019-01-01 21:31:18,0.0,0.0
...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,-9754.0
996,#error,NaT,10054.0,29265.0
997,#error,NaT,10454.0,-10454.0
998,#error,NaT,1000.0,-1000.0


In [373]:
log.win.isna().sum()

0

In [374]:
log.win == np.nan

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Name: win, Length: 1000, dtype: bool

In [375]:
log[log['win']<0]

Unnamed: 0,user_id,time,bet,win
5,Запись пользователя № - user_917,2019-01-01 23:34:55,156789.0,-156789.0
19,Запись пользователя № - user_942,2019-01-03 14:03:21,98753.0,-98753.0
67,Запись пользователя № - user_987,2019-01-07 21:46:13,5000.0,-5000.0
81,Запись пользователя № - user_910,2019-01-08 21:14:57,123981.0,-123981.0
92,Запись пользователя № - user_964,2019-01-09 03:05:33,100.0,-100.0
...,...,...,...,...
994,Запись пользователя № - user_977,2019-04-20 18:10:07,10354.0,-10354.0
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,-9754.0
997,#error,NaT,10454.0,-10454.0
998,#error,NaT,1000.0,-1000.0


In [376]:
log['net'] = log['win'] - log['bet']
log

Unnamed: 0,user_id,time,bet,win,net
0,Запись пользователя № - user_919,2019-01-01 14:06:51,0.0,0.0,0.0
1,Запись пользователя № - user_973,2019-01-01 14:51:16,0.0,0.0,0.0
2,Запись пользователя № - user_903,2019-01-01 16:31:16,0.0,0.0,0.0
3,Запись пользователя № - user_954,2019-01-01 17:17:51,0.0,0.0,0.0
4,Запись пользователя № - user_954,2019-01-01 21:31:18,0.0,0.0,0.0
...,...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,-9754.0,-19508.0
996,#error,NaT,10054.0,29265.0,19211.0
997,#error,NaT,10454.0,-10454.0,-20908.0
998,#error,NaT,1000.0,-1000.0,-2000.0


In [377]:
log[log['net']>0]

Unnamed: 0,user_id,time,bet,win,net
14,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0,1841921.0
29,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0,8198222.0
151,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0,4649.0
189,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0,4467.0
205,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0,4019.0
...,...,...,...,...,...
981,#error,NaT,800.0,7035.0,6235.0
986,#error,NaT,10454.0,29972.0,19518.0
987,#error,NaT,10554.0,31634.0,21080.0
991,Запись пользователя № - user_965,2019-04-20 12:55:41,800.0,6927.0,6127.0


In [378]:
log[log['net']>0].mean()

bet    15367.688406
win    95621.021739
net    80253.333333
dtype: float64

In [379]:
log[log['net']>0].median()

bet     600.0
win    5935.0
net    5347.0
dtype: float64

In [380]:
log.bet.mean()

3291.083

In [381]:
log.bet.mean(skipna=False)

3291.083

In [382]:
log.bet.sum() / log.bet.dropna().shape[0]

3291.083

In [383]:
np.mean(log.bet)

3291.083

In [384]:
log['bet'].dropna().mean()

3291.083

In [385]:
def fillna_win(row):
    if row.bet>0:
        if row.win>0:
            # человек сделал ставку и нам известно, что он выиграл - оставляем все как есть
            return row.win
        else:
            # человек сделал ставку, но проиграл (такие условия задачи - если проиграл, то 0)
            return 0
    else:
        # человек не делал ставку и ничего не выиграл
        return 0
  
# Применяем функцию  
log['win'] = log.apply(lambda row: fillna_win(row), axis=1)

log

Unnamed: 0,user_id,time,bet,win,net
0,Запись пользователя № - user_919,2019-01-01 14:06:51,0.0,0.0,0.0
1,Запись пользователя № - user_973,2019-01-01 14:51:16,0.0,0.0,0.0
2,Запись пользователя № - user_903,2019-01-01 16:31:16,0.0,0.0,0.0
3,Запись пользователя № - user_954,2019-01-01 17:17:51,0.0,0.0,0.0
4,Запись пользователя № - user_954,2019-01-01 21:31:18,0.0,0.0,0.0
...,...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,0.0,-19508.0
996,#error,NaT,10054.0,29265.0,19211.0
997,#error,NaT,10454.0,0.0,-20908.0
998,#error,NaT,1000.0,0.0,-2000.0


In [386]:
log['net'] = log['win'] - log['bet']
log

Unnamed: 0,user_id,time,bet,win,net
0,Запись пользователя № - user_919,2019-01-01 14:06:51,0.0,0.0,0.0
1,Запись пользователя № - user_973,2019-01-01 14:51:16,0.0,0.0,0.0
2,Запись пользователя № - user_903,2019-01-01 16:31:16,0.0,0.0,0.0
3,Запись пользователя № - user_954,2019-01-01 17:17:51,0.0,0.0,0.0
4,Запись пользователя № - user_954,2019-01-01 21:31:18,0.0,0.0,0.0
...,...,...,...,...,...
995,Запись пользователя № - user_984,2019-04-20 09:59:58,9754.0,0.0,-9754.0
996,#error,NaT,10054.0,29265.0,19211.0
997,#error,NaT,10454.0,0.0,-10454.0
998,#error,NaT,1000.0,0.0,-1000.0


In [387]:
len(log[log['bet']>0])

485

In [388]:
len(log)

1000

In [389]:
len(log[log['bet']>0]) / len(log)

0.485

In [390]:
log[log['bet']>0].mean()

bet     6785.738144
win    27207.630928
net    20421.892784
dtype: float64

In [391]:
log[log['net']<0].mean()

bet    3372.743516
win       0.000000
net   -3372.743516
dtype: float64

In [392]:
log[(log.bet > 0) & (log.net > 0)]

Unnamed: 0,user_id,time,bet,win,net
14,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0,1841921.0
29,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0,8198222.0
151,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0,4649.0
189,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0,4467.0
205,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0,4019.0
...,...,...,...,...,...
981,#error,NaT,800.0,7035.0,6235.0
986,#error,NaT,10454.0,29972.0,19518.0
987,#error,NaT,10554.0,31634.0,21080.0
991,Запись пользователя № - user_965,2019-04-20 12:55:41,800.0,6927.0,6127.0


In [393]:
"""
Посчитайте, какой процент ставок заканчивается выигрышем, а какой - проигрышем.
Сравните эти значения и ответьте, какое из них больше.

"""

# Записи со ставками
all_wins = len(log[(log.bet > 0)])

# Записи с выиграшами
percent_win = len(log[(log.bet > 0) & (log.net > 0)]) / all_wins

# Записи с проигрышами
percent_lose = len(log[(log.bet > 0) & (log.net < 0)]) / all_wins

print(percent_win)
print(percent_lose)

0.2845360824742268
0.7154639175257732


In [394]:
"""
Давайте повторим то, что мы прошли в этой секции.
Напишите код, который узнает, чему была равна минимальная ставка и сколько людей сделали такую ставку. Для этого:

1. загрузите датасет log.csv;

2. посчитайте, чему равна минимальная ставка;

3. посчитайте, сколько раз была сделана минимальная ставка, и запишите результат в переменную min_bet_amount в виде целого числа.

"""

bet_min = log[(log.bet > 0)].bet.min()

f = log["bet"].value_counts().sort_values(ascending=False)

for k, v in f.items():
    if k == bet_min:
        min_bet_amount = v

min_bet_amount

48

In [395]:
log = pd.read_csv('input/log.csv', header=None)
log.columns = ['user_id', 'time', 'bet', 'win']

us = pd.read_csv('input/users.csv', encoding='koi8_r', sep='\t')
us.columns = ['user_id', 'email', 'geo']

# Приведем признак user_id к одному формату в обоих датасетах  
us.user_id = us.user_id.apply(lambda x: x.lower())

# Избавимся от ошибок в user_id  
log = log[log.user_id != '#error']  
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])  

In [396]:
"""
Теперь объединим данные с помощью метода pd.merge():

pd.merge(dataframe1, dataframe2, on='feature_name')  
Первые два аргумента - таблицы, которые нужно будет объединить.

Третий аргумент - название признака, по которому будем объединять данные. Мы уже привели данные к одинаковому виду,
и теперь их можно объединить по признаку 'user_id', чтобы получить полную информацию о пользователе. 

"""



new_df = pd.merge(log, us, on='user_id')

new_df

Unnamed: 0,user_id,time,bet,win,email,geo
0,user_919,[2019-01-01 14:06:51,,,Chikkaverle@icloud.com,Хабаровск
1,user_919,[2019-01-30 10:06:00,,,Chikkaverle@icloud.com,Хабаровск
2,user_919,[2019-02-05 14:33:44,,,Chikkaverle@icloud.com,Хабаровск
3,user_919,[2019-02-14 11:38:05,,,Chikkaverle@icloud.com,Хабаровск
4,user_919,[2019-03-02 4:23:36,300.0,,Chikkaverle@icloud.com,Хабаровск
...,...,...,...,...,...,...
970,user_932,[2019-02-24 22:40:06,,,BraceWalker@bk.ru,Красноярск
971,user_932,[2019-03-15 10:56:14,,,BraceWalker@bk.ru,Красноярск
972,user_932,[2019-03-18 10:13:24,,,BraceWalker@bk.ru,Красноярск
973,user_932,[2019-03-27 12:18:24,,,BraceWalker@bk.ru,Красноярск


In [None]:
"""
Groupby

Теперь повторим groupby.

Данный метод позволяет сгруппировать данные и применить к ним методы агрегации:

df.groupby('user_id').win.median().median()  
В данном случае мы группируем данные по признаку user_id.

После этого мы в каждой группе выбираем признак win.

Затем мы берем медиану каждой группы по признаку win и на выходе получаем таблицу, в которой индексом является признак user_id.

В этой таблице единственный столбец - медиана по каждой группе (то есть по каждому пользователю).

Наконец, последний вызов median() дает нам медиану по предыдущему столбцу, то есть возвращает одно число

"""

In [None]:
"""
Анализ по пользователям
Мы собрали все, что нам нужно, чтобы извлечь какие-то инсайты из данных о пользователях.

pd.merge() нам больше не понадобится, теперь будем пользоваться возможностями groupby.

"""

In [397]:
# Заполняем пропуски в колонке bet на 0 - человек может прийти и не сделать ставку, это нормально, не нужно удалять таких людей
new_df['bet'] = new_df['bet'].fillna(0)

# Убираем скобку перед временем
new_df['time'] = new_df.time.apply(lambda x: str(x).replace('[', ''))

# Переводим колонку время в нужный формат
new_df['time'] = pd.to_datetime(new_df['time'])

new_df

Unnamed: 0,user_id,time,bet,win,email,geo
0,user_919,2019-01-01 14:06:51,0.0,,Chikkaverle@icloud.com,Хабаровск
1,user_919,2019-01-30 10:06:00,0.0,,Chikkaverle@icloud.com,Хабаровск
2,user_919,2019-02-05 14:33:44,0.0,,Chikkaverle@icloud.com,Хабаровск
3,user_919,2019-02-14 11:38:05,0.0,,Chikkaverle@icloud.com,Хабаровск
4,user_919,2019-03-02 04:23:36,300.0,,Chikkaverle@icloud.com,Хабаровск
...,...,...,...,...,...,...
970,user_932,2019-02-24 22:40:06,0.0,,BraceWalker@bk.ru,Красноярск
971,user_932,2019-03-15 10:56:14,0.0,,BraceWalker@bk.ru,Красноярск
972,user_932,2019-03-18 10:13:24,0.0,,BraceWalker@bk.ru,Красноярск
973,user_932,2019-03-27 12:18:24,0.0,,BraceWalker@bk.ru,Красноярск


In [398]:
def fillna_win(row):
    if row.bet>0:
        if row.win>0:
            # человек сделал ставку и нам известно, что он выиграл - оставляем все как есть
            return row.win
        else:
            # человек сделал ставку, но проиграл (такие условия задачи - если проиграл, то 0)
            return 0
    else:
        # человек не делал ставку и ничего не выиграл
        return 0
  
# Применяем функцию  
new_df['win'] = new_df.apply(lambda row: fillna_win(row), axis=1)

new_df

Unnamed: 0,user_id,time,bet,win,email,geo
0,user_919,2019-01-01 14:06:51,0.0,0.0,Chikkaverle@icloud.com,Хабаровск
1,user_919,2019-01-30 10:06:00,0.0,0.0,Chikkaverle@icloud.com,Хабаровск
2,user_919,2019-02-05 14:33:44,0.0,0.0,Chikkaverle@icloud.com,Хабаровск
3,user_919,2019-02-14 11:38:05,0.0,0.0,Chikkaverle@icloud.com,Хабаровск
4,user_919,2019-03-02 04:23:36,300.0,0.0,Chikkaverle@icloud.com,Хабаровск
...,...,...,...,...,...,...
970,user_932,2019-02-24 22:40:06,0.0,0.0,BraceWalker@bk.ru,Красноярск
971,user_932,2019-03-15 10:56:14,0.0,0.0,BraceWalker@bk.ru,Красноярск
972,user_932,2019-03-18 10:13:24,0.0,0.0,BraceWalker@bk.ru,Красноярск
973,user_932,2019-03-27 12:18:24,0.0,0.0,BraceWalker@bk.ru,Красноярск


In [399]:
new_df['net'] = new_df['win'] - new_df['bet']

new_df

Unnamed: 0,user_id,time,bet,win,email,geo,net
0,user_919,2019-01-01 14:06:51,0.0,0.0,Chikkaverle@icloud.com,Хабаровск,0.0
1,user_919,2019-01-30 10:06:00,0.0,0.0,Chikkaverle@icloud.com,Хабаровск,0.0
2,user_919,2019-02-05 14:33:44,0.0,0.0,Chikkaverle@icloud.com,Хабаровск,0.0
3,user_919,2019-02-14 11:38:05,0.0,0.0,Chikkaverle@icloud.com,Хабаровск,0.0
4,user_919,2019-03-02 04:23:36,300.0,0.0,Chikkaverle@icloud.com,Хабаровск,-300.0
...,...,...,...,...,...,...,...
970,user_932,2019-02-24 22:40:06,0.0,0.0,BraceWalker@bk.ru,Красноярск,0.0
971,user_932,2019-03-15 10:56:14,0.0,0.0,BraceWalker@bk.ru,Красноярск,0.0
972,user_932,2019-03-18 10:13:24,0.0,0.0,BraceWalker@bk.ru,Красноярск,0.0
973,user_932,2019-03-27 12:18:24,0.0,0.0,BraceWalker@bk.ru,Красноярск,0.0


In [400]:
new_df = new_df[['user_id', 'email', 'geo', 'time', 'bet', 'win', 'net']]
new_df

Unnamed: 0,user_id,email,geo,time,bet,win,net
0,user_919,Chikkaverle@icloud.com,Хабаровск,2019-01-01 14:06:51,0.0,0.0,0.0
1,user_919,Chikkaverle@icloud.com,Хабаровск,2019-01-30 10:06:00,0.0,0.0,0.0
2,user_919,Chikkaverle@icloud.com,Хабаровск,2019-02-05 14:33:44,0.0,0.0,0.0
3,user_919,Chikkaverle@icloud.com,Хабаровск,2019-02-14 11:38:05,0.0,0.0,0.0
4,user_919,Chikkaverle@icloud.com,Хабаровск,2019-03-02 04:23:36,300.0,0.0,-300.0
...,...,...,...,...,...,...,...
970,user_932,BraceWalker@bk.ru,Красноярск,2019-02-24 22:40:06,0.0,0.0,0.0
971,user_932,BraceWalker@bk.ru,Красноярск,2019-03-15 10:56:14,0.0,0.0,0.0
972,user_932,BraceWalker@bk.ru,Красноярск,2019-03-18 10:13:24,0.0,0.0,0.0
973,user_932,BraceWalker@bk.ru,Красноярск,2019-03-27 12:18:24,0.0,0.0,0.0


In [401]:
"""
Посчитайте медиану баланса по каждому пользователю.

Для этого сгруппируйте по пользователям, возьмите признак net, просуммируйте по каждому пользователю и получите медиану.

"""

new_df.groupby('user_id').net.sum().median()

1986.0

In [None]:
"""
Сколько раз в среднем каждый человек приходит, не делая ставок, при условии,
что у этого человека все-таки есть хотя бы одна ставка?

Например: Человек посетил букмекерскую контору 5 раз из них 1 раз сделал ставку, 4 раза нет - условие выполняется.
Человек посетил букмекерскую контору 5 раз из них ни разу ставку не сделал - условие не выполняется.
Для того, чтобы узнать это, просуммируйте в каждой группе количество записей со ставкой, равной 0,
и поделите на общее количество групп. Если при этом в группе нет записей со ставкой больше 0,
считаем количество записей в данной группе равным 0.

"""

In [407]:
group_by_user_id_bet_is_zero = new_df[new_df.bet==0].groupby('user_id').bet.count().mean()
group_by_user_id_bet_is_zero

5.05

In [406]:
group_by_user_id_bet_is_zero = new_df[new_df.bet>0].groupby('user_id').bet.count().mean()
group_by_user_id_bet_is_zero

4.7

In [403]:
group_by_user_id_all_bet = new_df.groupby('user_id').sum()
group_by_user_id_all_bet

Unnamed: 0_level_0,bet,win,net
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
user_1000,1600.0,4701.0,3101.0
user_900,3800.0,24497.0,20697.0
user_901,600.0,0.0,-600.0
user_902,1700.0,4021.0,2321.0
user_903,13554.0,6726.0,-6828.0
...,...,...,...
user_995,12854.0,5889.0,-6965.0
user_996,1000.0,4056.0,3056.0
user_997,1200.0,0.0,-1200.0
user_998,15554.0,41749.0,26195.0


In [404]:
group_by_user_id_all_bet = new_df[new_df.net>0].groupby('user_id').count()
group_by_user_id_all_bet

Unnamed: 0_level_0,email,geo,time,bet,win,net
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
user_1000,1,1,1,1,1,1
user_900,4,4,4,4,4,4
user_902,1,0,1,1,1,1
user_903,1,1,1,1,1,1
user_905,2,2,2,2,2,2
...,...,...,...,...,...,...
user_992,3,3,3,3,3,3
user_993,1,1,1,1,1,1
user_995,1,1,1,1,1,1
user_996,1,1,1,1,1,1


In [408]:
"""
Используйте датасет, который получился в результате всех преобразований выше (в том числе, заполнение пропусков). Ответ запишите в поле ниже в виде целого числа - количества дней.

Сколько в среднем времени проходит между появлением человека в сервисе и первой ставкой?
Считать нужно только тех, кто делал ставку. Для того, чтобы узнать это, напишите метод,
считающий минимальное время среди ставок, равных 0, и минимальное время среди ставок больше 0.

После этого верните разницу между вторым и первым числом. Пройдитесь по всем группам в цикле.

Если в группе нет ставок больше 0, пропустите эту группу. Просуммируйте разницу во времени для каждой группы (с помощью метода,
описанного выше) и поделите на количество групп, которые вы не пропустили.

"""

min_zero = new_df[new_df.bet==0].groupby('user_id').time.min()
min_plus = new_df[new_df.bet>0].groupby('user_id').time.min()
min_plus.mean() - min_zero.mean()

Timedelta('46 days 06:54:48.000000')

In [412]:
"""
Наибольший суммарный выигрыш среди всех городов имеет Москва. Посчитайте следующий за ней город.
Для этого сгруппируйте по городам, возьмите признак win, просуммируйте по каждому городу, отсортируйте и получите второй город.

"""

the_best_win_cities = new_df[new_df.bet>0].groupby('geo').win.sum()
the_best_win_cities.sort_values(ascending=False)

geo
Москва             11959741.0
Воронеж              184338.0
Санкт-Петербург      151007.0
Казань                97806.0
Ярославль             97441.0
Ижевск                84895.0
Красноярск            84767.0
Арзангелтск           74375.0
Пермь                 67734.0
Хабаровск             65459.0
Краснодар             62718.0
Ставрополь            46003.0
Екатеринбург          36682.0
Тюмень                 4701.0
Name: win, dtype: float64

In [427]:
"""
Используйте датасет, который получился в результате всех преобразований в прошлой секции (в том числе, заполнение пропусков).

Подсказки:

1. Можно использовать методы min() и max().

2. Учитывайте, что минимальная ставка, это ставка, которая была сделана, т.е. если ставка равна нулю - значит ставки не было.

3. Ответ запишите в поле ниже в виде целого числа (нужно отбросить дробную часть).

Во сколько раз различаются в среднем максимальная и минимальная ставки по городам?

Для того, чтобы это посчитать, нужно сгруппировать по городам, взять среднее от признака bet,
найти максимальное и минимальное значения, затем поделить одно на другое.

"""

the_best_cities = new_df[new_df.bet>0].groupby('geo').bet.mean()
the_best_cities.max() / the_best_cities.min()

127.81602335164835

In [None]:
"""

Давайте повторим все, что мы прошли в этой секции. Напишите код, который посчитает,
сколько раз пользователи приходили в букмекерскую контору в каждом городе. Для этого:

1. загрузите датасеты log.csv и users.csv;

2. удалите user_id с ошибкой (#error) и приведите признак user_id к одному виду в обоих датасетах;

3. слейте два датасета в один по признаку user_id;

4. сгруппируйте данные по правильному признаку (какому - вам нужно понять самим), затем выберите user_id
и воспользуйтесь функцией count() для подсчета наблюдений в каждой группе;

5. результат (таблицу) запишите в sample2.

"""

In [428]:
sample2 = new_df.groupby('geo').user_id.count()
sample2

geo
Арзангелтск         96
Воронеж             88
Екатеринбург        49
Ижевск              61
Казань              66
Краснодар           86
Красноярск          56
Москва              61
Пермь               55
Санкт-Петербург    115
Ставрополь          36
Тюмень              32
Хабаровск           60
Ярославль           89
Name: user_id, dtype: int64

In [432]:
new_df['time'].apply(lambda pandas_dataframe: pandas_dataframe.month)

0      1
1      1
2      2
3      2
4      3
      ..
970    2
971    3
972    3
973    3
974    4
Name: time, Length: 975, dtype: int64

In [433]:
new_df.time.dt.month

0      1
1      1
2      2
3      2
4      3
      ..
970    2
971    3
972    3
973    3
974    4
Name: time, Length: 975, dtype: int64