### B6.2.1 Пропущенные значения
Чтобы программа правильно интерпретировала пропуски, при чтении файла с помощью метода read_csv можно передать в параметр na_values значение или список значений, которые при чтении будут помечены как пропуски.

На практике чаще всего вы будете встречать '', 'NaN', 'nan', 'null'

In [1]:
import pandas as pd

#### Как найти пропуски
В pandas есть метод isna(), который возвращает таблицу такой же размерности, что и на вход, но значения в ней - True или False. True, если данное значение является пропуском, и False в ином случае.

In [4]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win'] 
log.head().isna()

Unnamed: 0,user_id,time,bet,win
0,False,False,True,True
1,False,False,True,True
2,False,False,True,True
3,False,False,True,True
4,False,False,True,True


In [6]:
log.head()

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


В numpy пропущенные значения могут быть записаны как специальный объект np.nan, что означает Not a Number.

Проверить на наличие таких значений можно с помощью np.isnan().

P.S. Если вы все-таки хотите посмотреть на красивую (и, возможно, полезную) визуализацию пропущенных значений - обратите внимание на библиотеку missingno.

#### B6.2.1.1 Задание 1
Посчитайте количество пропусков в столбце time. Метод isna() есть не только у DataFrame, но и у Series. Это значит, что применять его можно не только ко всей таблице, но и к каждому столбцу отдельно.
Примените этот метод, затем просуммируйте количество строк в итоговом столбце. Ответ введите в поле ниже.

In [15]:
# Вариант № 1
log.time.isna()
log.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
user_id    1000 non-null object
time       985 non-null object
bet        485 non-null float64
win        138 non-null float64
dtypes: float64(2), object(2)
memory usage: 31.4+ KB


In [17]:
# Вариант № 2
log.time.isna().sum()

15

#### Удаление пропусков
Пропуски можно удалять автоматически. Во многих случаях это правильно, так как данные с большим количеством пропусков часто не имеют смысла и не приносят никакой пользы.  

Удалять данные с пропусками можно с помощью метода dropna().

Параметр axis в методе dropna() говорит методу, по какой оси удалять значения.  

Если нужно удалить строки, в которых встречается пропуск (NaN), следует указать axis=0.  Зачем это делать? Например, у нас из 1000 примеров данных про пользователей пропуски есть в пяти. Разумно их удалить, так как их количество пренебрежимо мало.

Если нужно удалить столбцы, в которых встречается пропуск (NaN), нужно указывать axis=1. Зачем? Иногда в одном конкретном столбце пропусков настолько много, что с ними просто не хочется возиться - смысла в них все равно почти нет. 

Еще один интересный параметр - subset. Что он делает? Если передать в него список значений по одной оси (например, названия столбцов) и задать при этом в параметре axis другую ось (в нашем случае 0), то мы удалим те строки, для которых в данных столбцах находится пропуск. То же самое работает и наоборот: нужно поменять axis на 1 и вместо названий столбцов передавать индексы строк.

Перед удалением строк обязательно сделайте бэкап.

#### B6.2.1.2 Задание 2
Удалите все столбцы, где есть пропуски. Запишите в поле, сколько осталось столбцов в данных после этого.

In [50]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
new_log = log.dropna(axis=1, how='any', thresh=None, subset=None, inplace=True)
log

Unnamed: 0,user_id
0,Запись пользователя № - user_919
1,Запись пользователя № - user_973
2,Запись пользователя № - user_903
3,Запись пользователя № - user_954
4,Запись пользователя № - user_954
...,...
995,Запись пользователя № - user_984
996,#error
997,#error
998,#error


#### B6.2.1.3 Задание 3
Удалите все строки, где есть пропуски. Запишите в поле, сколько осталось строк в данных после этого.

In [52]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
new_log = log.dropna(axis=0, how='any', thresh=None, subset=None, inplace=True)
log.count()

user_id    133
time       133
bet        133
win        133
dtype: int64

In [47]:
# comparing sizes of data frames 
print("Old data frame length:", len(log), "\nNew data frame length:",  
       len(new_log), "\nNumber of rows with at least 1 NA value: ", 
       (len(log)-len(new_data))) 

TypeError: object of type 'NoneType' has no len()

#### B6.2.1.4 Задание 4
А сейчас удалите все столбцы, где есть пропуски, среди столбцов user_id и time. Запишите в поле, сколько осталось столбцов в данных после этого.

In [92]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log.dropna(axis=1, how='any', thresh=None, subset= [0,1], inplace=True)
# log.isna()
log

Unnamed: 0,user_id,time
0,Запись пользователя № - user_919,[2019-01-01 14:06:51
1,Запись пользователя № - user_973,[2019-01-01 14:51:16
2,Запись пользователя № - user_903,[2019-01-01 16:31:16
3,Запись пользователя № - user_954,[2019-01-01 17:17:51
4,Запись пользователя № - user_954,[2019-01-01 21:31:18
...,...,...
995,Запись пользователя № - user_984,[2019-04-20 9:59:58
996,#error,
997,#error,
998,#error,


In [None]:
log.time.isna().sum()

#### B6.2.1.5 Задание 5
К каким объектам можно применять метод isna()?

- Строки в pd.DataFrame
- Таблицы в pandas (pd.DataFrame)
- Столбцы в pd.DataFrame

## B6.2.2 Дубли

#### B6.2.2.1 Задание 1
Удалите дубли среди столбцов user_id и time. Запишите в поле ниже, сколько осталось строк после удаления дублей.

In [107]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log.drop_duplicates(["user_id", "time"])

# correct answer is 986 rows

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
991,Запись пользователя № - user_965,[2019-04-20 12:55:41,800.0,6927.0
992,Запись пользователя № - user_967,[2019-04-20 14:59:36,10154.0,
993,Запись пользователя № - user_973,[2019-04-20 17:09:56,10254.0,
994,Запись пользователя № - user_977,[2019-04-20 18:10:07,10354.0,


#### B6.2.2.2 Задание 2
В каких случаях мы точно можем сказать, что перед нами дубли?
- "Мама мыла раму" и "Мама мыла кошку"
- "Иван Иванов Алексеевич" и "Иванов Иван Алексеевич"
- "База данных 1" и "База данных 1"
- "Удачи" и "удача"

Ответ
- "База данных 1" и "База данных 1"

#### B6.3.1 Преобразование к datetime

#### B6.3.1.1 Задание 1
Уберите лишний символ, преобразуйте признак time к datetime. После этого найдите наибольшую дату и выведите ее без времени.

Подсказка: можно применить метод max() к получившемуся столбцу со временем.

Не забудьте избавиться от пропусков.

Запишите ответ в формате "YYYY-MM-DD".
Например, 1993-06-08.

In [108]:
log = pd.read_csv("log.csv")
log = log.dropna()
log.columns = ['user_id', 'time', 'bet', 'win']
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime
log['time'].max() # находит наибольшую дату 

Timestamp('2019-04-20 12:55:41')

In [113]:
log = pd.read_csv("log.csv")  
log = log.dropna()  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log['time'].apply(lambda x: x[1:])  
log['time'] = pd.to_datetime(log['time'])  
# Пропущенная строка  
log.time = log.time.apply(lambda x: x.minute)
log['time'].head() 

13     57
28     59
150    54
188    34
204    26
Name: time, dtype: int64

## B6.3.2 Извлечение признаков времени

#### B6.3.2.1 Задание 1
Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts().

Найдите минуту, которая встречалась в данных чаще всего. Введите ответ в поле ниже.
Например, 7.

In [138]:
log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

# seconds_column = log["time"].apply(lambda x: x.minute)
seconds_column = log["time"].dt.minute
seconds_column.value_counts(ascending=False)

36.0    25
31.0    23
50.0    22
40.0    21
18.0    21
6.0     21
5.0     21
43.0    21
29.0    21
53.0    21
14.0    21
12.0    21
48.0    20
45.0    20
2.0     20
58.0    20
57.0    20
27.0    19
21.0    19
56.0    19
20.0    18
54.0    18
35.0    18
47.0    18
33.0    18
9.0     18
34.0    18
3.0     18
51.0    17
10.0    17
17.0    16
55.0    16
25.0    16
24.0    15
38.0    15
28.0    15
16.0    15
37.0    15
15.0    15
49.0    15
30.0    15
32.0    14
4.0     14
44.0    14
7.0     14
19.0    14
41.0    13
1.0     13
59.0    13
23.0    12
39.0    12
0.0     12
13.0    11
22.0    11
42.0    11
46.0    10
52.0    10
8.0      9
26.0     9
11.0     6
Name: time, dtype: int64

#### B6.3.2.2 Задание 2

Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts().

Найдите месяц, который встречался в данных реже всего. Введите ответ в поле ниже.
Например, 2.

In [139]:
log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

# seconds_column = log["time"].apply(lambda x: x.minute)
seconds_column = log["time"].dt.month
seconds_column.value_counts(ascending=True)

4.0    170
2.0    259
3.0    264
1.0    291
Name: time, dtype: int64

#### B6.3.2.3 Задание 3*
Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать sum().

Посчитайте, сколько дней в данных являются выходными (то есть субботой или воскресеньем). Введите ответ в поле ниже.
Например, 300.

In [4]:
import pandas as pd

In [32]:
log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

weekends_column = log["time"].dt.dayofweek
# weekends_column = log["time"].dt.day_name

weekends_column.value_counts(ascending=False)

5.0    152
2.0    150
1.0    149
0.0    135
4.0    135
3.0    132
6.0    131
Name: time, dtype: int64

#### B6.3.2.4 Задание 4*
Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts(). Кроме этого, потребуется написать функцию, которая преобразует дату во время дня.

Договоримся, что с 0 до 5 часов - ночь, с 6 до 11 - утро, с 12 до 17 - день, с 18 до 23 - вечер.

Важно: для выполнения задания вам нужно будет избавиться от пропусков только в столбце time. Вспомните, как избавиться от пропусков только по конкретному признаку.

Посчитайте, какое время дня встречается в данных реже всего. Введите ответ в поле ниже: ночь, утро, день или вечер.
Например, ночь.

In [77]:

log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log = log.dropna()
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

hour_column = log["time"].dt.hour
minute_column = log["time"].dt.minute

print("This is hour column {}".format(hour_column.value_counts(ascending=False)))
print("This is minute column {}".format(minute_column.value_counts(ascending=False)))

print("This is new column", hour_column + minute_column)
log

    
    
    

This is hour column 10    10
19     9
23     7
8      7
15     7
14     7
22     6
3      6
4      6
9      6
0      6
17     6
20     6
12     5
7      5
6      5
1      5
13     4
18     4
21     4
2      4
16     3
5      3
11     2
Name: time, dtype: int64
This is minute column 36    7
57    5
44    5
18    5
35    4
40    4
25    4
2     4
48    4
8     4
1     4
55    4
34    4
16    3
6     3
23    3
15    3
31    3
0     3
11    3
38    3
43    3
46    2
10    2
54    2
52    2
17    2
50    2
9     2
20    2
49    2
45    2
12    2
5     2
26    2
58    2
29    2
42    2
33    2
3     1
4     1
59    1
13    1
14    1
19    1
21    1
22    1
24    1
37    1
39    1
47    1
53    1
27    1
Name: time, dtype: int64
This is new column 13     65
28     72
150    75
188    52
204    31
       ..
966    47
970    45
971    45
975    45
990    67
Name: time, Length: 133, dtype: int64


Unnamed: 0,user_id,time,bet,win
13,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0
28,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0
150,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0
188,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0
204,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0
...,...,...,...,...
966,Запись пользователя № - user_975,2019-04-19 22:25:15,1000.0,6108.0
970,Запись пользователя № - user_912,2019-04-20 10:35:49,10554.0,31799.0
971,Запись пользователя № - user_926,2019-04-20 10:35:50,10354.0,30244.0
975,Запись пользователя № - user_970,2019-04-20 10:35:54,10354.0,30691.0


#### B6.3.2.4 Задание 4*


Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts(). Кроме этого, потребуется написать функцию, которая преобразует дату во время дня.

Договоримся, что с 0 до 5 часов - ночь, с 6 до 11 - утро, с 12 до 17 - день, с 18 до 23 - вечер.

Важно: для выполнения задания вам нужно будет избавиться от пропусков только в столбце time. Вспомните, как избавиться от пропусков только по конкретному признаку.

Посчитайте, какое время дня встречается в данных реже всего. Введите ответ в поле ниже: ночь, утро, день или вечер.
Например, ночь.

In [35]:
def time_date(t):
    if t <= 0 and t <= 5:
        return "Ночь"
    elif t <= 6 and t <= 11:
        return "Утро"
    elif t <= 12 and t <= 17:
        return "День"
    else:
        return "Вечер"


log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

log["time"] = log.time.apply(lambda x: x.hour)
log['time'] = log.time.apply(time_date)
log["time"].dropna().value_counts(ascending = True)

Ночь      37
День     248
Утро     275
Вечер    439
Name: time, dtype: int64

#### B6.3.2.5 Задание 5*

Давайте повторим то, что мы прошли в этой секции. Напишите код, который создаст признак hour из признака time в датасете log.csv. Для этого:

1. загрузите датасет log.csv в переменную log, дальше работать будем с ней;

2. установите имена столбцов: ['user_id', 'time', 'bet', 'win'];

3. избавьтесь от пропусков в log;

4. приведите переменную time к подходящему для извлечения признаков виду;

5. получите значение часа для каждой строки в переменной time и запишите в столбец hour в log.

Результатом будет таблица log со столбцом hour внутри.

In [146]:
# 1. загрузите датасет log.csv в переменную log, дальше работать будем с ней;
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']  

# 2. установите имена столбцов: ['user_id', 'time', 'bet', 'win'];
log = log.dropna()


# 3. избавьтесь от пропусков в log;
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ


# 4. приведите переменную time к подходящему для извлечения признаков виду;
log["time"] = pd.to_datetime(log["time"]) # преобразовывает столбец time к формату datetime

# 5. получите значение часа для каждой строки в переменной time и запишите в столбец hour в log.
# log["time"] = log.time.apply(lambda x: x.hour)
log["hour"] = log["time"].dt.hour

log

Unnamed: 0,user_id,time,bet,win,hour
14,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0,8
29,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0,13
151,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0,21
189,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0,18
205,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0,5
...,...,...,...,...,...
967,Запись пользователя № - user_975,2019-04-19 22:25:15,1000.0,6108.0,22
971,Запись пользователя № - user_912,2019-04-20 10:35:49,10554.0,31799.0,10
972,Запись пользователя № - user_926,2019-04-20 10:35:50,10354.0,30244.0,10
976,Запись пользователя № - user_970,2019-04-20 10:35:54,10354.0,30691.0,10


In [47]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']
log=log.dropna()

def timer(tm):
    if str(tm) == 'nan':
        return tm
    else:
        return str(tm).strip('[')
    
log['time'] = log['time'].apply(timer)
log.dropna(subset = ['time'], axis = 0, inplace = True)
log['time'] = pd.to_datetime(log['time'])
log['hour'] = log['time'].dt.hour

log

Unnamed: 0,user_id,time,bet,win,hour
14,Запись пользователя № - user_917,2019-01-02 08:57:36,145732.0,1987653.0,8
29,Запись пользователя № - user_942,2019-01-04 13:59:42,1678321.0,9876543.0,13
151,Запись пользователя № - user_982,2019-01-16 21:54:22,100.0,4749.0,21
189,Запись пользователя № - user_964,2019-01-21 18:34:44,200.0,4667.0,18
205,Запись пользователя № - user_931,2019-01-22 05:26:59,300.0,4319.0,5
...,...,...,...,...,...
967,Запись пользователя № - user_975,2019-04-19 22:25:15,1000.0,6108.0,22
971,Запись пользователя № - user_912,2019-04-20 10:35:49,10554.0,31799.0,10
972,Запись пользователя № - user_926,2019-04-20 10:35:50,10354.0,30244.0,10
976,Запись пользователя № - user_970,2019-04-20 10:35:54,10354.0,30691.0,10


## B6.4.1 Снова смотрим на пропуски

#### B6.4.1.1 Задание 1
Подсказка: можно использовать value_counts().

Посчитайте, сколько раз люди приходили, но не делали ставок. Для этого заполните пропуски в столбце bet значением 0 и посчитайте количество таких значений.
Например, 66.

In [62]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']
bet_count = log['bet'].fillna(0)
bet_count.value_counts(ascending = False)

0.0          515
500.0         50
100.0         48
300.0         42
800.0         42
200.0         40
400.0         40
700.0         38
600.0         37
1000.0        37
900.0         30
9754.0        10
10554.0       10
10154.0        7
10254.0        7
10454.0        6
9954.0         6
10754.0        5
10654.0        5
10354.0        4
10054.0        4
9854.0         2
5000.0         1
27000.0        1
9876.0         1
156789.0       1
12945.0        1
12548.0        1
145732.0       1
1678321.0      1
98753.0        1
123981.0       1
104540.0       1
8700.0         1
950.0          1
8734.0         1
7650.0         1
Name: bet, dtype: int64

#### B6.4.1.2 Задание 2
Используйте оригинальный датасет log.csv. Проделайте с ним действия из задания 1, расположенного выше на этой странице, и из пункта "Заполнение с помощью функции".

Результат запишите числом в поле ниже.

Подсказка: можно использовать sum().

Посчитайте, сколько раз участники ставок проиграли деньги. То есть посчитайте количество строк, для которых в столбце win находится отрицательное значение.
Например, 616.

In [106]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
            return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 
# new_win.sum()
(log.win<0).sum()

347

## B6.4.2 Есть ли смысл играть?

In [None]:
# log['net'] = # здесь должен быть код, создающий новый признак  

#### B6.4.2.1 Задание 1
Используйте модифицированный в прошлой секции датасет log.csv. Результат запишите числом в поле ниже.

Подсказка - можно использовать sum().

Создайте признак net, хранящий сумму выигрыша с учетом ставки. Для этого из признака win поэлементно вычтите признак bet и запишите в новый столбец. После этого посчитайте, у скольких людей выигрыш положительный.
Например, 0.

In [105]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

# log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
    else:
        return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 

log["net"] = log["win"] - log["bet"]
a = log[log.net > 0]
a.net.count()

138

#### B6.4.2.2 Задание 2
Используйте датасет log.csv, получившийся в результате выполнения предыдущего задания. Посчитайте среднее значение выигрыша (из столбца net) в тех случаях, когда выигрыш больше 0. Результат округлите до целого, отбросив дробную часть.

Подсказка: можно использовать mean().

In [118]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
    else:
        return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 

log["net"] = log["win"] - log["bet"]
a = log[log.net > 0]
a.net.mean()

80253.33333333333

#### B6.4.2.3 Задание 3
Используйте датасет log.csv, получившийся в результате выполнения первого задания этого блока. Посчитайте медианное значение выигрыша (из столбца net) в тех случаях, когда выигрыш больше 0. Результат округлите до целого, отбросив дробную часть.

Подсказка: можно использовать median().

In [147]:
import numpy as np
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
    else:
        return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 

log["net"] = log["win"] - log["bet"] # медианное значение выигрыша, когда выигрыш больше 0.
a = log[log.net > 0]
a.net.median()

5347.0

#### B6.4.3.1 Задание 1
Используйте модифицированный после решения задач предыдущей секции датасет log.csv. Посчитайте, какой процент посещений букмекерской конторы оборачивался ставкой. Для этого поделите количество ставок (значений больше 0) на общее количество посещений конторы. Результат округлите до одного знака после запятой.

Подсказка: можно использовать sum().

In [163]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
    else:
        return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 

log["net"] = log["win"] - log["bet"]
a = log[log.net > 0]

average = log[log.bet > 0].bet.count() / log.bet.count() # какой процент посещений букмекерской конторы оборачивался ставкой
average * 100

48.5

#### B6.4.3.2 Задание 2
Используйте модифицированный после решения задач предыдущей секции датасет log.csv. Посчитайте среднее значение ставки (из столбца bet) в тех случаях, когда ставка была сделана. Результат округлите до целого, отбросив дробную часть.

Подсказка: можно использовать mean().

In [165]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


def fillna_win(row):
    if row.win <= 0: 
        if row.bet == 0: # значение в столбце win существует (не пропуск) - вернуть это же значение. Человек выиграл.
            row.win = 0 # Если в столбце bet в этом же месте стоит 0, вернуть 0. Человек зашел посмотреть.
        else:
            row.win = -row.bet # Если в столбце bet в этом же месте есть ненулевое значение, 
                               # вернуть то же значение, но с отрицательным знаком. Человек поставил деньги и проиграл их.
    else:
        return row.win
        

# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  

# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win 

log["net"] = log["win"] - log["bet"]
a = log[log.net > 0]

bet = log[log.bet > 0].bet.mean() # среднее значение ставки (из столбца bet) в тех случаях, когда ставка была сделана. 
bet

6785.738144329897

#### B6.4.3.3 Задание 3
Используйте модифицированный после решения задач предыдущей секции датасет log.csv. Посчитайте средний выигрыш (из столбца net) в тех случаях, когда ставка была сделана. Результат округлите до целого, отбросив дробную часть.

Пояснение: выигрыш в данном случае означает изменение количества денег и может быть отрицательным. В таком случае это проигрыш.

Подсказка: можно использовать mean().

In [187]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)


log["net"] = log["win"] - log["bet"]
mean_win = log[log.net > 0]
mean_win.mean()

bet    15367.688406
win    95621.021739
net    80253.333333
dtype: float64

In [181]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)
log["net"] = log["win"] - log["bet"]
mean_win = log[log.bet > 0]
mean_win.mean()

bet     6785.738144
win    27207.630928
net    20421.892784
dtype: float64

#### B6.4.3.4 Задание 4
Используйте модифицированный после решения задач предыдущей секции датасет log.csv. Посчитайте среднюю сумму потерь при проигрыше (из столбца net). Результат округлите до целого, отбросив дробную часть.

Пояснение: ответ должен быть дан в виде отрицательного числа.

Подсказка: можно использовать mean().

In [186]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

log['time']=log['time'].str.replace('[', '')
log['bet']=log['bet'].fillna(0)
log['win']=log['win'].fillna(0)
log["net"] = log["win"] - log["bet"]
loss = log[log["net"] < 0].mean()
loss

bet    3372.743516
win       0.000000
net   -3372.743516
dtype: float64

#### B6.4.3.6 Задание 6*
1 point possible (graded)
Давайте повторим то, что мы прошли в этой секции. Напишите код, который узнает, чему была равна минимальная ставка и сколько людей сделали такую ставку. Для этого:

1. загрузите датасет log.csv;

2. посчитайте, чему равна минимальная ставка;

3. посчитайте, сколько раз была сделана минимальная ставка, и запишите результат в переменную min_bet_amount в виде целого числа.

In [226]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)
log['time']=log['time'].str.replace('[', '')


min_bet = log[log.bet > 0].bet.min()
min_bet_amount =  log[log.bet > 0].min().count()


100.0


In [220]:
log = pd.read_csv('log.csv', header = None)
log.columns = ['user_id','time','bet','win']
min_bet = log[log.bet > 0].min()['bet']
min_bet_amount = log[log.bet > 0].min().count()

## B6.5.1 Повторение merge/groupby

#### B6.5.1.1 Задание 1

Объедините датасеты log.csv и users.csv по признаку user_id по примеру выше. Ответ запишите в поле ниже.

Запишите количество строк в получившейся таблице.

In [250]:
log = pd.read_csv("log.csv", header = None)
log.columns = ['user_id', 'time', 'bet', 'win']

# Избавимся от ошибок в user_id в df log 
log = log[log.user_id != '#error']  
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['bet']=log['bet'].fillna(0)
log['time']=log['time'].str.replace('[', '')

# encoding = 'koi8_r', sep = '\t' - решили проблему с кодировкой
users = pd.read_csv('users.csv', encoding = 'koi8_r', sep = '\t')  
users.columns = ['user_id', 'email', 'geo'] 

# Приведем признак user_id к одному формату в обоих датасетах  
users.user_id = us.user_id.apply(lambda x: x.lower())  

united_df = pd.merge(log, users, on = "user_id")
united_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 975 entries, 0 to 974
Data columns (total 6 columns):
user_id    975 non-null object
time       975 non-null object
bet        975 non-null float64
win        132 non-null float64
email      967 non-null object
geo        950 non-null object
dtypes: float64(2), object(4)
memory usage: 53.3+ KB


In [None]:
# pd.merge(dataframe1, dataframe2, on='feature_name')  
# df.groupby('user_id').win.median().median()  


#### B6.5.2.1 Задание 1
Используйте датасет, который получился в результате всех преобразований выше (в том числе, заполнение пропусков). Ответ запишите в поле ниже в виде целого числа (отбросьте дробную часть).

Посчитайте медиану баланса по каждому пользователю. Для этого сгруппируйте по пользователям, возьмите признак net, просуммируйте по каждому пользователю и получите медиану.
Например, 10382

In [268]:
log = pd.read_csv('log.csv', header=None)
log.columns = ['user_id','time', 'bet','win']

# Убираем пропуски
log = log.dropna(subset=['time'])

# Меняем пропуски на 0
log = log.fillna(0)

# Избавимся от ошибок в user_id
log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])

# Делаем столбец с выигрышем
def fillna_win(row):
    return row['win'] - row['bet']

new_win = log.apply(lambda row: fillna_win(row), axis=1)

# Создаем столбец с суммой выигрыша
log['net'] = new_win

united_df = pd.merge(log, users, on = "user_id")
print(united_df.groupby(['user_id'])['net'].sum().median())

1986.0


#### B6.5.2.2 Задание 2*
Используйте датасет, который получился в результате всех преобразований выше (в том числе, заполнение пропусков). Ответ запишите в поле ниже в виде целого числа (отбросьте дробную часть).

Сколько раз в среднем каждый человек приходит, не делая ставок, при условии, что у этого человека все-таки есть хотя бы одна ставка? Для того, чтобы узнать это, просуммируйте в каждой группе количество записей со ставкой, равной 0, и поделите на общее количество групп. Если при этом в группе нет записей со ставкой больше 0, считаем количество записей в данной группе равным 0.
Например, 2

In [272]:
#Слияние
log_users=pd.merge(log, users, on='user_id')
print((log_users[log_users.bet==0.0].groupby('user_id').bet.value_counts().sum())/(len(log_users.groupby('user_id'))))

5.05


#### B6.5.2.3 Задание 3**
Используйте датасет, который получился в результате всех преобразований выше (в том числе, заполнение пропусков). Ответ запишите в поле ниже в виде целого числа - количества дней.

Сколько в среднем времени проходит между появлением человека в сервисе и первой ставкой? Считать нужно только тех, кто делал ставку. Для того, чтобы узнать это, напишите метод, считающий минимальное время среди ставок, равных 0, и минимальное время среди ставок больше 0. После этого верните разницу между вторым и первым числом. Пройдитесь по всем группам в цикле. Если в группе нет ставок больше 0, пропустите эту группу. Просуммируйте разницу во времени для каждой группы (с помощью метода, описанного выше) и поделите на количество групп, которые вы не пропустили.
Например, если ваш результат Timedelta('23 days 12:24:32'), то в поле пишите 23.

In [271]:
#log
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)

#log['win']=log['win'].fillna(0)
#log['net']=log['win']-log['bet']
log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['time']=log['time'].str.replace('[', '')
log.time=pd.to_datetime(log.time)

#users
us=pd.read_csv('users.csv', encoding='koi8-r', sep='\t')
us.columns = ['user_id', 'email', 'geo']
us.user_id = us.user_id.apply(lambda x: x.lower())

#Слияние
df=pd.merge(log, us, on='user_id')
# Отбор тех, кто делал ставки
#df_make_bet=df[df.user_id.isin(df[(df.bet>0)].user_id)]
# Время самого первого посещения
#time_min=df_make_bet.groupby(['user_id']).time.min()

time_min = df[df.bet == 0].groupby('user_id').time.min()

# время самой первой ставки
#time_min_notnul=df_make_bet[df_make_bet.bet>0].groupby(['user_id']).time.min()
time_min_notnul = df[df.bet > 0].groupby('user_id').time.min()
joined = pd.merge(time_min, time_min_notnul, on='user_id')

# Разница времени для каждого юзера
joined['delta']=(joined.time_y - joined.time_x)
print(joined['delta'].mean())

# Делим все дни на количество юзеров
d=joined.delta.sum().days/joined.delta.count()
d

46 days 06:54:48


46.28

#### B6.5.3 Анализ по городам

#### B6.5.3.1 Задание 1
Используйте датасет, который получился в результате всех преобразований в прошлой секции (в том числе, заполнение пропусков).

Ответ запишите в поле ниже в виде одного слова, с большой буквы.

Наибольший суммарный выигрыш среди всех городов имеет Москва. Посчитайте следующий за ней город. Для этого сгруппируйте по городам, возьмите признак win, просуммируйте по каждому городу, отсортируйте и получите второй город.
Например, Иннополис.

In [None]:
#log
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)

log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['time']=log['time'].str.replace('[', '')
log.time=pd.to_datetime(log.time)

#users
us=pd.read_csv('users.csv', encoding='koi8-r', sep='\t')
us.columns = ['user_id', 'email', 'geo']
us.user_id = us.user_id.apply(lambda x: x.lower())

#Слияние
df=pd.merge(log, us, on='user_id')
# Отбор тех, кто делал ставки

time_min = df[df.bet == 0].groupby('user_id').time.min()

# время самой первой ставки
#time_min_notnul=df_make_bet[df_make_bet.bet>0].groupby(['user_id']).time.min()
time_min_notnul = df[df.bet > 0].groupby('user_id').time.min()
joined = pd.merge(time_min, time_min_notnul, on='user_id')

# Разница времени для каждого юзера
joined['delta']=(joined.time_y - joined.time_x)
print(joined['delta'].mean())

# Делим все дни на количество юзеров
d=joined.delta.sum().days/joined.delta.count()
d

In [322]:
#log
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)

log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['time']=log['time'].str.replace('[', '')
log.time=pd.to_datetime(log.time)

#users
us=pd.read_csv('users.csv', encoding='koi8-r', sep='\t')
us.columns = ['user_id', 'email', 'geo']
us.user_id = us.user_id.apply(lambda x: x.lower())

#Слияние
df = pd.merge(log, us, on='user_id')
df = df.dropna(subset=['win'])
print(df.groupby(['geo'])['win'].sum(ascending = True))

geo
Арзангелтск           74375.0
Воронеж              184338.0
Екатеринбург          36682.0
Ижевск                84895.0
Казань                97806.0
Краснодар             62718.0
Красноярск            84767.0
Москва             11959741.0
Пермь                 67734.0
Санкт-Петербург      151007.0
Ставрополь            46003.0
Тюмень                 4701.0
Хабаровск             65459.0
Ярославль             97441.0
Name: win, dtype: float64


#### B6.5.3.2 Задание 2*
Используйте датасет, который получился в результате всех преобразований в прошлой секции (в том числе, заполнение пропусков).

Ответ запишите в поле ниже в виде целого числа (нужно отбросить дробную часть).

Подсказка: можно использовать методы min() и max().

Во сколько раз различаются в среднем максимальная и минимальная ставки по городам? Для того, чтобы это посчитать, нужно сгруппировать по городам, взять среднее от признака bet, найти максимальное и минимальное значения, затем поделить одно на другое.

In [347]:
#log
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)

log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['time']=log['time'].str.replace('[', '')

#users
us=pd.read_csv('users.csv', encoding='koi8-r', sep='\t')
us.columns = ['user_id', 'email', 'geo']
us.user_id = us.user_id.apply(lambda x: x.lower())

#Слияние
df = pd.merge(log, us, on='user_id')

mean_max=df.groupby('geo')['bet'].mean().max()
mean_min=df.groupby('geo')['bet'].mean().min()
mean_max/mean_min

227.3904449648712

#### B6.5.3.3 Задание 3*
Давайте повторим все, что мы прошли в этой секции. Напишите код, который посчитает, сколько раз пользователи приходили в букмекерскую контору в каждом городе. Для этого:

1. загрузите датасеты log.csv и users.csv;

2. удалите user_id с ошибкой (#error) и приведите признак user_id к одному виду в обоих датасетах;

3. слейте два датасета в один по признаку user_id;

4. сгруппируйте данные по правильному признаку (какому - вам нужно понять самим), затем выберите user_id и воспользуйтесь функцией count() для подсчета наблюдений в каждой группе;

5. результат (таблицу) запишите в sample2.

In [378]:
log=pd.read_csv('log.csv', header=None)
us = pd.read_csv('users.csv', encoding='koi8_r', skip_blank_lines=True, sep='\t')

# Приведем признак user_id к одному формату в обоих датасетах  
us.columns = ['user_id', 'email', 'geo']
log.columns = ['user_id', 'time', 'bet', 'win']
log['time']= log.time.apply(lambda x: str(x).replace('[',''))

us.user_id = us.user_id.apply(lambda x: x.lower())  

# Избавимся от ошибок в user_id  
log = log[log.user_id != '#error']  
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])  

joined = pd.merge(log, us , on='user_id')

joined['bet']=joined['bet'].fillna(0)
joined['win']=joined['win'].fillna(0)
joined['net'] = joined['win'] - joined['bet']

c= joined.groupby(['geo']).bet.count()
c

geo
Арзангелтск         96
Воронеж             88
Екатеринбург        49
Ижевск              61
Казань              66
Краснодар           86
Красноярск          56
Москва              61
Пермь               55
Санкт-Петербург    115
Ставрополь          36
Тюмень              32
Хабаровск           60
Ярославль           89
Name: bet, dtype: int64

In [387]:
#log
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log['bet']=log['bet'].fillna(0)

log = log[log.user_id != '#error']
log.user_id = log.user_id.str.split(' - ').apply(lambda x: x[1])
log['time']=log['time'].str.replace('[', '')
log.time=pd.to_datetime(log.time)

log.time.dt.month

0      1
1      1
2      1
3      1
4      1
      ..
991    4
992    4
993    4
994    4
995    4
Name: time, Length: 985, dtype: int64