Итак, возвращаемся к нашему другу Коле и его данным по букмекерской конторе.  

Коля хочет расширять бизнес и увеличивать прибыль, и мы поможем ему 
с помощью аналитических навыков и знания нужных инструментов. 
Работать будем с теми же данными - log.csv и users.csv.

Что мы уже сделали?

Загрузили данные (и побороли ошибки, связанные с плохим форматом данных).
Дали признакам (колонкам) соответствующие имена.
Научились фильтровать данные и применять к ним apply.
Обнаружили часть ошибок в данных.

Какие вопросы остались?
Вспомним часть вопросов из прошедшего модуля.

Сколько раз человеку надо прийти, чтобы сделать ставку?

Каков средний выигрыш в процентах?

Каков баланс по каждому пользователю?

Какие города самые выгодные?

В каких городах самая высокая ставка?

Сколько в среднем времени проходит от первого посещения сайта до первой попытки?

Мы постараемся ответить не только на эти, но и на многие другие вопросы.

Какие бывают пропуски
Вот список значений, которые по умолчанию считаются как пропуски: '', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null'.  

In [None]:
import pandas as pd
import numpy as np

In [None]:
log = pd.read_csv('log.xls')
log

В pandas есть метод isna(), который возвращает таблицу такой же размерности, что и на вход, но значения в ней - True или False. True, если данное значение является пропуском, и False в ином случае.

In [None]:
log.head(5).isna()

In [None]:
log.columns = ['user','time','bet','win']
log.head(5)

Посчитайте количество пропусков в столбце time. Метод isna() есть не только у DataFrame, но и у Series. Это значит, что применять его можно не только ко всей таблице, но и к каждому столбцу отдельно.

In [None]:
log['time'].isna().value_counts()

Удаление пропусков
Пропуски можно удалять автоматически. Во многих случаях это правильно, так как данные с большим количеством пропусков часто не имеют смысла и не приносят никакой пользы.  

Удалять данные с пропусками можно с помощью метода dropna().

Параметр axis в методе dropna() говорит методу, по какой оси удалять значения.  

1. Если нужно удалить строки, в которых встречается пропуск (NaN), следует указать axis=0.  Зачем это делать? Например, у нас из 1000 примеров данных про пользователей пропуски есть в пяти. Разумно их удалить, так как их количество пренебрежимо мало.

2. Если нужно удалить столбцы, в которых встречается пропуск (NaN), нужно указывать axis=1. Зачем? Иногда в одном конкретном столбце пропусков настолько много, что с ними просто не хочется возиться - смысла в них все равно почти нет. 

Еще один интересный параметр - subset. Что он делает? Если передать в него список значений по одной оси (например, названия столбцов) и задать при этом в параметре axis другую ось (в нашем случае 0), то мы удалим те строки, для которых в данных столбцах находится пропуск. То же самое работает и наоборот: нужно поменять axis на 1 и вместо названий столбцов передавать индексы строк.

log = log.dropna(subset=['time'],axis = 0)

In [None]:
log.head(5)
log.dropna(axis = 1)

In [None]:
log.dropna(axis = 0)

In [None]:
log.head(5)

In [None]:
log.isna()

In [None]:
log['user'].isna().value_counts()

In [None]:
log['time'].isna().value_counts()

In [None]:
del log['time']

In [None]:
log

Дубли  - это повторяющиеся строки в данных. В сложных случаях строки могут быть практически одинаковые, но не совсем.

Самая частая причина очень банальна: дубли появляются из-за человеческих ошибок или невнимательности.

Например, при добавлении записи в систему вы случайно два раза нажали на кнопку "добавить". Если система позволяет иметь одинаковые записи, поздравляю - у вас в данных появились дубли.

Еще одна причина - слияние баз данных. Например, вы переносите телефоны из контактной книжки (физической, в которую заносили номера ручкой на бумагу, такие были популярны в прошлом) в телефон. Назвали в одном месте Сашу Сашей, а в другом Александром. Да, это тоже дубль, просто сам случай немного более сложный.

Сложным случаям типа последнего можно посвятить очень много времени, так что это материал для другого, более продвинутого курса по анализу данных. Скажу лишь, что в каждом конкретном случае подозрительные случаи нужно рассматривать отдельно, это требует кропотливой работы. 

Мы же рассмотрим простой случай, когда у вас в данных есть идентичные строки.

Как удалить простые дубли
В pandas есть метод для удаления дублей (дубликатов) - drop_duplicates(). Он просто удаляет повторяющиеся строки:

01. import pandas as pd  
02. df = pd.read_csv('data.csv')
03. df.drop_duplicates()  
У данного метода тоже есть параметр subset, в этом случае нужно передавать список содержащий названия столбцов.  

In [None]:
log.info()

In [None]:
log = pd.read_csv('log.xls')
log.columns = ['user','time', 'bet', 'win']


In [None]:
log_ut = log[['user','time']]

In [None]:
log_ut.drop_duplicates()

In [None]:
log_ut.info()

In [None]:
log_time = log['time'].dropna()

In [None]:
log.time = log.time.apply(lambda x:str(x).replace('[','') if ('[' in str(x)) else x)


In [None]:
log = log.dropna()

Извлечение временных признаков

In [None]:
import datetime
from datetime import datetime,timedelta

In [None]:
time_list = []
for i in log.time:
    i = str(i)
    time_list.append(datetime.strptime(i, '%Y-%m-%d %H:%M:%S'))
max(time_list)



In [None]:
max(log.time)

In [None]:
log = pd.read_csv("log.xls")  
log = log.dropna()  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log['time'].apply(lambda x: x[1:])  
log['time'] = pd.to_datetime(log['time'])  
# log['time'] = log.time.apply(lambda x: x.minute)
log['time'].head() 

Библиотека pandas позволяет использовать аксессор dt для упрощения подобной работы:

In [None]:
log['year'] = log['time'].dt.year

In [None]:
log

Одним из часто используемых методов в pandas является value_counts().

Этот метод возвращает Series, который содержит количества уникальных элементов.

In [None]:
test = pd.Series([1, 1, 1, 2, 3, 4, 4])  
test.value_counts() 

Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts().

Найдите минуту, которая встречалась в данных чаще всего. Введите ответ в поле ниже.

In [None]:
log.head(5)

In [None]:
log['minute'] = log['time'].dt.minute

In [None]:
log['minute'].value_counts(ascending = False)

Найдите месяц, который встречался в данных реже всего.

* надо подготовить  столбец Time. Пропуски надо удалять именно в нём, потомц что применение общего dropna() удалит лишние строки (пропуски не только в стобце времни потому что)

In [None]:
log = pd.read_csv('log.xls')
log.columns = ['user','time', 'bet', 'win']
log_time = pd.DataFrame(log['time'])
log_time = log_time.dropna(axis = 0)

log_time['time'] = log_time['time'].apply(lambda x:str(x).replace('[','') if ('[' in str(x)) else x)
log_time['time'].isna().value_counts()

In [None]:
log_time['time'] =pd.to_datetime(log_time['time'])
log_time['month'] = log_time['time'].dt.month

In [None]:
log_time['month'].value_counts(ascending = True)

Посчитайте, сколько дней в данных являются выходными (то есть субботой или воскресеньем). Введите ответ в поле ниже.

In [None]:
log = pd.read_csv('log.xls')
log.columns = ['user','time','bet','win']
log_time = pd.DataFrame(log['time'])
log_time = log_time.dropna()

log_time['time']=log_time.time.apply(lambda x: str(x).replace('[','') if ('[' in str(x)) else x)
log_time['time'] = pd.to_datetime(log_time['time'])

log_time['day'] = log_time['time'].dt.dayofweek

count = 0
for i in log_time['day']:
    if i == 5 or i == 6:
        count +=1
    else:
        pass
count

Договоримся, что с 0 до 5 часов - ночь, с 6 до 11 - утро, с 12 до 17 - день, с 18 до 23 - вечер.

Важно: для выполнения задания вам нужно будет избавиться от пропусков только в столбце time. Вспомните, как избавиться от пропусков только по конкретному признаку.

Посчитайте, какое время дня встречается в данных реже всего. Введите ответ в поле ниже: ночь, утро, день или вечер.

In [None]:
log = pd.read_csv('log.xls')
log.columns = ['user','time','bet','win']
log_time = pd.DataFrame(log['time'])
log_time = log_time.dropna()

log_time['time']=log_time.time.apply(lambda x: str(x).replace('[','') if ('[' in str(x)) else x)
log_time['time'] = pd.to_datetime(log_time['time'])

log_time['daytime'] = log_time['time'].dt.hour

night = 0
day = 0
morning = 0
evening = 0
for i in log_time['daytime']:
    if 0<=i<=5:
        night +=1
    elif 6<=i<=11:
        morning +=1
    elif 12<=i<=17:
        day +=1
    elif 18<=i<= 23:
        evening +=1
print('ночь{} ,утро{} ,день{} ,вечер{}'.format(night,morning,day,evening))



Давайте повторим то, что мы прошли в этой секции. Напишите код, который создаст признак hour из признака time в датасете log.csv. Для этого:

1. загрузите датасет log.csv в переменную log, дальше работать будем с ней;

2. установите имена столбцов: ['user_id', 'time', 'bet', 'win'];

3. избавьтесь от пропусков в log;

4. приведите переменную time к подходящему для извлечения признаков виду;

5. получите значение часа для каждой строки в переменной time и запишите в столбец hour в log.

Результатом будет таблица log со столбцом hour внутри.

In [None]:
log = pd.read_csv('log.xls', header = None)
log.columns = ['user','time','bet','win']
log = log.dropna(subset=['time'],axis = 0)
log['time']=log.time.apply(lambda x: str(x).replace('[','') if ('[' in str(x)) else x)
log.time = pd.to_datetime(log.time)
log['hour'] = log.time.dt.hour

log

# log_time['time'] = pd.to_datetime(log_time['time'])

# log_time['daytime'] = log_time['time'].dt.hour

In [None]:
log = pd.read_csv('log.xls', header = None) #применяем header = None, потому что без этого воспримет первую строку
# как заголовок

log.columns = ['user','time','bet','win']
log = log.dropna()
log['time']=log.time.apply(lambda x: str(x).replace('[','') if ('[' in str(x)) else x)
log.time = pd.to_datetime(log.time)
log['hour'] = log.time.dt.hour

log

Ещё про пропуски

На самом деле, удаление пропусков - довольно грубое решение, потому что мы можем случайно выбросить что-то полезное. Например, у вас есть данные о людях: пол, возраст, цвет глаз, город. При этом для большинства людей не записан цвет глаз. Удалять строки с пропусками может быть неудачным решением -  у нас почти не останется данных. Удалить столбец с цветом глаз - решение получше. Возможно, есть решение еще лучше - например, заполнить все пропуски цветом глаз "карие". Ответ на вопрос "Правильно ли будет так сделать?" можно получить после уточнения информации: в каких-то странах преобладает один цвет глаз, в каких-то - другой.

Самый норм - это заполнение пропусков константой, чтоб не терять данные удаляя строки или стобцы

In [None]:
log = pd.read_csv('log.xls', header = None) 

log.columns = ['user','time','bet','win']
log['bet'] = log['bet'].fillna(0)
log['win'] = log['win'].fillna(0)

В случае со столбцом bet предполагаем, что там где пропуски - значит люди приходили, но не делали ставок. Можем заменить на 0

Посчитайте, сколько раз люди приходили, но не делали ставок. Для этого заполните пропуски в столбце bet значением 0 и посчитайте количество таких значений.

In [None]:
log['bet'].value_counts()

Теперь поработаем с признаком win, в котором тоже есть пропуски.

Иногда нужно заполнять пропуски не одним и тем же числом, а разными, в зависимости от какого-то условия. Перед нами именно этот случай.

Предположим, что если в признаке win находится пропуск, то выигрыша не было. Здесь два возможных случая:

1. Человек не делал ставки и ничего не выиграл. То есть просто пришел, посмотрел и ушел.
2. Человек делал ставку, но не выиграл. Значит, выигрыш на самом деле является отрицательным значением - это проигрыш.

Напишем метод, который заполнит пропуски в признаке win в соответствии с предположением выше. 

Для этого можно применить метод apply() ко всей таблице и передать ему функцию, которая вычисляет размер выигрыша (или проигрыша) по следующей схеме:

1. Если значение в столбце win существует (не пропуск) - вернуть это же значение. Это значит, что человек выиграл.
2. Если вместо значения в столбце win пропуск, вернуть 0.
На выходе получится столбец без пропусков. Следующим шагом будет замена старого столбца win на новый.

In [None]:
log = pd.read_csv('log.xls', header = None) 

log.columns = ['user','time','bet','win']
log['bet'] = log['bet'].fillna(0)
log['win'] = log['win'].fillna(0)
log

In [None]:
def fillna_win(row):  
    if row['win'] == row['bet']:
        row['win'] = 0
#         print(row['win']) 
        return row['win']
    elif row['bet'] > row['win']:
        row['win'] = -1
#         print(row['win']) 
        return row['win']
    else:
        row['win'] = row['win']
#         print(row['win']) 
        return row['win']
        
  
# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  


# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win  
log

сколько раз проиграли?

In [None]:
log['win'].value_counts()

In [None]:
log

In [None]:
def sence(row):
    net = row['win']-row['bet']
    print(net)
    return net

In [None]:
log['net'] = log.apply(lambda row: sence(row), axis=1)

In [None]:
log

In [None]:
positive = log[log['net'] > 0]
positive

In [None]:
round(np.mean(positive['net']))

In [None]:
round(np.median(positive['net']))

In [None]:
sort = positive[positive['net']<7500]
boxplot = sort.boxplot(column = ['net'])
positive['net'].describe()

Посчитайте, какой процент посещений букмекерской конторы оборачивался ставкой. Для этого поделите количество ставок (значений больше 0) на общее количество посещений конторы. Результат округлите до одного знака после запятой.

In [None]:
bet = log[log['bet']>0]

In [None]:
bet['bet'].count()

In [None]:
round((bet['bet'].count()/log['bet'].count())*100, 1)

In [None]:
log['net'].count()

In [None]:
round(np.mean(bet['bet']))

In [None]:
round(np.mean(bet['net']))

In [None]:
negative = bet[bet['net']<0]
negative

In [None]:
(np.mean(negative['net']))

In [None]:
win = bet[bet['net']>0]
lose = bet[bet['net']<0]

In [None]:
print(win['bet'].count()/bet['bet'].count())
print(lose['bet'].count()/bet['bet'].count())

1. загрузите датасет log.csv;

2. посчитайте, чему равна минимальная ставка;

3. посчитайте, сколько раз была сделана минимальная ставка, и запишите результат в переменную min_bet_amount в виде целого числа.

In [None]:
log = pd.read_csv('log.xls', header = None) #применяем header = None, потому что без этого воспримет первую строку
# как заголовок

log.columns = ['user','time','bet','win']
log = log.fillna(0)

bet = log[log['bet']>0]
low = min(bet['bet'])
bet = bet[bet['bet']==100]
min_bet_amount = bet['bet'].count()


# Повторение Merge и Groupby

In [None]:
users = pd.read_csv('users.xls', encoding='koi8_r', sep='\t')
users.columns = ['user','email','geo']

log = pd.read_csv('log.xls', header = None) 

log.columns = ['user','time','bet','win']
users
log

Повторим часть предобработки, которую мы должны были выполнить ранее:

In [None]:
# Приведем признак user_id к одному формату в обоих датасетах  
users.user = users.user.apply(lambda x: x.lower())  
# Избавимся от ошибок в user_id  
log = log[log.user != '#error']  
log.user = log.user.str.split(' - ').apply(lambda x: x[1])  

Теперь объединим данные с помощью метода pd.merge():

In [None]:
df = pd.merge(log, users, on = 'user')
df

Данный метод позволяет сгруппировать данные и применить к ним методы агрегации:

df.groupby('user_id').win.median().median()  

В данном случае мы группируем данные по признаку user_id.

После этого мы в каждой группе выбираем признак win.

Затем мы берем медиану каждой группы по признаку win и на выходе получаем таблицу, в которой индексом является признак user_id. В этой таблице единственный столбец - медиана по каждой группе (то есть по каждому пользователю).

Наконец, последний вызов median() дает нам медиану по предыдущему столбцу, то есть возвращает одно число.

In [None]:
df.groupby('user').win.median().median()

Посчитайте медиану баланса по каждому пользователю. Для этого сгруппируйте по пользователям, возьмите признак net, просуммируйте по каждому пользователю и получите медиану.

1. Готовим датасет. Заменяем пропуски на 0

In [None]:
log = pd.read_csv('log.xls', header = None) 

log.columns = ['user','time','bet','win']
log['bet'] = log['bet'].fillna(0)
log['win'] = log['win'].fillna(0)
log

2. Пишем функцию, для различия выигрышей и проигрышей

In [None]:
def fillna_win(row):  
    if row['win'] == row['bet']:
        row['win'] = 0
#         print(row['win']) 
        return row['win']
    elif row['bet'] > row['win']:
        row['win'] = -1
#         print(row['win']) 
        return row['win']
    else:
        row['win'] = row['win']
#         print(row['win']) 
        return row['win']
        
  
# Применяем функцию  
new_win = log.apply(lambda row: fillna_win(row), axis=1)  


# Заменяем старый столбец с пропусками на новый без пропусков  
log['win'] = new_win  
log

3. Пишем функцию для создание нового признака net (сумма выигрыша/проигрыша)

In [None]:
def sence(row):
    net = row['win']-row['bet']
    print(net)
    return net

log['net'] = log.apply(lambda row: sence(row), axis=1)


4. Загружаем датасет user

In [None]:
users = pd.read_csv('users.xls', encoding='koi8_r', sep='\t')
users.columns = ['user','email','geo']

5. Сделаем предобработку датасетов

In [None]:
# Приведем признак user_id к одному формату в обоих датасетах  
users.user = users.user.apply(lambda x: x.lower())  
# Избавимся от ошибок в user_id  
log = log[log.user != '#error']  
log.user = log.user.str.split(' - ').apply(lambda x: x[1])  

6. Объединяем по пользователям оба датасета

In [112]:
df = pd. merge(log,users, on = 'user')

7. Группируем по пользователям признак net. Смотрим сумму по пользователям. И среднее потом

In [117]:
user_group = df.groupby('user').net.sum()