### B6.2.1 Пропущенные значения
Чтобы программа правильно интерпретировала пропуски, при чтении файла с помощью метода read_csv можно передать в параметр na_values значение или список значений, которые при чтении будут помечены как пропуски.

На практике чаще всего вы будете встречать '', 'NaN', 'nan', 'null'

In [1]:
import pandas as pd

#### Как найти пропуски
В pandas есть метод isna(), который возвращает таблицу такой же размерности, что и на вход, но значения в ней - True или False. True, если данное значение является пропуском, и False в ином случае.

In [4]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win'] 
log.head().isna()

Unnamed: 0,user_id,time,bet,win
0,False,False,True,True
1,False,False,True,True
2,False,False,True,True
3,False,False,True,True
4,False,False,True,True


In [6]:
log.head()

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,


В numpy пропущенные значения могут быть записаны как специальный объект np.nan, что означает Not a Number.

Проверить на наличие таких значений можно с помощью np.isnan().

P.S. Если вы все-таки хотите посмотреть на красивую (и, возможно, полезную) визуализацию пропущенных значений - обратите внимание на библиотеку missingno.

#### B6.2.1.1 Задание 1
Посчитайте количество пропусков в столбце time. Метод isna() есть не только у DataFrame, но и у Series. Это значит, что применять его можно не только ко всей таблице, но и к каждому столбцу отдельно.
Примените этот метод, затем просуммируйте количество строк в итоговом столбце. Ответ введите в поле ниже.

In [15]:
# Вариант № 1
log.time.isna()
log.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
user_id    1000 non-null object
time       985 non-null object
bet        485 non-null float64
win        138 non-null float64
dtypes: float64(2), object(2)
memory usage: 31.4+ KB


In [17]:
# Вариант № 2
log.time.isna().sum()

15

#### Удаление пропусков
Пропуски можно удалять автоматически. Во многих случаях это правильно, так как данные с большим количеством пропусков часто не имеют смысла и не приносят никакой пользы.  

Удалять данные с пропусками можно с помощью метода dropna().

Параметр axis в методе dropna() говорит методу, по какой оси удалять значения.  

Если нужно удалить строки, в которых встречается пропуск (NaN), следует указать axis=0.  Зачем это делать? Например, у нас из 1000 примеров данных про пользователей пропуски есть в пяти. Разумно их удалить, так как их количество пренебрежимо мало.

Если нужно удалить столбцы, в которых встречается пропуск (NaN), нужно указывать axis=1. Зачем? Иногда в одном конкретном столбце пропусков настолько много, что с ними просто не хочется возиться - смысла в них все равно почти нет. 

Еще один интересный параметр - subset. Что он делает? Если передать в него список значений по одной оси (например, названия столбцов) и задать при этом в параметре axis другую ось (в нашем случае 0), то мы удалим те строки, для которых в данных столбцах находится пропуск. То же самое работает и наоборот: нужно поменять axis на 1 и вместо названий столбцов передавать индексы строк.

Перед удалением строк обязательно сделайте бэкап.

#### B6.2.1.2 Задание 2
Удалите все столбцы, где есть пропуски. Запишите в поле, сколько осталось столбцов в данных после этого.

In [50]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
new_log = log.dropna(axis=1, how='any', thresh=None, subset=None, inplace=True)
log

Unnamed: 0,user_id
0,Запись пользователя № - user_919
1,Запись пользователя № - user_973
2,Запись пользователя № - user_903
3,Запись пользователя № - user_954
4,Запись пользователя № - user_954
...,...
995,Запись пользователя № - user_984
996,#error
997,#error
998,#error


#### B6.2.1.3 Задание 3
Удалите все строки, где есть пропуски. Запишите в поле, сколько осталось строк в данных после этого.

In [52]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
new_log = log.dropna(axis=0, how='any', thresh=None, subset=None, inplace=True)
log.count()

user_id    133
time       133
bet        133
win        133
dtype: int64

In [47]:
# comparing sizes of data frames 
print("Old data frame length:", len(log), "\nNew data frame length:",  
       len(new_log), "\nNumber of rows with at least 1 NA value: ", 
       (len(log)-len(new_data))) 

TypeError: object of type 'NoneType' has no len()

#### B6.2.1.4 Задание 4
А сейчас удалите все столбцы, где есть пропуски, среди столбцов user_id и time. Запишите в поле, сколько осталось столбцов в данных после этого.

In [92]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log.dropna(axis=1, how='any', thresh=None, subset= [0,1], inplace=True)
# log.isna()
log

Unnamed: 0,user_id,time
0,Запись пользователя № - user_919,[2019-01-01 14:06:51
1,Запись пользователя № - user_973,[2019-01-01 14:51:16
2,Запись пользователя № - user_903,[2019-01-01 16:31:16
3,Запись пользователя № - user_954,[2019-01-01 17:17:51
4,Запись пользователя № - user_954,[2019-01-01 21:31:18
...,...,...
995,Запись пользователя № - user_984,[2019-04-20 9:59:58
996,#error,
997,#error,
998,#error,


In [None]:
log.time.isna().sum()

#### B6.2.1.5 Задание 5
К каким объектам можно применять метод isna()?

- Строки в pd.DataFrame
- Таблицы в pandas (pd.DataFrame)
- Столбцы в pd.DataFrame

## B6.2.2 Дубли

#### B6.2.2.1 Задание 1
Удалите дубли среди столбцов user_id и time. Запишите в поле ниже, сколько осталось строк после удаления дублей.

In [107]:
log = pd.read_csv("log.csv", header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log.drop_duplicates(["user_id", "time"])

# correct answer is 986 rows

Unnamed: 0,user_id,time,bet,win
0,Запись пользователя № - user_919,[2019-01-01 14:06:51,,
1,Запись пользователя № - user_973,[2019-01-01 14:51:16,,
2,Запись пользователя № - user_903,[2019-01-01 16:31:16,,
3,Запись пользователя № - user_954,[2019-01-01 17:17:51,,
4,Запись пользователя № - user_954,[2019-01-01 21:31:18,,
...,...,...,...,...
991,Запись пользователя № - user_965,[2019-04-20 12:55:41,800.0,6927.0
992,Запись пользователя № - user_967,[2019-04-20 14:59:36,10154.0,
993,Запись пользователя № - user_973,[2019-04-20 17:09:56,10254.0,
994,Запись пользователя № - user_977,[2019-04-20 18:10:07,10354.0,


#### B6.2.2.2 Задание 2
В каких случаях мы точно можем сказать, что перед нами дубли?
- "Мама мыла раму" и "Мама мыла кошку"
- "Иван Иванов Алексеевич" и "Иванов Иван Алексеевич"
- "База данных 1" и "База данных 1"
- "Удачи" и "удача"

Ответ
- "База данных 1" и "База данных 1"

#### B6.3.1 Преобразование к datetime

#### B6.3.1.1 Задание 1
Уберите лишний символ, преобразуйте признак time к datetime. После этого найдите наибольшую дату и выведите ее без времени.

Подсказка: можно применить метод max() к получившемуся столбцу со временем.

Не забудьте избавиться от пропусков.

Запишите ответ в формате "YYYY-MM-DD".
Например, 1993-06-08.

In [108]:
log = pd.read_csv("log.csv")
log = log.dropna()
log.columns = ['user_id', 'time', 'bet', 'win']
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime
log['time'].max() # находит наибольшую дату 

Timestamp('2019-04-20 12:55:41')

In [113]:
log = pd.read_csv("log.csv")  
log = log.dropna()  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log['time'].apply(lambda x: x[1:])  
log['time'] = pd.to_datetime(log['time'])  
# Пропущенная строка  
log.time = log.time.apply(lambda x: x.minute)
log['time'].head() 

13     57
28     59
150    54
188    34
204    26
Name: time, dtype: int64

## B6.3.2 Извлечение признаков времени

#### B6.3.2.1 Задание 1
Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts().

Найдите минуту, которая встречалась в данных чаще всего. Введите ответ в поле ниже.
Например, 7.

In [138]:
log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

# seconds_column = log["time"].apply(lambda x: x.minute)
seconds_column = log["time"].dt.minute
seconds_column.value_counts(ascending=False)

36.0    25
31.0    23
50.0    22
40.0    21
18.0    21
6.0     21
5.0     21
43.0    21
29.0    21
53.0    21
14.0    21
12.0    21
48.0    20
45.0    20
2.0     20
58.0    20
57.0    20
27.0    19
21.0    19
56.0    19
20.0    18
54.0    18
35.0    18
47.0    18
33.0    18
9.0     18
34.0    18
3.0     18
51.0    17
10.0    17
17.0    16
55.0    16
25.0    16
24.0    15
38.0    15
28.0    15
16.0    15
37.0    15
15.0    15
49.0    15
30.0    15
32.0    14
4.0     14
44.0    14
7.0     14
19.0    14
41.0    13
1.0     13
59.0    13
23.0    12
39.0    12
0.0     12
13.0    11
22.0    11
42.0    11
46.0    10
52.0    10
8.0      9
26.0     9
11.0     6
Name: time, dtype: int64

#### B6.3.2.2 Задание 2

Используйте оригинальные данные log.csv, столбец time.

Подсказка: можно использовать value_counts().

Найдите месяц, который встречался в данных реже всего. Введите ответ в поле ниже.
Например, 2.

In [139]:
log = pd.read_csv("log.csv")  
log.columns = ['user_id', 'time', 'bet', 'win']  
log['time'] = log.time.apply(lambda x: str(x).replace('[','')) # Уберает лишний символ
log['time'] = pd.to_datetime(log['time']) # преобразовывает столбец time к формату datetime

# seconds_column = log["time"].apply(lambda x: x.minute)
seconds_column = log["time"].dt.month
seconds_column.value_counts(ascending=True)

4.0    170
2.0    259
3.0    264
1.0    291
Name: time, dtype: int64