# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

## Библиотека pandas. Работа с датасетами.

- Загрузка датасетов
- Обработка отсутствующих данных
- Поиск и удаление дублей
- Создание новых признаков, функции ```apply()``` и ```applymap()```
- Сохранение датасетов


In [1]:
# загрузите необходимые библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

### Загрузка датасетов

Pandas поддерживает загрузку данных из множества источников.   
Чаще всего придется работать с данными в форматах CSV, XLSX и JSON, а также загружать их из базы данных.

Рассмотрим загрузку данных из файла формата csv - данных, разделенных запятыми.  
Посмотрим содержимое файла, который мы будем загружать:

In [3]:
with open('data/load_example1.csv') as f:
    print(f.read())

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
16,,18,18,bar
9,10,11,12,baz
1,2,3,4,hello
0,1,,,xxx
7,6,5,,yyy


Для загрузки будем использовать функцию ```pd.read_csv()```. Укажите в качестве параметра имя файла.

In [4]:
df = pd.read_csv('data/load_example1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2.0,3.0,4.0,hello
1,5,6.0,7.0,8.0,world
2,9,10.0,11.0,12.0,foo
3,16,,18.0,18.0,bar
4,9,10.0,11.0,12.0,baz
5,1,2.0,3.0,4.0,hello
6,0,1.0,,,xxx
7,7,6.0,5.0,,yyy


Обратите внимание, как ведет себя функция по умолчанию:
 - названия колонок соответствуют содержимому первой строки файла
 - индекс по умолчанию - последовательность чисел.
 
Чтобы ```read_csv()``` включила первую строку в наш DataFrame, передайте ей параметр ```header=None```:

In [5]:
df = pd.read_csv('data/load_example1.csv', header=None)
df

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo
4,16,,18,18,bar
5,9,10,11,12,baz
6,1,2,3,4,hello
7,0,1,,,xxx
8,7,6,5,,yyy


Также можно задать названия столбцов самостоятельно:

In [8]:
df = pd.read_csv('data/load_example1.csv', names=['aa', 'bb', 'cc', 'dd', 'mmessage'])
df

Unnamed: 0,aa,bb,cc,dd,mmessage
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo
4,16,,18,18,bar
5,9,10,11,12,baz
6,1,2,3,4,hello
7,0,1,,,xxx
8,7,6,5,,yyy


Чтобы указать, что один из столбцов - индекс, используйте параметр `index_col`, там можно указать либо название поля, либо его порядковый номер:

In [9]:
df = pd.read_csv('data/load_example1.csv', index_col='message')
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [12]:
df.index
df.index.name

Index(['hello', 'world', 'foo', 'bar', 'baz', 'hello', 'xxx', 'yyy'], dtype='object', name='message')

'message'

In [15]:
# или по индексу столбца
df = pd.read_csv('data/load_example1.csv', index_col=4)
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [20]:
# или 
df = pd.read_csv('data/load_example1.csv', index_col=3)
df

Unnamed: 0_level_0,a,b,c,message
d,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4.0,1,2.0,3.0,hello
8.0,5,6.0,7.0,world
12.0,9,10.0,11.0,foo
18.0,16,,18.0,bar
12.0,9,10.0,11.0,baz
4.0,1,2.0,3.0,hello
,0,1.0,,xxx
,7,6.0,5.0,yyy


Чтобы пропустить те или иные строки, используйте параметр ```skiprows```, ему можно передать список строк, которые надо пропустить:

In [21]:
df = pd.read_csv('data/load_example1.csv', skiprows=[0,1])
df

Unnamed: 0,5,6,7,8,world
0,9,10.0,11.0,12.0,foo
1,16,,18.0,18.0,bar
2,9,10.0,11.0,12.0,baz
3,1,2.0,3.0,4.0,hello
4,0,1.0,,,xxx
5,7,6.0,5.0,,yyy


Чтобы переименовать колонки используем функцию `.rename()`

In [22]:
# https://stackoverflow.com/questions/11346283/renaming-column-names-in-pandas
df.columns
df.rename(columns={'5': 'first'}, inplace=False)
df.columns
df

Index(['5', '6', '7', '8', 'world'], dtype='object')

Unnamed: 0,first,6,7,8,world
0,9,10.0,11.0,12.0,foo
1,16,,18.0,18.0,bar
2,9,10.0,11.0,12.0,baz
3,1,2.0,3.0,4.0,hello
4,0,1.0,,,xxx
5,7,6.0,5.0,,yyy


Index(['5', '6', '7', '8', 'world'], dtype='object')

Unnamed: 0,5,6,7,8,world
0,9,10.0,11.0,12.0,foo
1,16,,18.0,18.0,bar
2,9,10.0,11.0,12.0,baz
3,1,2.0,3.0,4.0,hello
4,0,1.0,,,xxx
5,7,6.0,5.0,,yyy


Обратите внимание: указанные строки вообще не участвуют в разборе файла!

При разборе CSV-файлов также могут встретиться следующие трудности:
 - вместо отсутствующих данных могут быть строки типа "NULL", "n/a" и т.п.
 - разделителями могут быть символы ";" (особенно при выгрузке данных из русской версии Microsoft Excel), или же символ табуляции.
 
Со всем этим может справиться функция ```read_csv()```.  
Загрузим файл ```data/load_example2.csv```

In [23]:
with open('data/load_example2.csv', encoding='utf-8') as f:
    print(f.read())

col1;col2;col3
1;2;3
4;"данные отсутствуют";6
7;8;9
"данные отсутствуют";8;9



 Для указания символа ";" в качестве разделителя, передайте фукнции параметр ```sep=';'```

In [24]:
df = pd.read_csv('data/load_example2.csv', sep=';')
df

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,данные отсутствуют,6
2,7,8,9
3,данные отсутствуют,8,9


In [25]:
df.dtypes

col1    object
col2    object
col3     int64
dtype: object

Для указания нескольких символов в качестве разделителя,  
передайте фукнции параметр `sep='[;:,]'`(регулярное выражение) и `engine='python'`

In [26]:
with open('data/load_example3.csv', encoding='utf-8') as f:
    print(f.read())

col1;col2;col3
1:2	3
4;"данные отсутствуют"	6
7,8;9
"данные отсутствуют";8	9



In [27]:
df1 = pd.read_csv('data/load_example3.csv', engine='python', sep='[;:,\\t]')
df1

Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,"""данные отсутствуют""",6
2,7,8,9
3,"""данные отсутствуют""",8,9


Чтобы обработать строки "данные отсутствуют" в данном примере, функции ```read_csv()``` нужно передать параметр ```na_values='данные отсутствуют'```

In [28]:
df = pd.read_csv('data/load_example2.csv', sep=';', na_values='данные отсутствуют')
df

Unnamed: 0,col1,col2,col3
0,1.0,2.0,3
1,4.0,,6
2,7.0,8.0,9
3,,8.0,9


### Обработка отсутствующих данных

С отсутствующими данными в объекте Series можно сделать следующее:
 - удалить функцией ```.dropna()```
 - заполнить подходящим значением, используя функцию ```.fillna()```.
 
Для поиска пустых значений используем функцию ```.isnull()```.
 
Посмотрим, как это работает на примере первого сета. Снова загрузим его.

In [29]:
df = pd.read_csv('data/load_example1.csv', index_col='message')
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


Получить series из позиций в 'b', содержащих NaN, можно используя булеву маску по колонке "b":

In [30]:
df['b'].isnull()   # то же самое df['b'].isna()

message
hello    False
world    False
foo      False
bar       True
baz      False
hello    False
xxx      False
yyy      False
Name: b, dtype: bool

In [31]:
df['b'][df['b'].isnull()]  # df[Столбцы][Строки]
df.b[df.b.isnull()]

message
bar   NaN
Name: b, dtype: float64

message
bar   NaN
Name: b, dtype: float64

Посмотрим, как работает ```.dropna()``` в Series, получим колонку 'b' в виде этого объекта:

In [32]:
b = df['b'].copy()
b

message
hello     2.0
world     6.0
foo      10.0
bar       NaN
baz      10.0
hello     2.0
xxx       1.0
yyy       6.0
Name: b, dtype: float64

Вызовем ```dropna()```:

In [33]:
# Выкидываем целиком строку
bbd = b.dropna()
bbd

message
hello     2.0
world     6.0
foo      10.0
baz      10.0
hello     2.0
xxx       1.0
yyy       6.0
Name: b, dtype: float64

Заполним отсутствующие значения

In [34]:
# можно заполнить конкретным значением
bbf = b.fillna(0)
bbf

message
hello     2.0
world     6.0
foo      10.0
bar       0.0
baz      10.0
hello     2.0
xxx       1.0
yyy       6.0
Name: b, dtype: float64

In [35]:
# а можно средним по всей Series
bbf = b.fillna(b.mean())
bbf

message
hello     2.000000
world     6.000000
foo      10.000000
bar       5.285714
baz      10.000000
hello     2.000000
xxx       1.000000
yyy       6.000000
Name: b, dtype: float64

In [36]:
c = df[['c']] ## Результат датафрейм
c

Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,
yyy,5.0


In [40]:
# c
# c.fillna(method='ffill') # forward fill, значение индекса 'hello'  # Старый способ
c.ffill()  # Новый способ

Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,3.0
yyy,5.0


In [41]:
# c
# c.fillna(method='bfill') # backward fill, значение индекса 'yyy'  # Это старый способ
c.bfill()  # это новый

Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,5.0
yyy,5.0


In [42]:
c_copy = c.copy()
# Берем отдельное значение(скаляр)
c_copy.at['yyy', 'c'] = np.nan
c_copy

Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,
yyy,


In [43]:
c_copy.fillna(method='pad')

  c_copy.fillna(method='pad')


Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,3.0
yyy,3.0


In [44]:
c.fillna(method='pad')

  c.fillna(method='pad')


Unnamed: 0_level_0,c
message,Unnamed: 1_level_1
hello,3.0
world,7.0
foo,11.0
bar,18.0
baz,11.0
hello,3.0
xxx,3.0
yyy,5.0


В случае с DataFrame это работает похожим образом, только функция удаляет строки, в которых встречается хотя бы одно незаполненное значение:

In [45]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [46]:
df.dropna()

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0


Этой функции можно задать порог срабатывания, в зависимости от количества __заполненных значений__ в строке. Например, нам нужно удалить только те строки, в которых заполнены как минимум три значения:

In [47]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [49]:
# df
df.dropna(thresh=3)  # Порог - 3 заполненных значения

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
yyy,7,6.0,5.0,


Обратите внимание на строку "bar" - несмотря на незаполненную ячейку, она не попала под удаление!

Также можно заполнять отсутствующие данные числами:

In [50]:
df.fillna(100500)

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,100500.0,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,100500.0,100500.0
yyy,7,6.0,5.0,100500.0


Эта функция работает и для заполнения "пробелов" горизонтальными/вертикальными агрегатными вычислениями.

In [53]:
# Среднее по столбцам
df.mean()

a    6.000000
b    5.285714
c    8.285714
d    9.666667
dtype: float64

In [54]:
df.fillna(df.mean())

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,5.285714,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,8.285714,9.666667
yyy,7,6.0,5.0,9.666667


In [55]:
df.mean().mean()  # Среднее по всему датафрейму

7.309523809523808

Чтобы эти функции отработали внутри самого объекта и не возвращали его копию, используйте параметр ```inplace=True```.

### Задание

- Замените отсутствующие значения в колонке `b` на среднее по ней
- `c` - на среднее по всей матрице
- `d` - 0.

In [56]:
# pandas.set_option("display.precision", 8)
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


### Решение

In [None]:
# Ваш код

### Поиск и удаление дублей

Проверить, является ли уникальным индекс, можно, опросив свойство индекса ```is_unique```:

In [57]:
df.loc['hello']

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
hello,1,2.0,3.0,4.0


In [58]:
df.index.is_unique

False

In [59]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [60]:
df
df.index.duplicated()  ## Второй hello -> True

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


array([False, False, False, False, False,  True, False, False])

In [62]:
~df.index.duplicated() ## ~ - это инверсия

array([ True,  True,  True,  True,  True, False,  True,  True])

Получить булеву маску для дубликатов по индексу можно, вызвав метод ```.duplicated()```. Применение отрицания этой маски вернет DataFrame без строки с дублированным индексом.

In [63]:
df[~df.index.duplicated()]

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [64]:
df.index.get_loc('hello')  # результат работы - булев массив

array([ True, False, False, False, False,  True, False, False])

Тем же методом объекта DataFrame или Series можно получить булеву маску для дубликатов записей в датасете:

In [65]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [66]:
df
df.duplicated()

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


message
hello    False
world    False
foo      False
bar      False
baz       True
hello     True
xxx      False
yyy      False
dtype: bool

In [67]:
df_new = df.copy()
# Обрщаение к скаляру по индексу
df_new.iat[0, 3] = 10
df_new
# Проверяем целиком строки
df_new.duplicated()

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,10.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


message
hello    False
world    False
foo      False
bar      False
baz       True
hello    False
xxx      False
yyy      False
dtype: bool

Методу можно передать параметр ```keep=```, который не будет отмечать признаком True либо первый дубликат (значение first), либо последний (значение last).

In [68]:
# Обход снизу вверх, верхние будут дубликатами
df.duplicated(keep='last')

message
hello     True
world    False
foo       True
bar      False
baz      False
hello    False
xxx      False
yyy      False
dtype: bool

Метод можно вызвать, передав ему список признаков, в которых нужно ограничиться поиском дубликатов:

In [69]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [70]:
df
df.duplicated(['d'])

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


message
hello    False
world    False
foo      False
bar      False
baz       True
hello     True
xxx      False
yyy       True
dtype: bool

Удалить дубликаты можно функцией ```drop_duplicates()```. Она работает так же, как и ```duplicated()```, но она возвращает новый DataFrame без дубликатов. Ее можно вызвать с параметром `inplace`.

In [71]:
df.drop_duplicates()

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


In [72]:
df

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2.0,3.0,4.0
world,5,6.0,7.0,8.0
foo,9,10.0,11.0,12.0
bar,16,,18.0,18.0
baz,9,10.0,11.0,12.0
hello,1,2.0,3.0,4.0
xxx,0,1.0,,
yyy,7,6.0,5.0,


### Создание новых признаков, функции apply() и applymap()

С созданием новых признаков на базе существующих данных мы уже знакомы, но часто бывает так, что для вычисления новых признаков нужно применить более сложные процедуры, чем стандартные. Для этого существуют функции ```apply()``` и ```applymap()```.



In [73]:
np.random.seed(555)
df = pd.DataFrame(np.random.randint(1, 20, size=(4, 3)), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df

Unnamed: 0,b,d,e
Utah,15,10,2
Ohio,5,7,10
Texas,17,1,11
Oregon,17,5,2


Посмотрим, как работает метод ```apply()```. Функция, которая указана в качестве параметра этого метода принимает на вход объект Series - столбец и возвращает значение, которое объединяется в объект Series, структyрно соответствующий строке текущего DataFrame. Для вычисления по строкам и формирования столбцов функции ```apply()``` нужно передать параметр ```axis=1```

In [74]:
df

Unnamed: 0,b,d,e
Utah,15,10,2
Ohio,5,7,10
Texas,17,1,11
Oregon,17,5,2


In [75]:
# Пример создания и использования анонимных функций
func = lambda a, b: 2 * a + b * a - b ** 0.5 
print(func(8, 5))
print((lambda a, b, c: (a + b + c) / 3)(10, 20, 30))

53.763932022500214
20.0


In [76]:
df
# Функции f и ff эквивалентны:
def f(x):
    #print(x)
    return x.max() - x.min()

# В качестве примера альтернитивного варианта. Результат тот же
ff = lambda x: x.max() - x.min()

print(df.apply(f, axis=1)) # Применяем функцию f к каждому штату(индекс)
print('************* The same **************')
print(df.apply(lambda x: x.max() - x.min(), axis=1)) 

Unnamed: 0,b,d,e
Utah,15,10,2
Ohio,5,7,10
Texas,17,1,11
Oregon,17,5,2


Utah      13
Ohio       5
Texas     16
Oregon    15
dtype: int32
************* The same **************
Utah      13
Ohio       5
Texas     16
Oregon    15
dtype: int32


In [77]:
df
df.apply(ff) # Применяем функцию f к каждому столбцу

Unnamed: 0,b,d,e
Utah,15,10,2
Ohio,5,7,10
Texas,17,1,11
Oregon,17,5,2


b    12
d     9
e     9
dtype: int32

Добавление нового вычисленного признака теперь будет выглядеть так:

In [78]:
df['diff'] = df.apply(f, axis=1)
df

Unnamed: 0,b,d,e,diff
Utah,15,10,2,13
Ohio,5,7,10,5
Texas,17,1,11,16
Oregon,17,5,2,15


В отличие от ```apply()```, ```applymap()``` вычисляется для каждого элемента и возвращает значение, которое должно быть установлено на его место.

In [79]:
format_ = lambda x: f'{x:.2f}'
df.applymap(format_)  # Это старый способ 
df.map(format_)  # Это новый способ (Use DataFrame.map instead)

  df.applymap(format_)  # Это старый способ


Unnamed: 0,b,d,e,diff
Utah,15.0,10.0,2.0,13.0
Ohio,5.0,7.0,10.0,5.0
Texas,17.0,1.0,11.0,16.0
Oregon,17.0,5.0,2.0,15.0


Unnamed: 0,b,d,e,diff
Utah,15.0,10.0,2.0,13.0
Ohio,5.0,7.0,10.0,5.0
Texas,17.0,1.0,11.0,16.0
Oregon,17.0,5.0,2.0,15.0


In [80]:
df
df.applymap(lambda x: x ** 2 if x > 10 else x / 100) #

Unnamed: 0,b,d,e,diff
Utah,15,10,2,13
Ohio,5,7,10,5
Texas,17,1,11,16
Oregon,17,5,2,15


  df.applymap(lambda x: x ** 2 if x > 10 else x / 100) #


Unnamed: 0,b,d,e,diff
Utah,225.0,0.1,0.02,169.0
Ohio,0.05,0.07,0.1,0.05
Texas,289.0,0.01,121.0,256.0
Oregon,289.0,0.05,0.02,225.0


Для того, чтобы проделать такую операцию над Series, воспользуйтесь функцией map():

In [81]:
df

Unnamed: 0,b,d,e,diff
Utah,15,10,2,13
Ohio,5,7,10,5
Texas,17,1,11,16
Oregon,17,5,2,15


In [82]:
df['e'] = df['e'].map(format_)
df

Unnamed: 0,b,d,e,diff
Utah,15,10,2.0,13
Ohio,5,7,10.0,5
Texas,17,1,11.0,16
Oregon,17,5,2.0,15


In [83]:
# Создаю новую колонку
df['f'] = df['e'].astype(float).map(lambda x: x ** 2 + 3 * x + 1)
df

Unnamed: 0,b,d,e,diff,f
Utah,15,10,2.0,13,11.0
Ohio,5,7,10.0,5,131.0
Texas,17,1,11.0,16,155.0
Oregon,17,5,2.0,15,11.0


In [84]:
# Выводит количество повторяющихся значений
df['b'].value_counts()

b
17    2
15    1
5     1
Name: count, dtype: int64

In [85]:
df

Unnamed: 0,b,d,e,diff,f
Utah,15,10,2.0,13,11.0
Ohio,5,7,10.0,5,131.0
Texas,17,1,11.0,16,155.0
Oregon,17,5,2.0,15,11.0


### Анализ и разбор датасета

В качестве примера рассмотрим набор данных о пассажирах затонувшего "Титаника".

In [86]:
titanic = pd.read_csv('data/titanic.csv', index_col='PassengerId')

Чтобы проверить, что у нас все загрузилось корректно, посмотрим на форму получившегося объекта:

In [87]:
titanic.shape

(891, 11)

In [88]:
titanic.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [89]:
titanic.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [90]:
titanic.Survived.value_counts()

Survived
0    549
1    342
Name: count, dtype: int64

### Задание

В датасете Titanic проверьте признак "Возраст"("Age") на выбросы (отрицательный возраст, посмотрите максимальный возраст - он правдоподобен?).  
Если там есть отсутствующие значения - на их место поставьте медианный возраст пассажиров.

In [None]:
# Ваш код

---

### Создаем выборку обычным способом

In [91]:
titanic[(titanic.Age < 5) & (titanic.Sex == 'male')]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S
79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S
172,0,3,"Rice, Master. Arthur",male,4.0,4,1,382652,29.125,,Q
184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
262,1,3,"Asplund, Master. Edvin Rojj Felix",male,3.0,4,2,347077,31.3875,,S
306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S


#### Примеры использования  метода: `.query()`

In [92]:
titanic.query("Age < 5 and Sex == 'male'")

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S
79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
165,0,3,"Panula, Master. Eino Viljami",male,1.0,4,1,3101295,39.6875,,S
172,0,3,"Rice, Master. Arthur",male,4.0,4,1,382652,29.125,,Q
184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
262,1,3,"Asplund, Master. Edvin Rojj Felix",male,3.0,4,2,347077,31.3875,,S
306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S


In [93]:
titanic.query("Age < 5 and Sex == 'male'")['Ticket']

PassengerId
8               349909
17              382652
64              347088
79              248738
165            3101295
172             382652
184             230136
194             230080
262             347077
306             113781
341             230080
349         C.A. 37671
387            CA 2144
408              29106
446              33638
756             250649
789          C.A. 2315
804               2625
825            3101295
828    S.C./PARIS 2079
832              29106
851             347082
870             347742
Name: Ticket, dtype: object

In [94]:
titanic.query("Age < 5 and Sex == 'male'").Fare

PassengerId
8       21.0750
17      29.1250
64      27.9000
79      29.0000
165     39.6875
172     29.1250
184     39.0000
194     26.0000
262     31.3875
306    151.5500
341     26.0000
349     15.9000
387     46.9000
408     18.7500
446     81.8583
756     14.5000
789     20.5750
804      8.5167
825     39.6875
828     37.0042
832     18.7500
851     31.2750
870     11.1333
Name: Fare, dtype: float64

In [95]:
value = 5

In [96]:
# Используем значение переменной в .query()
titanic.query("0 < Age < @value and Sex == 'male'")['Ticket']

PassengerId
8               349909
17              382652
64              347088
79              248738
165            3101295
172             382652
184             230136
194             230080
262             347077
306             113781
341             230080
349         C.A. 37671
387            CA 2144
408              29106
446              33638
756             250649
789          C.A. 2315
804               2625
825            3101295
828    S.C./PARIS 2079
832              29106
851             347082
870             347742
Name: Ticket, dtype: object

In [97]:
# Переводим Series в DataFrame
titanic.query(f"Age < {value} and Sex == 'male'")['Ticket'].to_frame()

Unnamed: 0_level_0,Ticket
PassengerId,Unnamed: 1_level_1
8,349909
17,382652
64,347088
79,248738
165,3101295
172,382652
184,230136
194,230080
262,347077
306,113781


### Задание
Проанализируйте загруженные данные:

1. Сколько было на Титанике мужчин, женщин и несовершеннолетних детей(<18 лет)?
2. Действительно ли у пассажиров, путешествующих 3-м классом нет номеров кают?
3. Есть предположение, что женщин и детей не было среди путешествующих 3-м классом. Проверьте.

---

### Сохранение данных

Для сохранения датасетов в требуемом виде можно использовать следующие функции:
 - ```to_csv()``` - для сохранения данных в виде CSV
 - ```to_excel()``` - для сохранения данных в виде Excel Workbook \
...а также во можестве других форматов (см. документацию).
 
Также данные можно экспортировать в структуры Python и numpy:
 - ```to_dict()``` - этот метод вернет словарь с содержимым DataFrame, ровно в том же виде, чтобы из него можно было бы создать новый DataFrame
 - ```to_dict('records')``` - в данном случае этот метод вернет список словарей
 - ```to_numpy()``` - а этот метод можно использовать, если вам нужна матрица numpy
 - ```to_list()``` - в список