# Введение в Pandas


<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/03.03-Operations-in-Pandas.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

In [1]:
import pandas as pd
pd.__version__

'1.5.3'

In [2]:
import numpy as np
np.__version__

'1.22.1'

## ```Pandas.Series```

``pandas.Series`` - это одномерный массив индексированных данных

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

``pandas.Series`` содержит последовательность значений и последовательность индексов, к которым мы можем получить доступ с помощью атрибутов ``values`` и ``index``.
Значения ``values`` - это просто знакомый нам массив NumPy:

In [4]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

Доступ к данным можно получить по ассоциированному индексу с помощью привычной для Python нотации с квадратными скобками

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### ``pandas.Series`` - обобщенный NumPy массив

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data['b']

0.5

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data[2]

0.25

### ```pandas.Series``` - специализированный словарь

In [10]:
population_dict = {
 'California': 38332521,
 'Texas'     : 26448193,
 'New York'  : 19651127,
 'Florida'   : 19552860,
 'Illinois'  : 12882135
}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [11]:
population['California']

38332521

In [12]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

## ```Pandas.DataFrame```
```pandas.DataFrame``` - двумерный массив данных

### ``pandas.DataFrame`` - обобщенный NumPy массив

In [13]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area      = pd.Series(area_dict)
states    = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Прежде всего ```pandas.DataFrame``` имеет атрибут ``index``, который предоставляет доступ к меткам индекса, и атрибут ``values``, который предоставляет доступ к значениям.
Также ```pandas.DataFrame``` имеет атрибут ``columns``, который представляет собой объект ``Index``, содержащий метки столбцов

In [14]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

In [15]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [16]:
states.columns

Index(['population', 'area'], dtype='object')

### ```pandas.DataFrame``` - специализированный словарь

Аналогично, мы можем рассматривать ``pandas.DataFrame`` как специализацию словаря.
Если словарь связывает ключ со значением, то ``pandas.DataFrame`` связывает имя столбца с ``pandas.Series`` данных столбца.
Например, запрос атрибута `` area`` возвращает объект ``pandas.Series``

In [17]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

## Создание объектов ```pandas.DataFrame```

#### Создание из отдельного ```pandas.Series``` объекта

In [18]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Создание из списка словарей

In [19]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [20]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Создание из словаря, хранящего ``pandas.Series``


In [21]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### Создание из двумерного массива NumPy

Для двумерного массива данных, можно создать ``pandas.DataFrame`` с заданными именами колонок и индексом.

In [22]:
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.942705,0.564932
b,0.976456,0.539837
c,0.611774,0.565503


In [23]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [24]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## ```Pandas.Index```

Объекты ``pandas.Series`` и ``pandas.DataFrame`` содержат явный *индекс*, который позволяет ссылаться на данные и изменять их.
Объект ``pandas.Index`` можно рассматривать либо как *(immutable array) неизменяемый массив*, либо как *(ordered set) упорядоченное множество*.

In [25]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### ```pandas.Index``` - неизменяемый массив

In [26]:
ind[1]

3

In [27]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [28]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [29]:
ind[1] = 0

TypeError: Index does not support mutable operations

### ``pandas.Index`` - упорядоченное множество

In [30]:
index_A = pd.Index([1, 3, 5, 7,  9])
index_B = pd.Index([2, 3, 5, 7, 11])

In [31]:
index_A & index_B  # пересечение

  index_A & index_B  # пересечение


Int64Index([3, 5, 7], dtype='int64')

In [32]:
index_A | index_B  # объединение

  index_A | index_B  # объединение


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [33]:
index_A ^ index_B  # симметричная разность

  index_A ^ index_B  # симметричная разность


Int64Index([1, 2, 9, 11], dtype='int64')

# Индексирование и извлечение данных

## Извлечение данных ``pandas.Series``

### ``pandas.Series`` - словарь
Объект ``pandas.Series`` обеспечивает отображение коллекции ключей на коллекцию значений

In [34]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [35]:
data['b']

0.5

Методы и выражения для обработки ключей/индексов и значений в *dictionary-like* стиле

In [36]:
'a' in data

True

In [37]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [38]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### ``pandas.Series`` - одномерный массив

``pandas.Series`` объект обеспечивает выбор элементов в стиле массива с помощью тех же основных механизмов, что и массивы NumPy - то есть, *slices (сечения)*, *masking (маскирование)*, and *fancy indexing*.

In [39]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [40]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [41]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [42]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

### Indexers: loc и iloc

Рассмотрим следующий пример: ``pandas.Series`` имеет явный целочисленный индекс, операция индексирования, такая как ``data[1]``, будет использовать явный индекс, а операция сечения, такая как ``data[1:3]``, будет использовать неявный индекс в стиле Python.

In [47]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [48]:
# explicit index when indexing
data[1]

'a'

In [49]:
# implicit index when slicing
data[1:3]

3    b
5    c
dtype: object

Поскольку в случае использования целочисленных индексов возникает потенциальная путаница, ``Pandas`` предоставляет некоторые специальные атрибуты *indexer*, которые явно раскрывают определенные схемы индексирования.
Это не функциональные методы, а атрибуты, которые открывают определенный интерфейс доступа к данным в ``pandas.Series``.
Во-первых, атрибут ``loc`` позволяет индексировать и нарезать данные, которые всегда ссылаются на явный индекс объекта

In [50]:
data.loc[1]

'a'

In [51]:
data.loc[1:3]

1    a
3    b
dtype: object

Атрибут ``iloc`` позволяет индексировать и нарезать, используя индекс в стиле Python

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

## Извлечение данных ``pandas.DataFrame``

Напомним, что ``pandas.DataFrame`` во многом похож на двумерный или структурированный массив, а в чем-то - на словарь структур ``pandas.Series``, имеющих один и тот же индекс.

### ``pandas.DataFrame`` - словарь

In [None]:
area = pd.Series({'California': 423967  ,'Texas': 695662  ,'New York': 141297  , 'Florida': 170312  ,'Illinois': 149995  })
pop  = pd.Series({'California': 38332521,'Texas': 26448193,'New York': 19651127, 'Florida': 19552860,'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Доступ к отдельным ``pandas.Series'', составляющим столбцы ``pandas.DataFrame``, можно получить с помощью индексации по названию столбца в стиле словаря

In [None]:
data['area']

In [None]:
data.area

In [None]:
data.area is data['area']

In [None]:
data.pop is data['pop']

In [None]:
data['density'] = data['pop'] / data['area']
data

### ``pandas.DataFrame`` - двумерный массив

Можно изучить массив данных, используя атрибут ``values''

In [None]:
data.values

Можно транспонировать ``pandas.DataFrame`` , поменять местами строки и столбцы

In [None]:
data.T

``pandas.DataFrame`` индексация столбцов в стиле словаря не позволяет нам просто обращаться с данными, как с массивами NumPy. 

Передача одного индекса в массив дает доступ к строке

In [None]:
data.values[0]

Передача единственного "индекса" в ``pandas,DataFrame`` обеспечивает доступ к столбцу

In [None]:
data['area']

Таким образом, для индексации в стиле массива нам требуется другое соглашение.
Здесь Pandas снова использует индексаторы ``loc``, ``iloc``.
Используя индексатор ``iloc``, мы можем индексировать базовый массив, как если бы это был простой массив NumPy (используя неявный индекс в стиле Python), но индекс ``DataFrame`` и метки столбцов сохраняются в результате

In [None]:
data.iloc[:3, :2]

In [None]:
data.loc[:'Illinois', :'pop']

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

In [None]:
data.iloc[0, 2] = 90
data

### Дополнительные соглашения об индексации

Существует несколько дополнительных соглашений по индексированию, которые могут показаться противоречащими предыдущему обсуждению, но, тем не менее, могут быть очень полезны на практике.
Во-первых, в то время как *indexing (индексирование)* относится к столбцам, *slicing (сечение)* относится к строкам

In [None]:
data['Florida':'Illinois']

In [None]:
data[1:3]

Операции маскирования также интерпретируются по строкам, а не по столбцам

In [None]:
data[data.density > 100]

# Работа с данными в Pandas

Одним из важнейших элементов NumPy является возможность быстрого выполнения операций с элементами, как с базовой арифметикой (сложение, вычитание, умножение и т.д.), так и с более сложными операциями (тригонометрические функции, экспоненциальные и логарифмические функции и т.д.).
Pandas унаследовал большую часть этой функциональности от NumPy, а Ufuncs, являются ключом к этому.

Однако Pandas включает в себя пару полезных поворотов: для унарных операций, таких как отрицание и тригонометрические функции, эти Ufuncs будут *сохранять метки индексов и столбцов* на выходе, а для бинарных операций, таких как сложение и умножение, Pandas будет автоматически *выравнивать индексы* при передаче объектов в ufunc.
Это означает, что сохранение контекста данных и объединение данных из разных источников - обе потенциально опасные задачи с необработанными массивами NumPy - становятся практически безошибочными с Pandas.
Кроме того, мы увидим, что существуют четко определенные операции между одномерными структурами ``Series'' и двумерными структурами ``DataFrame''.

## Ufuncs: Сохранение индексов

Поскольку Pandas разработан для работы с NumPy, любая Ufunc NumPy будет работать с объектами Pandas ``pandas.Series`` и ``pandas.DataFrame``.
Определим простые ``pandas.Series`` и ``pandas.DataFrame``

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

In [None]:
np.exp(ser)

In [None]:
np.sin(df * np.pi / 4)

## UFuncs: Выравнивание индексов

Для бинарных операций над двумя объектами ``pandas.Series`` или ``pandas.DataFrame`` Pandas выравнивает индексы в процессе выполнения операции.
Это очень удобно при работе с неполными данными.

### Выравнивание индекса ``pandas.Series``

In [None]:
area       = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')

In [None]:
population / area

In [None]:
area.index | population.index

In [None]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

In [None]:
A.add(B, fill_value=0)

### Выравнивание индекса ``pandas.DataFrame``

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
B

In [None]:
A + B

In [None]:
fill = A.stack().mean()
A.add(B, fill_value=fill)

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |


## Ufuncs: Операции между ``pandas.DataFrame`` и ``pandas.Series``

При выполнении операций между ``pandas.DataFrame`` и ``pandas.Series`` аналогично сохраняется выравнивание индексов и столбцов.
Операции между ``pandas.DataFrame`` и ``pandas.Series`` похожи на операции между двумерным и одномерным массивом NumPy.
Рассмотрим одну общую операцию, в которой мы находим разность двумерного массива и одной из его строк:

In [None]:
A = rng.randint(10, size=(3, 4))
A

In [None]:
A - A[0]

In [None]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]

In [None]:
df.subtract(df['R'], axis=0)

In [None]:
halfrow = df.iloc[0, ::2]
halfrow

In [None]:
df - halfrow

# Обработка пропущенных значений (NA)

Реальные данные редко бывают чистыми и однородными, во многих интересных наборах данных некоторое количество данных отсутствует.
Ситуацию усложняет то, что разные источники данных могут по-разному указывать на отсутствие данных. 

### NaN и None в библиотеке Pandas

Библиотека Pandas позволяет работать с ``NaN`` и ``None`` почти взаимозаменяемо.

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

В следующей таблице перечислены соглашения о преобразовании в Pandas, когда вводятся NA значениями.

| Класс типов  | Преобразование при хранении NA-значений | Значение-индикатор NA  |
|--------------|-----------------------------------------|------------------------|
| ``floating`` | Без изменений                           | ``np.nan``             |
| ``object``   | Без изменений                           | ``None`` или ``np.nan``|
| ``integer``  | Приводится к ``float64``                | ``np.nan``             |
| ``boolean``  | Приводится к ``object``                 | ``None`` или ``np.nan``|

## Обработка пропущенных значений (NA значений)

Pandas рассматривает None и NaN как практически взаимозаменяемые для обозначения NA-значений и предлагает несколько полезных методов для обнаружения, удаления и замены NA-значений.

- ``isnull()`` : создает булеву маску для отсутствующих значений.
- ``notnull()``: противоположность метода ``isnull()``
- ``dropna()`` : возвращает отфильтрованный набор данных.
- ``fillna()`` : возвращает набор данных, в котором пропущенные значения заполнены нектоторым значением.

### Выявление NA значений

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.isnull()

In [None]:
data[data.notnull()]

### Удаление NA значений

In [None]:
data.dropna()

Нельзя выбросить из DataFrame отдельные значения, только строки либо столбцы полностью.

In [None]:
df = pd.DataFrame(
    [[1,      np.nan,      3,  4,      5],
     [6,           7,      8,  9,     10],
     [np.nan,     12,     13, 14,     15],
     [16    ,     17,     18, 19,     20],
     [np.nan,     22, np.nan, 24, np.nan]
    
    ]
)
df

In [None]:
df.dropna(axis=0)

In [None]:
df.dropna(axis=1)

Иногда требуется отбросить строки или столбцы согласно дополнительного условия, строка или столбец содержит только NA значения, либо некоторое количество.
Такое поведение можно задать с помощью параметров how и thresh, обеспечивающих точный контроль допустимого количества пустых значений.

In [None]:
df.dropna(axis='columns', how='all')

In [None]:
df.dropna(axis='rows', thresh=3)

### Заполнение NA значений

Иногда предпочтительнее вместо отбрасывания NA значений заполнить их каким-то допустимым значением. 
Это значение может быть фиксированным, например нулем, либо интерполированным, а также восстановленным на основе «хороших» данных значением.
Библиотека Pandas предоставляет метод ``fillna()``, который возвращает копию данных с замененными NA значениями.

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

Можно задать параметр заполнения по направлению «вперед», копируя предыдущее значение в следующую ячейку.

In [None]:
data.fillna(method='ffill')

Можно задать параметр заполнения по направлению «назад», копируя следующее значение в предыдущую ячейку.

In [None]:
data.fillna(method='bfill')

Для объектов ``pandas.DataFrame`` можно задать ось вдоль которой будет выполняться заполнение.

In [None]:
df.fillna(method='ffill', axis=1)

# Иерархическая индексация

Мы рассмотрели одномерные и двумерные данные, находящиеся в объектах ``pandas.Series`` и ``pandas.DataFrame``. 
Иногда требуется хранить и обрабатывать многомерные данные, то есть данные, индексированные по более чем двум ключам. 
Для этого используется иерархическая индексация (hierarchical indexing), или мультииндексация (multi-indexing), для включения в один индекс нескольких уровней. При этом многомерные данные могут быть компактно представлены в объектах ``pandas.Series`` и ``pandas.DataFrame``.

## Мультииндексированный объект ``pandas.Series``

In [58]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
population_series = pd.Series(populations, index=index)
population_series

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [59]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [60]:
population_series = population_series.reindex(index)
population_series

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [61]:
population_series[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

## Методы ``stack()`` и ``unstack()``
Метод unstack() позволяет быстро преобразовать мультииндексный объект ``pandas.Series`` в индексированный обычным образом объект ``pandas.DataFrame``.
Метод stack() выполняет обратную операцию.

In [62]:
population_dataframe = population_series.unstack()
population_dataframe

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [63]:
population_dataframe.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Мы использовали мультииндексацию для представления двумерных данных в одномерном объекте ``pandas.Series``, мультииндексацию можно использовать для представления данных с тремя или более измерениями в объектах ``pandas.Series`` или ``pandas.DataFrame``. 
Каждый новый уровень в мультииндексе представляет дополнительное измерение данных, что позволяет получить намного больше свободы в представлении наборов данных. 

In [64]:
population_dataframe = pd.DataFrame({'total': population_series,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
population_dataframe

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


Все Ufuncs и другие функции, рассмотренные ранее, также работают с иерархическими индексами.

In [65]:
f_u18 = population_dataframe['under18'] / population_dataframe['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


## Неявные методы создания мультииндексов

Создания мультииндексированного объекта ``pandas.Series`` или ``pandas.DataFrame`` посредством передачи в конструктор списка из двух или более индексных массивов.

In [66]:
df = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.036234,0.308477
a,2,0.778522,0.947841
b,1,0.062313,0.268123
b,2,0.571152,0.126985


Создания мультииндексированного объекта ``pandas.Series`` или ``pandas.DataFrame`` посредством передачи в конструктор словаря с соответствующими кортежами в качестве ключей.

In [67]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

## Явные методы создания мультииндексов

Объект ``pandas.MultiIndex`` можно создатьь из простого списка массивов, задающих значения индекса на каждом из уровней.

In [68]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Объект ``pandas.MultiIndex`` можно создать из списка кортежей, задающих все значения индекса в каждой из точек.

In [69]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Объект ``pandas.MultiIndex`` можно создать из декартова произведения обычных индексов.

In [70]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Объект ``pandas.MultiIndex`` можно создать непосредственно с помощью его внутреннего представления, передав в конструктор levels (список списков, содержащих имеющиеся значения индекса для каждого уровня) и codes (список списков меток)

In [71]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Любой из этих объектов можно передать в качестве аргумента index при
создании объектов ``pandas.Series`` или ``pandas.DataFrame`` или методу reindex уже существующих
объектов ``pandas.Series`` или ``pandas.DataFrame``.

### Названия уровней мультииндексов

Можно задать названия для уровней объекта ``pandas.MultiIndex``. Сделать это можно, передав аргумент names любому из вышеперечисленных конструкторов класса MultiIndex или задав значения атрибута names.

In [72]:
population_series.index.names = ['state', 'year']
population_series

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### Мультииндекс для столбцов

Для объекта ``pandas.DataFrame`` строки и столбцы полностью симметричны, и у столбцов, точно так же, как и у строк, может быть несколько уровней индексов.

In [73]:
# hierarchical indices and columns
index   = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,35.9,34.0,37.7,31.0,37.6
2013,2,46.0,35.7,19.0,34.4,36.0,36.8
2014,1,52.0,37.1,34.0,36.7,44.0,36.9
2014,2,23.0,38.5,37.0,36.4,38.0,35.9


In [74]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,34.0,37.7
2013,2,19.0,34.4
2014,1,34.0,36.7
2014,2,37.0,36.4


## Индексация и сечение по мультииндексу

Объект ``pandas.MultiIndex`` позволяет эффективно выполнять индексацию и сечение по мультииндексу 
Рассмотрим сначала индексацию мультииндексированного объекта ``pandas.Series``, а затем мультииндексированного объекта ``pandas.DataFrame``.

## Мультииндексация объектов ``pandas.Series``

In [58]:
population_series

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [59]:
population_series['California', 2000]

33871648

In [60]:
population_series.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [61]:
population_series[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [62]:
population_series[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

## Мультииндексация объектов ``pandas.DataFrame``

In [79]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,35.9,34.0,37.7,31.0,37.6
2013,2,46.0,35.7,19.0,34.4,36.0,36.8
2014,1,52.0,37.1,34.0,36.7,44.0,36.9
2014,2,23.0,38.5,37.0,36.4,38.0,35.9


В ``pandas.DataFrame`` основными являются столбцы, и используемый для мультииндексированных ``pandas.Series`` синтаксис применяется тоже к столбцам.

In [80]:
health_data['Guido', 'HR']

year  visit
2013  1        34.0
      2        19.0
2014  1        34.0
      2        37.0
Name: (Guido, HR), dtype: float64

In [81]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,27.0,35.9
2013,2,46.0,35.7


In [82]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        27.0
      2        46.0
2014  1        52.0
      2        23.0
Name: (Bob, HR), dtype: float64

Работать с сечениями в подобных кортежах индексов не очень удобно. Попытка создать сечение в кортеже может привести к синтаксической ошибке.

In [85]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: invalid syntax (3311942670.py, line 1)

In [86]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,27.0,34.0,31.0
2014,1,52.0,34.0,44.0


## Перегруппировка мультииндексов

Один из ключей к эффективной работе с мультииндексированными данными — умение эффективно преобразовывать данные. 
Существует немало операций, сохраняющих всю информацию из набора данных, но преобразующих ее ради удобства проведения различных вычислений. 

### Отсортированные и неотсортированные индексы

In [87]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.972244
      2      0.837319
c     1      0.271670
      2      0.540400
b     1      0.324134
      2      0.307729
dtype: float64

In [88]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [89]:
data = data.sort_index()
data

char  int
a     1      0.972244
      2      0.837319
b     1      0.324134
      2      0.307729
c     1      0.271670
      2      0.540400
dtype: float64

In [90]:
data['a':'b']

char  int
a     1      0.972244
      2      0.837319
b     1      0.324134
      2      0.307729
dtype: float64

### Выполнение над индексами операций stack и unstack

In [92]:
population_series.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [93]:
population_series.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [95]:
population_series.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

## Агрегирование по мультииндексам
В библиотеке Pandas имеются встроенные методы для агрегирования данных, например ``mean()``, ``sum()`` и ``max()``. В случае иерархически индексированных данных им можно передать параметр level для указания подмножества данных, на котором будет вычисляться сводный показатель.

In [96]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,35.9,34.0,37.7,31.0,37.6
2013,2,46.0,35.7,19.0,34.4,36.0,36.8
2014,1,52.0,37.1,34.0,36.7,44.0,36.9
2014,2,23.0,38.5,37.0,36.4,38.0,35.9


In [97]:
data_mean = health_data.mean(level='year')
data_mean

  data_mean = health_data.mean(level='year')


subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,36.5,35.8,26.5,36.05,33.5,37.2
2014,37.5,37.8,35.5,36.55,41.0,36.4


In [98]:
data_mean.mean(axis=1, level='type')

  data_mean.mean(axis=1, level='type')


type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,32.166667,36.35
2014,38.0,36.916667


# Объединение наборов данных: конкатенация и добавление

In [99]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [None]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## Конкатенация ``pandas.concat``

Функция ``pandas.concat()`` имеет схожий синтаксис с ``numpy.concatenate``, но содержит ряд дополнительных возможностей.

```python
# Сигнатура в Pandas v2.03
pandas.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)
```

``pandas.concat()`` можно использовать для простой конкатенации объектов ``pandas.Series`` или ``pandas.DataFrame``, так же как ``numpy.concatenate()`` можно использовать для простой конкатенации массивов.

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2], axis=0)')

In [None]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', "pd.concat([df3, df4], axis=1)")

### Повторяющиеся индексы

Отличие между ``numpy.concatenate`` и ``pandas.concat``: конкатенация Pandas *сохраняет индексы*, даже если результат будет иметь дублирующиеся индексы!

In [None]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
display('x', 'y', 'pd.concat([x, y])')

#### Catching the repeats as an error

If you'd like to simply verify that the indices in the result of ``pd.concat()`` do not overlap, you can specify the ``verify_integrity`` flag.
With this set to True, the concatenation will raise an exception if there are duplicate indices.
Here is an example, where for clarity we'll catch and print the error message:

In [None]:
pd.concat([x, y], verify_integrity=True)

#### Игнорирование индекса

In [None]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

####  Добавление ключей мультииндекса

In [None]:
display('x', 'y', "pd.concat([x, y], keys=['x', 'y'])")

### Конкатенация 

In the simple examples we just looked at, we were mainly concatenating ``DataFrame``s with shared column names.
In practice, data from different sources might have different sets of column names, and ``pd.concat`` offers several options in this case.
Consider the concatenation of the following two ``DataFrame``s, which have some (but not all!) columns in common:

In [None]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display('df5', 'df6', "pd.concat([df5, df6], join='outer')")

In [None]:
display('df5', 'df6', "pd.concat([df5, df6], join='inner')")

### Добавление ``pandas.append()``

In [None]:
display('df1', 'df2', 'df1.append(df2)')

# Объединение наборов данных: соединение и слияние

## Виды соединения

Функция ``pandas.merge()`` реализует множество типов соединений: «один-к-одному», «многие-к-одному» и «многие-ко-многим». Все эти три типа соединений доступны через один и тот же вызов pd.merge(), тип выполняемого соединения зависит от формы входных данных.

### Соединение один к одному

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
display('df1', 'df2')

In [None]:
df3 = pd.merge(df1, df2)
df3

### Соединение многие-к-одному

In [None]:
df4 = pd.DataFrame({
  'group'     : ['Accounting', 'Engineering', 'HR'],
  'supervisor': ['Carly', 'Guido', 'Steve']
})
display('df3', 'df4', 'pd.merge(df3, df4)')

### Соединение многие-ко-многим

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
display('df1', 'df5', "pd.merge(df1, df5)")

## Задание ключа слияния

Метод ``pandas.merge()`` по умолчанию выполняет поиск в двух входных объектах соответствующих названий столбцов и использует результат в качестве ключа. Однако зачастую имена столбцов не совпадают точно, и в методе pd.merge() имеются параметры для такой ситуации.

### Ключевое слово ``on`` 

In [None]:
display('df1', 'df2', "pd.merge(df1, df2, on='employee')")

### Ключевые слова ``left_on`` и ``right_on``

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
display('df1', 'df3', 'pd.merge(df1, df3, left_on="employee", right_on="name")')

In [None]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

### Ключевые слова ``left_index`` и ``right_index``

In [None]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
display('df1a', 'df2a')

In [None]:
display('df1a', 'df2a',"pd.merge(df1a, df2a, left_index=True, right_index=True)")

In [None]:
display('df1a', 'df2a', 'df1a.join(df2a)')

In [None]:
display('df1a', 'df3', "pd.merge(df1a, df3, left_index=True, right_on='name')")

## Определение операций над множествами для соединений

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7)')

In [None]:
pd.merge(df6, df7, how='inner')

In [None]:
display('df6', 'df7', "pd.merge(df6, df7, how='outer')")

In [None]:
display('df6', 'df7', "pd.merge(df6, df7, how='left')")

## Пересекающиеся названия столбцов. Ключевое слово suffixes

In [None]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
display('df8', 'df9', 'pd.merge(df8, df9, on="name")')

In [None]:
display('df8', 'df9', 'pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])')

# Агрегирование и группировка

## Практический набор данных

Будем использовать набор данных Planets, доступный в пакете [Seaborn](http://seaborn.pydata.org/).
В нем содержится информация о планетах, которые астрономы обнаружили вокруг других звезд. Его можно загрузить с помощью простой команды Seaborn:

In [None]:
import seaborn as sns

planets_dataset = sns.load_dataset('planets')
planets_dataset.shape

In [None]:
planets_dataset.head()

## Агрегирование

In [None]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

In [None]:
ser.sum()

In [None]:
ser.mean()

In [None]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

In [None]:
df.mean(axis='index')

In [None]:
df.mean(axis='columns')

Список агрегирующих методов библиотеки Pandas:

| Aggregation              | Description                        |
|--------------------------|------------------------------------|
| ``count()``              | Общее количество элементов         |
| ``first()``, ``last()``  | Первый и последний элементы        |
| ``mean()``, ``median()`` | Среднее значение и медиана         |
| ``min()``, ``max()``     | Минимум и максимум                 |
| ``std()``, ``var()``     | Стандартное отклонение и дисперсия |
| ``mad()``                | Среднее абсолютное отклонение      |
| ``prod()``               | Произведение всех элементов        |
| ``sum()``                | Сумма всех элементов               |


In [None]:
planets_dataset.dropna().describe()

## Группировка данных (GroupBy)

Часто требуется выполнить условую агрегацию согласно ключа, некоторой метки или индекса, в Pandas это реализуется посредством ``groupby``

### Разбиение, применение, объединение (Split, Apply, Combine)

Базовый пример этой ``Split-Apply-Combine`` операции, где ``Apply`` является суммирующей агрегацией.

![](images/03.08-split-apply-combine.png)[]

- Шаг *разделить* включает разбиение и группировку ``pandas.DataFrame'' в зависимости от значения указанного ключа.
- Шаг *apply* включает применение некоторой функции, обычно агрегата, преобразования или фильтрации, в рамках отдельных групп.
- Шаг *combine*, результаты предыдущих операций объединяются в выходной массив.

Указанные операции можно выполнить вручную, используя некоторую комбинацию команд маскирования, агрегирования и объединения, рассмотренных ранее, важным моментом является то, что *промежуточные разбиения не нужно явно инстанцировать*. ``GroupBy`` может (часто) сделать это за один проход по данным, обновляя по пути сумму, среднее, количество, min или другие агрегаты для каждой группы.
Сила ``GroupBy'' в том, что он абстрагирует эти шаги: пользователю не нужно думать о том, *как* выполняются вычисления под капотом, а нужно думать о *операции в целом*.

In [None]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 'data': range(6)}, columns=['key', 'data'])
df

Базовая операция ``Split-Apply-Combine`` вычисляется с помощью метода ``groupby()`` для ``pandas.DataFrame``.

In [None]:
df.groupby('key')

Результатом является объект ``pandas.DataFrameGroupBy``, специальное представление ``pandas.DataFrame``, которое позволяет работать с группами данных, но не выполняет никаких фактических вычислений до тех пор, пока не будет применена операция агрегирование.

In [None]:
df.groupby('key').sum()

В качестве агрегирующей функции можно применить практически любую обычную агрегатную функцию Pandas или NumPy, а также практически любую допустимую операцию ``pandas.DataFrame``.

### Объект pandas.DataFrameGroupBy

#### Индексация столбцов

Объект ``pandas.DataFrameGroupBy`` поддерживает индексацию столбцов так же, как и ``pandas.DataFrame``, и возвращает модифицированный объект ``pandas.SeriesGroupBy``.

In [None]:
planets_dataset.groupby('method')

In [None]:
planets_dataset.groupby('method')['orbital_period']

In [None]:
planets_dataset.groupby('method')['orbital_period'].median()

#### Итерация по группам

In [None]:
for (method, group) in planets_dataset.groupby('method'):
    print("{0:30s} shape={1}".format(method, group.shape))

#### Диспетчеризация методов (Dispatch methods)

Любой метод, не реализованный явно объектом ``pandas.DataFrameGroupBy``, будет передан и вызван для групп, будь то ``pandas.DataFrame`` или ``pandas.Series``.

In [None]:
planets_dataset.groupby('method')['year'].describe()

Взгляд на эту таблицу помогает нам лучше понять данные: например, подавляющее большинство планет было открыто методами радиальной скорости и транзита, хотя последний стал распространенным (благодаря новым, более точным телескопам) только в последнее десятилетие.
Самыми новыми методами, являются Transit Timing Variation и Orbital Brightness Modulation, которые не использовались для открытия новых планет до 2011 года.

### Агрегирование, фильтрация, преобразование, применение

Объект ``pandas.GroupBy`` также имеет методы ``aggregate()`` , ``filter()`` , ``transform()`` и ``apply()``, которые позволяют эффективно выполнять множество полезных операций до операции группировки данных.

In [None]:
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

#### Агрегирование

Метод ``aggregate()`` обеспечивает большую гибкость, чем методы ``sum()``, ``median()`` и т.п., он может принимать на вход строку, функцию или список и вычислять все сводные показатели сразу.

In [None]:
df.groupby('key').aggregate(['min', np.median, max])

Также в метод ``aggregate()`` можно передать словарь, связывающий имена столбцов с операциями, которые должны быть применены к этим столбцам.

In [None]:
df.groupby('key').aggregate({'data1': 'min','data2': 'max'})

#### Фильтрация

Операция фильтрации позволяет отбрасывать данные в зависимости от свойств группы. Например, можно сохранить все группы, в которых стандартное отклонение значений превышает некоторое значение.

In [None]:
def filter_func(x):
    return x['data2'].std() > 4

display('df', "df.groupby('key').std()", "df.groupby('key').filter(filter_func)")

Функция ``filter_func()`` возвращает булевое значение, определеяющее статус группы.

#### Преобразование

Операция преобразования позволяет применить некторое преобразование к данным внутри группы.

In [None]:
def apply_func(x):
    # x is a DataFrame of group values
    x['data1'] /= x['data2'].sum()
    return x

display('df', "df.groupby('key').apply(apply_func)")

Функция ``apply_func()`` принимает ``pandas.DataFrame`` и возвращает ``pandas.DataFrame``.

#### Задание ключа разбиения
В представленных ранее простых примерах мы разбивали объект DataFrame по
одному столбцу. Это лишь один из многих вариантов задания принципа формиро-
вания групп, и мы сейчас рассмотрим некоторые другие возможности.

#### Список, массив, объект pandas.Series и индекс в качестве ключа группировки

In [None]:
L = [0, 1, 0, 1, 2, 0]
display('df', 'df.groupby(L).sum()')

#### Словарь или объект pandas.Series, связывающий индекс и группу

In [None]:
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
display('df2', 'df2.groupby(mapping).sum()')

#### Любая функция языка Python

In [None]:
display('df2', 'df2.groupby(str.lower).mean()')

## Пример группировки данных

In [None]:
decade = 10 * (planets_dataset['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets_dataset.groupby(['method', decade])['number'].sum().unstack().fillna(0)

# Сводные таблицы

Сводная таблица (pivot table) получает на входе простые данные в виде столбцов и группирует записи в двумерную таблицу, обеспечива­
ющую многомерное представление данных. Сводные таблицы можно рассматривать, как многомерную версию группировки данных (GroupBy).

## Практический набор данных

Воспользуемся набором данных пассажиров парохода «Титаник», набор данных содержит информацию о каждом пассажире рейса, включая пол, возраст, класс, стоимость билета и многое другое.

In [None]:
titanic_dataset = sns.load_dataset('titanic')

In [None]:
titanic_dataset.head()

## Сводные таблицы «вручную»

In [None]:
titanic_dataset.groupby('sex')[['survived']].mean()

In [None]:
titanic_dataset.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

## Синтаксис сводных таблиц

In [None]:
titanic_dataset.pivot_table('survived', index='sex', columns='class')

### Многоуровневые сводные таблицы

In [None]:
age = pd.cut(titanic_dataset['age'], [0, 18, 80])
titanic_dataset.pivot_table('survived', ['sex', age], 'class')

In [None]:
fare = pd.qcut(titanic_dataset['fare'], 2)
titanic_dataset.pivot_table('survived', ['sex', age], [fare, 'class'])

### Дополнительные параметры сводных таблиц

Полная сигнатура вызова метода pivot_table объектов DataFrame выглядит следующим образом:

```python
pandas.DataFrame..pivot_table( 
    values=None, index=None, columns=None,
    aggfunc='mean', fill_value=None, margins=False,
    dropna=True, margins_name='All', observed=False,
    sort=True,
)
```
Мы уже видели примеры первых трех аргументов, в данном подразделе рассмотрим остальные. Два из параметров, fill_value и dropna , относятся к пропущенным значениям и интуитивно понятны.
Ключевое слово aggfunc управляет тем, какой тип агрегирования применяется, по умолчанию это среднее значение. 
Как и в ``pandas.GroupBy`` , спецификация агрегирующей функции может быть строкой с одним из нескольких обычных вариантов
( то есть ``'sum'``, ``'mean'``, ``'count'``, ``'min'``, ``'max'``, и т.п.) или функцией, реализующей агрегирование ( то есть ``np.sum()``, ``min()``, ``sum()``, и т.п.). 
Кроме того, агрегирование может быть задано в виде словаря, связывающего столбец с любым из вышеперечисленных
вариантов.

In [None]:
titanic_dataset.pivot_table(index='sex', columns='class',
                    aggfunc={'survived':sum, 'fare':'mean'})

Иногда бывает полезно вычислять результат по каждой группе. 
Это можно сделать с помощью ключевого слова ``margins``.

In [None]:
titanic_dataset.pivot_table('survived', index='sex', columns='class', margins=True)