---

# Основные структуры в Pandas

---

Импортируем библиотеки $\mathsf{numpy}$, $\mathsf{pandas}$, а также класс $\mathsf{Series}$:

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

---

## 3.3 | Двойные индексы

---

Для таблиц и их строк можно задавать несколько вложенных друг в друга меток, но мы рассмотрим для простоты двойную вложенность:

In [2]:
multi_index = pd.MultiIndex.from_tuples([
    ('bar', 'one'),
    ('bar', 'two'),
    ('foo', 'one'),
    ('foo', 'two'),
    ('foo', 'three')
])
multi_index

MultiIndex([('bar',   'one'),
            ('bar',   'two'),
            ('foo',   'one'),
            ('foo',   'two'),
            ('foo', 'three')],
           )

In [3]:
series = pd.Series([1, 2, 3, 4, 5], index=multi_index)
series

bar  one      1
     two      2
foo  one      3
     two      4
     three    5
dtype: int64

In [4]:
series['bar']

one    1
two    2
dtype: int64

In [5]:
series['bar', 'one']

1

In [6]:
series[[
    ['bar', 'one'], ['foo', 'two']
]]

bar  one    1
foo  two    4
dtype: int64

---

Датафреймы тоже поддерживают мультииндексы, но мы рассмотрим двойные:

In [7]:
df = pd.DataFrame(
    np.array([1, 2, 1, 2, 3, 4, 5, 6, 1, 3]).reshape(5, 2),
    index=multi_index, columns=['A', 'B'])
df

Unnamed: 0,Unnamed: 1,A,B
bar,one,1,2
bar,two,1,2
foo,one,3,4
foo,two,5,6
foo,three,1,3


In [8]:
df.T

Unnamed: 0_level_0,bar,bar,foo,foo,foo
Unnamed: 0_level_1,one,two,one,two,three
A,1,1,3,5,1
B,2,2,4,6,3


In [9]:
df.loc['bar']

Unnamed: 0,A,B
one,1,2
two,1,2


In [10]:
df.loc['bar', 'one']

A    1
B    2
Name: (bar, one), dtype: int64

In [11]:
df.T['bar']

Unnamed: 0,one,two
A,1,1
B,2,2


In [12]:
df.T['bar', 'one']

A    1
B    2
Name: (bar, one), dtype: int64

---

## 3.4 | Группировка

---

Для группировки по столбцу надо использовать метод $\mathsf{groupby}$:

In [13]:
df = pd.read_csv('/content/sample_data/titanic.csv', usecols=['PClass', 'Age', 'Sex', 'Survived'])
df.head()

Unnamed: 0,PClass,Age,Sex,Survived
0,1st,29.0,female,1
1,1st,2.0,female,0
2,1st,30.0,male,0
3,1st,25.0,female,0
4,1st,0.92,male,1


In [14]:
df.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f294fd154e0>

In [15]:
aggregated = df.groupby('Sex').agg({'Age': np.mean})
aggregated

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,29.396424
male,31.014338


---

Для того чтобы создать новую колонку индексов, и переместить существующую в колонки признаков, надо использовать функцию $\mathsf{reset\_index}$:

In [16]:
aggregated.reset_index()

Unnamed: 0,Sex,Age
0,female,29.396424
1,male,31.014338
