© Валерий Студенников, курс "Инструменты анализа данных"

## Pandas

pandas — это высокоуровневая Python библиотека для работы с табличными данными.

Материалы:
* https://khashtamov.com/ru/pandas-introduction/
* https://pandas.pydata.org/pandas-docs/stable/10min.html
* https://habr.com/company/ods/blog/322626/
* Книжка *"Python для анализа данных"*, главы про pandas

In [4]:
import numpy as np
import pandas as pd

In [5]:
# Пример создания DataFrame на основе 
import sklearn.datasets

iris = sklearn.datasets.load_iris()

data1 = pd.DataFrame( data = np.c_[iris['data'], iris['target']],
                      columns = iris['feature_names'] + ['target'] )

data1.target = data1.target.astype( int )

data1.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


Два главные класса pandas: DataFrame и Series

### pandas.Series

In [6]:
myseries = pd.Series([5, 6, 7, 8, 9, 10])
myseries

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

Объект Series можно также представлять себе как упорядоченный словарь фиксированной
длины, поскольку он отображает индекс на данные.

In [7]:
myseries.index

RangeIndex(start=0, stop=6, step=1)

In [8]:
myseries.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

In [9]:
myseries.dtype

dtype('int64')

In [10]:
# Доступ к элементам объекта Series возможны по индексу
myseries[4]

9

In [11]:
# Индексы можно задавать явно
myseries2 = pd.Series( [5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'] )
myseries2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [12]:
# выборка по индексу
myseries2['f']

10

In [13]:
# выборка по нескольким индексам
myseries2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [14]:
# групповое присваивание
myseries2[['a', 'b', 'f']] = 0
myseries2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [15]:
# Series можно передавать многим функциям, ожидающим получить словарь:
'b' in myseries2, 'g' in myseries2

(True, False)

In [16]:
# Фильтрация Series:
myseries2[ myseries2 > 0 ]

c    7
d    8
e    9
dtype: int64

In [17]:
# А вот что под капотом
myseries2 > 0

a    False
b    False
c     True
d     True
e     True
f    False
dtype: bool

In [18]:
# Пропущенные значения
myseries2[['a', 'f']] = None # np.nan
myseries2

a    NaN
b    0.0
c    7.0
d    8.0
e    9.0
f    NaN
dtype: float64

In [19]:
myseries2.isnull() # pd.isnull( myseries2 )

a     True
b    False
c    False
d    False
e    False
f     True
dtype: bool

In [20]:
myseries2[ myseries2.notnull() ]

b    0.0
c    7.0
d    8.0
e    9.0
dtype: float64

In [21]:
myseries2.fillna( -1, inplace = True )
myseries2

a   -1.0
b    0.0
c    7.0
d    8.0
e    9.0
f   -1.0
dtype: float64

In [22]:
# можно применять математические операции
# !!! Обратите внимание, что индекс остался неизменным
myseries2 * 2 + 1

a    -1.0
b     1.0
c    15.0
d    17.0
e    19.0
f    -1.0
dtype: float64

In [23]:
# Применение к элементам функций numpy
# !!! Обратите внимание, что индекс остался неизменным
np.sqrt( myseries2[['c','d','e']] )

c    2.645751
d    2.828427
e    3.000000
dtype: float64

In [24]:
myseries3 = pd.Series( {'a': 5, 'b': 6, 'c': 7, 'd': 8} )
myseries3

a    5
b    6
c    7
d    8
dtype: int64

In [25]:
# У объекта Series и его индекса есть атрибут name, задающий имя объекту и индексу соответственно
myseries3.name = 'numbers'
myseries3.index.name = 'letters'
myseries3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

In [26]:
# Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series

myseries3.index = ['A', 'B', 'C', 'D']
myseries3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

In [27]:
myseries3.copy()

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

## DataFrame

Объект `DataFrame` представляет табличную структуру данных, состоящую из
упорядоченной коллекции столбцов, причем типы значений (числовой, строковый,
булев и т. д.) в разных столбцах могут различаться.

Можно считать, что это словарь объектов Series.

In [28]:
# Конструктор DataFrame на основе питоновского словаря:
data = {
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628],
}

df = pd.DataFrame(data)
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [29]:
# Можно передавать данные разных типов
pd.DataFrame({
    'A' : 1.,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series([5,3,1,7], index=list(range(4))),
    'D' : np.array( [3,8,5,6] ),
    'E' : pd.Categorical(["test","train","test","train"]),
    'F' : 'foo'
})

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,5,3,test,foo
1,1.0,2013-01-02,3,8,train,foo
2,1.0,2013-01-02,1,5,test,foo
3,1.0,2013-01-02,7,6,train,foo


In [30]:
# Можно конструировать DF множеством способов, например с помощью numpy
dfr = pd.DataFrame( np.random.randn(3,4) )
dfr

Unnamed: 0,0,1,2,3
0,-1.29912,1.322556,0.932009,-0.324401
1,0.118384,0.292226,0.960396,1.659307
2,-0.002022,-0.74035,-0.415778,-1.495914


In [31]:
# посмотрим типы данных колонок
df.dtypes

country        object
population    float64
square          int64
dtype: object

Доступ к колонкам:

In [32]:
# убеждаемся, что столбец в DataFrame — это Series
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [33]:
type(df['country'])

pandas.core.series.Series

In [34]:
# к столбцам можно обращаться, используя атрибут или нотацию словарей Python,
# т.е. df.country и df['country'] это одно и то же.
df.country

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [35]:
# Доступ к списку полей — получаем срез DataFrame по полям
df[['country', 'square']]

Unnamed: 0,country,square
0,Kazakhstan,2724902
1,Russia,17125191
2,Belarus,207600
3,Ukraine,603628


In [36]:
# смотрим что там у нас за индекс
df.index

RangeIndex(start=0, stop=4, step=1)

Объект DataFrame имеет 2 индекса: по строкам и по столбцам:
`df.index` и `df.columns`.

Если индекс по строкам явно не задан, то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [37]:
df2 = df.copy()
df2.columns = ['C', 'P', 'S']
df2

Unnamed: 0,C,P,S
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [38]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [39]:
# колонки — это тоже объект индекса
df.columns

Index(['country', 'population', 'square'], dtype='object')

### Доступ по индексу в DataFrame

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame или "на лету":

In [40]:
# Указываем индекс сразу при создании объекта DF
df = pd.DataFrame({
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])

df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [41]:
# задаём значения индекса
df.index = ['KZ', 'RU', 'BY', 'UA']
# задаём имя индекса
df.index.name = 'Country Code'
df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Доступ к строкам по индексу возможен несколькими способами:

In [42]:
# .loc - используется для доступа по строковой метке
df.loc[['KZ','RU']]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [43]:
# выбираем одну единственную строчку и убеждаемся, что это объект Series, у которого индекс по названиям колонок
type(df.loc['KZ']), df.loc['KZ'].index

(pandas.core.series.Series,
 Index(['country', 'population', 'square'], dtype='object'))

In [44]:
# .iloc - используется для доступа по числовому значению (начиная от 0)
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [45]:
# естественно, можно указать сразу несколько значений индекса
df.iloc[ [0,1] ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [46]:
# Выборка сразу по нескольким элементам индекса
df.loc[['KZ', 'RU']]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [47]:
# Можно делать выборку по индексу и интересующим колонкам:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

In [48]:
# Можно сразу список полей указавать в loc:
df.loc[['KZ', 'RU'], ['population','square']]

Unnamed: 0_level_0,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,17.04,2724902
RU,143.5,17125191


In [49]:
# .loc в квадратных скобках принимает 2 аргумента:
# - интересующий индекс (в том числе поддерживается слайсинг)
# - колонки
df.loc['KZ':'BY', 'country':'population']

Unnamed: 0_level_0,country,population
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,17.04
RU,Russia,143.5
BY,Belarus,9.5


In [50]:
# .at — оптимизированная версия .loc
df.at[ 'RU', 'population' ]

143.5

In [51]:
# доступ к колонкам по номерам
df.iat[ 1, 1 ]

143.5

In [52]:
# можно устанавливать значения через .at или .loc
df.at[ 'RU', 'population' ] = 144

<img src="https://i.stack.imgur.com/S0PTh.png" height="500">

In [53]:
# фильтрация строк по диапазону номеров строк
df[ 0:2 ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,144.0,17125191


In [54]:
# фильтрация строк по диапазону индекса
df[ 'KZ':'RU' ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,144.0,17125191


#### Фильтрация по логическому условию

In [55]:
# Фильтрация DataFrame с помощью булевых массивов
df[ df.population > 10 ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,144.0,17125191
UA,Ukraine,45.5,603628


In [56]:
# Под капотом
df.population > 10

Country Code
KZ     True
RU     True
BY    False
UA     True
Name: population, dtype: bool

In [57]:
# .isin — для фильтрации категориальных колонок
df[ df['country'].isin(['Russia','Kazakhstan']) ]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,144.0,17125191


In [58]:
# Присваивание значений отфильтрованному диапазону
dfr[ dfr < 0 ] = -dfr
dfr

Unnamed: 0,0,1,2,3
0,1.29912,1.322556,0.932009,0.324401
1,0.118384,0.292226,0.960396,1.659307
2,0.002022,0.74035,0.415778,1.495914


In [59]:
# под капотом
dfr > 0.5

Unnamed: 0,0,1,2,3
0,True,True,True,False
1,False,False,True,True
2,False,True,False,True


In [60]:
# Сбросить индексы можно вот так:
df.reset_index()

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,144.0,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


### Операции с колонками

In [61]:
# Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны,
# получив тем самым плотность:
df['density'] = df['population'] / df['square'] * 1000000
df

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,144.0,17125191,8.408665
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [62]:
# .apply для всего DataFrame
df['density'] = df.apply( lambda row: row['population'] / row['square'] * 1000000, axis = 1 )
df

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,144.0,17125191,8.408665
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [63]:
# .apply для DataFrame через передачу ссылки на функцию
def get_density( row ):
    return row['population'] / row['square'] * 1000000

df.apply( get_density, axis = 1 )

Country Code
KZ     6.253436
RU     8.408665
BY    45.761079
UA    75.377550
dtype: float64

In [64]:
# Series.apply — для конкретной колонки
df['square_'] = df['square'].apply( lambda val: val / 1000 )
df['square_']

Country Code
KZ     2724.902
RU    17125.191
BY      207.600
UA      603.628
Name: square_, dtype: float64

In [65]:
# удаляем лишние колонки, которые мы навычисляли
df.drop(['density', 'square_'], axis='columns')

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,144.0,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [66]:
# можно удалять колонки через del
del df['density']
df

Unnamed: 0_level_0,country,population,square,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,2724.902
RU,Russia,144.0,17125191,17125.191
BY,Belarus,9.5,207600,207.6
UA,Ukraine,45.5,603628,603.628


In [67]:
# Переименовывать столбцы нужно через метод rename:
df.rename( columns = {'country': 'Country Name'} )

Unnamed: 0_level_0,Country Name,population,square,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,2724.902
RU,Russia,144.0,17125191,17125.191
BY,Belarus,9.5,207600,207.6
UA,Ukraine,45.5,603628,603.628


In [68]:
# inplace = True
df.rename( columns = {'square': 'Square Km'}, inplace = True )
df

Unnamed: 0_level_0,country,population,Square Km,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,2724.902
RU,Russia,144.0,17125191,17125.191
BY,Belarus,9.5,207600,207.6
UA,Ukraine,45.5,603628,603.628


Когда столбцу присваивается список или массив, длина значения должна совпадать
с длиной DataFrame. Если же присваивается объект Series, то он будет
точно согласован с индексом DataFrame, а в "дырки" будут вставлены значения
NA.

In [69]:
df['tmp'] = np.arange(4) + 1
df

Unnamed: 0_level_0,country,population,Square Km,square_,tmp
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
KZ,Kazakhstan,17.04,2724902,2724.902,1
RU,Russia,144.0,17125191,17125.191,2
BY,Belarus,9.5,207600,207.6,3
UA,Ukraine,45.5,603628,603.628,4


In [70]:
df.drop( columns = ['tmp'], inplace = True )
# Можно "транспонировать" DF
df.T

Country Code,KZ,RU,BY,UA
country,Kazakhstan,Russia,Belarus,Ukraine
population,17.04,144.0,9.5,45.5
Square Km,2724902,17125191,207600,603628
square_,2724.902,17125.191,207.6,603.628


#### Манипуляции с данными

In [71]:
# Копирование DF
df.copy().shape

(4, 4)

In [72]:
# Сортировка по индексу
df.sort_index( axis = 0, ascending = False ) # axis = 1 — сортировка колонок, поддержка inplace = True

Unnamed: 0_level_0,country,population,Square Km,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
UA,Ukraine,45.5,603628,603.628
RU,Russia,144.0,17125191,17125.191
KZ,Kazakhstan,17.04,2724902,2724.902
BY,Belarus,9.5,207600,207.6


In [73]:
df.sort_values( by = 'population' )

Unnamed: 0_level_0,country,population,Square Km,square_
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BY,Belarus,9.5,207600,207.6
KZ,Kazakhstan,17.04,2724902,2724.902
UA,Ukraine,45.5,603628,603.628
RU,Russia,144.0,17125191,17125.191


## Чтение и запись данных

pandas поддерживает все самые популярные форматы обмена данными: CSV, excel, SQL, буфер обмена, HTML и многое другое.

_Pickling_

`read_pickle` — Load pickled pandas object (or any object) from file.<br/>

_Flat File_

`read_table` — Read general delimited file into DataFrame<br/>
`read_csv` — Read CSV (comma-separated) file into DataFrame<br/>
`read_fwf` — Read a table of fixed-width formatted lines into DataFrame<br/>
`read_msgpack` — Load msgpack pandas object from the specified file path<br/>

_Clipboard_

`read_clipboard` — Read text from clipboard and pass to read_table.<br/>

_Excel_

`read_excel` — Read an Excel table into a pandas DataFrame<br/>
`ExcelFile.parse` — Parse specified sheet(s) into a DataFrame<br/>

_JSON_

`read_json`	Convert a JSON string to pandas object<br/>
`json_normalize`	“Normalize” semi-structured JSON data into a flat table<br/>
`build_table_schema`	Create a Table schema from data.<br/>

_HTML_

`read_html` — Read HTML tables into a list of DataFrame objects.<br/>

_HDFStore: PyTables (HDF5)_

`read_hdf`	Read from the store, close it if we opened it.<br/>

_Feather_

`read_feather`	Load a feather-format object from the file path<br/>

_Parquet_

`read_parquet` — Load a parquet object from the file path, returning a DataFrame.<br/>

_SAS_

`read_sas` — Read SAS files stored as either XPORT or SAS7BDAT format files.<br/>

_SQL_

`read_sql_table` — Read SQL database table into a DataFrame.<br/>
`read_sql_query` — Read SQL query into a DataFrame.<br/>
`read_sql` — Read SQL query or database table into a DataFrame.<br/>

_Google BigQuery_

`read_gbq` — Load data from Google BigQuery.<br/>

### CSV

In [None]:
# Считаем CSV
df2 = pd.read_csv('/tmp/countries.csv')
df2

In [None]:
# Явно укажем индексное поле
df2 = pd.read_csv('/tmp/countries.csv', index_col = 'Country Code')
df2

In [None]:
# Можно даже читать из интернета
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# uri = 'https://gist.githubusercontent.com/michhar/2dfd2de0d4f8727f873422c5d959fff5/raw/ff414a1bcfcba32481e4d4e8db578e55872a2ca1/titanic.csv'
uri = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic_df = pd.read_csv( uri, index_col='PassengerId' )
titanic_df.head()

### SQL

In [None]:
# Запишем стандартный dataset iris в табличку
import sqlalchemy

dbconn_str =  "mysql+pymysql://ds_course:Lodu5ooj@ds-internship.int.reg.ru:3306/test"
engine = sqlalchemy.create_engine( dbconn_str )
con = engine.connect()
con.execute( "SET autocommit = 1" )
data1.to_sql( 'dataset_iris', con, if_exists = 'replace' )

In [None]:
# создаём коннект
import pymysql

db_test = pymysql.connect(
    host   = "ds-internship.int.reg.ru",
    user   = "ds_course",
    passwd = "Lodu5ooj",
    db     = "test",
    charset = 'utf8'
)

In [None]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test)
df3.head()

In [None]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test, index_col='index')
df3.head()

## Анализ данных в pandas

In [None]:
# Размерность таблицы
titanic_df.shape

In [None]:
# описательные статистики для всех числовых полей
titanic_df.describe()

In [None]:
# различные описательные статистики для колонок
titanic_df.Survived.mean(), titanic_df['Age'].max(), titanic_df.Age.min(), titanic_df.Age.median()

### Группировка и агрегирование

In [None]:
# Группировка и агрегирование
titanic_df.groupby(['Sex', 'Survived'])['Survived'].count()

In [None]:
# Агрегирование сразу нескольких полей
titanic_df.groupby(['Sex', 'Survived'])['Age','Fare'].agg(['min','mean'])

### Сводные таблицы

In [None]:
# подготовим данные для .pivot
df_grp = titanic_df.groupby(['Sex', 'Survived'])['Age'].mean().reset_index()
df_grp

In [None]:
df_grp.pivot( index = 'Sex', columns = 'Survived' )

In [None]:
# .pivot_table
# сколько всего женщин и мужчин было в конкретном классе корабля

titanic_df.pivot_table( index=['Sex'], columns=['Pclass'], values='Name', aggfunc='count')

In [None]:
# группируем сразу по двум полям, получаем multiindex
titanic_df.pivot_table( index=['Sex', 'Survived'], columns=['Pclass'], values='Age', aggfunc='mean')