In [31]:
"""How to calculate summary statistics?."""

'How to calculate summary statistics?.'

# Как рассчитать сводную статистику?

In [32]:
import pandas as pd

In [33]:
# pylint: disable=line-too-long

url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/%D0%B1%D1%8B%D1%81%D1%82%D1%80%D0%BE%D0%B5%20%D0%B2%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%20pandas/data/titanic.csv"

In [34]:
titanic = pd.read_csv(url)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Сводная статистика 

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_aggregate.svg" >
</div>

Каков средний возраст пассажиров?

In [35]:
titanic["Age"].mean()

np.float64(29.69911764705882)

В `pandas` доступны различные статистические данные, которые могут быть применены к столбцам с числовыми значениями. 

Операции исключают отсутствующие данные и по умолчанию работают со строками в таблице.

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_reduction.svg">
</div>

Каков средний возраст и стоимость билета для пассажиров?

In [36]:
titanic[["Age", "Fare"]].median()

Age     28.0000
Fare    14.4542
dtype: float64

<img src="https://upload.wikimedia.org/wikipedia/commons/5/59/Titanic_surviving_officers.jpg" width="250" height="200">
На фото четыре спасшихся во время крушения офицера "Титаника"

Статистика, примененная к нескольким столбцам `DataFrame`, рассчитывается для каждого из числовых столбцов.

Агрегирующая статистика может быть рассчитана для нескольких столбцов одновременно:

In [37]:
titanic[["Age", "Fare"]].describe()

Unnamed: 0,Age,Fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


С помощью метода [`DataFrame.agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html#pandas.DataFrame.agg) могут быть определены комбинации статистики для заданных столбцов:

In [38]:
titanic.agg(
    {"Age": ["min", "max", "median", "skew"], "Fare": ["min", "max", "median", "mean"]}
)

Unnamed: 0,Age,Fare
min,0.42,0.0
max,80.0,512.3292
median,28.0,14.4542
skew,0.389108,
mean,,32.204208


Подробная информация об описательной статистике представлена в [разделе руководства пользователя по описательной статистике](https://pandas.pydata.org/docs/user_guide/basics.html?highlight=describe#descriptive-statistics).

### Агрегирование статистических данных, сгруппированных по категориям

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/06_groupby.svg">
</div>

Каков средний возраст мужчин и женщин пассажиров?

In [39]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.915709
male,30.726645


Поскольку интерес представляет средний возраст для каждого пола, сначала делается выборка по этим двум столбцам: `titanic[["Sex", "Age"]]`.

Затем метод [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby) применяется к столбцу `Sex` для создания группы по категориям. 

Затем рассчитывается и возвращается средний возраст для каждого пола.

Вычисление заданной статистики (например, `mean` для возраста) для каждой категории в столбце (например, `male`/`female` в столбце `Sex`) является обычной моделью. Метод `groupby` используется для поддержки этого типа операций. В более общем плане это соответствует схеме `split-apply-combine`:

- **Разделить** данные на группы
- **Применить** функцию независимо к каждой группе 
- **Объединить** результаты в структуру данных

Этапы применения и объединения обычно выполняются в `pandas` вместе.

В предыдущем примере мы сначала явно выбрали `2` столбца. Если нет, то метод `mean` применяется к каждому столбцу, содержащему числа:

In [40]:
# titanic.groupby("Sex").mean()
titanic.groupby("Sex").mean(numeric_only=True)

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
female,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818
male,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893


Не имеет смысла получать среднее значение для столбца `Pclass` (тип каюты). 

Если нас интересует только средний возраст для каждого пола, то выбор столбцов поддерживается и для сгруппированных данных:

In [41]:
titanic.groupby("Sex")["Age"].mean()

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_groupby_select_detail.svg" >
</div>

Столбец `Pclass` содержит числовые данные, но на самом деле представляет собой `3` категории (или фактора), соответственно метки `"1"`, `"2"` и `"3"`. Расчет статистики по ним не имеет большого смысла. 
`pandas` предоставляет тип данных `Categorical` для обработки подобных значений. Более подробная информация представлена в руководстве пользователя в разделе [Категориальные данные](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical).

Какова средняя цена билета для каждой комбинации пола и типа каюты?

In [42]:
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

Sex     Pclass
female  1         106.125798
        2          21.970121
        3          16.118810
male    1          67.226127
        2          19.741782
        3          12.661633
Name: Fare, dtype: float64

Группировка может выполняться по нескольким столбцам одновременно. Укажите имена столбцов в виде списка для метода [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby).

Полное описание подхода разделения-применения-объединения приведено в разделе [руководства пользователя по групповым операциям](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby).

### Подсчитать количество записей по категориям

<div style="background-color: #ffffff; padding: 20px; text-align: center;">
    <img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_valuecounts.svg" >
</div>

Какое количество пассажиров в каждом из типов кают?

In [43]:
titanic["Pclass"].value_counts()

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

Метод [`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html#pandas.Series.value_counts) подсчитывает количество записей для каждой категории в колонке.

На самом деле, за этой функцией скрывается групповая операция в сочетании с подсчетом количества записей в каждой группе:

In [44]:
titanic.groupby("Pclass")["Pclass"].count()

Pclass
1    216
2    184
3    491
Name: Pclass, dtype: int64

<img src="https://upload.wikimedia.org/wikipedia/commons/a/ab/B-58.jpg" width="250" height="200">

На фото каюта Титаника "В-58"

В сочетании с `groupby` могут быть использованы `size` и `count`. 

В то время как `size` включает в себя `NaN` значения и просто предоставляет количество строк (размер таблицы), `count` исключает отсутствующие значения. 

В методе `value_counts` используйте `dropna` аргумент для включения или исключения `NaN` значений.

*В* руководстве пользователя есть специальный раздел `value_counts`, см. [Страницу о дискретизации](https://pandas.pydata.org/docs/user_guide/basics.html#basics-discretization).

Полное описание `подхода разделения-применения-объединения` приведено на страницах [руководства пользователя по групповым операциям](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby).