### Как рассчитать сводную статистику?

In [None]:
import pandas as pd

In [None]:
url = "./data/titanic.csv"

In [None]:
titanic = pd.read_csv(url)
titanic

### Сводная статистика 

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_aggregate.svg" >

Каков средний возраст пассажиров?

In [None]:
titanic["Age"].mean()

В `pandas` доступны различные статистические данные, которые могут быть применены к столбцам с числовыми значениями. 

Операции исключают отсутствующие данные и по умолчанию работают со строками в таблице.

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_reduction.svg">

Каков средний возраст и стоимость билета для пассажиров?

In [None]:
titanic[["Age", "Fare"]].median()

<img src="https://upload.wikimedia.org/wikipedia/commons/5/59/Titanic_surviving_officers.jpg" width="250" height="200">
На фото четыре спасшихся во время крушения офицера "Титаника"

Статистика, примененная к нескольким столбцам `DataFrame`, рассчитывается для каждого из числовых столбцов.

Агрегирующая статистика может быть рассчитана для нескольких столбцов одновременно:

In [None]:
titanic[["Age", "Fare"]].describe()

С помощью метода [`DataFrame.agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html#pandas.DataFrame.agg) могут быть определены комбинации статистики для заданных столбцов:

In [None]:
titanic.agg({'Age': ['min', 'max', 'median', 'skew'],
             'Fare': ['min', 'max', 'median', 'mean']})

Подробная информация об описательной статистике представлена в [разделе руководства пользователя по описательной статистике](https://pandas.pydata.org/docs/user_guide/basics.html?highlight=describe#descriptive-statistics).

### Агрегирование статистических данных, сгруппированных по категориям

<img src="https://pandas.pydata.org/docs/_images/06_groupby.svg">

Каков средний возраст мужчин и женщин пассажиров?

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Поскольку интерес представляет средний возраст для каждого пола, сначала делается выборка по этим двум столбцам: `titanic[["Sex", "Age"]]`.

Затем метод [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby) применяется к столбцу `Sex` для создания группы по категориям. 

Затем рассчитывается и возвращается средний возраст для каждого пола.

Вычисление заданной статистики (например, `mean` для возраста) для каждой категории в столбце (например, `male`/`female` в столбце `Sex`) является обычной моделью. Метод `groupby` используется для поддержки этого типа операций. В более общем плане это соответствует схеме `split-apply-combine`:

- **Разделить** данные на группы
- **Применить** функцию независимо к каждой группе 
- **Объединить** результаты в структуру данных

Этапы применения и объединения обычно выполняются в `pandas` вместе.

В предыдущем примере мы сначала явно выбрали `2` столбца. Если нет, то метод `mean` применяется к каждому столбцу, содержащему числа:

In [None]:
titanic.groupby("Sex").mean()

Не имеет смысла получать среднее значение для столбца `Pclass` (тип каюты). 

Если нас интересует только средний возраст для каждого пола, то выбор столбцов поддерживается и для сгруппированных данных:

In [None]:
titanic.groupby("Sex")["Age"].mean()

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_groupby_select_detail.svg" >

Столбец `Pclass` содержит числовые данные, но на самом деле представляет собой `3` категории (или фактора), соответственно метки `"1"`, `"2"` и `"3"`. Расчет статистики по ним не имеет большого смысла. 
`pandas` предоставляет тип данных `Categorical` для обработки подобных значений. Более подробная информация представлена в руководстве пользователя в разделе [Категориальные данные](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical).

Какова средняя цена билета для каждой комбинации пола и типа каюты?

In [None]:
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

Группировка может выполняться по нескольким столбцам одновременно. Укажите имена столбцов в виде списка для метода [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html#pandas.DataFrame.groupby).

Полное описание подхода разделения-применения-объединения приведено в разделе [руководства пользователя по групповым операциям](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby).

### Подсчитать количество записей по категориям

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/06_valuecounts.svg" >

Какое количество пассажиров в каждом из типов кают?

In [None]:
titanic["Pclass"].value_counts()

Метод [`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html#pandas.Series.value_counts) подсчитывает количество записей для каждой категории в колонке.

На самом деле, за этой функцией скрывается групповая операция в сочетании с подсчетом количества записей в каждой группе:

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

<img src="https://upload.wikimedia.org/wikipedia/commons/a/ab/B-58.jpg" width="250" height="200">

На фото каюта Титаника "В-58"

В сочетании с `groupby` могут быть использованы `size` и `count`. 

В то время как `size` включает в себя `NaN` значения и просто предоставляет количество строк (размер таблицы), `count` исключает отсутствующие значения. 

В методе `value_counts` используйте `dropna` аргумент для включения или исключения `NaN` значений.

1. Загрузите файл ./data/final_demographics_data.csv в dataframe demography
2. Посчитайте средний % процент трудоспособного населения для каждого региона
3. Найдите страны, где общие запасы превыщают среднее значение и вывести для этих стран % трудоспособного населения.
4. Расчитать агрегирующую статистику для столбцов 
