In [None]:
import pandas as pd

[Fonte](https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html)

In [None]:
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

Qual é a idade média dos passageiros do Titanic?

A estatística aplicada a várias colunas do DataFrame (a seleção de duas colunas retorna o DataFrame, consulte o [tutorial de dados do subconjunto](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented)) é calculada para cada coluna numérica.

In [None]:
titanic[["Age", "Fare"]].median()

A estatística de agregação pode ser calculada para várias colunas ao mesmo tempo. Lembre da função `describe` do [primeiro tutorial](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented).

In [None]:
titanic[["Age", "Fare"]].describe()

Em vez das estatísticas predefinidas, combinações específicas de agregação de estatísticas para determinadas colunas podem ser definidas usando o método [DataFrame.agg()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html#pandas.DataFrame.agg):

In [None]:
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

# Agregando estatísticas agrupadas por categoria

Qual é a idade média para passageiros masculinos versus femininos do Titanic?

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()
titanic[["Age", "Fare"]].describe()

> Como nosso interesse é a média de idade para cada sexo, primeiro é feita uma subseleção nestas duas colunas: `titanic[["Sex", "Age"]]`. Em seguida, o método `groupby()` é aplicado na coluna `Sex` para fazer um agrupamento por categoria. A idade média para cada gênero é calculada e retornada.

Calcular uma determinada estatística (por exemplo, `mean` idade) para cada categoria em uma coluna (por exemplo, masculino/feminino na coluna `Sex`) é um padrão comum. O método `groupby` é usado para suportar este tipo de operações. Isso se encaixa no padrão mais geral [`split-apply-combine`](https://pandas.pydata.org/docs/user_guide/groupby.html#groupby):

* **Divida** os dados em grupos

* **Aplicar** uma função a cada grupo independentemente

* **Combine** os resultados em uma estrutura de dados

As etapas de aplicar e combinar normalmente são feitas juntas em pandas.


No exemplo anterior, selecionamos explicitamente as 2 colunas primeiro. Caso contrário, o método `mean` é aplicado a cada coluna contendo colunas numéricas passando `numeric_only=True`:

In [None]:
titanic.groupby("Sex").mean(numeric_only=True)

A coluna `Pclass` contém dados numéricos, mas na verdade representa 3 categorias (ou fatores) com, respectivamente, os rótulos '1', '2' e '3'. O pandas fornecem um tipo de dados `Categorical` para lidar com esse tipo de dados. Mais informações são fornecidas na seção [Dados categóricos](https://pandas.pydata.org/docs/user_guide/categorical.html#categorical) do guia do usuário .

Não faz muito sentido obter o valor médio de `Pclass`. Se estivermos interessados ​​apenas na idade média para cada gênero, a seleção de colunas (colchetes retangulares `[]` como de costume) também é suportada nos dados agrupados:

In [None]:
titanic.groupby("Sex")["Age"].mean()

Qual é o preço médio da passagem para cada uma das combinações de sexo e classe de cabine?

O agrupamento pode ser feito por várias colunas ao mesmo tempo. Forneça os nomes das colunas como uma lista para o método `groupby()`.

> Uma descrição completa sobre a abordagem dividir-aplicar-combinar é fornecida na seção do guia do usuário sobre operações [groupby](https://pandas.pydata.org/docs/user_guide/groupby.html#groupby).

In [None]:
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

# Contar o número de registros por categoria

Qual é o número de passageiros em cada uma das classes de cabine?

In [None]:
titanic["Pclass"].value_counts()

O método `value_counts()` conta o número de registros para cada categoria em uma coluna.

A função é um atalho, pois na verdade é uma operação groupby em combinação com a contagem do número de registros dentro de cada grupo:

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

> Ambos `size` e `count` podem ser usados ​​em combinação com `groupby`. Considerando que `size` inclui valores `NaN` e fornece apenas o número de linhas (tamanho da tabela), `count` exclui os valores ausentes. No método `value_counts`, use o argumento `dropna` para incluir ou excluir os valores `NaN`.

> O guia do usuário possui uma seção dedicada a value_counts, consulte a página sobre [discretização](https://pandas.pydata.org/docs/user_guide/basics.html#basics-discretization).


# LEMBRAR
* As estatísticas de agregação podem ser calculadas em colunas ou linhas inteiras.

* `groupby` fornece o poder do padrão split-apply-combine .

* `value_counts` é um atalho conveniente para contar o número de entradas em cada categoria de uma variável.