# Como calcular estatísticas resumidas

Lembre-se de inicializar o pandas e ler o arquivo titanic.csv

In [None]:
import pandas as pd

titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Qual é a idade média dos passageiros do Titanic?

Diferentes estatísticas estão disponíveis e podem ser aplicadas a colunas com dados numéricos.  
As operações em geral excluem dados ausentes e operam em todas as linhas por padrão.

In [None]:
titanic["Age"].mean()

Qual é a idade média e o preço da passagem dos passageiros do Titanic?

A estatística aplicada a múltiplas colunas do DataFrame (a seleção de duas colunas retorna um DataFrame), é calculada para cada coluna numérica.

In [None]:
titanic[["Age", "Fare"]].median()

A estatística de agregação pode ser calculada para várias colunas ao mesmo tempo.  
Lembra da função describe do primeiro tutorial ?

In [None]:
titanic[["Age", "Fare"]].describe()

Em vez de estatísticas predefinidas, combinações específicas de estatísticas de agregação para colunas,  
podem ser fornecidas e definidas usando o método : DataFrame.agg()

In [None]:
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

# Agregando estatísticas agrupadas por categoria

Qual é a idade média dos passageiros homens e mulheres do Titanic?  

Como nosso interesse é a idade média para cada gênero, uma subseleção nestas duas colunas é feita primeiro.  
Em seguida, o método é aplicado à coluna para criar um grupo por categoria.  
A idade média para cada gênero é calculada e retornada.

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Calcular uma determinada estatística (por exemplo, meanidade) para cada categoria,  
em uma coluna (por exemplo, masculino/feminino na Sexcoluna) é um padrão comum.  
O método groupby é usado para dar suporte a esse tipo de operação.  
Isso se encaixa no split-apply-combinepadrão mais geral:

* Dividir os dados em grupos
* Aplique uma função a cada grupo independentemente
* Combine os resultados em uma estrutura de dados
* As etapas de aplicação e combinação geralmente são feitas juntas no Pandas.

No exemplo anterior, selecionamos explicitamente as duas colunas primeiro.  
Caso contrário, o método mean, é aplicado a cada coluna que contém colunas numéricas, passando numeric_only=True:

In [None]:
titanic.groupby("Sex").mean(numeric_only=True)

Não faz muito sentido obter o valor médio de Pclass.  
Se estivermos interessados ​​apenas na idade média de cada gênero,  
a seleção de colunas (colchetes retangulares, como de costume [])  
também é suportada nos dados agrupados:

In [None]:
titanic.groupby("Sex")["Age"].mean()

A coluna Pclass, contém dados numéricos, mas, na verdade,  
representa 3 categorias (ou fatores) com os rótulos "1", "2" e "3", respectivamente.  
Calcular estatísticas sobre eles não faz muito sentido.  
Portanto, o Pandas fornece um tipo *Categorical* de dado para lidar com esse tipo de dado.  
Mais informações podem ser encontradas na seção Dados categóricos do guia do usuário .

Qual é o preço médio da passagem para cada uma das combinações de sexo e classe de cabine?

O agrupamento pode ser feito por várias colunas ao mesmo tempo.  
Forneça os nomes das colunas como uma lista para o método groupby().

In [None]:
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

Qual é o número de passageiros em cada uma das classes de cabine?

O método value_counts(), conta o número de registros para cada categoria em uma coluna.

In [None]:
titanic["Pclass"].value_counts()

A função é um atalho, pois na verdade é uma operação groupby em combinação com a contagem do número de registros dentro de cada grupo:

Ambos sizee countpodem ser usados ​​em combinação com groupby.  
Enquanto sizeincludes NaNvalues ​​e apenas fornece o número de linhas (tamanho da tabela), countexclui os valores ausentes.  
No método value_counts, use o argumento dropna, para incluir ou excluir os valores NaN.

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

**LEMBRAR**

* Estatísticas de agregação podem ser calculadas em colunas ou linhas inteiras.
* groupby fornece o poder do padrão dividir-aplicar-combinar .
* value_countsé um atalho conveniente para contar o número de entradas em cada categoria de uma variável.