# 🎯 Aula 2 -Estatística descritiva básica no Pandas 🎯

![histograma](./img/histogram_output.png)

Os dados acima representam a distribuição do ano de nascimento de algumas pessoas. Este gráfico, conhecido como histograma, conta quantas pessoas são daquele ano (por exemplo, temos 20 pessoas que são do ano de 1960).

**Obs**: repare um dado muito interessante: as idades estão ordenadas.

Como você resumiria os dados acima de forma simplificada?

# Estatística Descritiva Básica

A Estatística Descritiva é uma ferramenta imprenscindível na Análise Exploratória de Dados, que ajuda a compreender, resumir e interpretar as características fundamentais de um conjunto de dados. É a parte da estatística preocupada em descrever os dados analisados. Por meio dela, podemos ter uma visão global de uma série de informações, como a variação dos dados envolvidos na análise. 

Aqui, vamos explorar conceitos básicos da estatística descritiva e como aplicá-los utilizando o `Pandas`.


## Medidas de centralidade 

As medidas de centralidade, também chamadas medidas de tendência central, são representações do todo de um conjunto de dados. Elas indicam um ponto que centraliza todos os outros dados. As principais medidas de centralidade são: 
* média
* mediana
* moda. 

A seguir, veremos sobre cada uma delas:


### Média

A média - aqui, média aritmética - é a medida de centralidade mais utilizada em nosso cotidiano, e indica o valor central de um conjunto de números. Ela é determinada pela soma de todos os valores numéricos do conjunto de dados dividida pela quantidade de valores.

Essa medida é útil para representar um conjunto de dados com um único valor, facilitando comparações e análises gerais. No entanto, é sensível a *outliers* - dados que se diferenciam drasticamente da tendência do conjunto -, que podem distorcer sua representatividade.

No Pandas, podemos calcular a média de um conjunto de dados por meio da função `.mean()`.
Consideremos o exemplo da seção anterior, do DataFrame de avaliações de restaurantes em Nova York. Se quisermos a média das avaliações gerais realizadas, podemos fazer da seguinte forma:

```python
df.["Overall Rating"].mean()
```

Assim, podemos observar que a média das avaliações é:

![Output da função .mean() no Pandas](https://s3-sa-east-1.amazonaws.com/lcpi/bae1eea6-cec8-4c81-81f8-7f8075f9d4bb.png)

**Figura 1 -** *Output da função .mean() para avaliações gerais no DataFrame no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)



### Mediana

A mediana é o valor que separa a metade superior da metade inferior de um conjunto de dados ordenados. Em outras palavras, se o número de observações for ímpar, a mediana é o valor central; se for par, é a média dos dois valores centrais.

A mediana é particularmente útil em conjuntos de dados com *outliers* ou distribuições assimétricas, pois fornece uma medida mais robusta da tendência central.

No Pandas, podemos calcular a mediana de um conjunto de dados por meio da função `.median()`.
Se quisermos calcular a mediana das avaliações gerais de restaurantes, em nosso exemplo, podemos escrever o seguinte código:

```python
df["Overall Rating"].median()
```

Temos, como saída, o seguinte resultado:

![Output da função .median() no Pandas](https://s3-sa-east-1.amazonaws.com/lcpi/1d744dc6-0b97-4526-b3b8-b66848fa55be.png)

**Figura 2 -** *Output da função .median() para avaliações gerais no DataFrame no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)



### Moda

A moda é o valor (ou valores) mais frequentes em um conjunto de dados. Um conjunto de dados pode ser:
- unimodal: possui apenas uma moda,
-  bimodal: possui duas modas, ou 
-  multimodal: possui várias modas.

A moda é especialmente útil em dados categóricos para identificar a categoria mais comum.
Com a biblioteca Pandas, podemos calcular a moda de um conjunto de dados utilizando a função `.mode()`.

No exemplo trabalhado, sabemos que a moda das avaliações gerais é 3.5, como mostrado abaixo:


![Output da função .mode() no Pandas](https://s3-sa-east-1.amazonaws.com/lcpi/e116588d-a8d0-4fe6-8f17-6f1af906ea00.png)

**Figura 3 -** *Output da função .mode() para avaliações gerais no DataFrame no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)

Para chegarmos a esse resultado, aplicamos a função correspondente à moda no nosso DataFrame, como se segue:

```python
df["Overall Rating"].mode()
```



## Desvio-padrão e variância

O desvio-padrão e a variância encontram-se dentro de um conjunto de medidas chamadas de Medidas de Dispersão. Essas métricas servem de auxílio para as medidas de centralidade, descrevendo o conjunto de dados e nos auxiliando a ver a dispersão de dados observados, ou seja, quão distantes estão uns dos outros. 

Se os dados variam de forma significativa, por exemplo, a média deixa de ser representativa no conjunto. Assim, quando fazemos uma análise de dados, precisamos ao menos de uma medida de centralidade e de uma medida de dispersão.

O desvio-padrão mede a quantidade de variação ou dispersão em um conjunto de valores. Um desvio-padrão baixo indica que os valores tendem a estar próximos da média, enquanto um desvio-padrão alto indica uma ampla variação nos dados. O desvio-padrão é crucial para entender o quão espalhados estão os valores em relação à média, sendo fundamental em muitas análises estatísticas.

A variância, por sua vez, é o quadrado do desvio-padrão. Ela mede o grau de dispersão dos dados em relação à média. Essa medida é útil para comparar a dispersão entre diferentes conjuntos de dados. No entanto, como está em uma unidade quadrada, muitas vezes o desvio padrão é preferido para interpretação.

No Pandas, podemos calcular desvio-padrão e variância, respectivamente, pelas funções `.std()` e `.var()`.

No exemplo de avaliações de restaurante, se quisermos calcular o desvio-padrão e a variância das avaliações gerais, usamos as funções:

```python
# cálculo do desvio-padrão
df["Overall Rating"].std()

# cálculo da variância
df["Overall Rating"].var()
```

As saídas de dados são, como podemos observar:

![Output da função .std() no Pandas](https://s3-sa-east-1.amazonaws.com/lcpi/1cf23e77-b0a0-473a-92a8-ed568b103183.png)

**Figura 4 -** *Output da função .std() para avaliações gerais no DataFrame no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)

![Output da função .var() no Pandas](https://s3-sa-east-1.amazonaws.com/lcpi/a26cd7e9-2c61-4c5d-993f-028abb7e3712.png)

**Figura 5 -** *Output da função .var() para avaliações gerais no DataFrame no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)



## Quartil
Quartis são valores que dividem um conjunto de dados em quatro partes iguais, cada uma contendo 25% dos dados. Os principais quartis são o primeiro quartil (25%), o segundo quartil (50% - mediana) e o terceiro quartil (75%).

Essas medidas são essenciais para compreender a distribuição dos dados, identificar outliers e entender a dispersão dos dados.

No Pandas, o cálculo do quartil é obtido por meio da função `.quantile()`. Vamos ver, por exemplo, os quartis das avaliações gerais de nosso conjunto de dados trabalhado:

```python
df["Overall Rating"].quantile([0.25, 0.50, 0.75])
```

![Principais quartis das avaliações gerais do dataset trabalhado](https://s3-sa-east-1.amazonaws.com/lcpi/d9f35b80-bcef-46ee-a9f5-f8fb225ff195.png)
**Figura 5 -** *Principais quartis das avaliações gerais do dataset trabalhado* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)



## A função *.describe()* no Pandas
A função `.describe()` do Pandas oferece um resumo estatístico dos dados, incluindo média, mediana, moda, desvio padrão, mínimo, máximo e quartis.
Podemos ver no exemplo que trabalhamos durante esta seção:

```python
df["Overall Rating"].describe()
```
![Dados gerais das avaliações gerais do dataset trabalhado, obtidos pela função .describe()](https://s3-sa-east-1.amazonaws.com/lcpi/c87a2636-8095-470c-a185-cbfc625b0037.png)

**Figura 5 -** *Dados gerais das avaliações gerais do dataset trabalhado, obtidos pela função .describe()* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)



## Referências
[Documentação Pandas](https://pandas.pydata.org/docs/)

[Dataset Usado](https://www.kaggle.com/datasets/surajjha101/cuisine-rating)