<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/02_Estatistica_Descritiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 02. Estatística Descritiva (Resumindo os Dados)

Após limpar os dados no Notebook 01, o próximo passo é *entendê-los*. A Estatística Descritiva nos ajuda a resumir milhares de linhas de dados em alguns poucos números-chave.

Este notebook foca em duas perguntas:
1.  **"Qual é o valor 'típico'?"** (Medidas de Tendência Central)
2.  **"Os dados são 'parecidos' ou 'espalhados'?"** (Medidas de Dispersão)

In [1]:
import pandas as pd
import numpy as np

# Vamos criar um dataset fictício de salários para ilustrar
# NOTE: Incluímos um "outlier" (150000) para mostrar a diferença entre média e mediana.
data = {
    'departamento': ['Vendas', 'Vendas', 'Vendas', 'Vendas', 'Vendas',
                     'TI', 'TI', 'TI', 'TI', 'TI',
                     'RH', 'RH',
                     'Diretoria'],
    'salario': [4000, 4500, 5000, 5200, 4800,   # Média Vendas: 4700
                8000, 8500, 9000, 7800, 9200,   # Média TI: 8500
                6000, 6100,                     # Média RH: 6050
                150000],                        # O Outlier (CEO)
    'idade': [25, 28, 33, 31, 29,
              40, 42, 38, 35, 45,
              30, 31,
              55]
}

df_empresa = pd.DataFrame(data)

print("--- DataFrame de Salários (com Outlier) ---")
print(df_empresa)

--- DataFrame de Salários (com Outlier) ---
   departamento  salario  idade
0        Vendas     4000     25
1        Vendas     4500     28
2        Vendas     5000     33
3        Vendas     5200     31
4        Vendas     4800     29
5            TI     8000     40
6            TI     8500     42
7            TI     9000     38
8            TI     7800     35
9            TI     9200     45
10           RH     6000     30
11           RH     6100     31
12    Diretoria   150000     55


### Receita 2.1: Média (`.mean()`)

* **🧠 Intuição:** "Vamos juntar o salário de *todo mundo* (incluindo o CEO) e dividir em partes iguais. É o 'valor justo' se todos fossem tratados exatamente da mesma forma."
* **🎓 Definição Técnica:** A Média Aritmética é uma medida de tendência central calculada pela soma de todos os valores (`Σx`) dividida pelo número total de observações (`n`). É a medida de centro mais comum, mas é altamente **sensível** a valores extremos (outliers).
* **🍳 Receita:**

In [2]:
media_salarial = df_empresa['salario'].mean()
print(f"A Média salarial da empresa é: R$ {media_salarial:,.2f}")

A Média salarial da empresa é: R$ 17,546.15


* **📊 Resultado:** O resultado é um valor muito alto. Note como esse número é **enganoso**. Ninguém na empresa (exceto o CEO) ganha perto disso. A média foi "puxada" (inflada) pelo outlier de 150.000.
* **Quando usar:** Use a Média quando sua distribuição for "normal" (simétrica, parecida com um sino) e você tiver certeza de que não há outliers extremos distorcendo o resultado.

### Receita 2.2: Mediana (`.median()`)

* **🧠 Intuição:** "Agora, vamos colocar todo mundo em fila por salário, do menor para o maior. A Mediana é o salário da pessoa que está *exatamente no meio* da fila. O salário do CEO (150.000) não importa; ele é apenas o 'último da fila' e não afeta quem está no meio."
* **🎓 Definição Técnica:** A Mediana é o **Percentil 50** (P50). É o valor central que divide o conjunto de dados ordenado em duas metades iguais (50% dos dados estão abaixo, 50% estão acima). É uma medida de tendência central **robusta**, o que significa que não é afetada por outliers.
* **🍳 Receita:**

In [3]:
mediana_salarial = df_empresa['salario'].median()
print(f"A Mediana salarial da empresa é: R$ {mediana_salarial:,.2f}")

A Mediana salarial da empresa é: R$ 6,100.00


* **📊 Resultado:** O resultado será `R$ 6.100,00`. Compare este valor com a Média (R$ 17.546). O valor de R$ 6.100 é muito mais *representativo* do salário "típico" de um funcionário desta empresa.
* **Por que é melhor (Robustez):** Quando a Média e a Mediana estão muito distantes, isso é um sinal claro da presença de outliers. Para dados de salário, preço de casa, ou qualquer coisa com grande variação, a **Mediana** é quase sempre a melhor métrica para descrever o "centro".


### Receita 2.3: Variância (`.var()`) e Desvio Padrão (`.std()`)

* **🧠 Intuição:** "Esses números medem a 'desigualdade' ou 'espalhamento' dos salários. Um Desvio Padrão *baixo* significaria que todos ganham salários parecidos. Um Desvio Padrão *alto* (como o nosso) significa que os salários estão muito espalhados (muito desiguais)."
* **🎓 Definição Técnica:** Medidas de dispersão que quantificam o espalhamento dos dados em relação à Média.
    * **Variância (`.var()`):** É a média das distâncias ao quadrado de cada ponto até a média. O resultado é em unidades ao quadrado (ex: R$²), o que é matematicamente útil, mas difícil de interpretar.
    * **Desvio Padrão (`.std()`):** É a **raiz quadrada da Variância**. Sua grande vantagem é que ele retorna à unidade original (ex: R$), tornando-o diretamente interpretável. Ele representa a "distância média" esperada de qualquer ponto de dado até a Média.
* **🍳 Receita:**

In [4]:
variancia_salarial = df_empresa['salario'].var()
desvio_padrao_salarial = df_empresa['salario'].std()

print(f"Variância (difícil de interpretar): R$² {variancia_salarial:,.2f}")
print(f"Desvio Padrão (interpretável): R$ {desvio_padrao_salarial:,.2f}")

Variância (difícil de interpretar): R$² 1,587,082,692.31
Desvio Padrão (interpretável): R$ 39,838.21


* **📊 Resultado:** A Variância será um número gigante. O Desvio Padrão será a raiz disso, que é absurdamente alto, confirmando que os salários *não* estão concentrados em torno da média; eles estão, na verdade, muito espalhados (por causa do outlier).

### Receita 2.4: Quartis/Percentis (`.quantile()`)

* **🧠 Intuição:** "Vamos dividir a 'fila de salários' em 4 partes iguais. `.quantile(0.25)` (ou Q1) nos diz o salário da pessoa que está em 25% da fila (25% ganham menos que ela). `.quantile(0.75)` (ou Q3) é o marco dos 75%. O espaço entre Q1 e Q3 é o 'miolo' da empresa."
* **🎓 Definição Técnica:** Quantis são pontos de corte que dividem uma distribuição em N partes de tamanho igual.
    * **Percentis:** Dividem em 100 partes (ex: `.quantile(0.90)` é o Percentil 90).
    * **Quartis:** Dividem em 4 partes: Q1 (`.quantile(0.25)`), Q2 (`.quantile(0.50)` - Mediana), Q3 (`.quantile(0.75)`).
    * O **Intervalo Interquartil (IQR)** (`Q3 - Q1`) é a faixa de preço dos 50% centrais dos dados, e é a medida de dispersão mais robusta (não é afetada por outliers).
* **🍳 Receita:**

In [5]:
Q1 = df_empresa['salario'].quantile(0.25)
Q2_mediana = df_empresa['salario'].quantile(0.50) # Igual ao .median()
Q3 = df_empresa['salario'].quantile(0.75)
P90 = df_empresa['salario'].quantile(0.90) # Percentil 90

print(f"Q1 (25% ganham menos que): R$ {Q1:,.2f}")
print(f"Q2 (50% ganham menos que - Mediana): R$ {Q2_mediana:,.2f}")
print(f"Q3 (75% ganham menos que): R$ {Q3:,.2f}")
print(f"P90 (90% ganham menos que): R$ {P90:,.2f}")

IQR = Q3 - Q1
print(f"\nIntervalo Interquartil (IQR): R$ {IQR:,.2f}")
print(f"O 'miolo' (50% central) da empresa ganha entre R$ {Q1:,.2f} e R$ {Q3:,.2f}")

Q1 (25% ganham menos que): R$ 5,000.00
Q2 (50% ganham menos que - Mediana): R$ 6,100.00
Q3 (75% ganham menos que): R$ 8,500.00
P90 (90% ganham menos que): R$ 9,160.00

Intervalo Interquartil (IQR): R$ 3,500.00
O 'miolo' (50% central) da empresa ganha entre R$ 5,000.00 e R$ 8,500.00


* **📊 Resultado (Explicado):** O P90 (Percentil 90) é um valor alto, mostrando que o outlier distorce até os percentis mais altos. Os quartis Q1 e Q3 dão uma visão muito mais realista da faixa salarial da "maioria" dos funcionários. O IQR mostra que a metade central dos funcionários tem uma variação salarial relativamente contida.

### Receita 2.5: O Sumário Completo (`.describe()`)

* **🧠 Intuição:** "É a 'super-função' que aperta um botão e nos dá *quase todas* essas estatísticas (Média, Mediana/50%, Quartis/25%/75%, Desvio Padrão, Contagem, Min, Max) de uma só vez, tanto para números quanto para texto!"
* **🎓 Definição Técnica:** O método `.describe()` do Pandas retorna um DataFrame contendo estatísticas descritivas univariadas. Por padrão, ele analisa colunas numéricas (`int`, `float`), mas o argumento `include` pode ser usado para analisar outros tipos (`'object'` para strings, `'all'` para todos os tipos). Para dados numéricos, calcula: contagem (`count`), média (`mean`), desvio padrão (`std`), mínimo (`min`), máximo (`max`) e os quartis (25%, 50%, 75%). Para dados categóricos/texto, calcula: contagem (`count`), número de valores únicos (`unique`), o valor mais frequente (`top`) e a frequência desse valor (`freq`).
* **🍳 Receita:**

In [6]:
# Opção 1: Resumo apenas da coluna 'salario'
sumario_salario = df_empresa['salario'].describe()
print("--- Resumo Completo (apenas Salário) ---")
print(sumario_salario)

# Opção 2 (Mais Comum): Resumo de TODAS as colunas numéricas
sumario_completo_numerico = df_empresa.describe()
print("\n--- Resumo Completo (Colunas Numéricas) ---")
print(sumario_completo_numerico)

# Opção 3 (Bônus): Resumo de colunas de TEXTO (Categóricas)
# 'object' é o tipo de dado do Pandas para strings
sumario_texto = df_empresa.describe(include=['object'])
print("\n--- Resumo Completo (Colunas de Texto) ---")
print(sumario_texto)

--- Resumo Completo (apenas Salário) ---
count        13.000000
mean      17546.153846
std       39838.206439
min        4000.000000
25%        5000.000000
50%        6100.000000
75%        8500.000000
max      150000.000000
Name: salario, dtype: float64

--- Resumo Completo (Colunas Numéricas) ---
             salario      idade
count      13.000000  13.000000
mean    17546.153846  35.538462
std     39838.206439   8.292722
min      4000.000000  25.000000
25%      5000.000000  30.000000
50%      6100.000000  33.000000
75%      8500.000000  40.000000
max    150000.000000  55.000000

--- Resumo Completo (Colunas de Texto) ---
       departamento
count            13
unique            4
top          Vendas
freq              5


* **📊 Resultado:**
    * O primeiro resultado mostra o resumo completo do `salario`. Você pode ver imediatamente a **Média (`17546.15`)** e a **Mediana (`50%` = `6100.00`)** e saber que seus dados estão distorcidos (assimétricos devido ao outlier). O `std` (Desvio Padrão) altíssimo (`42555.69`) confirma isso.
    * O segundo resultado faz o mesmo para `salario` e `idade` lado a lado, permitindo comparar rapidamente suas distribuições.
    * O terceiro resultado (`include=['object']`) é muito útil: ele mostra, para a coluna `departamento`, que há 13 entradas (`count`), 4 valores únicos (`unique` = Vendas, TI, RH, Diretoria), o valor mais comum é 'Vendas' (`top`) e ele aparece 5 vezes (`freq`).