<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/02_Estatistica_Descritiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 02. Estat√≠stica Descritiva (Resumindo os Dados)

Ap√≥s limpar os dados no Notebook 01, o pr√≥ximo passo √© *entend√™-los*. A Estat√≠stica Descritiva nos ajuda a resumir milhares de linhas de dados em alguns poucos n√∫meros-chave.

Este notebook foca em duas perguntas:
1.  **"Qual √© o valor 't√≠pico'?"** (Medidas de Tend√™ncia Central)
2.  **"Os dados s√£o 'parecidos' ou 'espalhados'?"** (Medidas de Dispers√£o)

In [1]:
import pandas as pd
import numpy as np

# Vamos criar um dataset fict√≠cio de sal√°rios para ilustrar
# NOTE: Inclu√≠mos um "outlier" (150000) para mostrar a diferen√ßa entre m√©dia e mediana.
data = {
    'departamento': ['Vendas', 'Vendas', 'Vendas', 'Vendas', 'Vendas',
                     'TI', 'TI', 'TI', 'TI', 'TI',
                     'RH', 'RH',
                     'Diretoria'],
    'salario': [4000, 4500, 5000, 5200, 4800,   # M√©dia Vendas: 4700
                8000, 8500, 9000, 7800, 9200,   # M√©dia TI: 8500
                6000, 6100,                     # M√©dia RH: 6050
                150000],                        # O Outlier (CEO)
    'idade': [25, 28, 33, 31, 29,
              40, 42, 38, 35, 45,
              30, 31,
              55]
}

df_empresa = pd.DataFrame(data)

print("--- DataFrame de Sal√°rios (com Outlier) ---")
print(df_empresa)

--- DataFrame de Sal√°rios (com Outlier) ---
   departamento  salario  idade
0        Vendas     4000     25
1        Vendas     4500     28
2        Vendas     5000     33
3        Vendas     5200     31
4        Vendas     4800     29
5            TI     8000     40
6            TI     8500     42
7            TI     9000     38
8            TI     7800     35
9            TI     9200     45
10           RH     6000     30
11           RH     6100     31
12    Diretoria   150000     55


### Receita 2.1: M√©dia (`.mean()`)

* **üß† Intui√ß√£o:** "Vamos juntar o sal√°rio de *todo mundo* (incluindo o CEO) e dividir em partes iguais. √â o 'valor justo' se todos fossem tratados exatamente da mesma forma."
* **üéì Defini√ß√£o T√©cnica:** A M√©dia Aritm√©tica √© uma medida de tend√™ncia central calculada pela soma de todos os valores (`Œ£x`) dividida pelo n√∫mero total de observa√ß√µes (`n`). √â a medida de centro mais comum, mas √© altamente **sens√≠vel** a valores extremos (outliers).
* **üç≥ Receita:**

In [2]:
media_salarial = df_empresa['salario'].mean()
print(f"A M√©dia salarial da empresa √©: R$ {media_salarial:,.2f}")

A M√©dia salarial da empresa √©: R$ 17,546.15


* **üìä Resultado:** O resultado √© um valor muito alto. Note como esse n√∫mero √© **enganoso**. Ningu√©m na empresa (exceto o CEO) ganha perto disso. A m√©dia foi "puxada" (inflada) pelo outlier de 150.000.
* **Quando usar:** Use a M√©dia quando sua distribui√ß√£o for "normal" (sim√©trica, parecida com um sino) e voc√™ tiver certeza de que n√£o h√° outliers extremos distorcendo o resultado.

### Receita 2.2: Mediana (`.median()`)

* **üß† Intui√ß√£o:** "Agora, vamos colocar todo mundo em fila por sal√°rio, do menor para o maior. A Mediana √© o sal√°rio da pessoa que est√° *exatamente no meio* da fila. O sal√°rio do CEO (150.000) n√£o importa; ele √© apenas o '√∫ltimo da fila' e n√£o afeta quem est√° no meio."
* **üéì Defini√ß√£o T√©cnica:** A Mediana √© o **Percentil 50** (P50). √â o valor central que divide o conjunto de dados ordenado em duas metades iguais (50% dos dados est√£o abaixo, 50% est√£o acima). √â uma medida de tend√™ncia central **robusta**, o que significa que n√£o √© afetada por outliers.
* **üç≥ Receita:**

In [3]:
mediana_salarial = df_empresa['salario'].median()
print(f"A Mediana salarial da empresa √©: R$ {mediana_salarial:,.2f}")

A Mediana salarial da empresa √©: R$ 6,100.00


* **üìä Resultado:** O resultado ser√° `R$ 6.100,00`. Compare este valor com a M√©dia (R$ 17.546). O valor de R$ 6.100 √© muito mais *representativo* do sal√°rio "t√≠pico" de um funcion√°rio desta empresa.
* **Por que √© melhor (Robustez):** Quando a M√©dia e a Mediana est√£o muito distantes, isso √© um sinal claro da presen√ßa de outliers. Para dados de sal√°rio, pre√ßo de casa, ou qualquer coisa com grande varia√ß√£o, a **Mediana** √© quase sempre a melhor m√©trica para descrever o "centro".


### Receita 2.3: Vari√¢ncia (`.var()`) e Desvio Padr√£o (`.std()`)

* **üß† Intui√ß√£o:** "Esses n√∫meros medem a 'desigualdade' ou 'espalhamento' dos sal√°rios. Um Desvio Padr√£o *baixo* significaria que todos ganham sal√°rios parecidos. Um Desvio Padr√£o *alto* (como o nosso) significa que os sal√°rios est√£o muito espalhados (muito desiguais)."
* **üéì Defini√ß√£o T√©cnica:** Medidas de dispers√£o que quantificam o espalhamento dos dados em rela√ß√£o √† M√©dia.
    * **Vari√¢ncia (`.var()`):** √â a m√©dia das dist√¢ncias ao quadrado de cada ponto at√© a m√©dia. O resultado √© em unidades ao quadrado (ex: R$¬≤), o que √© matematicamente √∫til, mas dif√≠cil de interpretar.
    * **Desvio Padr√£o (`.std()`):** √â a **raiz quadrada da Vari√¢ncia**. Sua grande vantagem √© que ele retorna √† unidade original (ex: R$), tornando-o diretamente interpret√°vel. Ele representa a "dist√¢ncia m√©dia" esperada de qualquer ponto de dado at√© a M√©dia.
* **üç≥ Receita:**

In [4]:
variancia_salarial = df_empresa['salario'].var()
desvio_padrao_salarial = df_empresa['salario'].std()

print(f"Vari√¢ncia (dif√≠cil de interpretar): R$¬≤ {variancia_salarial:,.2f}")
print(f"Desvio Padr√£o (interpret√°vel): R$ {desvio_padrao_salarial:,.2f}")

Vari√¢ncia (dif√≠cil de interpretar): R$¬≤ 1,587,082,692.31
Desvio Padr√£o (interpret√°vel): R$ 39,838.21


* **üìä Resultado:** A Vari√¢ncia ser√° um n√∫mero gigante. O Desvio Padr√£o ser√° a raiz disso, que √© absurdamente alto, confirmando que os sal√°rios *n√£o* est√£o concentrados em torno da m√©dia; eles est√£o, na verdade, muito espalhados (por causa do outlier).

### Receita 2.4: Quartis/Percentis (`.quantile()`)

* **üß† Intui√ß√£o:** "Vamos dividir a 'fila de sal√°rios' em 4 partes iguais. `.quantile(0.25)` (ou Q1) nos diz o sal√°rio da pessoa que est√° em 25% da fila (25% ganham menos que ela). `.quantile(0.75)` (ou Q3) √© o marco dos 75%. O espa√ßo entre Q1 e Q3 √© o 'miolo' da empresa."
* **üéì Defini√ß√£o T√©cnica:** Quantis s√£o pontos de corte que dividem uma distribui√ß√£o em N partes de tamanho igual.
    * **Percentis:** Dividem em 100 partes (ex: `.quantile(0.90)` √© o Percentil 90).
    * **Quartis:** Dividem em 4 partes: Q1 (`.quantile(0.25)`), Q2 (`.quantile(0.50)` - Mediana), Q3 (`.quantile(0.75)`).
    * O **Intervalo Interquartil (IQR)** (`Q3 - Q1`) √© a faixa de pre√ßo dos 50% centrais dos dados, e √© a medida de dispers√£o mais robusta (n√£o √© afetada por outliers).
* **üç≥ Receita:**

In [5]:
Q1 = df_empresa['salario'].quantile(0.25)
Q2_mediana = df_empresa['salario'].quantile(0.50) # Igual ao .median()
Q3 = df_empresa['salario'].quantile(0.75)
P90 = df_empresa['salario'].quantile(0.90) # Percentil 90

print(f"Q1 (25% ganham menos que): R$ {Q1:,.2f}")
print(f"Q2 (50% ganham menos que - Mediana): R$ {Q2_mediana:,.2f}")
print(f"Q3 (75% ganham menos que): R$ {Q3:,.2f}")
print(f"P90 (90% ganham menos que): R$ {P90:,.2f}")

IQR = Q3 - Q1
print(f"\nIntervalo Interquartil (IQR): R$ {IQR:,.2f}")
print(f"O 'miolo' (50% central) da empresa ganha entre R$ {Q1:,.2f} e R$ {Q3:,.2f}")

Q1 (25% ganham menos que): R$ 5,000.00
Q2 (50% ganham menos que - Mediana): R$ 6,100.00
Q3 (75% ganham menos que): R$ 8,500.00
P90 (90% ganham menos que): R$ 9,160.00

Intervalo Interquartil (IQR): R$ 3,500.00
O 'miolo' (50% central) da empresa ganha entre R$ 5,000.00 e R$ 8,500.00


* **üìä Resultado (Explicado):** O P90 (Percentil 90) √© um valor alto, mostrando que o outlier distorce at√© os percentis mais altos. Os quartis Q1 e Q3 d√£o uma vis√£o muito mais realista da faixa salarial da "maioria" dos funcion√°rios. O IQR mostra que a metade central dos funcion√°rios tem uma varia√ß√£o salarial relativamente contida.

### Receita 2.5: O Sum√°rio Completo (`.describe()`)

* **üß† Intui√ß√£o:** "√â a 'super-fun√ß√£o' que aperta um bot√£o e nos d√° *quase todas* essas estat√≠sticas (M√©dia, Mediana/50%, Quartis/25%/75%, Desvio Padr√£o, Contagem, Min, Max) de uma s√≥ vez, tanto para n√∫meros quanto para texto!"
* **üéì Defini√ß√£o T√©cnica:** O m√©todo `.describe()` do Pandas retorna um DataFrame contendo estat√≠sticas descritivas univariadas. Por padr√£o, ele analisa colunas num√©ricas (`int`, `float`), mas o argumento `include` pode ser usado para analisar outros tipos (`'object'` para strings, `'all'` para todos os tipos). Para dados num√©ricos, calcula: contagem (`count`), m√©dia (`mean`), desvio padr√£o (`std`), m√≠nimo (`min`), m√°ximo (`max`) e os quartis (25%, 50%, 75%). Para dados categ√≥ricos/texto, calcula: contagem (`count`), n√∫mero de valores √∫nicos (`unique`), o valor mais frequente (`top`) e a frequ√™ncia desse valor (`freq`).
* **üç≥ Receita:**

In [6]:
# Op√ß√£o 1: Resumo apenas da coluna 'salario'
sumario_salario = df_empresa['salario'].describe()
print("--- Resumo Completo (apenas Sal√°rio) ---")
print(sumario_salario)

# Op√ß√£o 2 (Mais Comum): Resumo de TODAS as colunas num√©ricas
sumario_completo_numerico = df_empresa.describe()
print("\n--- Resumo Completo (Colunas Num√©ricas) ---")
print(sumario_completo_numerico)

# Op√ß√£o 3 (B√¥nus): Resumo de colunas de TEXTO (Categ√≥ricas)
# 'object' √© o tipo de dado do Pandas para strings
sumario_texto = df_empresa.describe(include=['object'])
print("\n--- Resumo Completo (Colunas de Texto) ---")
print(sumario_texto)

--- Resumo Completo (apenas Sal√°rio) ---
count        13.000000
mean      17546.153846
std       39838.206439
min        4000.000000
25%        5000.000000
50%        6100.000000
75%        8500.000000
max      150000.000000
Name: salario, dtype: float64

--- Resumo Completo (Colunas Num√©ricas) ---
             salario      idade
count      13.000000  13.000000
mean    17546.153846  35.538462
std     39838.206439   8.292722
min      4000.000000  25.000000
25%      5000.000000  30.000000
50%      6100.000000  33.000000
75%      8500.000000  40.000000
max    150000.000000  55.000000

--- Resumo Completo (Colunas de Texto) ---
       departamento
count            13
unique            4
top          Vendas
freq              5


* **üìä Resultado:**
    * O primeiro resultado mostra o resumo completo do `salario`. Voc√™ pode ver imediatamente a **M√©dia (`17546.15`)** e a **Mediana (`50%` = `6100.00`)** e saber que seus dados est√£o distorcidos (assim√©tricos devido ao outlier). O `std` (Desvio Padr√£o) alt√≠ssimo (`42555.69`) confirma isso.
    * O segundo resultado faz o mesmo para `salario` e `idade` lado a lado, permitindo comparar rapidamente suas distribui√ß√µes.
    * O terceiro resultado (`include=['object']`) √© muito √∫til: ele mostra, para a coluna `departamento`, que h√° 13 entradas (`count`), 4 valores √∫nicos (`unique` = Vendas, TI, RH, Diretoria), o valor mais comum √© 'Vendas' (`top`) e ele aparece 5 vezes (`freq`).