# Aula 3: Desvio‑padrão e Z‑score 


## O que você vai aprender
1. **Média** (revisão rápida) e por que ela não basta.
2. **Desvio‑padrão**: o tamanho médio do desvio em relação à média.
3. **Cálculo manual** com um exemplo pequeno (para entender a lógica).
4. **Z‑score**: quantos desvios‑padrão um valor está distante da média.
5. **Como comparar resultados em **escala diferente** usando z‑score.
6. **Exercícios guiados** ao final de cada parte.

## Importar bibliotecas e carregar o banco de dados

Vamos começar carregando o arquivo `pesquisa_exemplo.csv` que você enviou.  
> Observação: caso a variável `idade` **não exista** no seu banco, o notebook escolherá **automaticamente** a **primeira coluna numérica** disponível e informará qual foi.

In [4]:
import pandas as pd

df = pd.read_csv("pesquisa_exemplo.csv")

# Exibir as primeiras linhas (aperte ▶ para executar)
df.head()

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (


Unnamed: 0,id,sexo,fx_etaria,escolaridade,uf,renda,satisfacao_vida,voto2,uso_redes_diario,apoia_proib_arma
0,1,feminino,16-24,fundamental,CE,1612,3,outros,1,1
1,2,masculino,35-44,fundamental,BA,1882,6,branco/nulo/não sabe,0,0
2,3,masculino,35-44,fundamental,MG,2241,7,PT,1,0
3,4,masculino,35-44,fundamental,MG,1831,4,PT,1,0
4,5,feminino,45-59,fundamental,RS,1835,10,branco/nulo/não sabe,1,0


---
## 1. Revisão rápida: média

A **média** é um ponto de referência: soma todos os valores e divide pela quantidade de casos.  
Ela resume a **posição central**, mas **não conta** o quão **espalhados** os dados estão. Para isso, usaremos o **desvio‑padrão**.

In [5]:
# Calcular a média da variável escolhida
media = df['renda'].mean()

media

2911.55

> **Interpretação:** a média indica um **valor típico**.  
> Mas duas turmas podem ter a **mesma média** e **dispersões diferentes**. É por isso que precisamos do **desvio‑padrão**.

---
## Desvio‑padrão: o tamanho médio do desvio

Ideia central: o desvio‑padrão mede **o quanto, em média, os casos se afastam da média**.  
- **Maior desvio‑padrão** ⇒ dados mais **espalhados**.  
- **Menor desvio‑padrão** ⇒ dados mais **concentrados** perto da média.

> Por que elevar ao quadrado? Para que **diferenças negativas e positivas não se anulem**.

In [6]:
# Calcular o desvio-padrão (amostral, padrão do pandas)
desvio = df['renda'].std()

desvio

1519.714161041774

In [7]:
# Mostrar média e desvio-padrão juntos, com 2 casas decimais
print(f"Média ({'renda'}) = {media:.2f}")
print(f"Desvio-padrão ({'renda'}) = {desvio:.2f}")

Média (renda) = 2911.55
Desvio-padrão (renda) = 1519.71


> **Leitura:** “Em média, os valores de `{variável}` se desviam da média em aproximadamente **{desvio}** (na mesma unidade da variável).”  
> (O código acima mostra isso com duas casas decimais.)

---
## Comparando “coisas diferentes” com a mesma régua (z‑score)

Situação: duas atividades com **escalas e variações diferentes**.  
Para comparar desempenhos, usamos o **z‑score** de cada um.

- Atividade A: média 137, desvio 5. Duas pessoas terminaram em 129 e 140.  
- Atividade B: média 6,00 m (salto), desvio 0,30 m. Duas pessoas saltaram 6,60 m e 5,84 m.

In [2]:
# Atividade A (tempos menores são melhores, mas o z-score só mede posição relativa)
media_A = 137
desvio_A = 5
tempo_1 = 129
tempo_2 = 140

z_1 = (tempo_1 - media_A) / desvio_A
z_2 = (tempo_2 - media_A) / desvio_A

print(f"Pessoa 1 (129 s) → z = {z_1:.2f}")
print(f"Pessoa 2 (140 s) → z = {z_2:.2f}")

Pessoa 1 (129 s) → z = -1.60
Pessoa 2 (140 s) → z = 0.60


In [3]:
# Atividade B (saltos em metros)
media_B = 6.00
desvio_B = 0.30
salto_1 = 6.60
salto_2 = 5.84

z_s1 = (salto_1 - media_B) / desvio_B
z_s2 = (salto_2 - media_B) / desvio_B

print(f"Pessoa 1 (6,60 m) → z = {z_s1:.2f}")
print(f"Pessoa 2 (5,84 m) → z = {z_s2:.2f}")

Pessoa 1 (6,60 m) → z = 2.00
Pessoa 2 (5,84 m) → z = -0.53


> **Interpretação:** com o **z‑score**, transformamos resultados em uma **escala comum** (“quantos desvios”).  
> Isso permite **comparar desempenhos** de atividades com **unidades** e **variações** diferentes.

---
## A regra empírica (curva normal)

Em muitas situações, os dados se aproximam de uma **distribuição normal**. Nesses casos, vale a regra:

- Cerca de **68%** dos casos ficam entre **−1 e +1** desvio.  
- Cerca de **95%** entre **−2 e +2** desvios.  
- Cerca de **99,7%** entre **−3 e +3** desvios.

> **Leitura prática:** se um valor tem `z = 2`, ele está **entre os mais altos** da distribuição (aprox. 97,5 percentil).

---

### Conclusões
- O **desvio‑padrão** resume a **dispersão** em torno da média.
- O **z‑score** coloca tudo na **mesma régua** (desvios‑padrão), permitindo comparações **entre escalas**.
- Use esses indicadores como **ferramentas de leitura** dos dados — sempre com **contexto substantivo**.