# Medidas de Dispersão com Pandas

As medidas de dispersão mostram o quanto os dados variam em torno da média.  
Vamos calcular:

- **Variância**
- **Desvio Padrão**
- **Coeficiente de Variação (CV%)**

Usaremos como exemplo as variáveis `Idade` e `Altura`.


In [1]:
import pandas as pd

# Dados de exemplo
dados = {
    "Idade": [25, 32, 47, 19, 52, 32],
    "Altura": [1.72, 1.85, 1.68, 1.90, 1.75, 1.85]
}

df = pd.DataFrame(dados)
df


Unnamed: 0,Idade,Altura
0,25,1.72
1,32,1.85
2,47,1.68
3,19,1.9
4,52,1.75
5,32,1.85


## Variância, Desvio Padrão e Coeficiente de Variação

Usamos as funções:

- `var()` para variância
- `std()` para desvio padrão
- E fazemos o cálculo manual do **coeficiente de variação (CV%)**:
  \[
  \text{CV%} = \left( \frac{\text{Desvio Padrão}}{\text{Média}} \right) \times 100
  \]


In [2]:
# Variância
var_idade = df["Idade"].var()
var_altura = df["Altura"].var()

# Desvio padrão
std_idade = df["Idade"].std()
std_altura = df["Altura"].std()

# Coeficiente de variação (CV%)
cv_idade = (std_idade / df["Idade"].mean()) * 100
cv_altura = (std_altura / df["Altura"].mean()) * 100

# Exibir os resultados
print(f"Variância - Idade: {var_idade:.2f}")
print(f"Desvio Padrão - Idade: {std_idade:.2f}")
print(f"Coeficiente de Variação - Idade: {cv_idade:.2f}%")

print(f"\nVariância - Altura: {var_altura:.4f}")
print(f"Desvio Padrão - Altura: {std_altura:.4f}")
print(f"Coeficiente de Variação - Altura: {cv_altura:.2f}%")


Variância - Idade: 161.10
Desvio Padrão - Idade: 12.69
Coeficiente de Variação - Idade: 36.79%

Variância - Altura: 0.0076
Desvio Padrão - Altura: 0.0870
Coeficiente de Variação - Altura: 4.86%


## Conclusão

As medidas de dispersão ajudam a entender o quanto os dados estão espalhados em relação à média.

O **coeficiente de variação (CV%)** é especialmente útil para comparar a dispersão entre variáveis de diferentes escalas, como `Idade` (anos) e `Altura` (metros).


## Variância

A variância indica o quanto os dados se afastam da média.  
É calculada como a **média dos quadrados das diferenças entre os valores e a média**.


In [3]:
variancia_idade = df["Idade"].var()
variancia_altura = df["Altura"].var()

print(f"Variância - Idade: {variancia_idade:.2f}")
print(f"Variância - Altura: {variancia_altura:.4f}")


Variância - Idade: 161.10
Variância - Altura: 0.0076


## Desvio Padrão

O desvio padrão é a **raiz quadrada da variância**.  
Expressa a dispersão na **mesma unidade dos dados**, o que facilita a interpretação.


In [4]:
desvio_idade = df["Idade"].std()
desvio_altura = df["Altura"].std()

print(f"Desvio padrão - Idade: {desvio_idade:.2f}")
print(f"Desvio padrão - Altura: {desvio_altura:.4f}")


Desvio padrão - Idade: 12.69
Desvio padrão - Altura: 0.0870


## Coeficiente de Variação (CV%)

O CV é calculado como:

\[
CV\% = \left( \frac{\text{Desvio Padrão}}{\text{Média}} \right) \times 100
\]

É útil para **comparar variabilidades** entre conjuntos de dados com unidades diferentes.


In [5]:
media_idade = df["Idade"].mean()
media_altura = df["Altura"].mean()

cv_idade = (desvio_idade / media_idade) * 100
cv_altura = (desvio_altura / media_altura) * 100

print(f"Coeficiente de Variação - Idade: {cv_idade:.2f}%")
print(f"Coeficiente de Variação - Altura: {cv_altura:.2f}%")


Coeficiente de Variação - Idade: 36.79%
Coeficiente de Variação - Altura: 4.86%


## Conclusão

- A **variância e o desvio padrão** medem o grau de dispersão dos dados.
- O **coeficiente de variação** nos permite comparar essa dispersão entre diferentes variáveis.
- Neste caso, a **idade** apresentou maior variabilidade que a **altura**, o que é evidenciado por um CV% mais alto.
