# Para saber mais: desvio médio absoluto

O desvio médio absoluto (MAD) é uma medida de dispersão que avalia o quão distantes os valores de uma distribuição estão em relação à sua média. O MAD calcula a média das diferenças absolutas, oferecendo uma visão mais intuitiva da variação nos dados.

Matematicamente, o MAD é definido como:

![image.png](attachment:image.png)

Onde:

* n = número de observações.
* X_i = valores da i-ésima variável.
* x̅ = a média da distribuição.

O MAD expressa a variação média dos valores ao redor da média, ignorando o sinal das diferenças. Isto faz com que ele seja menos sensível a outliers em comparação ao desvio padrão, que veremos mais à frente, e fornece uma medida clara e compreensível de dispersão, especialmente para distribuições assimétricas ou com valores extremos.

O desvio médio absoluto é aplicado em diversos contextos sendo alguns deles:

* `Finanças`: Avaliação do risco em séries temporais de preços de ativos.
* `Controle de qualidade`: Identificar variabilidade em processos produtivos.
* `Pesquisa`: Medir a dispersão de respostas em pesquisas de opinião.

Vamos utilizar o mesmo exemplo que fizemos anteriormente sobre o consumo de energia em residências, podemos calcular seu valor da seguinte forma usando o python:



In [1]:
import pandas as pd
import numpy as np

# Gerando dados simulados de consumo de energia (kWh)
np.random.seed(42)
consumo = 2 * np.round(100 * np.random.beta(10, 4, size=10000), 0)

# Calculando a média
media_consumo = np.mean(consumo)

# Calculando o Desvio Médio Absoluto (MAD)
mad = np.mean(np.abs(consumo - media_consumo))

# Exibindo os resultados
print(f"Média do Consumo: {round(media_consumo, 2)} kWh")
print(f"Desvio Médio Absoluto: {round(mad, 2)} kWh")

Média do Consumo: 142.68 kWh
Desvio Médio Absoluto: 18.74 kWh


O MAD nos mostra a dispersão média dos consumos em relação à média geral. Conseguimos notar que isso significa que os valores de consumo em `kWh`, normalmente, estão a `18,74` unidades de distância da média.

Mas esta é só uma das medidas de dispersão que pode ser utilizada para descrever o espalhamento dos dados. Na sequência aprenderemos mais duas: variância e desvio padrão. Estas são largamente conhecidas e utilizam outras formas para calcular o grau de dispersão dos dados. Vamos trabalhar com elas em nosso projeto?

## variância e desvio padrão

Na estatística e análise de dados, compreender a variabilidade dos dados é essencial para investigar os padrões, identificar as tendências e tomar decisões baseadas em conceitos sólidos. Medidas como a variância, o desvio padrão e o desvio médio absoluto (MAD) desempenham um papel importante nesse contexto, fornecendo diferentes formas de avaliar a dispersão dos valores em relação à média. Vamos explorar os dois primeiros, e comentar sobre as diferenças entre o desvio padrão e desvio médio absoluto utilizando o caso do consumo de energia em residências que trabalhamos anteriormente.

Variância (σ2ou S2)
A variância é uma medida de dispersão que representa o grau de variação dos dados em relação à média. Ela calcula a média dos quadrados das diferenças entre cada valor e a média da distribuição. Por ser baseada no quadrado das diferenças, a variância atribui maior peso a valores extremos (outliers), o que a torna sensível a esses casos.

#### Variância populacional:

![image.png](attachment:image.png)

#### Variância Amostral:

![image-2.png](attachment:image-2.png)

Onde:

n = número de observações
X_i = valores da i-ésima variável.
μ = média da população
x̅ = a média da distribuição.
A variância tem como unidade de medida o quadrado da unidade original, o que pode dificultar a interpretação direta. Logo, recorremos para o desvio padrão.

Desvio Padrão (σ ou S)
O desvio padrão é a raiz quadrada da variância populacional ou amostral. Ele é expresso na mesma unidade dos dados originais, o que facilita a interpretação e a comparação.

#### Desvio padrão populacional:

![image-3.png](attachment:image-3.png)

#### Desvio padrão amostral:

![image-4.png](attachment:image-4.png)

Vamos prosseguir com o mesmo exemplo que fizemos anteriormente sobre o consumo de energia em residências. Nele, podemos calcular a variância, desvio padrão e comparar com o desvio médio absoluto (MAD).


In [2]:
# Gerando dados simulados de consumo de energia (kWh)
np.random.seed(42)
consumo = 2 * np.round(100 * np.random.beta(10, 4, size=10000), 0)

# Calculando a média
media_consumo = np.mean(consumo)

# Calculando a variância
variancia = np.var(consumo)

# Calculando o desvio padrão
desvio_padrao = np.std(consumo)

# Calculando o Desvio Médio Absoluto (MAD)
mad = np.mean(np.abs(consumo - media_consumo))

# Exibindo os resultados
print(f"Média do Consumo: {round(media_consumo, 2)} kWh")
print(f"Variância: {round(variancia, 2)} kWh^2")
print(f"Desvio Padrão: {round(desvio_padrao, 2)} kWh")
print(f"Desvio Médio Absoluto: {round(mad, 2)} kWh")

Média do Consumo: 142.68 kWh
Variância: 539.39 kWh^2
Desvio Padrão: 23.22 kWh
Desvio Médio Absoluto: 18.74 kWh


Resumindo, o MAD é mais resistente a variações extremas e pode ser mais representativo em dados com amostras pequenas ou dados assimétricos. Já o desvio padrão é preferível em análises estatísticas para grandes amostras ou quando queremos destacar a influência dos outliers.

#### Ver projeto final