<a href="https://colab.research.google.com/github/vlademirribeiro/estat-stica/blob/main/assimetria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Vamos aplicar isso a um exemplo?

Durante o verão, o consumo de energia aumenta devido ao uso de ar condicionado. No entanto, algumas residências, especialmente as desocupadas ou com sistemas de energia eficientes, apresentam consumos muito baixos, o que pode resultar em uma distribuição assimétrica à esquerda.

Vamos simular esses dados para consumo mensal a fim de compreender a distribuição. A função rvs() gera 10.000 amostras de uma distribuição Beta com parâmetros a = 10 e b = 4.

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import beta

# Definir a semente para garantir resultados reproduzíveis
np.random.seed(42)

# Gerando os dados de consumo de energia (distribuição Beta com parâmetros a=10, b=4)
consumo_energia = 2 * np.round(100 * beta.rvs(10, 4, size=10000), 0)

# Criando o DataFrame
df_consumo = pd.DataFrame(consumo_energia, columns=['Consumo'])

# Exibindo as primeiras linhas
df_consumo.head()

Agora, vamos calcular as medidas de tendência central para ter uma noção da distribuição dos dados:

In [None]:
# Exibindo as medidas
medidas = {
    'media': df_consumo['Consumo'].mean(),
    'mediana': df_consumo['Consumo'].median(),
    'moda': df_consumo['Consumo'].mode()[0]
}
medidas

media = df_consumo['Consumo'].mean()
mediana = df_consumo['Consumo'].median()
moda = df_consumo['Consumo'].mode()[0]

In [None]:
print(f'Média: {media} Mediana: {mediana} Moda: {moda}')

Se compararmos os valores obtidos com uma das curvas da imagem no início do texto, notamos uma provável assimetria à esquerda, onde há a moda > mediana > média. Vamos criar um histograma para ilustrar essa distribuição assimétrica e destacar as posições da média, mediana e moda.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Ajustando o tamanho do gráfico
plt.figure(figsize=(10, 8))

sns.set_style('darkgrid')

# Criando o histograma
sns.histplot(df_consumo['Consumo'], bins=15, color='steelblue', alpha=0.3)

# Adicionando as linhas para média, mediana e moda
plt.axvline(media, color="red", linestyle="--", label=f'Média: {media:.2f}')
plt.axvline(mediana, color="green", linestyle="-.", label=f'Mediana: {mediana:.2f}')
plt.axvline(moda, color="black", linestyle=":", label=f'Moda: {moda:.2f}')

# Títulos e rótulos
plt.title('Distribuição do consumo de energia no verão em residências', fontsize=22, ha='center')
plt.xlabel('Consumo de Energia (kWh)', fontsize=16)
plt.ylabel('Frequência', fontsize=16)

# Adicionando a legenda
plt.legend(title='', fontsize=14)

# Exibindo o gráfico
plt.show()


*   Média: tem menor valor porque é influenciada pelos valores mais baixos.

*   Mediana: representa o ponto central, menos afetado pelos extremos que a média.

* Mediana: representa o ponto central, menos afetado pelos extremos que a média.




* Simetria da Distribuição: a relação moda > mediana > médiademonstra que a distribuição é assimétrica à esquerda. Assim, identificar assimetria ajuda a decidir se transformações (como log ou raiz quadrada) são necessárias para análises estatísticas e os candidatos a outliers podem ser explorados para entender padrões incomuns no consumo.