<a href="https://colab.research.google.com/github/vlademirribeiro/estat-stica/blob/main/mediana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

A mediana é extremamente útil em distribuições que são assimétricas, onde a média pode ser influenciada por valores extremos (outliers).

Diferença entre Média e Mediana
Um tema bem importante é a análise da diferença entre a média e a mediana. Dizemos anteriormente que a média é sensível a valores extremos ou outliers.

Por exemplo, em uma empresa, se a maioria dos funcionários ganha entre R$ 2.000 e R$ 5.000, mas o CEO ganha R$ 50.000, a média salarial será puxada para cima, não refletindo a realidade da maioria dos funcionários. A mediana, neste caso, seria uma medida mais adequada, pois não seria tão influenciada pelo salário do CEO.

Ou seja, a análise pela mediana é mais vantajosa que a média quando você está lidando com dados mais assimétricos ou quando há outliers significativos.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Definindo a semente para garantir resultados reproduzíveis
np.random.seed(123)

# Simulando dados de salários
salarios = np.concatenate([np.random.normal(3000, 500, 100), [10000] * 10, [20000] * 5, [25000] * 2])

# Criando o DataFrame
dados = pd.DataFrame(salarios, columns=['salarios'])

# Calculando a média e a mediana
media_salarios = dados['salarios'].mean()
mediana_salarios = dados['salarios'].median()

# Ajustando o tamanho do gráfico
plt.figure(figsize=(10, 8))

sns.set_style('darkgrid')
# Criando o histograma e a linha de densidade
sns.histplot(dados['salarios'], bins=30, color='steelblue', alpha=0.3)

# Adicionando as linhas para média e mediana
plt.axvline(media_salarios, color="red", linestyle="--", label=f'Média: {media_salarios:.2f}')
plt.axvline(mediana_salarios, color="green", linestyle="--", label=f'Mediana: {mediana_salarios:.2f}')

# Adicionando título e rótulos aos eixos
plt.title("Comparação entre Média e Mediana dos Salários", fontsize=22, ha='center')
plt.xlabel("Salários (R$)", fontsize=16)
plt.ylabel("Frequência", fontsize=16)

sns.despine()

# Adicionando a legenda
plt.legend(title='', fontsize=14)

plt.show()

A moda é o valor ou valores mais frequentes em um conjunto de dados. É importante para identificar qual categoria ou valor é o mais comum. Dados podem ser unimodais (uma moda), bimodais (duas modas) ou multimodais (várias modas).

In [None]:
dados.salarios.mode()