### Medidas Resumo com Python

#### Objetivos:
- Aprender e calcular medidas de tendência central (média, mediana e moda).
- Entender medidas de dispersão (variância, desvio padrão e amplitude).
- Utilizar visualizações gráficas para analisar a distribuição dos dados.

#### Dataset
Vamos usar o dataset **`iris`** da biblioteca `seaborn`, que contém dados sobre o comprimento e largura de sépalas e pétalas de diferentes espécies de flores. O dataset é excelente para análise de dados básicos e gráficos.


### 1. Importando Bibliotecas e Carregando o Dataset

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

#### Carregando o dataset iris

In [None]:
df = sns.load_dataset('iris')

In [None]:
# Exibindo as primeiras linhas do dataset
print(df.head())

In [None]:
# Excluindo a coluna categórica 'species' para realizar operações numéricas
numeric_df = df.select_dtypes(include=['float64', 'int64'])

### 2. Medidas de Tendência Central

#### 2.1 Média
A **média** é a soma dos valores dividida pelo número de observações.

In [None]:
# Calculando a média
mean_values = numeric_df.mean()
print("Média dos dados:\n", mean_values)

#### 2.2 Mediana
A **mediana** é o valor central de um conjunto de dados ordenados.

In [None]:
# Calculando a mediana
median_values = numeric_df.median()
print("Mediana dos dados:\n", median_values)

#### 2.3 Moda
A **moda** é o valor que mais se repete em um conjunto de dados.

In [None]:
# Calculando a moda
mode_values = numeric_df.mode().iloc[0]
print("Moda dos dados:\n", mode_values)

#### 2.4 Assimetria Positiva (direita)
Neste tipo de distribuição, a cauda da direita é mais longa. A média é maior que a mediana e a moda.

In [None]:
# Gerando dados com assimetria positiva (cauda à direita)
data_pos_skew = np.random.lognormal(mean=0.0, sigma=1.0, size=1000)

#### 2.5 Distribuição Normal (simétrica)
Neste tipo de distribuição, a média, mediana e moda são aproximadamente iguais, pois não há assimetria.

In [None]:
# Gerando dados com distribuição normal (simétrica)
data_normal = np.random.normal(loc=0, scale=1, size=1000)

#### 2.4 Assimetria Negativa (esquerda)
Aqui, a cauda da esquerda é mais longa. A média é menor que a mediana e a moda.

In [None]:
# Gerando dados com assimetria negativa (cauda à esquerda)
data_neg_skew = -np.random.lognormal(mean=0.0, sigma=1.0, size=1000)

#### Função Auxiliar para Calcular e Exibir as Medidas Resumo
Vamos criar uma função para calcular e exibir a média, mediana e moda para cada distribuição.

In [None]:
def summary_statistics(data, name):
    mean = np.mean(data)
    median = np.median(data)
    
    # Podemos não ter moda -> valores repetidos.
    mode_result = stats.mode(data, nan_policy='omit')
    
    # Verificando a existência da moda
    try:
        mode = mode_result.mode[0]
    except IndexError:
        mode = "amodal" 
    
    print(f"{name}:\nMédia: {mean:.2f}, Mediana: {median:.2f}, Moda: {mode}")
    return mean, median, mode

In [None]:
# Assimetria positiva
mean_pos, median_pos, mode_pos = summary_statistics(data_pos_skew, "Assimetria Positiva")

# Distribuição normal
mean_norm, median_norm, mode_norm = summary_statistics(data_normal, "Distribuição Normal")

# Assimetria negativa
mean_neg, median_neg, mode_neg = summary_statistics(data_neg_skew, "Assimetria Negativa")

#### Comparação Gráfica

In [None]:
def plot_distribution(data, title, mean, median):
    plt.figure(figsize=(8, 6))
    sns.histplot(data, kde=True, bins=30, color='blue', alpha=0.6)
    
    plt.axvline(mean, color='red', linestyle='--', label=f'Média: {mean:.2f}')
    plt.axvline(median, color='green', linestyle='-', label=f'Mediana: {median:.2f}')
    #plt.axvline(mode, color='purple', linestyle='-.', label=f'Moda: {mode:.2f}')
    
    plt.title(title)
    plt.legend()
    plt.show()

In [None]:
# Assimetria positiva
plot_distribution(data_pos_skew, "Distribuição com Assimetria Positiva", mean_pos, median_pos)

# Distribuição normal
plot_distribution(data_normal, "Distribuição Normal", mean_norm, median_norm)

# Assimetria negativa
plot_distribution(data_neg_skew, "Distribuição com Assimetria Negativa", mean_neg, median_neg)

### 3. Medidas de Dispersão

#### 3.1 Variância
A **variância** mede o quanto os valores se afastam da média.

In [None]:
# Calculando a variância
variance_values = numeric_df.var()
print("Variância dos dados:\n", variance_values)

#### 3.2 Desvio Padrão
O **desvio padrão** é a raiz quadrada da variância, representando a dispersão dos dados.

In [None]:
# Calculando o desvio padrão
std_dev_values = numeric_df.std()
print("Desvio padrão dos dados:\n", std_dev_values)

#### 3.3 Amplitude
A **amplitude** é a diferença entre o maior e o menor valor de um conjunto de dados.

In [None]:
# Calculando a amplitude
range_values = numeric_df.max() - numeric_df.min()
print("Amplitude dos dados:\n", range_values)

#### Exemplo 
Gerando dois conjuntos de dados com a mesma média, mas com dispersões diferentes

In [None]:
np.random.seed(42)

# Dados com baixa dispersão
data_low_disp = np.random.normal(loc=50, scale=5, size=1000)

# Dados com alta dispersão
data_high_disp = np.random.normal(loc=50, scale=15, size=1000)

In [None]:
def dispersion_statistics(data, name):
    mean = np.mean(data)
    std_dev = np.std(data)
    coef_var = (std_dev / mean) * 100 
    
    print(f"{name}:\nMédia: {mean:.2f}, Desvio Padrão: {std_dev:.2f}, Coeficiente de Variação: {coef_var:.2f}%")
    return mean, std_dev, coef_var

In [None]:
# Baixa dispersão
mean_low, std_low, cv_low = dispersion_statistics(data_low_disp, "Baixa Dispersão")

# Alta dispersão
mean_high, std_high, cv_high = dispersion_statistics(data_high_disp, "Alta Dispersão")

In [None]:
def plot_distribution(data, title, mean):
    plt.figure(figsize=(8, 6))
    plt.hist(data, bins=30, alpha=0.6, color='blue', range=(0, 100))
    plt.axvline(mean, color='red', linestyle='--', label=f'Média: {mean:.2f}')
    
    plt.title(title)
    plt.xlabel('Valores')
    plt.ylabel('Frequência')
    plt.legend()
    plt.show()

In [None]:
# Plotando a distribuição com baixa dispersão
plot_distribution(data_low_disp, "Distribuição com Baixa Dispersão", mean_low)

# Plotando a distribuição com alta dispersão
plot_distribution(data_high_disp, "Distribuição com Alta Dispersão", mean_high)

### 4. Visualizações Gráficas

#### 4.1 Histograma
Um **histograma** é uma representação gráfica da distribuição de um conjunto de dados.

In [None]:
# Criando histogramas para cada característica do dataset iris
numeric_df.hist(bins=10, figsize=(10, 8))
plt.suptitle('Distribuição dos atributos do dataset Iris')
plt.show()

#### 4.2 Boxplot
Um **boxplot** visualiza a dispersão dos dados através de quartis, mostrando também os outliers.

In [None]:
# Criando um boxplot para visualizar a dispersão dos dados
plt.figure(figsize=(8, 6))
sns.boxplot(data=numeric_df)
plt.title('Boxplot dos atributos do dataset Iris')
plt.show()

#### 4.3 Gráfico de Dispersão
Um **scatter plot** mostra a relação entre duas variáveis quantitativas.

In [None]:
# Scatter plot para ver a relação entre comprimento e largura das pétalas
sns.scatterplot(x='petal_length', y='petal_width', data=df, hue='species')
plt.title('Gráfico de Dispersão: Comprimento vs Largura das Pétalas')
plt.show()

### 5. Conclusão

Nesta aula, exploramos as principais **medidas de tendência central** e **dispersão** e como elas podem ser aplicadas para entender a distribuição de dados. As visualizações gráficas são essenciais para obter insights mais profundos sobre as características dos dados e suas distribuições.
