# Distribuição normal

É uma distribuição de probabilidade contínua que descreve como os valores de uma variável tendem a se concentrar em torno de um valor central. Também é conhecida como

* Curva normal
* Curva de Gauss
* Curva em sino

E qual a idéia central? É que os valores "comuns" ficam mais próximos da média, e os valores "extremos" são cada vez mais raros.

# Distribuição contínua

Uma variável contínua é aquela que:

* Pode assumir infinitos valores dentro de um intervalo
* Não está limitada a números inteiros

Exemplos de variáveis contínuas:
* Altura (170cm, 170.5cm, 170.43985cm)
* Peso
* Tempo
* Temperatura

Isso importa, pois na distribuição normal não falamos em frequência exata, falamos em probabilidades dentro dos intervalos.

In [None]:
import numpy as np

# Vamos gerar uma sequência de 10 valores contínuos entre 0 e 1.
# É importante frisar que os dados gerados não seguem uma distribuição, estamos gerando apenas para mostrar o conceito de continuidade
dados_continuos = np.random.rand(10)

print(dados_continuos)

# Curva em sino

A forma da distribuição normal é um sino simétrico, onde:
* A curva cai suavemente para os lados
* Não existem "quebras"

## Interpretação visual
* O ponto mais alto do sino é a média
* Centro alto -> Muitos valores próximos da média
* Laterais baixas -> Poucos valores extremos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# No caso abaixo, camos gerar dados simulados com distribuição normal
# loc corresponde a média da distribuição
# scale corresponde ao desvio padrão ou "largura" da distribuição
# size corresponde a quantidade total de dados
dados = np.round(
    np.random.normal(loc=170, scale=10, size=1000)
)

# Vamos visualizar com um histograma
plt.figure(figsize=(10, 5))
sns.histplot(dados, bins=20, kde=True)

plt.title("Distribuição normal - Curva em formato de sino")
plt.xlabel("Valores")
plt.ylabel("Frequência")

plt.show()

# Simetria

A distribuição normal é simétrica em torno da média. Isso significa que:
* O lado esquerdo é o espelho do lado direito
* A probabilidade de estar "x unidades abaixo" da média é a mesma de estar "x unidades acima"

Por exemplo, estar 10cm abaixo da média de altura é tão provável quanto estar 10cm acima

In [None]:
media = np.mean(dados)

plt.figure(figsize=(10, 5))
sns.histplot(dados, bins=30, kde=True)

# Aqui vamos colocar uma linha vertical onde estiver a média
plt.axvline(media, color='red', linestyle='--', label="Média")

plt.title("Simetria da distribuição normal")
plt.xlabel("Valores")
plt.ylabel("Frequência")

plt.show()

Na distribuição normal:

* Média ($\mu$) -> Valor médio
* Mediana       -> Valor central (50%)
* Moda          -> Valor mais frequente

É importante mencionar que todos esses valores coincidem no centro da curva. O que não acontece com distribuição assimétricas (por exemplo: salários, renda, etc)

In [None]:
import pandas as pd

df = pd.DataFrame(dados, columns=['valores'])

# Cálculo das medidas de centralidada
media = df['valores'].mean()
mediana = df['valores'].median()
moda = df['valores'].mode()[0]

print(media, mediana, moda)

plt.figure(figsize=(10, 5))
sns.histplot(df['valores'], bins=30, kde=True)

# Linhas para média, mediana e moda
plt.axvline(media, color='red', linestyle='--', label="Média")
plt.axvline(mediana, color='blue', linestyle=':', label="Mediana")
plt.axvline(moda, color='green', linestyle='-.', label="Moda")

plt.title("Média - Mediana - Moda na distribuição normal")
plt.xlabel("Valores")
plt.ylabel("Frequência")
plt.legend()

plt.show()

# Elementos fundamentais da distribuição normal

## Média
* Representa o centro da distribuição
* Serve como referência para medir desvios

## Desvio Padrão
* Mede o espalhamento dos dados
* Indica o quão longe os valores costumam estar da média
* Desvio padrão pequeno significa dados muito parecidos
* Desvio padrão grande significa dados muito variados.

In [None]:
media = df['valores'].mean()
desvio_padrao = df['valores'].std()

print(media, desvio_padrao)

plt.figure(figsize=(10, 5))
sns.histplot(df['valores'], bins=30, kde=True)

# Linha da média
plt.axvline(media, color='red', linestyle='--', label="Média")

# Linhas do primeiro desvio padrão
plt.axvline(media + desvio_padrao, color='orange', linestyle=':', label="+\u03c3")
plt.axvline(media - desvio_padrao, color='orange', linestyle=':', label="-\u03c3")

plt.title("Média e Desvio Padrão")
plt.xlabel("Valores")
plt.ylabel("Frequência")
plt.legend()

plt.show()