# Testes de Normalidade

Vários métodos de estimação e testes de hipóteses foram criados sob a suposição de que a amostra aleatória tenha distribuição normal.

Distribuição Normal será usada em Estatística Inferencial e Machine Learning.

In [None]:
import numpy as np
import pandas as pd

l_path = "C:\\git\\RHE.Developers\\marcio-justo\\_Treinamentos\\15052024\\Udemy\\Estatistica para Analise de Dados com Python\\25"

enem_sp = pd.read_csv(l_path + "\\enem_2019_tratado.csv", sep=',', encoding='iso-8859-1')
enem_sp.head()

In [None]:
enem_tupa = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA == 'Tupã']

In [None]:
enem_tupa.shape

In [None]:
enem_tupa.head()

### TESTES DE NORMALIDADE

Existem testes de normalidade numéricos e testes gráficos:
- Shapiro-Wilk (limite de 5000 amostras)
- Kolmogorov_Smirnov
- Histograma
- QQPlot 

#### Histograma

In [None]:
import plotly.express as px
grafico = px.histogram(enem_sp, x='NOTA_REDACAO', nbins=32, histnorm='percent',)
grafico.update_layout(width=400, height=400, title_text='Distribuição de notas de Redação - SP')
grafico.show()

Histograma só dá uma "sensação" de distribuição normal, não deixa certeza para quem olha

In [None]:
import plotly.express as px
grafico = px.histogram(enem_tupa, x='NOTA_REDACAO', nbins=32, histnorm='percent',)
grafico.update_layout(width=400, height=400, title_text='Distribuição de notas de Redação - Tupã')
grafico.show()

In [None]:
import seaborn as sns
sns.histplot(enem_sp, x='NOTA_REDACAO', bins=32, color='orange', kde=True, stat='probability') # kde=true mostra a linha

In [None]:
sns.histplot(enem_tupa, x='NOTA_REDACAO', bins=32, color='orange', kde=True, stat='probability') # kde=true mostra a linha

#### QQPLOT - Quantil Quantil Plot

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(enem_sp['NOTA_REDACAO'], dist='norm', plot=plt)
plt.title('Normal Q-Q plot - SP')
plt.show()

In [None]:
stats.probplot(enem_tupa['NOTA_REDACAO'], dist='norm', plot=plt)
plt.title('Normal Q-Q plot - Nota Redacao - Tupã')
plt.show()

In [None]:
stats.probplot(enem_tupa['IDADE'], dist='norm', plot=plt)
plt.title('Normal Q-Q plot - Idade - Tupã')
plt.show()

Analisa dispersão sugerindo que a distribuição não é normal.
Sempre fazer teste com resultado numérico.

#### Teste de Shapiro-Wilk

In [None]:
CRITÉRIOS:

In [None]:
- Nível de significância de 0,05 ou 5% (mais utilizado)
- Quando p > 0,05 (é distribuição normal). p é nível de significância (?)

In [None]:
stats.shapiro(enem_sp.NOTA_REDACAO)

O teste de Shapiro-Wilk não se aplica a dados maiores que 5000.

In [None]:
stats.shapiro(enem_tupa.NOTA_REDACAO) # Resulta 0,000000000... um nro muito pequeno. Ou seja, a distribuição de Tupã não é normal

#### Teste Lilliefors (Kolmogorov-Smirnov)

In [None]:
# Teste numérico para verificação de distribuição normal para dados maiores que 5000
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
statsmodels.stats.diagnostic.lilliefors(enem_sp.NOTA_REDACAO, dist='norm') # 1o result: Estatística do teste ("confiança"?), 2o result: p-valor da Inferência

In [None]:
# Teste Lilliefors (Kolmogorov-Smirnov)
statsmodels.stats.diagnostic.lilliefors(enem_tupa.NOTA_REDACAO, dist='norm')

O p-valor foi abaixo de 0,05, portanto ambas as distribuições não podem ser aproximadas a uma distribuição normal