# 03-Estatística Probabilística para Análise de Dados

## Probabilidade

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
enem_guarulhos = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA =='Guarulhos']

In [None]:
enem_bauru = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA =='Bauru']

In [None]:
gua = len(enem_guarulhos)

In [None]:
bau = len(enem_bauru)

In [None]:
sp = len(enem_sp)

In [None]:
# Criando função probabilidade
def prob (A, E):
    resultado = (A / E)*100
    print('{:.2f}'.format(resultado))

In [None]:
# Probabilidade de retirar um vestibulando de guarulhos
prob(gua, sp)

In [None]:
# Probabilidade de retirar um vestibulando de bauru
prob(bau, sp)

## Probabilidade de não ocorrer um evento

In [None]:
# Criando função probabilide de não ocorrer um evento
def prob_nao (A, E):
    resultado = (1 - (A / E)) * 100
    print('{:.2f}'.format(resultado))

In [None]:
# Probabilidade de não retirar um vestibulando de guarulhos
prob_nao(gua, sp)

In [None]:
# Probabilidade de não retirar um vestibulando de bauru
prob_nao(bau, sp)

In [None]:
# Probabilidade de não retirar um vestibulando de guarulhos e nem de bauru
prob_nao(gua + bau, sp)

## Probabilidade da união mutuamente exclusivos (A U B)

In [None]:
# Criando a função probabilidade da união mutuamente exclusivos
def prob_uniao (A, B, E):
    resultado = (A/E + B/E)*100
    print('{:.2f}'.format(resultado))

In [None]:
# Probabilidade de retirar um vestibulando de guarulhos ou bauru
prob_uniao(gua, bau, sp)

## Probabilidade da intersecção de dois eventos

In [None]:
# Criando a função probabilidade da intersecção de dois eventos
def prob_intersec (A, B, E):
    resultado = (A/E * B/E)*100
    print('{:.3f}'.format(resultado))

In [None]:
# Probabilidade de retirar um vestibulando de guarulhos e de bauru (com reposição)
prob_intersec(gua, bau, sp)

## Probabilidade condicional

In [None]:
# Criando a função da probabilidade condicional
def prob_cond (AB, B):
    resultado = (AB / B)*100
    print('{:.2f}'.format(resultado))

In [None]:
# Probabilidade de retirar uma mulher parda
mulher = enem_sp.loc[enem_sp.SEXO =='F']

In [None]:
mulher_parda = mulher.loc[mulher.RACA=='parda']

In [None]:
prob_cond(len(mulher_parda), len(mulher))

## Distribuição Discreta

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

### Distribuição Binomial

In [None]:
from scipy.stats import binom

In [None]:
# Probabilidade de retirar uma mulher
mulher_enem = enem_sp.loc[enem_sp.SEXO == 'F']
p = len(mulher_enem) / len(enem_sp)
p

In [None]:
# binom.pmf = valor pontual
# binom.cdf = faixa de valores (acumulada)

In [None]:
# Probabilidade de retirar exatamente 4 mulheres num total de 10 amostras
binom.pmf(4, 10, p)

# Primeiro parâmetro: valor ou limite que se está pretendendo calcular
# Segundo parâmetro: número de tentativas
# Terceiro parâmetro: probabilidade de um sucesso

In [None]:
# Probabilidade de retirar pelo menos uma mulher num total de 10 amostras
p0 = 1 - binom.pmf(0, 10, p) # utilizando a probabilidade de não ocorrência (0 mulheres)
p0

In [None]:
# Probabilidade de retirar mais do que 1 mulher num total de 10 amostras
p1 = 1 - (binom.pmf(0, 10, p) + binom.pmf(1, 10, p))
p1

In [None]:
# Probabilidade de retirar mais do que 3 mulheres num total de 10 amostras
p2 = 1 - (binom.pmf(0, 10, p) + binom.pmf(1, 10, p) + binom.pmf(2, 10, p) + binom.pmf(3, 10, p))
p2

In [None]:
# outra forma
p3 = 1 - binom.cdf(3, 10, p)
p3

In [None]:
# Probabilidade de retirar mais do que 8 mulheres num total de 10 amostras
p4 = binom.pmf(9, 10, p) + binom.pmf(10, 10, p)
p4

### Distribuição Geométrica

In [None]:
from scipy.stats import geom

In [None]:
# Probabilidade de retirar 3 amostras e nenhuma ser mulher
# geom.pmf(x, p) x representa a tentativa de sucesso e p a probilidade
geom.pmf(4, p)

### Distribuição de Poisson

In [None]:
from scipy.stats import poisson

In [None]:
# Num local de prova 100 vestibulandos, normalmente, terminam a prova
# em 2 horas (tempo mínimo). Probabilidade de extamente 90 vestibulandos
# terminarem a prova em 2h.

# poisson.pmf(x, m) x é a qtd de ocorrências EM ESTUDO e m é a taxa de ocorrências.
poisson.pmf(90, 100)

## Testes de Normalidade

Vários métodos de estimação e testes de hipóteses foram criados sob a suposição
de que a amostra aleatória tenha distribuição normal.

In [None]:
import numpy as np 
import pandas as pd
enem_sp = pd.read_csv('./enem_2019_tratado.csv', sep=',', encoding='iso-8859-1')

In [None]:
enem_tupa = enem_sp.loc[enem_sp.NO_MUNICIPIO_RESIDENCIA == 'Tupã']

In [None]:
enem_tupa.shape

### Testes de Normalidade

Existem testes de normalidade numéricos e teste gráficos:
- Shapiro-Wilk (limite de 5000 amostras)
- Kolmogorov_Smirnov
- Histograma
- QQplot

#### Histograma

In [None]:
import plotly.express as px

In [None]:
grafico = px.histogram(enem_sp, x='NOTA_REDACAO', nbins=32, histnorm='percent')
grafico.update_layout(width=400, height=400, title_text='Distribuição de Notas da Redação (SP)')
grafico.show()

In [None]:
grafico = px.histogram(enem_tupa, x='NOTA_REDACAO', nbins=32, histnorm='percent')
grafico.update_layout(width=400, height=400, title_text='Distribuição de Notas da Redação (Tupã)')
grafico.show()

In [None]:
import seaborn as sns

In [None]:
sns.histplot(enem_sp, x='NOTA_REDACAO', bins=32, color='orange', kde=True, stat='probability')

In [None]:
sns.histplot(enem_tupa, x='NOTA_REDACAO', bins=32, color='green', kde=True, stat='probability')

#### QQPlot

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(enem_sp.NOTA_REDACAO, dist='norm', plot=plt)
plt.title('Normal QQ Plot')
plt.show()

In [None]:
stats.probplot(enem_tupa.NOTA_REDACAO, dist='norm', plot=plt)
plt.title('Normal QQ Plot')
plt.show()

In [None]:
# Somente com os testes gráficos neste caso fica difícil determinar a normaldiade
# da distribuição

#### Teste de Shapiro-Wilk

Critérios:
- Nível de Significância de 0,05 ou 5% (mais utilizado)
- Quando p > 0,05 (distribuição normal)
- O teste de Shapiro-Wilk não se aplica a dados maiores que 5000.

In [None]:
stats.shapiro(enem_tupa.NOTA_REDACAO)

In [None]:
# Pelo teste de Shapiro-Wilk, a distribuição não é normal.

#### Teste Lilliefors (Kolmogorov-Smirnov)

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
statsmodels.stats.diagnostic.lilliefors(enem_sp.NOTA_REDACAO, dist='norm')

In [None]:
statsmodels.stats.diagnostic.lilliefors(enem_tupa.NOTA_REDACAO, dist='norm')

In [None]:
# As distribuições não são normais.