# Parte 2 - Estatística

## 2.1 Pacotes e funções necessários

In [None]:
import scipy.stats as st  # estatística descritiva
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
"""
Vetor com as idades dos participantes do tutorial.
"""

idades = np.array([30, 24, 32, 18, 14, 40, 73, 78, 13, 33, 41, 18,
                   48, 39, 24, 31, 40, 37, 22, 51, 25, 33, 4, 19, 18])

# alguma info sobre os dados
print('Mínimo: ', idades.min())
print('Máximo: ', idades.max())
print('Média: ', idades.mean())
print('Mediana: ', np.median(idades))
print('Desvio padrão: ', np.std(idades))


# st.mode() retorna dois vetores: o primeiro com as
# modas, o segundo com suas quantidades.
moda, num_moda = st.mode(idades)

print('Moda: ', moda[0], '; ', 'quantas vezes: ', num_moda[0])

In [None]:
"""
Usando os dados, plotaremos um box plot.

Da esquerda para a direita: valores atípicos inferiores, limite inferior,
1o quartil, 2o quartil, 3o quartil, limite superior e valores atípicos superiores.

Mais exemplos na página do matplotlib:
http://matplotlib.org/examples/pylab_examples/boxplot_demo.html
"""

plt.figure(figsize=(16,8))
plot1 = plt.boxplot(idades, 0, 'rs', 0)

## 2.2 Distribuições de probabilidade contínuas

In [None]:
"""
Funções para distribuições de probabilidade.

Existem várias distribuições possíveis, discretas e contínuas.
Veja a lista completa em:
http://docs.scipy.org/doc/scipy/reference/stats.html
"""

from scipy.stats import norm, expon, chi2  # distribuições contínuas normal, exponencial e chi2 

In [None]:
# Gerando variáveis aleatórias de acordo com as distribuições
xale_norm = norm.rvs(size=150)
xale_exp = expon.rvs(size=150)

# df: parâmetro de forma em chi2.
# Mais em:
# http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html
xale_chi2 = chi2.rvs(df=5, size=150)

In [None]:
"""
* Histograma das variáveis aleatórias
geradas pela normal.
* Média e desvio padrão.
* Função densidade de probabilidade.
"""

plot_norm = plt.hist(xale_norm, normed=True)  # normed=True normaliza o gráfico.
norm_media, norm_dvpad = norm.fit(xale_norm)
print('Média (normal): ', norm_media)
print('Desvio padrão (normal): ', norm_dvpad)

# criando um eixo_x para a FdP.
eixo_x = np.linspace(-4, 4, 100)
plot_norm = plt.plot(eixo_x, norm.pdf(eixo_x), 'r-')

In [None]:
"""
* Histograma das variáveis aleatórias
geradas pela exponencial.
* Média e desvio padrão.
* Função densidade de probabilidade.
"""

plot_exp = plt.hist(xale_exp, normed=True)  # normed=True normaliza o gráfico.
exp_media, exp_dvpad = expon.fit(xale_exp)
print('Média (exponencial): ', exp_media)
print('Desvio padrão (exponencial): ', exp_dvpad)

# criando um eixo_x para a FdP.
eixo_x = np.linspace(0, 8, 100)
plot_norm = plt.plot(eixo_x, expon.pdf(eixo_x), 'r-')

In [None]:
"""
* Histograma das variáveis aleatórias
geradas pela chi2.
* Média e desvio padrão.
* Função densidade de probabilidade.
"""

plot_chi2 = plt.hist(xale_chi2, normed=True)  # normed=True normaliza o gráfico.
chi2_media, chi2_dvpad = norm.fit(xale_chi2)
print('Média (chi2): ', chi2_media)
print('Desvio padrão (chi2): ', chi2_dvpad)

# criando um eixo_x para a FdP.
eixo_x = np.linspace(-2, 25, 100)
plot_chi2 = plt.plot(eixo_x, chi2.pdf(eixo_x, df=5), 'r-')

## 2.3 Distribuições de probabilidade discretas

In [None]:
from scipy.stats import randint, poisson, hypergeom  # distribuições discretas uniforme, Poisson e hipergeométrica

In [None]:
"""
* Gráfico de dispersão das variáveis aleatórias
geradas pela distribuição uniforme.
* Função massa de probabilidade.
"""

pto_min = -5; pto_max = 5
eixo_x = np.arange(pto_min, pto_max, 0.25)  # gerando um eixo X.

plt.figure(figsize=(14,6))
stem_randint = plt.stem(eixo_x, randint(pto_min, pto_max).pmf(eixo_x))

In [None]:
"""
* Gráfico de dispersão das variáveis aleatórias
geradas pela distribuição de Poisson.
* Função massa de probabilidade.
"""

pto_min = 0; pto_max = 10
eixo_x = np.arange(pto_min, pto_max)  # gerando um eixo X.

# Poisson pede um valor lambda. Vamos variá-lo de 1 a 6:

plt.figure(figsize=(14,6))
for lmbda in range(6):
    plot_poisson = plt.plot(eixo_x, poisson(lmbda+1).pmf(eixo_x), 'o-', label=r'$\lambda$ = ' + str(lmbda+1))

leg = plt.legend()

In [None]:
"""
* Gráfico de dispersão das variáveis aleatórias
geradas pela distribuição hipergeométrica.
* Função massa de probabilidade.
"""

pto_min = 0; pto_max = 10
eixo_x = np.arange(pto_min, pto_max)  # gerando um eixo X.

# hypergeom pede três parâmetros, que indicam o tamanho da coleção, 
# o tamanho do conjunto e a quantidade de pontos aleatórios da coleção.
# Ela representa as possibilidades do número de objetos retirados
# aleatoriamente da coleção estarem no conjunto.
# Mais info:
# http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.hypergeom.html

[colecao, conjunto, num_ale] = [30, 12, 5]
plt.figure(figsize=(14,6))
stem_hiperg = plt.stem(eixo_x, hypergeom.pmf(eixo_x, colecao, conjunto, num_ale))
stem_hiperg = plt.ylabel('Probabilidade')
stem_hiperg = plt.xlabel('Número de objetos no conjunto')

# Fim da Parte 2.