## Introdução à Inferência Estatística

*fonte: Wikipedia*

Inferência estatística é um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativo (amostra) sobre um universo (população), sendo que assume-se que a população é muito maior do que o conjunto de dados observados, a amostra. Tal tipo de afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Para realizar este trabalho o estatístico coleta informações de dois tipos, experimentais (as amostras) e aquelas que obtém na literatura. As duas principais escolas de inferência são a inferência frequencista (ou clássica) e a inferência bayesiana.

A inferência estatística é geralmente distinta da estatística descritiva. A descrição estatística pode ser vista como a simples apresentação dos fatos, nos quais o modelo de decisões feito pelo analista tem pouca influência. É natural que análises estatísticas avancem, indo da descrição para a inferência de padrões. Essa última tarefa depende do modelo usado e/ou criado pelo analista dos dados. 

Na prática, a matematica é mais dedutiva e a inferência é indutiva.

- Parâmetros -> População
- Estatisticas -> Amostra

<br>
<img src="img/estatistica.png" width="450" />
<br>

### Conceitos fundamentais para a compreeensão da estatística

- **Viés**: Viés ou erro sistemático é a distorção sistemática entre a medida de uma variável estatística e o valor real da grandeza a estimar. A introdução de um viés no cálculo estatístico pode estar ligada quer a imperfeição ou deformação da amostra (estatística) que serve de base para a estimativa, quer ao próprio método de avaliação. Estudaremos **viés** na aula de **Inferência 2**.

- **Intervalos de confiança**:  Intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro populacional desconhecido.

- **Testes de hipóteses**: ou teste de significância é um procedimento estatístico que permite tomar uma decisão (aceitar ou rejeitar a hipótese).

Vamos então aprofundar agora os conceitos de **intervalo de confiança** e **teste de hipótese**, e deixar viés para a próxima aula.

- **Curva Normal:**

Distribuição De-Moivre-Laplace-Gauss

Nos séculos dezoito e dezenove, alguns matemáticos e físicos desenvolveram uma função densidade de probabilidade que descrevia os erros experimentais obtidos em medidas físicas _Caire_, 2012. De certa forma todo e qualquer processo de mensuração está sujeito a um erro de medida. Esse erro pode ter diferentes fontes, desde a variação de tempertura, tempo, entre inúmeras outras características não identificáveis. Essa função densidade de probabilidade é curva conhecida como distribuição normal ou gaussina.

A grande utilidade dessa distribuição está associada ao fato de que aproxima de forma bastante satisfatória as curvas de frequências de medidas físicas.

<br>
<img src="img/normal.png" width="550" />
<br>

## Intervalo de Confiança

*fonte: Wikipedia*

Em estatística, intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro populacional desconhecido. Introduzido na estatística por Jerzy Neyman em 1937, é um intervalo observado (calculado a partir de observações) que pode variar de amostra para amostra e que com dada frequência (nível de confiança) inclui o parâmetro de interesse real não observável.

Como os dados observados são amostras aleatórias da população, o intervalo de confiança construído a partir dos dados também é aleatório. Entretanto, o intervalo de confiança calculado a partir de uma amostra particular não inclui necessariamente o valor real do parâmetro. Quando se tem 99% de confiança de que o valor real do parâmetro está no intervalo de confiança, significa que 99% dos intervalos de confiança observados têm o valor real do parâmetro. Tomando–se qualquer amostra particular, o parâmetro populacional desconhecido pode ou não pode estar no intervalo de confiança observado.

<br>
<img src="img/intervalo_de_confianca.png" width="700" />
<br>

# Teste de Hipóteses

Teste de hipóteses, teste estatístico ou teste de significância é um procedimento estatístico que permite tomar uma decisão (aceitar ou rejeitar a hipótese nula ${H_0}$ entre duas ou mais hipóteses (geralmente adota-se hipótese nula ${H_0}$ e hipótese alternativa ${H_1}$), utilizando os dados observados de um determinado experimento. Há diversos métodos para realizar o teste de hipóteses, que incluem Fisher (teste de significância), o método de Neyman–Pearson, método de Bayes, e o método t-Student.

Por meio da teoria da probabilidade, é possível inferir sobre quantidades de interesse de uma população a partir de uma amostra observada de um experimento científico. Por exemplo, estimar pontualmente e de forma intervalar um parâmetro de interesse, testar se uma determinada teoria científica deve ser descartada, verificar se um lote de remédios deve ser devolvido por falta de qualidade, entre outros. Por meio do rigor matemático, a inferência estatística pode ser utilizada para auxiliar a tomada de decisões nas mais variadas áreas.

<br>
<img src="img/zona_aceitacao.png" width="450" />
<br>

Portanto, para um teste de hipóteses teremos geralmente:

- Hipótese nula ${H_0}$: é a hipótese assumida como verdadeira para a construção do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar e **não rejeitar**.

- Hipótese alternativa ${H_1}$: é considerada quando a hipótese nula não tem evidência estatística.

Os testes de hipóteses são utilizados para determinar quais resultados de um estudo científico podem levar à rejeição da hipótese nula ${H_0}$ a um nível de significância pré–estabelecido. O estudo da teoria das probabilidades e a determinação da estatística de teste correta são fundamentais para a coerência de um teste de hipótese. Se as hipóteses do teste de hipóteses não forem assumidas de maneira correta, o resultado será incorreto e a informação será incoerente com a questão do estudo científico. Os tipos conceituais de erro (erro do tipo I e erro do tipo II) e os limites paramétricos ajudam a distinguir entre a hipótese nula ${H_0}$ e a hipótese alternativa ${H_1}$.

<br>
<img src="img/erro_tabela.png">
<br>

Graficamente temos:

<br>
<br>
<img src="img/erros.png" width="600" />
<br>
<br>

\## Procedimentos para fazer um Teste de Hipótese com uma amostra

É apropriado para comparar a amostra com a população a partir da hipótese. As características da população são conhecidas a partir da teoria ou são calculadas a partir da população.

- (1) Escolher a hipótese a ser testada
- (2) Dependendo do que se quer testar, escolher a estatística a ser usada na comparação dos valores na realização do teste de hipóteses

Vamos ver agora os tipos de teste mais comuns para **mostragem alearórias simples - uma variável**.

### Teste da média ou t-Student

Por exemplo, para se testar um certo valor $\overline x$ como média da hipótese de uma população com média $\mu_0$ e variância $\sigma^2$ conhecida, devemos utilizar a transformação seguinte, com $n$ observações:

<br>
$$z=\frac{\overline x-\mu_0}{\sigma / \sqrt{n}}$$
<br>

onde:

- ${\bar x}$ - valor médio da hipótese
- ${\mu_0}$ - valor medio da amostra
- ${\sigma}$ - desvio padrão da população
- ${n}$ - tamanho da amostra

Caso o desvio padrão da população seja desconhecido, utilizamos o desvio padrão da amostra ${s}$:

<br>
$$z=\frac{\overline x-\mu_0}{s / \sqrt{n}}$$
<br>

Para este caso, o desvio padrão amostral ${s}$ será:

<br>
$$s=\sqrt{\frac{\sum(x_i-\overline x)²}{n-1}}$$
<br>

Para melhor visualização do teste de hipóteses da média, a figura abaixo ilustra a média $\mu_0$ da amostra com a grande região de não rejeição, e a média da hipótese à esquerda gerando uma segunda curva normal e as regiões de rejeição para o **erro tipo I** e o **erro tipo II** em destaque.

<br>
<br>
<img src="img/Teste_T_Gráfico_bicaudal.gif" width="450" />
<br>
<br>

### Teste da variância

Para se testar a variância, deveremos utilizar a estatística *Ki-Quadrado*, com $(n-1)$ graus de liberdade

<br>
$$\chi^2 = \frac{(n-1)s^2}{\sigma_0}$$
<br>

### Teste da proporção

O teste a proporção é análogo ao teste das médias, só que para valores de proporção: 

<br>
$$z=\frac{p\prime-p_0}{\sqrt{\frac{p_0-(1-p_0)}{n}}}$$
<br>

## Valor crítico e região crítica

Com a estatística escolhida e com o nível de significância $\alpha$ escolhido, é possível encontrar o **valor crítico** e também a **região crítica**. 

#### Nível de significância e p-value

Para ciência, o nível de significância adotado em geral é 0.95, o que torna o valor critico para *p-value* = 0.05 (1-p).

Como veremos nos exemplos mais adiante, para se testar um certo valor de média da hipótese nula ${\bar x}$, com a média nominal ${\mu_0}$, o desvio padrão ${\sigma}$ e o tamanho da amostra ${n}$, deve-se calcular o intervalo de confiança e, caso a média da hipótese esteja dentro do intervalo de confiança, então **não rejeitamos** a hipótese nula, caso contrário, a hipótese nula deve ser **rejeitada**.

Segundo a figura abaixo, conseguimos visualizar a região central chamada de região de aceitação ou não rejeição, contendo 95% da área sob a curva de densidade de distribuição da variável em estudo, e a região crítica representada pelas duas bordas nas extremidades direita e esquerda, cada uma somando 2.5% da área sob a curva, totalizando os 5% remanescentes que justificam o valor crítico de *p-value* = 0.05. É interessante observar os valores críticos de **z-score** (como veremos adiante) em -1.96 (à esquerda) e 1.96 (à direita).

<br>
<img src="img/teste_hipotese.png" width="450" />
<br>

## Teste de Hipóteses com duas amostras

É apropriado para comparar duas amostras, tipicamente amostra experimental e amostra de controle a partir de um experimento cientificamente controlado. Também pode ser chamado de **teste para comparação de 2 médias**.

### Teste pareado

É apropriado para comparar duas amostras quando é impossível controlar variáveis importantes. Em vez de comparar dois conjuntos, os componentes são pareados entre amostras. Então, a diferença entre os componentes se torna a amostra. Tipicamente a média das diferenças é comparada a 0. O cenário comum de exemplo para quando o teste pareado é apropriado é quando um único conjunto de sujeitos de teste tem algo aplicado a eles e o teste destina-se a verificar um efeito.

Calculamos as diferenças dos valores das amostras e calculamos $\overline x$ e $s$ das diferenças e usamos a estatística:
<br><br>
$$t=\frac{\overline x- \mu_0}{s / \sqrt{n}} \sim t(n-1)$$
<br>

Onde $s$ é o desvio padrão amostral:

<br>
$$s=\sqrt{\frac{\sum(x_i-\overline x)²}{n-1}}$$
<br>

### Duas amostras independentes

#### Médias e variâncias conhecidas:

Teste de hipóteses para duas amostras independentes, com médias conhecidas $\overline x_1$ e $\overline x_2$, e variâncias conhecidas $\sigma_1²$ e $\sigma_2²$, sendo a diferença entra suas médias dada por $\mu_1-\mu_2=\triangle$:

<br>
$$z=\frac{(\overline x_1-\overline x_2)- \triangle} {\sqrt{\frac{\sigma_1²}{n_1}+\frac{\sigma_2²}{n_2}}} \sim N(0;1)$$
<br>

#### Médias conhecidas e variâncias desconhecidas porém iguais:

Caso as variâncias sejam desconhecidas porém iguais, utilizamos o desvio padrão amostral $s$, com $\mu_1-\mu_2=\triangle$:

<br>
$$t=\frac{(\overline x_1-\overline x_2)-
           \triangle}
         {s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$$
<br>

#### Médias conhecidas, variâncias desconhecidas e diferentes:

Caso as variâncias sejam desconhecidas porém iguais, utilizamos os desvios padrão amostrais $s_1$ e $s_2$, com $\mu_1-\mu_2=\triangle$:

<br>
$$t=\frac{(\overline x_1-\overline x_2)- \triangle} {\sqrt{\frac{s_1²}{n_1}+\frac{s_2²}{n_2}}} \sim t(\phi)$$
<br>

#### Teste para a comparação de duas Variâncias (Teste F):

É comumente usado para decidir se agrupamentos de dados por categorias são significativos. A hipótese nula é que duas variâncias são as mesmas, então o agrupamento proposto não é significativo. A estatística a ser usada será:

<br>
$$F=\frac{s_1²}{s_2²}$$
<br>

# Exemplos práticos

## Exemplo (1): Fomos contratados por uma empresa de loteria para pesquisar a proporção de clientes que compra determinado produto. A empresa manterá seu atual planejamento de marketing se a sua participação de mercado for de 50% ou mais, caso contrário, ela triplicará seus gastos em publicidade. 

- Hipótese Nula ($H_0$): 50% ou mais do mercado compra na lotérica (sem investimento adicional em MKT)
- Hipeotese Alternativa ($H_1$): menos de 50% do mercado compra na lotérica (trplicar o investimento em MKT)

### Importando as bilbiotecas necessárias

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
%matplotlib inline

### Base de dados

A base de dados será criada com o numpy.binomial como um teste de 120 observações aleatórias com valores 0 e 1 (que define se o cliente compra ou não na casa lotérica), com parâmetro de distribuição p=0.4 (que define o target da média).

### Criando um DataFrame com os dados

Estes dados teoricamente seriam obtidos pela realização de entrevistas com as pessoas nas imediações da casa lotérica para apurar quantas pessoas são clientes e quantas não são clientes.

In [None]:
p=0.4       # Definição do target (teórico)
testes=1
obs=120     # Número de Observações

np.random.seed(seed=42)

df = pd.DataFrame([int(n) for n in np.random.binomial(testes, p, obs, )], columns= ['compra_ou_não'])
df.head(10)

# soma de 1's / total de linhas = obs

In [None]:
df.plot.hist()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
variancia_teorica = p*(1-p)
variancia_teorica

## Análise dos dados

### Calculando a média 

In [None]:
market_share_amostral=df.compra_ou_não.sum()/len(df.compra_ou_não)
market_share_amostral

### Calculando a variância e o desvio-padrão

In [None]:
std = df.std()
var = df.std()**2
print('Desvio-Padrão:',std)
print('Varância:',var)

### Formulando a hipótese a ser testada

Segundo o teste de hipóteses, caso o market share da lotérica seja maior que 50% o investimento deve se manter o mesmo (não triplicar), ou seja, se $p(H_0) > 0.5$ não rejeitamos a hipótese. Neste caso conhecemos a média e a variância amostral.

Será utilizada a média amostral padronizada do ponto anterior como estatístico de teste. Adotando o nível de significância de 0.95, está sendo buscada uma regra que deixe um valor de $p > 0.05$ de rejeição quando H0 for verdadeira.

## Calculando e comparando os valores críticos

In [None]:
# Calculando manualmente, com base na fórmula (utilizando o z-score nominal para população)
mean = df.compra_ou_não.mean()
sigma = df.compra_ou_não.std()
n = len(df.compra_ou_não)

mean - 1.96*sigma/np.sqrt(n), mean + 1.96*sigma/np.sqrt(n)
# da tabela Z-Score: 0.95 / 2 = 0.4750 --> 1.96

In [None]:
# Calculando o intervalo de confiança pelo Scipy.Stats

st.norm.interval(alpha=0.95, loc=mean, scale=sigma/np.sqrt(n))

In [None]:
limite_inferior = st.norm.interval(alpha=0.95, loc=mean, scale=sigma/np.sqrt(n))[0]
limite_superior = st.norm.interval(alpha=0.95, loc=mean, scale=sigma/np.sqrt(n))[1]

In [None]:
# Comparando com a hopótese

p_H0 = 0.5

limite_inferior < p_H0 < limite_superior

Podemos perceber que o valor de p_Ho=0.5 também está fora do intervalo de confiança (zona de rejeição), o que nos faz rejeitar a hipótese Ho.

### p-value

In [None]:
# p-value por Scipy.Stats para a normal

st.norm(mean, sigma/np.sqrt(n)).sf(0.5)

In [None]:
from math import fabs

# Comparando

fabs(p_value) > 0.05

Também podemos concluir que o p-value=0.010 está fora do intervalo de confiança (menos que 0.05 em módulo), portanto reforçamos a mesma conclusão de rejeitar a hipótese Ho.

In [None]:
# Calculando as estatísticas por Scipy.Stats para t-student (retorna o Z-score amostral e o p-value)

st.ttest_1samp(df.compra_ou_não, 0.5) 

### teste com z-score

In [None]:
# Cálculo do Z-score para a amostra
p_H0=0.5
z_teste = (market_share_amostral-p_H0) / (std/(obs**(0.5)))
z_teste

In [None]:
#A decisão é...

z_score = 1.96 # Z score para a significância de 95% é de -1.96 a 1.96

from math import fabs # fabs retorna o módulo do valor.
fabs(z_teste) < fabs(z_score)

O valor do z-score=-2.62 para a p_Ho=0.5 está fora do intervalo de confiança com alpha=0.05, pois está fora do intervalo crítico(-1.96 <--> 1.96). Vamos confirmar esta condição peloss outros indicadores.

### Calculando o Alpha Máximo para o valor da hipótese

In [None]:
alpha_max = 1-st.norm(mean, sigma/np.sqrt(n)).sf(0.5)
alpha_max

## Plotando a curva Beta dos dados para verificar o comportamento da distribuição

In [None]:
from scipy.stats import beta
import matplotlib.pyplot as plt

# Para o gráfico
fig, ax = plt.subplots(1, 1) 

# Gerando a distribuição
beta_distribution = beta(100*market_share_amostral,100-100*market_share_amostral)

# Plotando a destribuição

x = np.linspace(0., 1.0, 120)

ax.plot(x, beta_distribution.pdf(x))

ax.set(xlabel='conversion rate', ylabel='density')

# Exemplo (2): Klout Score

## Introdução

Klout costumava ser um site e aplicativo móvel que usava análise de mídia social para classificar seus usuários de acordo com a influência social online através do "Klout Score", que era um valor numérico entre 1 e 100. Ao determinar a pontuação do usuário, o Klout media o tamanho de uma rede de mídia social do usuário e correlacionava o conteúdo criado para medir como outros usuários interagem com esse conteúdo. Klout lançado em 2008.

A Lithium Technologies, que adquiriu o site em março de 2014, fechou o serviço em 25 de maio de 2018.

Klout utilizava os dados do Bing, Facebook, Quadrangular, Google+, Instagram, LinkedIn, Twitter, YouTube e Wikipedia para criar perfis de usuários do Klout que recebia uma "pontuação do Klout" exclusiva. As pontuações de Klout variam de 1 a 100, com pontuações mais altas correspondendo a uma classificação mais alta da amplitude e da força da influência social on-line de cada um. Enquanto todos os usuários do Twitter recebiam uma pontuação, os usuários que se registraram no Klout podiam vincular várias redes sociais, das quais os dados da rede foram agregados para influenciar a pontuação do Klout do usuário.

<br>
<img src="img/klout.png" width="450" />
<br>

## Aplicação do Klout-Score na prática

Agora vamos observar a distribuição dos [Klout Scores](https://klout.com/corp/score) que está anexada ao arquivo `klouts_scores.csv`. com isso, vamos imaginar que 1048 observações de Klout scores seja a nossa população com as quais contamos.

## 1. Aproximando uma distribuição amostral das médias

### Orientações

1. Obtemos uma amostra de tamanho 5 e calculamos a média. Repetimos este passo 1000 vezes para fazer um histograma das médias. 
2. Obtemos uma amostra de tamanho 10 e calculamos a média. Repetimos este passo 1000 vezes.
3. Obtemos uma amostra de tamanho 100 e calculamos a média. Repetimos este passo 1000 vezes.
4. O que é observado sobre o histograma da média à medida que aumentamos o tamanho amostral?
5. O que é observado sobre o valor das médias das diferentes distribuições amostrais em relação à média populacional?

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
df = pd.read_csv('../../99 Datasets/klout_scores.csv.zip', header=None, decimal=",")
df.columns = ['k_score']

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
df.mean()

In [None]:
df.plot.hist(bins=50, figsize=(8,6))

### Definimos uma função para realizar a amostragem e calcular a média para uma amostra de tamanho n.

In [None]:
def sampling(df, n):
    """
    df = dataframe
    n = tamanho da amostra
    """
    index = np.random.choice(range(0,len(df)), size = n)
    df_s = np.array(df.iloc[index,])
    return(df_s)


def samp_mean(df, n_i):
    means = []                        # means = list()
    for reps in range(0,1000):
        s_ = sampling(df, n_i)
        m_ = s_.mean()
        means.append(m_)
    return(means)

In [None]:
for i, n in enumerate(df.values):
    print(i, n)
    if i == 10:
        break  

In [None]:
sampling.__doc__

### Verificação da redução de variância com o aumento da amostra

In [None]:
m = []
n_s = [5,10,50,300]
plt.figure(figsize=(10,10))

for i in range(len(n_s)):
    
    mm = samp_mean(df, n_s[i])
    plt.subplot(('22' + str(i+1)))
    plt.hist(mm)
    plt.xlim((0,75))
    e = np.mean(mm) - 37.71905483252884
    plt.title('n=' + str(n_s[i]) + ' - ' + 'Media=' + str(round(np.mean(mm),4)) + ' - Erro:' + str(round(e,4)) )

## 2. Calculando um intervalo de confiança com `scipy`

### Orientações

2.1. Agora, extrair uma amostra da população de tamanho n=70. 

2.2. Em seguida, calcular um intervalo de confiança de 95% para a média populacional

In [None]:
#Extrair a amostra 

n= 70 

sample = sampling(df,n)

In [None]:
#Calcular o estatístico a ser utilizado
mean, sigma, n = np.mean(sample), np.std(sample), len(sample)

# Calculamos o intervalo de confiança de uma aproximação normal com o método de scipy
st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))

In [None]:
# Ele pode ser calculado manualmente, com base na fórmula 
mean - 1.96*sigma/np.sqrt(n), mean + 1.96*sigma/np.sqrt(n)
# da tabela Z-Score: 0.95 / 2 = 0.4750 --> 1.96

In [None]:
# Podemos calcular uma aproximação normal
st.t.interval(0.95, n, loc=mean, scale=sigma/(np.sqrt(n)-1))

In [None]:
mean

2.3 Intervalo de confiança para uma amostra de 150

In [None]:
#Extrair a amostra 

n= 150

sample = sampling(df,n)

In [None]:
#Calcular o estatístico a ser utilizado
mean, sigma, n = np.mean(sample), np.std(sample), len(sample)

# Calculamos o intervalo de confiança de uma aproximação normal com o método de scipy
st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))

In [None]:
# Ele pode ser calculado manualmente, com base na fórmula 
mean - 1.96*sigma/np.sqrt(n), mean + 1.96*sigma/np.sqrt(n)
# da tabela Z-Score: 0.95 / 2 = 0.4750 --> 1.96

In [None]:
# Podemos calcular uma aproximação normal
st.t.interval(0.95, n, loc=mean, scale=sigma/(np.sqrt(n)-1))

In [None]:
mean

## 3. Fazendo um teste de hipótese em `scipy`

### Orientações

3.1. Agora, suponha que em uma consultoria é apresentada a média do Klout Score populacional de 38. Realizar um teste de hipótese sobre isso, com um nível de significância de 0.05 ( https://pt.wikipedia.org/wiki/Significância_estatística ). Apresentar as hipóteses nulas e alternativas. Qual foi a conclusão?

3.2. Suponha que, em vez de definir um nível de significância de 0.05, é definido um nível de 0.1. O resultado poderia ter sido alterado?

3.3. E se a hipótese nula indicasse que a média é 42?

### 3.1. Agora, suponha que em uma consultoria é apresentada a média do Klout Score populacional de 38. Realizar um teste de hipótese sobre isso, com um nível de significância de 0.05. Apresentar as hipóteses nulas e alternativas. Qual foi a conclusão?

Para o nosso exemplo:

- Hipotese nula (algo que se quer **não rejeitar**): a média de Klout Score de 38 é estatísticamente válida.
- Hipotese alternativa: a média de Klout Score de 38 não é estatísticamente válida.

Para este trabalho, vamos utilizar os valores do nosso **Sample** do item anterior com amostra de 150

In [None]:
# Calculando o intervalo de confiança:

mean, sigma, n = np.mean(sample), np.std(sample), len(sample)
st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))

In [None]:
mean

In [None]:
# Calculando os valores de t-Student e p-Value para a média = 38:

x_barra = 38
st.ttest_1samp(sample,x_barra) 

### Isolando os resultados para comparação

In [None]:
t_student = st.ttest_1samp(sample,x_barra)[0]
t_student

In [None]:
p_value = st.ttest_1samp(sample,x_barra)[1]/2
p_value

### Valores críticos

#### t_student

In [None]:
# Abribuindo o intervalo de confiança às variáveis para os limites superior e inferior

limite_inferior = st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))[0]
limite_superior = st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))[1]
print("%.2f" % limite_inferior,'<--->', "%.2f" % limite_superior)  

In [None]:
# Calculando t-Student crítico para os limites superior e inferior (com inversão pois t-student < 0)

t_student_critico_superior = st.ttest_1samp(sample,limite_inferior)[0]
t_student_critico_inferior = st.ttest_1samp(sample,limite_superior)[0]
print("%.2f" % t_student_critico_inferior,'<--->',"%.2f" %  t_student_critico_superior)

In [None]:
t_student_critico_inferior < t_student < t_student_critico_superior

#### p-value

O valor de p-value tem que estaar entre o limite inferior de -0.025 e o limite superior de 0.05. Somando-se as duas extremidades (superior e interior, obtemos um limite de 0.05 para o p-value, ou seja, para valores maiores que 0.05 não rejeitamos a hipótese nula, e para valores menores que 0.05 rejeitamos a hipótese nula.

In [None]:
# O p-value tem que estar dentro da área normal que comporta a região central de 95% da área da distribuição

p_value > 0.05

### 3.2. Suponha que, em vez de definir um nível de significância de 0.05, é definido um nível de 0.1. O resultado poderia ter sido alterado?

In [None]:
# 2. Significância 0.1:


# Calculamos o intervalo de confiança de uma aproximação normal com o método de scipy
st.norm.interval(0.9, loc=mean, scale=sigma/np.sqrt(n))

In [None]:
# Calculando os valores de t-Student e p-Value para a média = 38:

x_barra = 38.0
st.ttest_1samp(sample,x_barra) 

In [None]:
t_student = st.ttest_1samp(sample,x_barra)[0]
t_student

In [None]:
# Abribuindo o intervalo de confiança às variáveis para os limites superior e inferior

limite_inferior = st.norm.interval(0.90, loc=mean, scale=sigma/np.sqrt(n))[0]
limite_superior = st.norm.interval(0.90, loc=mean, scale=sigma/np.sqrt(n))[1]
print("%.2f" % limite_inferior,'<--->', "%.2f" % limite_superior) 

In [None]:
# Calculando t-Student crítico para os limites superior e inferior (com inversão pois t-student < 0)

t_student_critico_superior = st.ttest_1samp(sample,limite_inferior)[0]
t_student_critico_inferior = st.ttest_1samp(sample,limite_superior)[0]
print("%.2f" % t_student_critico_inferior,'<--->',"%.2f" %  t_student_critico_superior)

In [None]:
# Verificação t-Student
t_student_critico_inferior < t_student < t_student_critico_superior

In [None]:
# Verificação p-value
p_value = st.ttest_1samp(sample,x_barra)[1]/2
p_value

In [None]:
# O p-value tem que estar dentro da área normal que comporta a região central de 95% da área da distribuição

p_value > 0.05

### 3.3. E se a hipótese nula indicasse que a média é 42?

In [None]:
# 3. Hipótese nula indicando média 42:

st.ttest_1samp(sample,42)

In [None]:
# Calculando os valores de t-Student e p-Value para a média = 42:

x_barra = 42.0
st.ttest_1samp(sample,x_barra) 

In [None]:
t_student = st.ttest_1samp(sample,x_barra)[0]
t_student

In [None]:
# Abribuindo o intervalo de confiança às variáveis para os limites superior e inferior

limite_inferior = st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))[0]
limite_superior = st.norm.interval(0.95, loc=mean, scale=sigma/np.sqrt(n))[1]
print("%.2f" % limite_inferior,'<--->', "%.2f" % limite_superior) 

In [None]:
# Calculando t-Student crítico para os limites superior e inferior (com inversão pois t-student < 0)

t_student_critico_superior = st.ttest_1samp(sample,limite_inferior)[0]
t_student_critico_inferior = st.ttest_1samp(sample,limite_superior)[0]
print("%.2f" % t_student_critico_inferior,'<--->',"%.2f" %  t_student_critico_superior)

In [None]:
# Verificação t-Student
t_student_critico_inferior < t_student < t_student_critico_superior

In [None]:
# Verificação p-value
p_value = st.ttest_1samp(sample,x_barra)[1]/2
p_value

In [None]:
# O p-value tem que estar dentro da área normal que comporta a região central de 95% da área da distribuição

p_value > 0.05

# parenteses (Avançado)

In [None]:
!pip install wand
# instalar http://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-on-windows

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation
from wand.image import Image
from wand.display import display
%matplotlib notebook
%matplotlib notebook 


# 1000 simulations of die roll
n = 1000

# In each simulation, there is one trial more than the previous simulation
avg = []
for i in range(1,n):
    a = np.random.randint(1,7,10)
    avg.append(np.average(a))
    
# sample 10 expected value of die rolls
avg[1:10]

# Function that will plot the histogram, where current is the latest figure
def clt(current):
    # if animation is at the last frame, stop it
    plt.cla()
    if current == 1000: 
        a.event_source.stop()

    plt.hist(avg[0:current])

    plt.gca().set_title('Expected value of die rolls')
    plt.gca().set_xlabel('Average from die roll')
    plt.gca().set_ylabel('Frequency')

    plt.annotate('Die roll = {}'.format(current), [3,27])
    
fig = plt.figure()
a = animation.FuncAnimation(fig, clt, interval=1)

In [None]:
#a.save('clt2.gif', writer='imagemagick', fps=10)