In [None]:
# -*- coding: utf-8 -*-
"""Lista04.ipynb

In [None]:
Automatically generated by Colaboratory.

In [None]:
Original file is located at
    https://colab.research.google.com/drive/1SoHLdr2UITWfHhCQrHqlyF3-z0FI8XnI

Lista 4 - ICs e Bootstrap

 Intervalos de Confiança

In [None]:
Intervalos de confiança são intervalos calculados a partir de observações que podem variar de amostra para amostra e que com dada frequência (nível de confiança) inclui o parâmetro de interesse real não observável. 

In [None]:
**Por exemplo:** Um intervalo com nível de confiança de 99% para a média de uma variável aleatória significa que ao calcularmos *n* intervalos de confiança tomando como base *n* amostras aleatórias, espera-se que 99% dos intervalos construídos contenham o valor real do parâmetro (média).

In [None]:
Em outras palavras, o nível de confiança seria a proporção de intervalos de confiança construídos em experimentos separados da mesma população e com o mesmo procedimento que contém o parâmetro de interesse real.

In [None]:
Foram ministradas duas maneiras de construírmos intervalos de confiança:

In [None]:
- Probabilisticamente direto dos dados (Forma clássica).
- Via sub-amostragem com reposição (*Bootstrap*).

In [None]:
Para o primeiro caso, lembrando do conceito visto em aula, temos (para um IC com 95% de confiança):

In [None]:
$$\begin{align}
0.95 = P(-z \le Z \le z)=P \left(-1.96 \le \frac {\bar X-\mu}{\sigma/\sqrt{n}} \le 1.96 \right) = P \left( \bar X - 1.96 \frac \sigma {\sqrt{n}} \le \mu \le \bar X + 1.96 \frac \sigma {\sqrt{n}}\right).
\end{align}$$

In [None]:
Vamos colocar na prática!

 Exemplo Inicial

In [None]:
Vamos começar construindo um intervalo de confiança pra a média de uma distribuição Normal (Gaussiana) com média $\mu = 0$ e variância $\sigma² = 1$.
"""

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as ss
plt.rcParams["figure.figsize"] = (10,8)

In [None]:
np.random.seed(0) # comando adicionado para reprodutibilidade dos números aleatórios gerados

In [None]:
def confidence_interval(loc, scale, alpha=0.99):
  """Essa função cria uma distribuição Normal com base nos parâmetros fornecidos e constrói um intervalo de confiança para sua média.
  
  Parameters:
  -----------
  loc (float): Média da distribuição desejada.
  scale (float): Desvio padrão da distribuição desejada.
  alpha (float): Nível de confiança do intervalo. Deve ser um valor entre 0 e 1. Default = 0.99, o que corresponde a 99% de confiança.

In [None]:
  Returns:
  -----------
  X (array): Dados gerados segundo uma distribuição Normal(0,1).
  LI (float): Limite inferior do intervalo calculado.
  LS (float): Limite superior do intervalo calculado.

  
<br>
  <br>
  # Gerando amostra de uma Normal(0,1) de tamanho N<br>
  N = 1000<br>
  X = np.random.normal(loc=loc, scale=scale, size=N)<br>
  # Criando plot da amostra gerada<br>
  plt.xlabel('Valores', fontsize=12)<br>
  plt.ylabel('Frequências', fontsize=12)<br>
  plt.title('Histograma de amostra de uma Distribuição Normal(0,1)', fontsize=16)<br>
  plt.hist(X, color='#A3333D', alpha=0.9, rwidth=0.85, bins=15)<br>
  plt.show()<br>
  # Calculando intervalo de  95% de confiança para a média manualmente<br>
  LI = X.mean() - 1.96 * (X.std(ddof=1) / np.sqrt(N)) # LI = limite inferior<br>
  LS = X.mean() + 1.96 * (X.std(ddof=1) / np.sqrt(N)) # LS = limite superior<br>
  print("INTERVALO DE CONFIANCA (manual) = [{:.4f}, {:.4f}]".format(LI, LS))<br>
  # Utilizando o valor da confiança como base, utilizamos o pacote scipy.stats<br>
  LI = X.mean() - ss.norm.ppf(alpha+(1-alpha)/2).round(2) * (X.std(ddof=1) / np.sqrt(N))<br>
  LS = X.mean() + ss.norm.ppf(alpha+(1-alpha)/2).round(2) * (X.std(ddof=1) / np.sqrt(N))<br>
  # Printando intervalo de confiança<br>
  print("INTERVALO DE CONFIANCA (com scipy)= [{:.4f}, {:.4f}]".format(LI, LS))<br>
  return X, LI, LS<br>
X, LI, LS = confidence_interval(loc=0, scale=1, alpha=0.95)<br>
odemos afirmar que, se pudermos repetir muitas vezes o experimento e coletarmos os dados, aproximadamente em 95% das vezes a média populacional estará no intervalo encontrado.

In [None]:
**Algumas observações interessantes. Note que:**
- A cada vez que executamos o código acima, tanto os intervalos como o histograma dos dados são diferentes. Estamos realizando uma amostra de uma distribuição.
- A medida que o tamanho da amostra (N) cresce, o tamanho do intervalo - para um mesmo nível de confiança - cai. Isso ocorre pois com mais dados temos uma maior certeza de que os valores encontrados de fato representam a população de interesse.
- Os valores dos intervalos de confiança (manual e scipy) só coincidem quando *alpha=0.95*. Essa é a vantagem de se utilizar o pacote. Para valores diferentes de 0.95, deve-se consultar o valor correspondente na distribuição Z.

 Dados ENEM 2015.

In [None]:
Nos exercícios dessa seção vamos trabalhar com os dados do [ENEM 2015](https://raw.githubusercontent.com/pedroharaujo/ICD_Docencia/master/enem2015.csv).

In [None]:
Importando pandas e carregando dados.
"""

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/pedroharaujo/ICD_Docencia/master/enem2015.csv'
data = pd.read_csv(url)


Primeiras visualizações do banco de dados do ENEM 2015.
<br>
data.head()<br>
data.describe()<br>
# Exercício 01

In [None]:
Altere a função abaixo para retornar o intervalo de confiança para a média da variável 'NOTA_MEDIA_ESCOLA' para escolas com 'DEPENDENCIA_ADMINISTRATIVA' == Estadual.

In [None]:
Nível de confiança: 99%

In [None]:
**Lembrete**: será necessário aplicar os conhecimentos de pandas do módulo anterior para filtrar o DataFrame selecionando apenas os casos de interesse.
"""

In [None]:
def CI(data):
    nota_media_estadual = data.loc[data['DEPENDENCIA_ADMINISTRATIVA'] == 'Estadual', 'NOTA_MEDIA_ESCOLA']
    tamAmostras = len(nota_media_estadual)
    mediaAmostraOrig = np.mean(nota_media_estadual)
    desvioPadraoAmostraOrig = np.std(nota_media_estadual, ddof=1)
    alpha = 0.99
    normalTCL = np.random.normal(loc=mediaAmostraOrig, scale=desvioPadraoAmostraOrig, size=tamAmostras)
    LI = mediaAmostraOrig - ss.norm.ppf(alpha+(1-alpha)/2).round(2) * (desvioPadraoAmostraOrig / np.sqrt(tamAmostras))
    LS = mediaAmostraOrig + ss.norm.ppf(alpha+(1-alpha)/2).round(2) * (desvioPadraoAmostraOrig / np.sqrt(tamAmostras))
    return (LI, LS)


Carregando os módulos de testes!
<br>
from numpy.testing import assert_almost_equal<br>
from numpy.testing import assert_equal<br>
from numpy.testing import assert_array_almost_equal<br>
from numpy.testing import assert_array_equal<br>
osso teste


In [None]:
(LI, LS) = CI(data)

In [None]:
assert_equal(548.13, LI.round(2))
assert_equal(551.09, LS.round(2))


## Exercício 02 (Sem correção automática)<br>
Plote uma CDF da coluna 'TAXA_DE_APROVACAO'.<br>
**Use o statsmodels e crie um objeto `ecdf = ECDF(...)`.**<br>
Esta tarefa não tem correção automática, use o gráfico abaixo para saber se acertou ou não.<br>
![](https://github.com/pedroharaujo/ICD_Docencia/blob/master/ECDF.png?raw=true)<br>


codigo para importar a função ECDF

In [None]:
from statsmodels.distributions.empirical_distribution import ECDF

YOUR CODE HERE

In [None]:
ecdf = ECDF(data['TAXA_DE_APROVACAO'])
plt.xlabel('Taxa de Aprovação (%)')
plt.ylabel('% of Total')
plt.title('Empirical CDF for TAXA_DE_APROVACAO')
plt.plot(ecdf.x, ecdf.y)
plt.show()


## Bootstrap<br>
Quando falamos em bootstrap deve-se ter em mente que estamos falando de amostragem com reposição.<br>
De maneira simplista, utilizamos bootstrap quando queremos construir um intervalo de confiança para uma variável e dispomos de poucos dados. Ao realizarmos várias sub-amostras **com reposição**, a lei dos grandes números nos garante que estamos aproximando a população de interesse.<br>
Note o destaque para o termo com reposição. É CRUCIAL que as sub-amostras sejam feitas com reposição. Só assim garantimos a aleatoriedade!<br>
Veja o exemplo abaixo.<br>


In [None]:
col = 'TAXA_DE_PARTICIPACAO'
n_sub = 10000 #numero de sub-amostras
size = len(data) #tamanho do dataframe
values = np.zeros(n_sub)

In [None]:
def bootstrap(n_sub, size, col):
  for i in range(n_sub):
    # replace=TRUE garanta amostras com reposição
    random_state=i #garante replicabilidade do experimento
    sample = data.sample(size, replace=True, random_state=i) 
    
    # Lembre que podemos utilizar mediana, média ou qualquer outra estatística agregada
    # values[i] = sample[col].median()
    values[i] = sample[col].mean()
  
  # Gerando valores inferior e superior para um nível de confiança de 95%
  LI = np.percentile(values, 2.5)
  LS = np.percentile(values, 97.5)
  return values, LI, LS

In [None]:
values, LI, LS = bootstrap(n_sub, size, col)
print('Intervalo de Confianca: [{}, {}]'.format(LI.round(4), LS.round(4)))


## Exercício 03<br>
Realizando um groupy pela coluna 'DEPENDENCIA_ADMINISTRATIVA' conseguimos observar para quais casos vale a pena utilizarmos bootstrap.<br>


In [None]:
data.groupby('DEPENDENCIA_ADMINISTRATIVA').count()


**A)** Na função abaixo, retorne o número da opção que indica para quais 'DEPENDENCIAS_ADMINISTRATIVAS' é aconselhado utilizar Bootstrap para construção do intervalo de confiança:<br>
- 1) Estadual e Federal.<br>
- 2) Estadual e Municipal.<br>
- 3) Estadual e Privada.<br>
- 4) Federal e Municipal.<br>
- 5) Federal e Privada.<br>
- 6) Municipal e Privada.<br>


In [None]:
def resposta():
  return 4

In [None]:
assert_equal(4, resposta())


**B)** Construa um intervalo de confiança via Bootstrap para a média da variável 'NOTA_MEDIA_ESCOLA' para escolas de 'DEPENDENCIA_ADMINISTRATIVA' **Federal**. Você deve utilizar 5000 amostras e nível de confiança de 90%.<br>
*Nota*: você deve utilizar o argumento random_state=i na função data.sample, como no exemplo inicial da seção de Bootstrap.<br>


In [None]:
def bootstrap_mean(n_sub, alpha):
  notaMedEscolFed = data.loc[data['DEPENDENCIA_ADMINISTRATIVA'] == 'Federal', 'NOTA_MEDIA_ESCOLA']
  valores = np.zeros(n_sub)
  for i in range(n_sub):
    sample = notaMedEscolFed.sample(len(notaMedEscolFed), replace=True, random_state=i)
    valores[i] = sample.mean()
    percentLI = (100 - (alpha * 100)) / 2
    percentLS = 100 - percentLI
    LI = np.percentile(valores, percentLI)
    LS = np.percentile(valores, percentLS)

In [None]:
  return  valores, (LI, LS)

In [None]:
values, (LI, LS) = bootstrap_mean(n_sub=5000, alpha=0.9)

In [None]:
assert_equal(622.03, LI.round(2))
assert_equal(635.43, LS.round(2))


## Exercício 4<br>
Altere a função abaixo para que retorne a 'DEPENDENCIA_ADMINISTRATIVA' (Federal, Estadual, Municipal ou Privada) cujo intervalo de confiança para *mediana* via *bootstrap* para a variável 'TAXA_DE_PARTICIPACAO' apresente maior amplitude (LS-LI), e qual esse valor. <br>
Utilize:<br>
- 95% como nível de confiança.<br>
- 5000 como número de sub-amostras.<br>


In [None]:
def bootstrap_mediana(n_sub, alpha, dependencia):
  TaxaPartEscolFed = data.loc[data['DEPENDENCIA_ADMINISTRATIVA'] == dependencia, 'TAXA_DE_PARTICIPACAO']
  valores = np.zeros(n_sub)
  for i in range(n_sub):
    sample = TaxaPartEscolFed.sample(len(TaxaPartEscolFed), replace=True, random_state=i)
    valores[i] = sample.median()
    percentLI = (100 - (alpha * 100)) / 2
    percentLS = 100 - percentLI
    LI = np.percentile(valores, percentLI)
    LS = np.percentile(valores, percentLS)

In [None]:
  return  dependencia, (LI, LS)

In [None]:
def ci_amplitude():
  dependencias = ['Federal','Estadual','Municipal','Privada']
  intervaloMaior = 0
  dependenciaMaior = None
  for dependencia in dependencias:
    dependAtual, (LIatual, LSatual) = bootstrap_mediana(5000, 0.95, dependencia)
    intervaloAtual = LSatual - LIatual
    if intervaloMaior < intervaloAtual:
      intervaloMaior = intervaloAtual
      dependenciaMaior = dependAtual

In [None]:
  # Sua função deve retorar uma tupla como no exemplo
  # exemplo: (dependencia_administrativa, amplitude_do_ic)
  return dependenciaMaior, intervaloMaior

In [None]:
(dep, amp) = ci_amplitude()
assert_equal(dep, 'Municipal')
assert_equal(amp.round(2), 11.09)