# Desafio 4

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [20]:
# %matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [4]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [46]:
# Sua análise da parte 1 começa aqui.
#dataframe.head()
#dataframe.info()
#dataframe.describe()

# Q1: tentativas
q1_norm = dataframe['normal'].quantile(.25)
q2_norm = dataframe['normal'].quantile(.50)
q3_norm = dataframe['normal'].quantile(.75)

q1_binom = dataframe['binomial'].quantile(.25)
q2_binom = dataframe['binomial'].quantile(.50)
q3_binom = dataframe['binomial'].quantile(.75)

dif1 = q1_norm - q1_binom
dif2 = q2_norm - q2_binom
dif3 = q3_norm - q3_binom
print(dif1.round(3), dif2.round(3), dif3.round(3)) 

# Q2: tentativas
x = dataframe['normal'].mean()
s = dataframe['normal'].std()
ecdf = ECDF(dataframe['normal'])
intervalo_min1 = x - s
intervalo_max1 = x + s
intervalo_min2 = x - (2*s)
intervalo_max2 = x + (2*s)
intervalo_min3 = x - (3*s)
intervalo_max3 = x + (3*s)

df_1 = ecdf(intervalo_max1) - ecdf(intervalo_min1)
df_2 = ecdf(intervalo_max2) - ecdf(intervalo_min2)
df_3 = ecdf(intervalo_max3) - ecdf(intervalo_min3)
print([df_1.round(3), df_2.round(3), df_3.round(3)])

# Q3: tentativas
m_binom = dataframe['binomial'].mean()
v_binom = dataframe['binomial'].var()
print(m_binom, v_binom)

m_norm = dataframe['normal'].mean()
v_norm = dataframe['normal'].var()
print(m_norm, v_norm)

dif_mean = m_binom - m_norm
dif_var = v_binom - v_norm
print(dif_mean.round(3), dif_var.round(3))

0.31 -0.01 -0.316
[0.684, 0.954, 0.997]
20.097 16.331224122412237
19.991456066526293 16.110987985368915
0.106 0.22


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [52]:
def q1():
    q1_norm = dataframe['normal'].quantile(.25)
    q2_norm = dataframe['normal'].quantile(.50)
    q3_norm = dataframe['normal'].quantile(.75)
    q1_binom = dataframe['binomial'].quantile(.25)
    q2_binom = dataframe['binomial'].quantile(.50)
    q3_binom = dataframe['binomial'].quantile(.75)
    dif1 = q1_norm - q1_binom
    dif2 = q2_norm - q2_binom
    dif3 = q3_norm - q3_binom
    return (dif1.round(3), dif2.round(3), dif3.round(3)) 
    pass

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [53]:
def q2():
    x = dataframe['normal'].mean()
    s = dataframe['normal'].std()
    ecdf = ECDF(dataframe['normal'])
    intervalo_min = x - s
    intervalo_max = x + s
    df_1 = ecdf(intervalo_max) - ecdf(intervalo_min)
    return np.asscalar(df_1.round(3))
    pass

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [44]:
def q3():
    m_binom = dataframe['binomial'].mean()
    v_binom = dataframe['binomial'].var()
    m_norm = dataframe['normal'].mean()
    v_norm = dataframe['normal'].var()
    dif_mean = m_binom - m_norm
    dif_var = v_binom - v_norm
    return (dif_mean.round(3), dif_var.round(3))
    pass

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [48]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [141]:
# Sua análise da parte 2 começa aqui.
#stars.head()
#stars.info()
#stars.describe()

# Q4: tentativas
false_pulsar_filtered = stars['mean_profile'][stars['target'] == 0]
false_pulsar_mean_profile_standardized = [x for x in (false_pulsar_filtered - false_pulsar_filtered.mean()) / false_pulsar_filtered.std()]
norm_80 = sct.norm.ppf(0.8)
norm_90 = sct.norm.ppf(0.9)
norm_95 = sct.norm.ppf(0.95)
ecdf = ECDF(false_pulsar_mean_profile_standardized)
tuple(ecdf([norm_80, norm_90, norm_95]).round(3))


# Q5: tentativas
norm_q1 = sct.norm.ppf(0.25)
norm_q2 = sct.norm.ppf(0.50)
norm_q3 = sct.norm.ppf(0.75)
print([norm_q1,norm_q2,norm_q3])

pulsar_q1 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.25)
pulsar_q2 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.50)
pulsar_q3 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.75)

tuple([(pulsar_q1 - norm_q1)[0].round(3), (pulsar_q2 - norm_q2)[0].round(3), (pulsar_q3 - norm_q3)[0].round(3)])

[-0.6744897501960817, 0.0, 0.6744897501960817]


(0.027, 0.04, -0.004)

## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [107]:
def q4():
    false_pulsar_filtered = stars['mean_profile'][stars['target'] == 0]
    false_pulsar_mean_profile_standardized = [x for x in (false_pulsar_filtered - false_pulsar_filtered.mean()) / false_pulsar_filtered.std()]
    norm_80 = sct.norm.ppf(0.8)
    norm_90 = sct.norm.ppf(0.9)
    norm_95 = sct.norm.ppf(0.95)
    ecdf = ECDF(false_pulsar_mean_profile_standardized)
    return tuple(ecdf([norm_80, norm_90, norm_95]).round(3))
    pass

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [142]:
def q5():
    norm_q1 = sct.norm.ppf(0.25)
    norm_q2 = sct.norm.ppf(0.50)
    norm_q3 = sct.norm.ppf(0.75)
    pulsar_q1 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.25)
    pulsar_q2 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.50)
    pulsar_q3 = pd.DataFrame(false_pulsar_mean_profile_standardized).quantile(.75)
    return tuple([(pulsar_q1 - norm_q1)[0].round(3), (pulsar_q2 - norm_q2)[0].round(3), (pulsar_q3 - norm_q3)[0].round(3)])
    pass

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.