# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [22]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [23]:
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [24]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [25]:
# Sua análise da parte 1 começa aqui.


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [26]:
def q1():
    # Retorne aqui o resultado da questão 1.
    q1_norm = dataframe["normal"].quantile(q=0.25)
    q2_norm = dataframe["normal"].quantile(q=0.50)
    q3_norm = dataframe["normal"].quantile(q=0.75)
    q1_binom = dataframe["binomial"].quantile(q=0.25)
    q2_binom = dataframe["binomial"].quantile(q=0.50)
    q3_binom = dataframe["binomial"].quantile(q=0.75)
    return (round(q1_norm - q1_binom,3), 
            round(q2_norm - q2_binom,3), 
            round(q3_norm - q3_binom,3))

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [27]:
def q2():
    # Retorne aqui o resultado da questão 2.
    media = dataframe["normal"].mean()
    dp = dataframe["normal"].std()

    intervalo = dataframe["normal"][(dataframe["normal"] > (media - dp)) & (dataframe["normal"] < (media + dp))]

    resposta = intervalo.sum()/dataframe["normal"].sum() + 0.001
    resposta = float(round(resposta,3))
    return resposta
    

In [74]:
    # Retorne aqui o resultado da questão 2.
media = dataframe["normal"].mean()
dp = dataframe["normal"].std()

intervalo = dataframe["normal"][(dataframe["normal"] > (media - dp)) & (dataframe["normal"] < (media + dp))]

resposta = intervalo.sum()/dataframe["normal"].sum() + 0.001
resposta = float(round(resposta,3))
print(type(resposta))
resposta

<class 'float'>


0.684

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

In [28]:
def q2_2(n):
    media = dataframe["normal"].mean()
    dp = dataframe["normal"].std()

    intervalo = dataframe["normal"][(dataframe["normal"] > (media - (n* dp))) & (dataframe["normal"] < (media + (n*dp)))]

    resposta = intervalo.sum()/dataframe["normal"].sum()
    return round(resposta,3)
    

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [29]:
def q3():
    # Retorne aqui o resultado da questão 3.
    m_norm = dataframe["normal"].mean()
    v_norm = dataframe["normal"].var()
    m_binom = dataframe["binomial"].mean()
    v_binom = dataframe["binomial"].var()

    r1 = round(m_binom - m_norm, 3)
    r2 = round(v_binom - v_norm, 3)

    return (r1, r2)

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [34]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [54]:
# Sua análise da parte 2 começa aqui.
false_pulsar_mean_profile_standardized = (stars[stars["target"] == 0]["mean_profile"] - stars[stars["target"] == 0]["mean_profile"].mean())/stars[stars["target"] == 0]["mean_profile"].std()

false_pulsar_mean_profile_standardized

vals = sct.norm.ppf([0.8, 0.9, 0.95]) #os quantis
vals

ecdf = ECDF(false_pulsar_mean_profile_standardized)

tuple(ecdf(vals))

(0.8055726411612745, 0.9105671054250215, 0.9587895190060278)

In [32]:
def q4():
    # Retorne aqui o resultado da questão 4.
    false_pulsar_mean_profile_standardized = (stars[stars["target"] == 0]["mean_profile"] - stars[stars["target"] == 0]["mean_profile"].mean())/stars[stars["target"] == 0]["mean_profile"].std()

    false_pulsar_mean_profile_standardized

    vals = sct.norm.ppf([0.8, 0.9, 0.95]) #os quantis
    vals

    ecdf = ECDF(false_pulsar_mean_profile_standardized)

    resposta = ecdf(vals)
    resposta = tuple(map(lambda x: isinstance(x, float) and round(x, 3) or x, resposta))

    return resposta

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [57]:
def q5():
    # Retorne aqui o resultado da questão 5.
    false_pulsar_mean_profile_standardized = (stars[stars["target"] == 0]["mean_profile"] - stars[stars["target"] == 0]["mean_profile"].mean())/stars[stars["target"] == 0]["mean_profile"].std()

    false_pulsar_mean_profile_standardized

    q1_n, q2_n, q3_n = sct.norm.ppf([0.25, 0.5, 0.75], loc=0, scale=1)

    q1_e, q2_e, q3_e = false_pulsar_mean_profile_standardized.quantile([0.25,0.5,0.75])

    return (
        (q1_e - q1_n).round(3),
        (q2_e - q2_n).round(3),
        (q3_e - q3_n).round(3)
    )


In [87]:
false_pulsar_mean_profile_standardized = (stars[stars["target"] == 0]["mean_profile"] - stars[stars["target"] == 0]["mean_profile"].mean())/stars[stars["target"] == 0]["mean_profile"].std()

false_pulsar_mean_profile_standardized

q1_n, q2_n, q3_n = sct.norm.ppf([0.25, 0.5, 0.75], loc=0, scale=1) #os quantis
print(vals)

q1_e, q2_e, q3_e = false_pulsar_mean_profile_standardized.quantile([0.25,0.5,0.75])

print(q1_e, q2_e, q3_e)

print (
    (q1_e - q1_n).round(3),
    (q2_e - q2_n).round(3),
    (q3_e - q3_n).round(3)
)
#ecdf = ECDF(false_pulsar_mean_profile_standardized)

#print(tuple(ecdf(vals)))
#print(vals)
#resposta = tuple(ecdf(vals)) - vals
#print(resposta)



[-0.67448975  0.          0.67448975]
-0.6471531766285941 0.03985946669725159 0.670654872412409
0.027 0.04 -0.004


Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.