# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF
from IPython import get_ipython

In [10]:
#%matplotlib inline

#from IPython.core.pylabtools import figsize


#figsize(12, 8)

#sns.set()

## Parte 1

### _Setup_ da parte 1

In [11]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

In [12]:
# Sua análise da parte 1 começa aqui.
df = dataframe.describe()

#dataframe['normal'].plot(kind='hist',alpha=0.6)
#dataframe['binomial'].plot(kind='hist',alpha=0.6)
#plt.legend()

## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [13]:
def q1():
    # Retorne aqui o resultado da questão 1.
    q1_norm = df['normal']['25%']
    q2_norm = df['normal']['50%']
    q3_norm = df['normal']['75%']

    q1_binom = df['binomial']['25%']
    q2_binom = df['binomial']['50%']
    q3_binom = df['binomial']['75%']
    
    x1 = round(q1_norm-q1_binom,3)
    x2 = round(q2_norm-q2_binom,3)
    x3 = round(q3_norm-q3_binom,3)
    
    return (x1, x2, x3)

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [54]:
def q2():
    # Retorne aqui o resultado da questão 2.
    std_value = dataframe.normal.std()
    mean_value = dataframe.normal.mean()
       
    ecdf = ECDF(dataframe['normal'])
    x_minus_std = mean_value - std_value
    x_plus_std = mean_value + std_value
    x = round(ecdf(x_plus_std) - ecdf(x_minus_std),3)
    
    return x

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [15]:
def q3():
    # Retorne aqui o resultado da questão 3.
    m_norm = df['normal']['mean']
    v_norm = df['normal']['std'] ** 2
    
    m_binom = df['binomial']['mean']
    v_binom = df['binomial']['std'] ** 2
    
    x1 = round(m_binom - m_norm,3)
    x2 = round(v_binom - v_norm,3)
    return (x1,x2)
    

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [16]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [17]:
# Sua análise da parte 2 começa aqui.
stars.head(7)

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False
5,119.484375,48.765059,0.03146,-0.112168,0.999164,9.279612,19.20623,479.756567,False
6,130.382812,39.844056,-0.158323,0.38954,1.220736,14.378941,13.539456,198.236457,False


## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [18]:
def q4():
    # Retorne aqui o resultado da questão 4.
    df = stars[stars['target'] == False]['mean_profile']
    # padronização da coluna
    false_pulsar_mean_profile_standardized  = (df - df.mean())/df.std()
    # acha o valor de 'x' correspondente a probabilidade acumulada
    valor_probcum_menor_80porcento = sct.norm.ppf(0.8, loc=0, scale=1)
    valor_probcum_menor_90porcento = sct.norm.ppf(0.9, loc=0, scale=1)
    valor_probcum_menor_95porcento = sct.norm.ppf(0.95, loc=0, scale=1)
    
    #calcula a probabilidade acumulada para utilizando o ECDF
    ecdf =ECDF(false_pulsar_mean_profile_standardized)
    prob_ecdf_80porcento = round(ecdf(valor_probcum_menor_80porcento),3)
    prob_ecdf_90porcento = round(ecdf(valor_probcum_menor_90porcento),3)
    prob_ecdf_95porcento = round(ecdf(valor_probcum_menor_95porcento),3)
    
    return (prob_ecdf_80porcento, prob_ecdf_90porcento, prob_ecdf_95porcento)



Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [19]:


def q5():
    # Retorne aqui o resultado da questão 5.
    # Retorne aqui o resultado da questão 4.
    df = stars[stars['target'] == False]['mean_profile']
    # padronização da coluna
    false_pulsar_mean_profile_standardized  = (df - df.mean())/df.std()
    
    # quantis da distribuição normal com media 0 e variancia 1
    q1_normal = sct.norm.ppf(0.25, loc=0, scale=1)
    q2_normal = sct.norm.ppf(0.5, loc=0, scale=1)
    q3_normal = sct.norm.ppf(0.75, loc=0, scale=1)
    #quantis da distribuição padronizada
    q1 = np.quantile(false_pulsar_mean_profile_standardized,q=.25)
    q2 = np.quantile(false_pulsar_mean_profile_standardized,q=.5)
    q3 = np.quantile(false_pulsar_mean_profile_standardized,q=.75)
    
    d1 = round(q1 - q1_normal,3)
    d2 = round(q2 - q2_normal,3)
    d3 = round(q3 - q3_normal,3)
    
    return (d1,d2,d3)


Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.