# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as sct
from statsmodels.distributions.empirical_distribution import ECDF
#import matplotlib.pyplot as plt
#import seaborn as sns
#from sklearn.preprocessing import StandardScaler

In [None]:
#%matplotlib inline
#from IPython.core.pylabtools import figsize
#
#figsize(12, 8)
#sns.set()

## Parte 1

### _Setup_ da parte 1

In [None]:
np.random.seed(42)
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [None]:
# Sua análise da parte 1 começa aqui.
# Verificano a dimensao do dataframe
dataframe.shape

In [None]:
# Verificando se existem dados nulos
dataframe.isna().sum()

In [None]:
# Verificando os tipos de dados
dataframe.dtypes

In [None]:
# Verificando informações do dataframe, tipos de dados, quantidade de tipos de dados, total de linhas 
# e total de linhas não nulas 
dataframe.info()

In [None]:
# Exibindo informações estatísticas sobre o Dataframe
dataframe.describe()

In [None]:
var_normal = dataframe['normal'].describe(percentiles=[.25,.5,.75])

In [None]:
var_normal.quantile(.25)

In [None]:
dataframe['normal'].quantile(.25)

### AJUDA COM O ROUND
#### Signature: round(number, ndigits=None)
#### Docstring:
#### Round a number to a given precision in decimal digits.

#### The return value is an integer if ndigits is omitted or None.  Otherwise
#### the return value has the same type as the number.  ndigits may be negative.
#### Type:      builtin_function_or_method

In [None]:
n1 = round(dataframe['normal'].quantile(.25),3) - round(dataframe['binomial'].quantile(.25),3)
print("{}".format(round(n1,3)))

In [None]:
intervalo01 = round(dataframe['normal'].mean() - dataframe['normal'].std() ,3)
intervalo02 = round(dataframe['normal'].mean() + dataframe['normal'].std() ,3)
ecdf01 = ECDF(dataframe['normal'])(intervalo01)
ecdf02 = ECDF(dataframe['normal'])(intervalo02)
print('{:.3f} - {:.3f} = {:.3f}'.format(ecdf01,ecdf02,(ecdf01 - ecdf02)))

In [None]:
#print('{} - {} [ {} ]'.format(intervalo01,intervalo02,ecdf))

In [None]:
dataframe['normal'].describe()

In [None]:
# O Padrão do método quantile() é retornar o .50 ( 50%) se nenhum parametro for informado
# Os possiveis parametros são .25 (25%), .50 (50%), .75 (75%), etc.
dataframe['normal'].quantile()

## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [None]:
def q1():
    # Retorne aqui o resultado da questão 1.
    # Norma
    var1 = round(dataframe['normal'].quantile(.25) - dataframe['binomial'].quantile(.25),3)
    var2 = round(dataframe['normal'].quantile(.5) - dataframe['binomial'].quantile(.5),3)
    var3 = round(dataframe['normal'].quantile(.75) - dataframe['binomial'].quantile(.75),3)
    retorno = (var1,var2,var3)  
    return retorno
q1()

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [None]:
def q2():
    # Retorne aqui o resultado da questão 2.
    intervalo01 = round(dataframe['normal'].mean() - dataframe['normal'].std() ,3)
    intervalo02 = round(dataframe['normal'].mean() + dataframe['normal'].std() ,3)
    ecdf01 = ECDF(dataframe['normal'])(intervalo01)
    ecdf02 = ECDF(dataframe['normal'])(intervalo02)
    retorno = ('{:.3f}'.format(ecdf02 - ecdf01))
    return float(retorno)
q2()

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [None]:
def q3():
    # Retorne aqui o resultado da questão 3.
    m_binom = dataframe['binomial'].mean()
    v_binom = dataframe['binomial'].var()
    m_norm = dataframe['normal'].mean()
    v_norm = dataframe['normal'].var()
    retorno = (round((m_binom - m_norm),3),round((v_binom - v_norm),3))
    return retorno
q3()

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [None]:
stars = pd.read_csv("pulsar_stars.csv")
stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", 
                      "sd_profile", 
                      "kurt_profile", 
                      "skew_profile", 
                      "mean_curve", 
                      "sd_curve", 
                      "kurt_curve", 
                      "skew_curve", 
                      "target"])
             },
             axis=1, inplace=True)
stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [None]:
# Sua análise da parte 2 começa aqui.
stars.describe()


In [None]:
stars.dtypes

In [None]:
stars.info()

In [None]:
stars_no_pulse = stars.columns.to_frame()

In [None]:
false_pulsar_mean_profile_standardized = stars_no_pulse.var()

In [None]:
stars_no_pulse = stars[stars['target'] == 0]['mean_profile']

In [None]:
stars_no_pulse.head()

In [None]:
# padronizar as colunas numéricas
#X = StandardScaler().fit_transform(stars[stars['target'] == 0]['mean_profile'])
stars_no_pulse = stars[stars['target'] == 0]['mean_profile']
padronizado = (stars_no_pulse - stars_no_pulse.mean())/stars_no_pulse.std()

In [None]:
padronizado.head(3)

In [None]:
round(padronizado.var(),3)

In [None]:
stars_no_pulse.mean()

In [None]:
stars_no_pulse.var()

In [None]:
round(padronizado.mean(),3)

In [None]:
pff = sct.norm.ppf([.8,.9,.95])

In [None]:
ecdf = ECDF(padronizado)

In [None]:
tuple(ecdf(pff).round(3))

## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [None]:
def q4():
    # Retorne aqui o resultado da questão 4.
    stars_no_pulse = stars[stars['target'] == 0]['mean_profile']
    # Padronização
    false_pulsar_mean_profile_standardized = round((stars_no_pulse - stars_no_pulse.mean())/stars_no_pulse.std(),3)
    pff = sct.norm.ppf([.8,.9,.95])    
    ecdf = ECDF(padronizado)    
    return tuple(ecdf(pff).round(3))    
q4()

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [None]:
def q5():
    # Retorne aqui o resultado da questão 5.
    stars_no_pulse = stars[stars.target == False]['mean_profile']
    # Padronização
    false_pulsar_mean_profile_standardized = (stars_no_pulse - stars_no_pulse.mean())/stars_no_pulse.std()
    quantis = sct.norm.ppf([0.25,0.5,0.75])  
    resultado = np.quantile(false_pulsar_mean_profile_standardized,[0.25,0.5,0.75]) - quantis
    return tuple(resultado.round(3))
q5()

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.