# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [266]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
from scipy.stats import norm
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [267]:
# %matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [268]:
np.random.seed(42)
    
df = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [269]:
# Sua análise da parte 1 começa aqui.


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [270]:
def q1():
    # Olhar os quartis (25%,50% e 75%)
    df.describe
    
    #calcular a diferença entre os quantis
    dif = df['normal'].quantile((0.25,0.50,0.75)) - df['binomial'].quantile((0.25,0.50,0.75))
    return tuple (round(dif,3))
    pass

In [321]:
q1()

(0.31, -0.01, -0.316)

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [271]:
def q2():
    # Retorne aqui o resultado da questão 2.
    #calculo da media
    x = df.normal.mean()
    
    #calculo do desvp
    s = df.normal.std()
    
    #calculo do intervalo
    intervalo_inferior = x-s 
    intervalo_superior = x+s
    
    #verificar quais numeros estao dentro do intervalo
    valor = sum((df.normal >= intervalo_inferior) & (df.normal<= intervalo_superior))
    
    #verificar a proporção/probablilidade de dados nesse intervalor
    resultado =round(valor / len(df),3)
    return resultado   
    pass

In [322]:
q2()

0.684

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [272]:
def q3():
    # Calculando media e variancia das distribuições
    m_binom = df.binomial.mean()
    m_norm  = df.normal.mean()
    v_binom = df.binomial.var()
    v_norm  = df.normal.var()
    
    # Calculando as diferenças
    difm = m_binom - m_norm
    difm = round(difm,3)
    difv = v_binom - v_norm
    difv = round(difv,3)
    
    # Resultado final
    resultado = difm,difv
    return resultado
    pass

In [323]:
q3()

(0.106, 0.22)

## Parte 2

### _Setup_ da parte 2

In [273]:
stars = pd.read_csv("HTRU_2.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [274]:
# Sua análise da parte 2 começa aqui.


## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [278]:
def q4():
    # Passo 1
    f_stars = stars[stars.target == 0]

    # Passo 2
    false_pulsar_mean_profile_standardized = (f_stars['mean_profile'] - f_stars['mean_profile'].mean()) /f_stars['mean_profile'].std()  

    # Passo 3
    x = norm.ppf(0.80)
    y = norm.ppf(0.90)
    z = norm.ppf(0.95)

    # Passo 4
    ecdf = ECDF(false_pulsar_mean_profile_standardized)
    ecdf_x = round(ecdf(x),3)
    ecdf_y = round(ecdf(y),3)
    ecdf_z = round(ecdf(z),3)

    return (ecdf_x,ecdf_y,ecdf_z)
    
    pass

In [324]:
q4()

(0.806, 0.911, 0.959)

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [319]:
def q5():
    
    # Repetindo os Passos 1 e 2 da questão 4
    f_stars = stars[stars.target == 0]
    false_pulsar_mean_profile_standardized = (f_stars['mean_profile'] - f_stars['mean_profile'].mean()) /f_stars['mean_profile'].std()  
        
    
    # Separando os Quantis da distribuição normal e dos dados do exercício
    Quantis_normal =  (sct.norm.ppf((0.25, 0.5, 0.75)))
    Quantis_false_pulsar = (false_pulsar_mean_profile_standardized.quantile((0.25, 0.5, 0.75)))

    # Calculando a diferença entre os quantis
    resultado = round ((Quantis_false_pulsar - Quantis_normal),3)
    resultado_final = tuple (resultado)
    return resultado_final
    pass



In [325]:
q5()

(0.027, 0.04, -0.004)