# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribui√ß√µes de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contar√° com 3 quest√µes sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte ser√° sobre a an√°lise da distribui√ß√£o de uma vari√°vel do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 quest√µes.

> Obs.: Por favor, n√£o modifique o nome das fun√ß√µes de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [2]:
%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [4]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua an√°lise a partir da parte 1 a partir daqui

In [5]:
#Start of analyze
dataframe.head()

Unnamed: 0,normal,binomial
0,21.986857,18
1,19.446943,15
2,22.590754,14
3,26.092119,15
4,19.063387,21


In [6]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   normal    10000 non-null  float64
 1   binomial  10000 non-null  int64  
dtypes: float64(1), int64(1)
memory usage: 156.4 KB


## Quest√£o 1

Qual a diferen√ßa entre os quartis (Q1, Q2 e Q3) das vari√°veis `normal` e `binomial` de `dataframe`? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da vari√°vel `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da vari√°vel `binom`, qual a diferen√ßa `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [10]:
# calculate the diference of 1,2 and 3 quartile
def q1():
    desc = dataframe.quantile([.25,.50,.75])
    return tuple(round(desc["normal"] - desc["binomial"],3))

In [11]:
q1()

(0.31, -0.01, -0.316)

Para refletir:

* Voc√™ esperava valores dessa magnitude?

* Voc√™ √© capaz de explicar como distribui√ß√µes aparentemente t√£o diferentes (discreta e cont√≠nua, por exemplo) conseguem dar esses valores?

## Quest√£o 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ √© a m√©dia amostral e $s$ √© o desvio padr√£o. Qual a probabilidade nesse intervalo, calculada pela fun√ß√£o de distribui√ß√£o acumulada emp√≠rica (CDF emp√≠rica) da vari√°vel `normal`? Responda como uma √∫nico escalar arredondado para tr√™s casas decimais.

In [7]:
# Calculate the probability of Empirical distribution to find numbers between the interval [ùë•¬Ø‚àíùë†,ùë•¬Ø+ùë†]
def q2():
    dist = ECDF(dataframe["normal"])
    normal_mean = dataframe["normal"].mean()
    normal_std = dataframe["normal"].std()
    return float(np.round(dist(normal_mean+normal_std)-dist(normal_mean-normal_std),3))

In [8]:
q2()

0.684

Para refletir:

* Esse valor se aproxima do esperado te√≥rico?
* Experimente tamb√©m para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Quest√£o 3

Qual √© a diferen√ßa entre as m√©dias e as vari√¢ncias das vari√°veis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para tr√™s casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a m√©dia e a vari√¢ncia da vari√°vel `binomial`, e `m_norm` e `v_norm` a m√©dia e a vari√¢ncia da vari√°vel `normal`. Quais as diferen√ßas `(m_binom - m_norm, v_binom - v_norm)`?

In [12]:
# calculate the diference between mean and variance of `binomial` and `normal` columns
def q3():
    diff_mean_var = dataframe.agg({np.var, np.mean})
    diff_mean_var["norm-bin"] = diff_mean_var["binomial"] - diff_mean_var["normal"]
    return (round(diff_mean_var.iloc[0,-1],3),round(diff_mean_var.iloc[1,-1],3))

In [13]:
q3()

(0.106, 0.22)

Para refletir:

* Voc√™ esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribui√ß√£o da vari√°vel `binomial`?

## Parte 2

### _Setup_ da parte 2

In [14]:
stars = pd.read_csv("HTRU_2.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua an√°lise da parte 2 a partir daqui

In [15]:
# Sua an√°lise da parte 2 come√ßa aqui.
stars.head()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False


In [16]:
stars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17897 entries, 0 to 17896
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mean_profile  17897 non-null  float64
 1   sd_profile    17897 non-null  float64
 2   kurt_profile  17897 non-null  float64
 3   skew_profile  17897 non-null  float64
 4   mean_curve    17897 non-null  float64
 5   sd_curve      17897 non-null  float64
 6   kurt_curve    17897 non-null  float64
 7   skew_curve    17897 non-null  float64
 8   target        17897 non-null  bool   
dtypes: bool(1), float64(8)
memory usage: 1.1 MB


## Quest√£o 4

Considerando a vari√°vel `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela n√£o √© um pulsar).
2. Padronize a vari√°vel `mean_profile` filtrada anteriormente para ter m√©dia 0 e vari√¢ncia 1.

Chamaremos a vari√°vel resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis te√≥ricos para uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1 para 0.80, 0.90 e 0.95 atrav√©s da fun√ß√£o `norm.ppf()` dispon√≠vel em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF emp√≠rica da vari√°vel `false_pulsar_mean_profile_standardized`? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

In [35]:
# calculate the theoric probabilidade of quantil of stars non-pulsating star
def q4():
    non_pulse_stars = stars["mean_profile"][stars["target"] == False]
    non_pulse_stars_standardized = (non_pulse_stars - non_pulse_stars.mean())/non_pulse_stars.std()
    norm_Dist = ECDF(non_pulse_stars_standardized)
    percentil = sct.norm.ppf([.8,.9,.95])
    return tuple(np.round(norm_Dist(percentil), 3))

In [36]:
q4()

(0.806, 0.911, 0.959)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribui√ß√£o da vari√°vel `false_pulsar_mean_profile_standardized`?

## Quest√£o 5

Qual a diferen√ßa entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis te√≥ricos de uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

In [37]:
#Calculate the diference of empiric quantil and theoric quantil
def q5():
    non_pulse_stars = stars["mean_profile"][stars["target"] == False]
    non_pulse_stars_standardized = (non_pulse_stars - non_pulse_stars.mean())/non_pulse_stars.std()
    empiric_quantil = non_pulse_stars_standardized.quantile([.25,.5,.75])
    theoric_quantil = sct.norm.ppf([.25,.5,.75])
    return tuple(round(empiric_quantil-theoric_quantil, 3))

In [38]:
q5()

(0.027, 0.04, -0.004)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribui√ß√£o da vari√°vel `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hip√≥teses sobre normalidade dos dados utilizam essa mesma abordagem.