# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [2]:
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [3]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [4]:
dataframe.head()

Unnamed: 0,normal,binomial
0,21.986857,18
1,19.446943,15
2,22.590754,14
3,26.092119,15
4,19.063387,21


In [5]:
dataframe.shape

(10000, 2)

In [6]:
dataframe.describe()

Unnamed: 0,normal,binomial
count,10000.0,10000.0
mean,19.991456,20.097
std,4.01385,4.041191
min,4.310399,6.0
25%,17.309638,17.0
50%,19.98962,20.0
75%,22.684324,23.0
max,35.704951,36.0


In [7]:
q1_norm = float(dataframe['normal'].quantile(0.25))
q2_norm = float(dataframe['normal'].quantile(0.5))
q3_norm = float(dataframe['normal'].quantile(0.75))
q1_binom = float(dataframe['binomial'].quantile(0.25))
q2_binom = float(dataframe['binomial'].quantile(0.5))
q3_binom = float(dataframe['binomial'].quantile(0.75))
q1_dif = round((q1_norm - q1_binom), 3)
q2_dif = round((q2_norm - q2_binom), 3)
q3_dif = round((q3_norm - q3_binom), 3)
print(q1_dif, q2_dif, q3_dif)

0.31 -0.01 -0.316


In [8]:
norm = dataframe['normal']
binom = dataframe['binomial']

In [9]:
left = sct.norm.cdf((norm.mean() - norm.std()), loc = 20, scale = 4)
right = sct.norm.cdf((norm.mean() + norm.std()), loc = 20, scale = 4)
print((right - left).round(3))

0.684


In [10]:
mean_df = round((binom.mean() - norm.mean()), 3)
var_df = round((binom.var() - norm.var()), 3)
print(mean_df, var_df)

0.106 0.22


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [11]:
def q1():
    q1_norm = float(dataframe['normal'].quantile(0.25))
    q2_norm = float(dataframe['normal'].quantile(0.5))
    q3_norm = float(dataframe['normal'].quantile(0.75))
    q1_binom = float(dataframe['binomial'].quantile(0.25))
    q2_binom = float(dataframe['binomial'].quantile(0.5))
    q3_binom = float(dataframe['binomial'].quantile(0.75))
    q1_dif = round((q1_norm - q1_binom), 3)
    q2_dif = round((q2_norm - q2_binom), 3)
    q3_dif = round((q3_norm - q3_binom), 3)
    return (q1_dif, q2_dif, q3_dif)

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [28]:
def q2():
    left = sct.norm.cdf((norm.mean() - norm.std()), loc = 20, scale = 4)
    right = sct.norm.cdf((norm.mean() + norm.std()), loc = 20, scale = 4)
    answer = (right - left).round(3)
    return float(answer)

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [14]:
def q3():
    mean_df = round((binom.mean() - norm.mean()), 3)
    var_df = round((binom.var() - norm.var()), 3)
    return (mean_df, var_df)

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [15]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [16]:
stars.head(5)

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False


In [17]:
stars.shape

(17897, 9)

In [18]:
stars_filtered = stars.loc[stars['target'] == False]
stars_filtered.head(5)

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False


In [19]:
stars_filtered = stars_filtered['mean_profile']

In [20]:
stars_filtered.head

<bound method NDFrame.head of 0        102.507812
1        103.015625
2        136.750000
3         88.726562
4         93.570312
5        119.484375
6        130.382812
7        107.250000
8        107.257812
9        142.078125
10       133.257812
11       134.960938
12       117.945312
13       138.179688
14       114.367188
15       109.640625
16       100.851562
17       136.093750
19       100.890625
20       105.445312
21        95.867188
22       117.367188
23       106.648438
24       112.718750
25       130.851562
26       119.437500
27       123.210938
28       102.617188
29       110.109375
30        99.914062
            ...    
17866    131.671875
17867     96.859375
17868    137.375000
17869    110.765625
17870    119.007812
17871    139.898438
17872     89.453125
17873    126.554688
17874    133.140625
17876    118.296875
17877     90.148438
17878    107.664062
17879    105.492188
17880    130.500000
17881    131.000000
17882     84.421875
17883    106.875000
17884    1

In [21]:
false_pulsar_mean_profile_standardized = ((stars_filtered - stars_filtered.mean()) / stars_filtered.std())

In [22]:
false_pulsar_mean_profile_standardized

0       -0.804181
1       -0.775123
2        1.155263
3       -1.592787
4       -1.315613
5        0.167270
6        0.790913
7       -0.532819
8       -0.532372
9        1.460155
10       0.955429
11       1.052887
12       0.079200
13       1.237074
14      -0.125551
15      -0.396020
16      -0.898957
17       1.117710
19      -0.896722
20      -0.636089
21      -1.184179
22       0.046118
23      -0.567242
24      -0.219880
25       0.817736
26       0.164588
27       0.380516
28      -0.797923
29      -0.369196
30      -0.952604
           ...   
17866    0.864677
17867   -1.127403
17868    1.191028
17869   -0.331644
17870    0.140000
17871    1.335427
17872   -1.551211
17873    0.571856
17874    0.948723
17876    0.099318
17877   -1.511423
17878   -0.509125
17879   -0.633406
17880    0.797619
17881    0.826230
17882   -1.839115
17883   -0.554277
17884    0.987617
17885    0.601361
17886    0.275458
17887   -1.020556
17888    0.575879
17889    1.551354
17890    0.110047
17891   -1

## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [23]:
def q4():
    ecdf_false_pulsar = ECDF(false_pulsar_mean_profile_standardized)
    q1_false = sct.norm.ppf(0.8, loc = 0, scale = 1)
    q2_false = sct.norm.ppf(0.9, loc = 0, scale = 1)
    q3_false = sct.norm.ppf(0.95, loc = 0, scale = 1)
    return (ecdf_false_pulsar(q1_false).round(3), ecdf_false_pulsar(q2_false).round(3), ecdf_false_pulsar(q3_false).round(3))

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [24]:
def q5():
    quantile_theory = np.quantile(false_pulsar_mean_profile_standardized, [0.25, 0.5, 0.75])
    norm_false = sct.norm(false_pulsar_mean_profile_standardized)
    quantile_norm = [sct.norm.ppf(0.25, loc = 0, scale = 1), sct.norm.ppf(0.5, loc = 0, scale = 1), sct.norm.ppf(0.75, loc = 0, scale = 1)]
    quantile_result = (quantile_theory - quantile_norm).round(3)
    return tuple(quantile_result)

In [25]:
q5()

(0.027, 0.04, -0.004)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.