# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [2]:
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [3]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [4]:
# Sua análise da parte 1 começa aqui.
dataframe.head()

Unnamed: 0,normal,binomial
0,21.986857,18
1,19.446943,15
2,22.590754,14
3,26.092119,15
4,19.063387,21


# QUESTÃO 1

In [8]:
#q1
q1_norm = dataframe['normal'].quantile(0.25)
print(q1_norm)

17.30963787997159


In [9]:
#q2
q2_norm = dataframe['normal'].quantile(0.5)
print(q2_norm)

19.98962009682849


In [10]:
#q3
q3_norm = dataframe['normal'].quantile(0.75)
print(q3_norm)

22.68432355145866


In [11]:
q1_binom = dataframe['binomial'].quantile(0.25)
print(q1_binom)

17.0


In [12]:
q2_binom = dataframe['binomial'].quantile(0.5)
print(q2_binom)

20.0


In [13]:
q3_binom = dataframe['binomial'].quantile(0.75)
print(q3_binom)

23.0


In [15]:
print(q1_norm - q1_binom, q2_norm - q2_binom, q3_norm - q3_binom)

0.3096378799715893 -0.010379903171511273 -0.315676448541339


# QUESTÃO 2

In [11]:
#média normal
m_norm = dataframe['normal'].mean()
print(m_norm)

19.991456066526293


In [12]:
#média binomial
m_binom = dataframe['binomial'].mean()
print(m_binom)

20.097


In [13]:
#variância normal
v_norm = dataframe['normal'].var()
print(v_norm)

16.110987985368958


In [14]:
#variância binomial
v_binom = dataframe['binomial'].var()
print(v_binom)

16.331224122412277


In [15]:
q = (m_binom - m_norm, v_binom - v_norm)
print(q)

(0.10554393347370805, 0.2202361370433188)


In [16]:
#(x-s, x+s) Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada 
#empírica (CDF empírica) da variável normal
media_normal = dataframe['normal'].mean()
desvio_normal = dataframe['normal'].std()
print(media_normal, desvio_normal)


19.991456066526293 4.013849522013619


In [17]:
x_menos_s = (media_normal - desvio_normal)
x_mais_s = (media_normal + desvio_normal)
print (x_menos_s, x_mais_s)

15.977606544512675 24.005305588539912


In [18]:
#normal: média 20, desvio padrão 4

In [19]:
cdf_menos = sct.norm.cdf(15.977606544512675, loc = 20, scale = 4)
cdf_mais = sct.norm.cdf(24.005305588539912, loc = 20, scale = 4)
print (cdf_mais, cdf_menos)

0.8416654824912562 0.15730440563375475


In [20]:
print (cdf_mais-cdf_menos)

0.6843610768575015


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [21]:
def q1():
    q1 = (0.310, -0.010, -0.316)
    return q1

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [22]:
def q2():
    q2 = (0.684)
    return q2

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [23]:
def q3():
    q3 = (0.106, 0.220)
    return q3

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [24]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [25]:
# Sua análise da parte 2 começa aqui.
stars.head()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False


In [37]:
stars['target'].value_counts()

False    16258
True      1639
Name: target, dtype: int64

In [49]:
false_pulsar = stars.loc[stars['target'] == False]
false_pulsar.head()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False


In [69]:
false_pulsar['target'].value_counts()

False    16258
Name: target, dtype: int64

In [64]:
false_pulsar_mean_profile_standardized = (false_pulsar['mean_profile'] - false_pulsar['mean_profile'].mean())/false_pulsar['mean_profile'].std()

In [74]:
false_pulsar_mean_profile_standardized.mean()

2.420392722648176e-16

In [75]:
false_pulsar_mean_profile_standardized.std()

0.9999999999999987

In [76]:
sct.norm.ppf(0.8, loc = 0, scale = 1)

0.8416212335729143

In [77]:
sct.norm.ppf(0.9, loc = 0, scale = 1)

1.2815515655446004

In [78]:
sct.norm.ppf(0.95, loc = 0, scale = 1)

1.6448536269514722

In [81]:
#cdf 0,841
fp1 = false_pulsar_mean_profile_standardized <= 0.841
fp1.value_counts()

True     13097
False     3161
Name: mean_profile, dtype: int64

In [82]:
fp1_res = 13097 / (13097+3161)
print(fp1_res)

0.8055726411612745


In [83]:
#cdf 1.281
fp2 = false_pulsar_mean_profile_standardized <= 1.281
fp2.value_counts()

True     14801
False     1457
Name: mean_profile, dtype: int64

In [84]:
fp2_res = 14801 / (14801+1457)
print(fp2_res)

0.9103825808832575


In [85]:
#cdf 1.644
fp3 = false_pulsar_mean_profile_standardized <= 1.644
fp3.value_counts()

True     15587
False      671
Name: mean_profile, dtype: int64

In [86]:
fp3_res = 15587 / (15587+671)
print(fp3_res)

0.9587280108254398


## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [None]:
def q4():
    q4 = (0.806,0.911,0.959)
    return q4

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [88]:
Q1 = false_pulsar_mean_profile_standardized.quantile(0.25)
print(Q1)

-0.6471531766285941


In [89]:
Q2 = false_pulsar_mean_profile_standardized.quantile(0.5)
print(Q2)

0.03985946669725159


In [90]:
Q3 = false_pulsar_mean_profile_standardized.quantile(0.75)
print(Q3)

0.670654872412409


In [91]:
T1 = sct.norm.ppf(0.25, loc = 0, scale = 1)
print(T1)

-0.6744897501960817


In [92]:
T2 = sct.norm.ppf(0.5, loc = 0, scale = 1)
print(T2)

0.0


In [93]:
T3 = sct.norm.ppf(0.75, loc = 0, scale = 1)
print(T3)

0.6744897501960817


In [94]:
print(Q1-T1, Q2-T2, Q3-T3)

0.027336573567487643 0.03985946669725159 -0.003834877783672752


In [None]:
def q5():
    q5 = (0.027, 0.040, -0.004)
    return q5

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.