# Desafio 3

Neste desafio, iremos praticar nossos conhecimentos sobre distribuições de probabilidade. Para isso,
dividiremos este desafio em duas partes:
    
1. A primeira parte contará com 3 questões sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte será sobre a análise da distribuição de uma variável do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 questões.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

In [2]:
# %matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

## Parte 1

### _Setup_ da parte 1

In [3]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})

## Inicie sua análise a partir da parte 1 a partir daqui

In [4]:
# Sua análise da parte 1 começa aqui.
dataframe.head()

Unnamed: 0,normal,binomial
0,21.986857,18
1,19.446943,15
2,22.590754,14
3,26.092119,15
4,19.063387,21


In [5]:
dataframe.describe()

Unnamed: 0,normal,binomial
count,10000.0,10000.0
mean,19.991456,20.097
std,4.01385,4.041191
min,4.310399,6.0
25%,17.309638,17.0
50%,19.98962,20.0
75%,22.684324,23.0
max,35.704951,36.0


In [6]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   normal    10000 non-null  float64
 1   binomial  10000 non-null  int64  
dtypes: float64(1), int64(1)
memory usage: 156.4 KB


In [7]:
df = (dataframe.describe())
df.head()

Unnamed: 0,normal,binomial
count,10000.0,10000.0
mean,19.991456,20.097
std,4.01385,4.041191
min,4.310399,6.0
25%,17.309638,17.0


## Questão 1

Qual a diferença entre os quartis (Q1, Q2 e Q3) das variáveis `normal` e `binomial` de `dataframe`? Responda como uma tupla de três elementos arredondados para três casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da variável `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da variável `binom`, qual a diferença `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [8]:
q1_norm = (df.loc['25%'].values)[0]
q2_norm = (df.loc['50%'].values)[0]
q3_norm = (df.loc['75%'].values)[0]
q1_binom = (df.loc['25%'].values)[1]
q2_binom = (df.loc['50%'].values)[1]
q3_binom = (df.loc['75%'].values)[1]
q1_diferenca = float("{0:.3f}".format(q1_norm - q1_binom))
q2_diferenca = float("{0:.3f}".format(q2_norm - q2_binom))
q3_diferenca = float("{0:.3f}".format(q3_norm - q3_binom))
diferenca = (q1_diferenca, q2_diferenca, q3_diferenca)
diferenca

(0.31, -0.01, -0.316)

In [9]:
def q1():
    return tuple(diferenca)
    

Para refletir:

* Você esperava valores dessa magnitude?

* Você é capaz de explicar como distribuições aparentemente tão diferentes (discreta e contínua, por exemplo) conseguem dar esses valores?

## Questão 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ é a média amostral e $s$ é o desvio padrão. Qual a probabilidade nesse intervalo, calculada pela função de distribuição acumulada empírica (CDF empírica) da variável `normal`? Responda como uma único escalar arredondado para três casas decimais.

In [10]:
media = dataframe['normal'].mean()
desvio = dataframe['normal'].std()
prob = ECDF(dataframe['normal'])
prob_intervalo = prob(media + desvio) - prob(media - desvio)
prob_intervalo = float("{0:.3f}".format(prob_intervalo))
prob_intervalo

0.684

In [11]:
def q2():
    return prob_intervalo

Para refletir:

* Esse valor se aproxima do esperado teórico?
* Experimente também para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

## Questão 3

Qual é a diferença entre as médias e as variâncias das variáveis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para três casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a média e a variância da variável `binomial`, e `m_norm` e `v_norm` a média e a variância da variável `normal`. Quais as diferenças `(m_binom - m_norm, v_binom - v_norm)`?

In [12]:
m_norm = dataframe['normal'].mean()
v_norm = dataframe['normal'].var()
m_binom = dataframe['binomial'].mean()
v_binom = dataframe['binomial'].var()
med = float("{0:.3f}".format(m_binom - m_norm))
vari = float("{0:.3f}".format(v_binom - v_norm))
dif_variancia = (med, vari)
dif_variancia

(0.106, 0.22)

In [13]:
def q3():
    return tuple(dif_variancia)

Para refletir:

* Você esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribuição da variável `binomial`?

## Parte 2

### _Setup_ da parte 2

In [14]:
stars = pd.read_csv("pulsar_stars.csv")

stars.rename({old_name: new_name
              for (old_name, new_name)
              in zip(stars.columns,
                     ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"])
             },
             axis=1, inplace=True)

stars.loc[:, "target"] = stars.target.astype(bool)

## Inicie sua análise da parte 2 a partir daqui

In [15]:
# Sua análise da parte 2 começa aqui.


In [16]:
stars.head(10)

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,False
5,119.484375,48.765059,0.03146,-0.112168,0.999164,9.279612,19.20623,479.756567,False
6,130.382812,39.844056,-0.158323,0.38954,1.220736,14.378941,13.539456,198.236457,False
7,107.25,52.627078,0.452688,0.170347,2.33194,14.486853,9.001004,107.972506,False
8,107.257812,39.496488,0.465882,1.162877,4.079431,24.980418,7.39708,57.784738,False
9,142.078125,45.288073,-0.320328,0.283953,5.376254,29.009897,6.076266,37.831393,False


In [17]:
stars.tail(10)

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
17887,98.726562,50.407823,0.565124,0.245231,0.570234,9.011285,22.018589,561.833787,False
17888,126.625,55.721826,0.002946,-0.303218,0.534281,8.588882,23.913761,660.197035,False
17889,143.671875,45.302647,-0.045769,0.353643,5.173913,26.462345,5.706651,33.802613,False
17890,118.484375,50.608483,-0.029059,-0.027494,0.422241,8.086684,27.446113,830.63855,False
17891,96.0,44.193113,0.388674,0.281344,1.871237,15.833746,9.634927,104.821623,False
17892,136.429688,59.847421,-0.187846,-0.738123,1.296823,12.166062,15.45026,285.931022,False
17893,122.554688,49.485605,0.127978,0.323061,16.409699,44.626893,2.945244,8.297092,False
17894,119.335938,59.935939,0.159363,-0.743025,21.430602,58.872,2.499517,4.595173,False
17895,114.507812,53.9024,0.201161,-0.024789,1.946488,13.381731,10.007967,134.23891,False
17896,57.0625,85.79734,1.406391,0.08952,188.30602,64.712562,-1.597527,1.429475,False


In [18]:
stars.describe()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve
count,17897.0,17897.0,17897.0,17897.0,17897.0,17897.0,17897.0,17897.0
mean,111.078321,46.549021,0.477897,1.770417,12.614926,26.326918,8.303574,104.859419
std,25.652705,6.84304,1.064056,6.168058,29.473637,19.471042,4.506217,106.51727
min,5.8125,24.772042,-1.876011,-1.791886,0.213211,7.370432,-3.13927,-1.976976
25%,100.929688,42.375426,0.027108,-0.188528,1.923077,14.43733,5.781485,34.957119
50%,115.078125,46.946435,0.223241,0.198736,2.801839,18.459977,8.433872,83.068996
75%,127.085938,51.022887,0.473349,0.928206,5.464883,28.428152,10.702973,139.310905
max,192.617188,98.778911,8.069522,68.101622,223.39214,110.642211,34.539844,1191.000837


In [19]:
stars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17897 entries, 0 to 17896
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mean_profile  17897 non-null  float64
 1   sd_profile    17897 non-null  float64
 2   kurt_profile  17897 non-null  float64
 3   skew_profile  17897 non-null  float64
 4   mean_curve    17897 non-null  float64
 5   sd_curve      17897 non-null  float64
 6   kurt_curve    17897 non-null  float64
 7   skew_curve    17897 non-null  float64
 8   target        17897 non-null  bool   
dtypes: bool(1), float64(8)
memory usage: 1.1 MB


## Questão 4

Considerando a variável `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela não é um pulsar).
2. Padronize a variável `mean_profile` filtrada anteriormente para ter média 0 e variância 1.

Chamaremos a variável resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis teóricos para uma distribuição normal de média 0 e variância 1 para 0.80, 0.90 e 0.95 através da função `norm.ppf()` disponível em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF empírica da variável `false_pulsar_mean_profile_standardized`? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [20]:
false_pulsar = stars.query('target == False').mean_profile
false_pulsar_mean_profile_standardized = (false_pulsar - false_pulsar.mean()) / false_pulsar.std()
prob_false_pulsar = tuple(np.around(ECDF(false_pulsar_mean_profile_standardized)(sct.norm.ppf([0.80, 0.90, 0.95])).round(3),decimals=3))
prob_false_pulsar


(0.806, 0.911, 0.959)

In [21]:
def q4():
    return prob_false_pulsar

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?

## Questão 5

Qual a diferença entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis teóricos de uma distribuição normal de média 0 e variância 1? Responda como uma tupla de três elementos arredondados para três casas decimais.

In [22]:
Q1 = np.quantile(false_pulsar_mean_profile_standardized, .25) - sct.norm.ppf(.25)
Q2 = np.quantile(false_pulsar_mean_profile_standardized, .50) - sct.norm.ppf(.50)
Q3 = np.quantile(false_pulsar_mean_profile_standardized, .75) - sct.norm.ppf(.75)
diferenca_Qs = np.around((Q1, Q2, Q3),decimals=3)
print(tuple(diferenca_Qs))

(0.027, 0.04, -0.004)


In [23]:
def q5():
    return tuple(diferenca_Qs)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribuição da variável `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hipóteses sobre normalidade dos dados utilizam essa mesma abordagem.