# Codenation - Data Science
<pre>Autor: Leonardo Sim√µes</pre>

## Desafio 3 - Fun√ß√µes de probabilidade 

Neste desafio vamos praticar nossos conhecimentos em probabilidade e estat√≠stica, conhecimentos fundamentais para qualquer cientista de dados. Para isso, dividiremos este desafio em duas partes:
    
1. A primeira parte contar√° com 3 quest√µes sobre um *data set* artificial com dados de uma amostra normal e
    uma binomial.
2. A segunda parte ser√° sobre a an√°lise da distribui√ß√£o de uma vari√°vel do _data set_ [Pulsar Star](https://archive.ics.uci.edu/ml/datasets/HTRU2), contendo 2 quest√µes.


### Objetivo

O objetivo deste desafio √© explorar as principais fun√ß√µes sobre distribui√ß√µes de probabilidade como PDF, CDF e quantis e as rela√ß√µes entre duas das principais distribui√ß√µes: a normal e a binomial.

Para isso, utilizaremos dados artificiais e reais. Como dados reais, exploraremos o data set Pulsar Star disponibilizado pelo Dr. Robert Lyon da Universidade de Manchester.

Esse data set consiste de 8 vari√°veis a respeito de 17898 observa√ß√µes de estrelas. Essas estrelas foram consideradas ‚Äúcandidatas‚Äù a serem estrelas do tipo pulsar, que t√™m forte import√¢ncia para os astrof√≠sicos. Uma nona coluna do data set especifica se a estrela √© realmente um pulsar (caso positivo, 1) ou n√£o (caso negativo, 0).
T√≥picos

Neste desafios n√≥s vamos explorar:

- Probabilidade
- Estat√≠stica
- NumPy
- SciPy
- StatsModels

### Quest√µes
<pre>
1) Qual a diferen√ßa entre os quartis (Q1, Q2 e Q3) das vari√°veis normal e binomial de dataframe? 
Responda como   uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.
2) Considere o intervalo [ùë•¬Ø‚àíùë†,ùë•¬Ø+ùë†], onde ùë•¬Ø √© a m√©dia amostral e ùë† √© o desvio padr√£o. Qual a probabilidade     nesse intervalo, calculada pela fun√ß√£o de distribui√ß√£o acumulada emp√≠rica (CDF emp√≠rica) da vari√°vel normal? 
Responda como uma √∫nico escalar arredondado para tr√™s casas decimais.
3) Qual √© a diferen√ßa entre as m√©dias e as vari√¢ncias das vari√°veis binomial e normal? Responda como uma tupla    de dois elementos arredondados para tr√™s casas decimais.
4) Quais as probabilidade associadas aos quantis te√≥ricos para uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1   para 0.80, 0.90 e 0.95, utilizando a CDF emp√≠rica da vari√°vel false_pulsar_mean_profile_standardized? 
Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.
5) Qual a diferen√ßa entre os quantis Q1, Q2 e Q3 de false_pulsar_mean_profile_standardized e os mesmos quantis 
te√≥ricos de uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1? 
Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.
</pre>

## An√°lise dos dados

### _Setup_ geral

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
from statsmodels.distributions.empirical_distribution import ECDF

Obs.: Ao enviar o arquivo para avalia√ß√£o, "%matplotlib inline" deve estar comentado ou exclu√≠do do c√≥digo para que seja aprovado.

In [2]:
#%matplotlib inline

from IPython.core.pylabtools import figsize

figsize(12, 8)

sns.set()

## Parte 1 - Quest√µes sobre um data set artificial com dados de uma amostra normal e uma binomial

### _Setup_ da parte 1

In [3]:
np.random.seed(42)
    
dataframe = pd.DataFrame({"normal": sct.norm.rvs(20, 4, size=10000),
                     "binomial": sct.binom.rvs(100, 0.2, size=10000)})
dataframe.head()

Unnamed: 0,normal,binomial
0,21.986857,18
1,19.446943,15
2,22.590754,14
3,26.092119,15
4,19.063387,21


## Quest√£o 1

Qual a diferen√ßa entre os quartis (Q1, Q2 e Q3) das vari√°veis `normal` e `binomial` de `dataframe`? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

Em outra palavras, sejam `q1_norm`, `q2_norm` e `q3_norm` os quantis da vari√°vel `normal` e `q1_binom`, `q2_binom` e `q3_binom` os quantis da vari√°vel `binom`, qual a diferen√ßa `(q1_norm - q1 binom, q2_norm - q2_binom, q3_norm - q3_binom)`?

In [4]:
dataframe.describe()

Unnamed: 0,normal,binomial
count,10000.0,10000.0
mean,19.991456,20.097
std,4.01385,4.041191
min,4.310399,6.0
25%,17.309638,17.0
50%,19.98962,20.0
75%,22.684324,23.0
max,35.704951,36.0


In [5]:
def q1():
    q1_norm, q1_binom = dataframe.quantile(0.25)
    q2_norm, q2_binom = dataframe.quantile(0.5)
    q3_norm, q3_binom = dataframe.quantile(0.75)
    
    qs_dif = round(q1_norm - q1_binom, 3), round(q2_norm - q2_binom, 3), round(q3_norm - q3_binom,3)
    
    return qs_dif
q1()

(0.31, -0.01, -0.316)

Para refletir:

* Voc√™ esperava valores dessa magnitude?

* Voc√™ √© capaz de explicar como distribui√ß√µes aparentemente t√£o diferentes (discreta e cont√≠nua, por exemplo) conseguem dar esses valores?

## Quest√£o 2

Considere o intervalo $[\bar{x} - s, \bar{x} + s]$, onde $\bar{x}$ √© a m√©dia amostral e $s$ √© o desvio padr√£o. Qual a probabilidade nesse intervalo, calculada pela fun√ß√£o de distribui√ß√£o acumulada emp√≠rica (CDF emp√≠rica) da vari√°vel `normal`? Responda como uma √∫nico escalar arredondado para tr√™s casas decimais.

In [6]:
def q2():
    media_normal = dataframe['normal'].mean()
    std_normal = dataframe['normal'].std()
    
    intervalo_inicio = media_normal - std_normal
    intervalo_fim = media_normal + std_normal
    
    prob_inicio = sct.norm.cdf(intervalo_inicio, loc = 20, scale = 4)
    prob_fim = sct.norm.cdf(intervalo_fim, loc = 20, scale = 4)
    prob_intervalo = prob_fim - prob_inicio
    
    return prob_intervalo.item()
q2()

0.6843610768575015

Para refletir:

* Esse valor se aproxima do esperado te√≥rico?
* Experimente tamb√©m para os intervalos $[\bar{x} - 2s, \bar{x} + 2s]$ e $[\bar{x} - 3s, \bar{x} + 3s]$.

Para o intervalo $[\bar{x} - 2s, \bar{x} + 2s]$:

In [7]:
def q2_2():
    media_normal = dataframe['normal'].mean()
    std_normal = dataframe['normal'].std()
    
    intervalo_inicio = media_normal - 2*std_normal
    intervalo_fim = media_normal + 2*std_normal
    
    prob_inicio = sct.norm.cdf(intervalo_inicio, loc = 20, scale = 4)
    prob_fim = sct.norm.cdf(intervalo_fim, loc = 20, scale = 4)
    prob_intervalo = prob_fim - prob_inicio
    
    return prob_intervalo.item()
q2_2()

0.9552418375524105

Para o intervalo $[\bar{x} - 3s, \bar{x} + 3s]$:

In [8]:
def q2_3():
    media_normal = dataframe['normal'].mean()
    std_normal = dataframe['normal'].std()
    
    intervalo_inicio = media_normal - 3*std_normal
    intervalo_fim = media_normal + 3*std_normal
    
    prob_inicio = sct.norm.cdf(intervalo_inicio, loc = 20, scale = 4)
    prob_fim = sct.norm.cdf(intervalo_fim, loc = 20, scale = 4)
    prob_intervalo = prob_fim - prob_inicio
    
    return prob_intervalo.item()
q2_3()

0.9973907920857721

## Quest√£o 3

Qual √© a diferen√ßa entre as m√©dias e as vari√¢ncias das vari√°veis `binomial` e `normal`? Responda como uma tupla de dois elementos arredondados para tr√™s casas decimais.

Em outras palavras, sejam `m_binom` e `v_binom` a m√©dia e a vari√¢ncia da vari√°vel `binomial`, e `m_norm` e `v_norm` a m√©dia e a vari√¢ncia da vari√°vel `normal`. Quais as diferen√ßas `(m_binom - m_norm, v_binom - v_norm)`?

In [9]:
def q3():
    m_norm = dataframe['normal'].mean()
    v_norm = dataframe['normal'].var()
    
    m_binom = dataframe['binomial'].mean()
    v_binom = dataframe['binomial'].var()
    
    return (round(m_binom - m_norm,3), round(v_binom - v_norm,3))
q3()

(0.106, 0.22)

Para refletir:

* Voc√™ esperava valore dessa magnitude?
* Qual o efeito de aumentar ou diminuir $n$ (atualmente 100) na distribui√ß√£o da vari√°vel `binomial`?

## Parte 2 -  An√°lise da distribui√ß√£o de uma vari√°vel do dataset Pulsar Star, contendo 2 quest√µes

### _Setup_ da parte 2

In [10]:
stars = pd.read_csv("pulsar_stars.csv")
stars.head()

Unnamed: 0,140.5625,55.68378214,-0.234571412,-0.699648398,3.199832776,19.11042633,7.975531794,74.24222492,0
0,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,0
1,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,0
2,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,0
3,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,0
4,93.570312,46.698114,0.531905,0.416721,1.636288,14.545074,10.621748,131.394004,0


Pela leitura do arquivo, percebe-se que a primeira linha do arquivo n√£o cont√©m os r√≥tulos das colunas.
Ent√£o deve-se nomear as colunas e considerar a primeira linha como uma das linhas n√£o como r√≥tulo.

In [11]:
nomes_colunas = ["mean_profile", "sd_profile", "kurt_profile", "skew_profile", 
           "mean_curve", "sd_curve", "kurt_curve", "skew_curve", "target"]

stars = pd.read_csv("pulsar_stars.csv", names=nomes_colunas)
stars.head()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,140.5625,55.683782,-0.234571,-0.699648,3.199833,19.110426,7.975532,74.242225,0
1,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,0
2,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,0
3,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,0
4,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,0


O tipo target √© boolean ent√£o deve ser convertido para processar mais facilmente.

In [12]:
stars.loc[:, "target"] = stars.target.astype(bool)
stars.head()

Unnamed: 0,mean_profile,sd_profile,kurt_profile,skew_profile,mean_curve,sd_curve,kurt_curve,skew_curve,target
0,140.5625,55.683782,-0.234571,-0.699648,3.199833,19.110426,7.975532,74.242225,False
1,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,False
2,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,False
3,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,False
4,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,False


## Quest√£o 4

Considerando a vari√°vel `mean_profile` de `stars`:

1. Filtre apenas os valores de `mean_profile` onde `target == 0` (ou seja, onde a estrela n√£o √© um pulsar).
2. Padronize a vari√°vel `mean_profile` filtrada anteriormente para ter m√©dia 0 e vari√¢ncia 1.

Chamaremos a vari√°vel resultante de `false_pulsar_mean_profile_standardized`.

Encontre os quantis te√≥ricos para uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1 para 0.80, 0.90 e 0.95 atrav√©s da fun√ß√£o `norm.ppf()` dispon√≠vel em `scipy.stats`.

Quais as probabilidade associadas a esses quantis utilizando a CDF emp√≠rica da vari√°vel `false_pulsar_mean_profile_standardized`? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

In [13]:
def padronizarColuna(coluna):
    u = coluna.mean()
    std = coluna.std()
    return (coluna - u)/std

In [14]:
def q4():
    false_pulsar_mean_profile = stars.query('target == False')['mean_profile']
    false_pulsar_mean_profile_standardized = padronizarColuna(false_pulsar_mean_profile)
    
    q1_norm, q2_norm, q3_norm = [sct.norm.ppf(x, loc = 0, scale = 1) for x in [0.80, 0.90, 0.95]]
        
    q1 = (false_pulsar_mean_profile_standardized <= q1_norm).sum()/len(false_pulsar_mean_profile_standardized)
    q2 = (false_pulsar_mean_profile_standardized <= q2_norm).sum()/len(false_pulsar_mean_profile_standardized)
    q3 = (false_pulsar_mean_profile_standardized <= q3_norm).sum()/len(false_pulsar_mean_profile_standardized)
    
    qs = round(q1,3), round(q2,3), round(q3,3) 
        
    return qs
q4()

(0.806, 0.911, 0.959)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribui√ß√£o da vari√°vel `false_pulsar_mean_profile_standardized`?

## Quest√£o 5

Qual a diferen√ßa entre os quantis Q1, Q2 e Q3 de `false_pulsar_mean_profile_standardized` e os mesmos quantis te√≥ricos de uma distribui√ß√£o normal de m√©dia 0 e vari√¢ncia 1? Responda como uma tupla de tr√™s elementos arredondados para tr√™s casas decimais.

In [15]:
def padronizarColuna_2(coluna):
    u = coluna.mean()
    std = coluna.std()
    return (coluna - u)/std

In [16]:
def q5():
    false_pulsar_mean_profile = stars.query('target == False')['mean_profile']
    false_pulsar_mean_profile_standardized = padronizarColuna_2(false_pulsar_mean_profile)
    
    q1_norm, q2_norm, q3_norm = [sct.norm.ppf(x, loc = 0, scale = 1) for x in [0.25, 0.5, 0.75]]
    
    q1_pulsar, q2_pulsar, q3_pulsar = [false_pulsar_mean_profile_standardized.quantile(q = x).item() for x in [0.25, 0.5, 0.75]]
    
    qs_dif = round(q1_pulsar - q1_norm, 3), round(q2_pulsar - q2_norm, 3), round(q3_pulsar - q3_norm, 3)
    
    return qs_dif
q5()    

(0.027, 0.04, -0.004)

Para refletir:

* Os valores encontrados fazem sentido?
* O que isso pode dizer sobre a distribui√ß√£o da vari√°vel `false_pulsar_mean_profile_standardized`?
* Curiosidade: alguns testes de hip√≥teses sobre normalidade dos dados utilizam essa mesma abordagem.