<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Probabilidade" data-toc-modified-id="Probabilidade-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Probabilidade</a></span><ul class="toc-item"><li><span><a href="#Espaço-Amostral" data-toc-modified-id="Espaço-Amostral-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Espaço Amostral</a></span></li><li><span><a href="#Amostragem" data-toc-modified-id="Amostragem-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Amostragem</a></span></li><li><span><a href="#Amostra" data-toc-modified-id="Amostra-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Amostra</a></span></li><li><span><a href="#Distribuições-de-Probabilidade" data-toc-modified-id="Distribuições-de-Probabilidade-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Distribuições de Probabilidade</a></span><ul class="toc-item"><li><span><a href="#Distribuição-de-Bernoulli" data-toc-modified-id="Distribuição-de-Bernoulli-1.4.1"><span class="toc-item-num">1.4.1&nbsp;&nbsp;</span>Distribuição de Bernoulli</a></span></li><li><span><a href="#Distribuição-Binomial" data-toc-modified-id="Distribuição-Binomial-1.4.2"><span class="toc-item-num">1.4.2&nbsp;&nbsp;</span>Distribuição Binomial</a></span></li><li><span><a href="#Distribuição-Geométrica" data-toc-modified-id="Distribuição-Geométrica-1.4.3"><span class="toc-item-num">1.4.3&nbsp;&nbsp;</span>Distribuição Geométrica</a></span></li><li><span><a href="#Distribuição-de-Poisson" data-toc-modified-id="Distribuição-de-Poisson-1.4.4"><span class="toc-item-num">1.4.4&nbsp;&nbsp;</span>Distribuição de Poisson</a></span></li><li><span><a href="#Distribuição-Exponencial" data-toc-modified-id="Distribuição-Exponencial-1.4.5"><span class="toc-item-num">1.4.5&nbsp;&nbsp;</span>Distribuição Exponencial</a></span></li><li><span><a href="#Teorema-do-Limite-Central" data-toc-modified-id="Teorema-do-Limite-Central-1.4.6"><span class="toc-item-num">1.4.6&nbsp;&nbsp;</span>Teorema do Limite Central</a></span></li></ul></li></ul></li><li><span><a href="#Intervalo-de-Confiaça-e-RMSE" data-toc-modified-id="Intervalo-de-Confiaça-e-RMSE-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Intervalo de Confiaça e RMSE</a></span><ul class="toc-item"><li><span><a href="#RMSE-e-Complexidade" data-toc-modified-id="RMSE-e-Complexidade-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>RMSE e Complexidade</a></span></li></ul></li></ul></div>

# Probabilidade

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

## Espaço Amostral

O conjunto de valores distintos que uma R.V. pode assumir

In [None]:
moeda = ['cara', 'coroa']

## Amostragem

In [None]:
def jogar_moeda_justa():
    return np.random.choice(moeda)

In [None]:
jogar_moeda_justa()

In [None]:
def jogar_moeda_injusta():
    return np.random.choice(moeda, p = [0.1, 0.9])

In [None]:
jogar_moeda_injusta()

## Amostra

In [None]:
amostra_10 = [jogar_moeda_justa() for i in range(10)]

In [None]:
amostra_10

In [None]:
from collections import Counter

In [None]:
Counter(amostra_10)

## Distribuições de Probabilidade

### Distribuição de Bernoulli

Espaço amostral: Booleano

<img src="bernoulli.jpg" alt="Drawing" style="width: 200px;"/>

In [None]:
amostra_justa = [jogar_moeda_justa() for i in range(100)]
amostra_injusta = [jogar_moeda_injusta() for i in range(100)]

In [None]:
Counter(amostra_justa)

In [None]:
pd.DataFrame([Counter(amostra_justa)])/100

In [None]:
sns.barplot(data = pd.DataFrame([Counter(amostra_justa)])/100)

In [None]:
Counter(amostra_injusta)

In [None]:
sns.barplot(data = pd.DataFrame([Counter(amostra_injusta)])/100)

### Distribuição Binomial

Espaço amostral: Inteiros >= 0

In [None]:
def numero_coroa_justa(amostras):
    amostra = [jogar_moeda_justa() for i in range(amostras)]
    return Counter(amostra)['coroa']

In [None]:
numero_coroa_justa(10)

In [None]:
amostra_binomial = [numero_coroa_justa(10) for i in range(1000)]

In [None]:
amostra_binomial[0:6]

In [None]:
contagem_amostra = Counter(amostra_binomial)
tb_binom = pd.DataFrame({
    'num_coroas': contagem_amostra.keys(),
    'num_eventos': contagem_amostra.values()
})
tb_binom['prob_medida'] = tb_binom['num_eventos']/sum(tb_binom['num_eventos'])
tb_binom = tb_binom.sort_values('num_coroas')

In [None]:
sns.barplot(data = tb_binom, x = 'num_coroas', y = 'prob_medida', color='blue')

In [None]:
dist_binomial = sp.stats.binom(10, 0.5)

In [None]:
x = np.arange(0,11)
y = dist_binomial.pmf(x)
sns.barplot(x= x, y=y, color='blue')

Podemos usar a pmf (probability mass function, ou função massa de probabilidade) para calcular a probabilidade de uma dada contagem de eventos positivos:

In [None]:
dist_binomial.pmf(5)

In [None]:
sum([dist_binomial.pmf(i) for i in [0, 1, 2]])

e podemos usar a função distribuição acumulada, ou C.D.F. (cumulative distribution function) para calcular a probabilidade de até N eventos:

In [None]:
dist_binomial.cdf(2)

In [None]:
x = np.arange(0,11)
y = 1-dist_binomial.cdf(x)
sns.barplot(x= x, y=y, color='blue')

In [None]:
tb_binom['prob_real'] = tb_binom['num_coroas'].apply(dist_binomial.pmf)

In [None]:
tb_binom

In [None]:
sns.barplot(data = tb_binom, x = 'num_coroas', y = 'prob_medida', color='blue')
sns.pointplot(data = tb_binom, x = 'num_coroas', y = 'prob_real', color = 'red')

### Distribuição Geométrica

Espaço amostral: Inteiros positivos (> 0)

In [None]:
def primeira_coroa_justa():
    i = 0
    while True:
        if jogar_moeda_justa() == 'coroa':
            i += 1
            return i
        else:
            i += 1

In [None]:
primeira_coroa_justa()

In [None]:
amostra_geo = [primeira_coroa_justa() for i in range(1000)]

In [None]:
amostra_geo[1:10]

In [None]:
contagem_amostra = Counter(amostra_geo)
tb_geo = pd.DataFrame({
    'num_primeira_coroa': contagem_amostra.keys(),
    'num_eventos': contagem_amostra.values()
})
tb_geo = tb_geo.sort_values('num_primeira_coroa')

In [None]:
tb_geo

In [None]:
sns.barplot(data = tb_geo, x = 'num_primeira_coroa', y = 'num_eventos', color = 'blue')

In [None]:
dist_geom = sp.stats.geom(0.5)

In [None]:
tb_geo['prob_medida'] = tb_geo['num_eventos']/sum(tb_geo['num_eventos'])
tb_geo['prob_real'] = tb_geo['num_primeira_coroa'].apply(dist_geom.pmf)

In [None]:
sns.barplot(data = tb_geo, x = 'num_primeira_coroa', y = 'prob_medida', color = 'blue')
sns.pointplot(data = tb_geo, x = 'num_primeira_coroa', y = 'prob_real', color = 'red')

### Distribuição de Poisson

<img src="poisson.jpg" alt="Drawing" style="width: 200px;"/>

In [None]:
evento_raro = ['raro', 'comum']

In [None]:
def simular_er():
    p = 1/1e05
    return np.random.choice(evento_raro, p = [p, 1-p])

In [None]:
def numero_eventos_raros(amostras):
    amostra = [simular_er() for i in range(int(amostras))]
    return Counter(amostra)['raro']

In [None]:
numero_eventos_raros(2e05)

In [None]:
amostra_poi = [numero_eventos_raros(2e05) for i in range(100)]

In [None]:
contagem_amostra = Counter(amostra_poi)
tb_poisson = pd.DataFrame({
    'num_raros': contagem_amostra.keys(),
    'num_eventos': contagem_amostra.values()
})
tb_poisson = tb_poisson.sort_values('num_raros')

In [None]:
sns.barplot(data = tb_poisson, x = 'num_raros', y = 'num_eventos', color='blue')

In [None]:
p = 1/1e05
n = 2e05
lamb = p * n
dist_poisson = sp.stats.poisson(p*n)

In [None]:
tb_poisson['prob_medida'] = tb_poisson['num_eventos']/sum(tb_poisson['num_eventos'])
tb_poisson['prob_real'] = tb_poisson['num_raros'].apply(dist_poisson.pmf)

In [None]:
sns.barplot(data = tb_poisson, x = 'num_raros', y = 'prob_medida', color='blue')
sns.pointplot(data = tb_poisson, x = 'num_raros', y = 'prob_real', color='red')

### Distribuição Exponencial

In [None]:
dist_exp = sp.stats.expon(scale = 1/lamb)

In [None]:
x = np.linspace(0.01, 10, 1000)
y = dist_exp.pdf(x)
sns.lineplot(x = x, y = y, color='red')

In [None]:
x = np.linspace(0.01, 10, 1000)
y = dist_exp.cdf(x)
sns.lineplot(x = x, y = y, color='red')

In [None]:
amostra_exp = dist_exp.rvs(size=100)
tb_expon = pd.DataFrame({'t' : amostra_exp})

In [None]:
tb_expon['t_acumulado'] = tb_expon['t'].cumsum()

In [None]:
tb_expon

In [None]:
tb_expon['minuto'] = np.floor(tb_expon['t_acumulado'])

In [None]:
tb_expon

In [None]:
tb_num_eventos = pd.DataFrame({'minuto' : range(0, int(max(tb_expon['minuto']) + 1))})

In [None]:
n_eventos_minuto = tb_expon.groupby('minuto')['t'].count().reset_index()  

In [None]:
n_eventos_minuto.head()

In [None]:
tb_nev_min = pd.merge(tb_num_eventos, n_eventos_minuto, how = 'left', on = 'minuto')
tb_nev_min = tb_nev_min.fillna(0)
tb_nev_min = tb_nev_min.rename({'t' : 'num_chegadas'}, axis = 1)

In [None]:
tb_nev_min.head()

In [None]:
tb_poiss_pro = tb_nev_min.groupby('num_chegadas').sum().reset_index()
tb_poiss_pro = tb_poiss_pro.rename({'minuto' : 'num_eventos'}, axis = 1)
tb_poiss_pro['prob_real'] = tb_poiss_pro['num_chegadas'].apply(dist_poisson.pmf)
tb_poiss_pro['prob_medida'] = tb_poiss_pro['num_eventos']/sum(tb_poiss_pro['num_eventos'])
tb_poiss_pro

In [None]:
sns.barplot(data = tb_poiss_pro, x = 'num_chegadas', y = 'prob_medida', color = 'blue')
sns.pointplot(data = tb_poiss_pro, x = 'num_chegadas', y = 'prob_real', color='red')

### Teorema do Limite Central

In [None]:
amostra_binomial_array = np.array(amostra_binomial[0:99])
amostra_binomial[0:5]

In [None]:
amostra_geo_array = np.array(amostra_geo[0:99])
amostra_geo[0:5]

In [None]:
amostra_poi_array = np.array(amostra_poi[0:99])
amostra_poi[0:5]

In [None]:
amostra_exp_array = np.array(amostra_exp[0:99])
amostra_exp[0:5]

In [None]:
def norm_array(arr):
    mu_arr = np.mean(arr)
    sd_arr = np.std(arr)
    
    return (arr - mu_arr)/sd_arr

In [None]:
amostra_binomial_norm = norm_array(amostra_binomial_array)
amostra_geo_array = norm_array(amostra_geo_array)
amostra_poi_array = norm_array(amostra_poi_array)
amostra_exp_array = norm_array(amostra_exp_array)

In [None]:
amostra_norm = amostra_binomial_norm + amostra_geo_array + amostra_poi_array + amostra_exp_array

In [None]:
amostra_norm

In [None]:
dist_norm = sp.stats.norm(loc = np.mean(amostra_norm), scale = np.std(amostra_norm))
random_sample = dist_norm.rvs(1000)
sns.kdeplot(amostra_norm);
sns.kdeplot(random_sample);

# Intervalo de Confiaça e RMSE

In [None]:
candidatos = ['A', 'B']
def intencao_voto():
    return np.random.choice(candidatos, p = [0.45, 0.55])

In [None]:
def pesquisa_opiniao(tamanho_amostra):
    pesquisa = [intencao_voto() for i in range(100)]
    c_pesq = Counter(pesquisa)
    return c_pesq['A']/tamanho_amostra

In [None]:
pesquisa_1 = pesquisa_opiniao(100)

In [None]:
lista_pesquisas = [pesquisa_opiniao(100) for i in range(1000)]

In [None]:
plt.hist(lista_pesquisas);

In [None]:
tb_insu = pd.read_csv('data/tb_insurance.csv')
tb_insu['out'] = np.where((tb_insu['expenses'] > 10000) & (tb_insu['smoker'] == 'no'),
                          1, 0)
tb_insu = tb_insu[tb_insu['out'] == 0].copy()
tb_insu['obese'] = np.where(tb_insu['bmi'] >= 30, 'yes', 'no')
tb_insu = tb_insu.join(pd.get_dummies(tb_insu['obese'], prefix = 'obese'))
tb_insu = tb_insu.join(pd.get_dummies(tb_insu['smoker'], prefix = 'smoker'))
tb_insu['obese_smoker'] = tb_insu['obese_yes'] * tb_insu['smoker_yes']
tb_insu['bmi_smoker'] = tb_insu['bmi'] * tb_insu['smoker_yes']

X = sm.add_constant(tb_insu[['obese_smoker', 'age', 'bmi_smoker', 'smoker_yes']])
Y = tb_insu['expenses']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
tb_insu['lm_pred'] = lm_fit.predict()
sns.lineplot(data = tb_insu, x = 'age', y='lm_pred', hue = 'smoker', style = 'obese')
sns.scatterplot(data = tb_insu, x = 'age', y='expenses', hue = 'smoker', style = 'obese')

In [None]:
lm_fit.summary()


In [None]:
tb_insu['resid'] = tb_insu['expenses'] - tb_insu['lm_pred']

In [None]:
sns.histplot(data = tb_insu, x = 'resid')

In [None]:
rmse = np.sqrt(np.mean(tb_insu['resid']**2))

In [None]:
rmse

In [None]:
np.std(tb_insu['resid'])

In [None]:
norm_rmse =  sp.stats.norm(loc = 0, scale = rmse)
rand_rmse = norm_rmse.rvs(10000)
sns.kdeplot(rand_rmse)

In [None]:
norm_rmse.ppf(0.95)

## RMSE e Complexidade

In [None]:
def simular_dado(min_x, max_X, 
                 desvpad_E, A, B,
                 samples):
    x = np.random.uniform(min_x, max_X, size = samples)
    E = np.random.normal(loc = 0, scale = desvpad_E, size = samples)
    y = B + A * x + E
    return pd.DataFrame({'x' : x, 'y' : y})

tb_simul = simular_dado(0, 10, 15, 10, 10, 100)

In [None]:
sns.scatterplot(data = tb_simul, x = 'x', y = 'y')

In [None]:
modelo = LinearRegression()
X = tb_simul[['x']]
Y = tb_simul['y']
modelo.fit(X, Y)

tb_simul['pred'] = modelo.predict(X)
tb_simul['erro_2'] = (tb_simul['pred'] - tb_simul['y'])**2
rmse = np.sqrt(np.mean(tb_simul['erro_2']))
sns.scatterplot(data = tb_simul, x = 'x', y = 'y');
sns.lineplot(data = tb_simul, x = 'x', y = 'pred');
plt.title("RMSE: " + str(round(rmse, 2)));

In [None]:
modelo = LinearRegression()
tb_simul['x_2'] = tb_simul['x'] ** 2
tb_simul['x_3'] = tb_simul['x'] ** 3
tb_simul.head()

In [None]:
X = tb_simul[['x', 'x_2', 'x_3']]
Y = tb_simul['y']
modelo.fit(X, Y)

tb_simul['pred'] = modelo.predict(X)
tb_simul['erro_2'] = (tb_simul['pred'] - tb_simul['y'])**2
rmse = np.sqrt(np.mean(tb_simul['erro_2']))
sns.scatterplot(data = tb_simul, x = 'x', y = 'y');
sns.lineplot(data = tb_simul, x = 'x', y = 'pred');
plt.title("RMSE: " + str(round(rmse, 2)));

In [None]:
for i in range(4, 21):
    tb_simul['x_' + str(i)] = tb_simul['x'] ** i

In [None]:
tb_simul.head()

In [None]:
def calcular_erro(dados, X_names, Y_name):
    modelo = LinearRegression()
    X = dados[X_names]
    Y = dados[Y_name]
    modelo.fit(X, Y)
    
    dados['pred'] = modelo.predict(X)
    dados['erro_2'] = (dados['pred'] - dados[Y_name])**2
    rmse = np.sqrt(np.mean(dados['erro_2']))
    return round(rmse, 2)

In [None]:
print("Polinomio Grau:" + str(1) + " RMSE:" + str(calcular_erro(tb_simul, ['x'], 'y')))
for poly in range(2, 21):
    var_x = ['x_' + str(i) for i in range(2, poly+1)] + ['x']
    print("Polinomio Grau:" + str(poly) + " RMSE:" + str(calcular_erro(tb_simul, var_x, 'y')))

In [None]:
X = tb_simul[[
    'x', 'x_2', 'x_3', 'x_4', 'x_5', 'x_6', 'x_7', 'x_8', 'x_9', 'x_10',
    'x_11', 'x_12', 'x_13', 'x_14', 'x_15', 'x_16', 'x_17', 'x_18'
]]
Y = tb_simul['y']
modelo.fit(X, Y)

tb_simul['pred'] = modelo.predict(X)
tb_simul['erro_2'] = (tb_simul['pred'] - tb_simul['y'])**2
rmse = np.sqrt(np.mean(tb_simul['erro_2']))
sns.scatterplot(data=tb_simul, x='x', y='y')
sns.lineplot(data=tb_simul, x='x', y='pred')
plt.title("RMSE: " + str(round(rmse, 2)))

In [None]:
def calcular_erro_teste(dados, X_names, Y_name):
    modelo = LinearRegression()
    dados_train = dados[0:50].copy()
    dados_teste = dados[50:].copy()
    X = dados_train[X_names]
    Y = dados_train[Y_name]
    modelo.fit(X, Y)
    
    dados_teste['pred'] = modelo.predict(X)
    dados_teste['erro_2'] = (dados_teste['pred'] - dados_teste[Y_name])**2
    rmse = np.sqrt(np.mean(dados_teste['erro_2']))
    return rmse

In [None]:
print("Polinomio Grau:" + str(1) + " RMSE:" + str(calcular_erro(tb_simul, ['x'], 'y')))
for poly in range(2, 21):
    var_x = ['x_' + str(i) for i in range(2, poly+1)] + ['x']
    print("Polinomio Grau:" + str(poly) + " RMSE:" + str(calcular_erro_teste(tb_simul, var_x, 'y')))