# Inferência 2

In [None]:
# ** Paradoxo de Simpson e regressão linear multipla **
from IPython.lib.display import YouTubeVideo
YouTubeVideo('hO8NMIU20Ck')

# Paradoxo de Simpson

<br>
<img src="img/simpson_paradox.png" width="450" />
<br>

O paradoxo de Simpson (ou reversão de Simpson, efeito Yule-Simpson, paradoxo de amalgamação ou paradoxo de reversão) é um fenômeno em probabilidade e estatística, no qual uma tendência aparece em vários grupos diferentes de dados, mas desaparece ou reverte quando esses grupos são combinado.

Este resultado é freqüentemente encontrado em estatísticas de ciências sociais e ciências médicas e é particularmente problemático quando dados de frequência são indevidamente dadas interpretações causais. Os elementos paradoxais desaparecem quando as relações causais são levadas em consideração. Ele tem sido usado para tentar informar o público não especialista ou público sobre o tipo de resultados enganosos que estatísticas erradas podem gerar. Martin Gardner escreveu um relato popular do paradoxo de Simpson em sua coluna de Jogos Matemáticos de março de 1976 na Scientific American.

Edward H. Simpson descreveu esse fenômeno pela primeira vez em um artigo técnico em 1951, mas os estatísticos Karl Pearson et al., Em 1899, e Udny Yule, em 1903, mencionaram efeitos semelhantes anteriormente. O nome paradoxo de Simpson foi introduzido por Colin R. Blyth em 1972.

## Exemplo: Tratamento de pedra nos rins

Este é um exemplo da vida real de um estudo médico comparando as taxas de sucesso de dois tratamentos para cálculos renais.

A tabela abaixo mostra as taxas de sucesso e o número de tratamentos para tratamentos envolvendo cálculos renais pequenos e grandes, onde o Tratamento A inclui todos os procedimentos cirúrgicos abertos e o Tratamento B é a nefrolitotomia percutânea (que envolve apenas uma pequena punção). Os números entre parênteses indicam o número de casos de sucesso sobre o tamanho total do grupo.

<br>
<img src="img/simpson_kidney.png" width="450" />
<br>

A conclusão paradoxal é que o tratamento A é mais eficaz quando usado em pedras pequenas, e também quando usado em pedras grandes, mas o tratamento B é mais eficaz quando se considera os dois tamanhos ao mesmo tempo. Neste exemplo, a variável "à espreita" (ou variável de confusão) é a gravidade do caso (representada pela tendência da decisão de tratamento dos médicos de favorecer B para casos menos graves), que não era previamente conhecida como importante até que seus efeitos fossem incluído.

Qual tratamento é considerado melhor é determinado por uma desigualdade entre duas razões (sucessos / total). A inversão da desigualdade entre as razões, que cria o paradoxo de Simpson, acontece porque dois efeitos ocorrem juntos:

Os tamanhos dos grupos, que são combinados quando a variável oculta é ignorada, são muito diferentes. Os médicos tendem a dar aos casos graves (pedras grandes) o melhor tratamento (A), e os casos mais leves (pedras pequenas) ao tratamento inferior (B). Portanto, os totais são dominados pelos grupos 3 e 2, e não pelos dois grupos muito menores 1 e 4.

A variável oculta tem um grande efeito nas proporções; i.e., a taxa de sucesso é mais fortemente influenciada pela gravidade do caso do que pela escolha do tratamento. Portanto, o grupo de pacientes com cálculos grandes utilizando o tratamento A (grupo 3) piorou que o grupo com cálculos pequenos (grupos 1 e 2), mesmo se este último utilizou o tratamento inferior B (grupo 2).

Com base nesses efeitos, o resultado paradoxal é visto pela supressão do efeito causal da gravidade do caso no tratamento bem-sucedido. O resultado paradoxal pode ser reformulado mais precisamente da seguinte forma: quando o tratamento menos eficaz (B) é aplicado com maior frequência a casos menos graves, pode parecer um tratamento mais eficaz.

Vamos trabalhar com os dados para verificar a ocorrência do Paradoxo da Simpson

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

In [None]:
df = pd.DataFrame([['A','small', 81, 87],
                   ['A','large', 192, 263],
                   ['B','small', 234, 270],
                   ['B','large', 55, 80],], columns=['treatment', 'kidney_stone_size', 'recovery', 'total'])   
df
#simpsons_paradox( df, 'recovery', 'total', 'treatment', 'kidney_stone_size' )

## Total por tipo de tratamento

Analisando os valores totais, podemos concluir que o tratamento B é mais bem sucedido que o tratamento A.

In [None]:
df_stone_size = df.groupby('treatment').sum()
df_stone_size['rate'] = df_stone_size.recovery/df_stone_size.total

list = df_stone_size['rate'].tolist()
rounded_list = [round(elem, 2) for elem in list]

plt.figure(figsize=(4,4))
ax = df_stone_size['rate'].plot(kind='bar')
ax.set_title('Total')
ax.set_xlabel('Tratment Type')
ax.set_ylabel('Sucess Rate')

rects = ax.patches

# Make some labels.
labels = [rounded_list[i] for i in range(len(rounded_list))]
for rect, label in zip(rects, labels):
    height = rect.get_height()
    ax.text(rect.get_x() + rect.get_width()/2, height, label,
            ha='center', va='bottom')

## Parciais por tipo de tamanho da pedra (Large & Small)

Por outro lado, analisando as parciais para os tipos de tamanho de pedra, constatamos que o tratamento A é mais bem sucedido que o tratamento B.

In [None]:
df_large = df[df.kidney_stone_size == 'large']
df_large = df_large.set_index('treatment')
df_large['rate'] = df_large.recovery/df_large.total

list = df_large['rate'].tolist()
rounded_list = [round(elem, 2) for elem in list]

plt.figure(figsize=(4,4))
ax = df_large['rate'].plot(kind='bar')
ax.set_title('Large')
ax.set_xlabel('Large')
ax.set_ylabel('Sucess Rate')

rects = ax.patches

# Make some labels.
labels = [rounded_list[i] for i in range(len(rounded_list))]
for rect, label in zip(rects, labels):
    height = rect.get_height()
    ax.text(rect.get_x() + rect.get_width()/2, height, label,
            ha='center', va='bottom')
    
df_small = df[df.kidney_stone_size == 'small']
df_small = df_small.set_index('treatment')
df_small['rate'] = df_small.recovery/df_small.total

list = df_small['rate'].tolist()
rounded_list = [round(elem, 2) for elem in list]

plt.figure(figsize=(4,4))
ax = df_small['rate'].plot(kind='bar')
ax.set_title('Small')
ax.set_xlabel('Small')
ax.set_ylabel('Sucess Rate')

rects = ax.patches

# Make some labels.
labels = [rounded_list[i] for i in range(len(rounded_list))]
for rect, label in zip(rects, labels):
    height = rect.get_height()
    ax.text(rect.get_x() + rect.get_width()/2, height, label,
            ha='center', va='bottom')

## Modelo para detecção do Paradoxo de Simpson, para o tratamento de pedras nos rins

In [None]:
# detect simpson's paradox
import numpy as np
import pandas as pd


def aggregate_data(df, conversion_col, treatment_col, segment_col):
    """
    takes table of individual level data and aggregates it for simpsons paradox detection.
    conversion_col is 1 if success, 0 else. 
    ex:
    pd.DataFrame([
        ['small', 'A', 1],
        ['small', 'B', 0],
        ['large', 'A', 1],
        ['small', 'A', 1],
        ['large', 'B', 0],
        ['large', 'B', 0],
    ], columns=['kidney_stone_size', 'treatment', 'recovery'])   
    """
    df_ = df[[conversion_col, treatment_col, segment_col]]
    gb = df_.groupby([segment_col, treatment_col]).agg(
        [np.sum, lambda x: len(x)])
    gb.columns = [conversion_col, "total"]

    return gb.reset_index()


def simpsons_paradox(df, conversion_col, total_col, treatment_col, segment_col):
    """
    given a dataframe like:
        pd.DataFrame([
            ['small', 'A', 81, 87],
            ['small', 'B', 234, 270],
            ['large', 'A', 192, 263],
            ['large', 'B', 55, 80],
        ], columns=['kidney_stone_size', 'treatment', 'recovery', 'total'])   
    will determine if simpsons paradox exists. Non Bayesian!
    > simpsons_paradox( df, 'recovery', 'total', 'treatment', 'kidney_stone_size' )    
    """

    # find global optimal:
    gbs = df.groupby(treatment_col).sum()
    print ("## Global rates: ")
    print (gbs[conversion_col] / gbs[total_col])
    print
    global_optimal = (gbs[conversion_col] / gbs[total_col]).argmax()

    # check optimal via segments
    df_ = df.set_index([segment_col, treatment_col])
    rates = (df_[conversion_col] / df_[total_col]).unstack(-1)
    print ("## Local rates:")
    print (rates)
    print
    # find the local optimals
    local_optimals = rates.apply(lambda x: x.argmax(), 1)

    if local_optimals.unique().shape[0] > 1:
        print ("## Simpsons paradox not detected.")
        print ("## Segmented rates do not have a consistent optimal choice")
        print ("## Local optimals:")
        print (local_optimals)
        print ("## Global optimal: ", global_optimal)
        return False

    local_optimal = local_optimals.unique()[0]

    print ("## Global optimal: ", global_optimal)
    print ("## Local optimal: ", local_optimal)
    if local_optimal != global_optimal:
        print ("## Simpsons Paradox detected.")
        return True

    else:
        print ("## Simpsons paradox not detected.")
        return False


if __name__ == "__main__":
    # create some data, indentical to the data at
    # http://en.wikipedia.org/wiki/Simpsons_paradox
    d = []
    d += ([('A', 'small', 1)] * 81)
    d += ([('A', 'small', 0)] * (87 - 81))
    d += ([('B', 'small', 0)] * (270 - 234))
    d += ([('B', 'small', 1)] * (234))
    d += ([('B', 'large', 1)] * (55))
    d += ([('B', 'large', 0)] * (80 - 55))
    d += ([('A', 'large', 0)] * (263 - 192))
    d += ([('A', 'large', 1)] * (192))

    df = pd.DataFrame(
        d, columns=['treatment', 'kidney_stone_size', 'recovery'])
    gb = aggregate_data(df, 'recovery', 'treatment', 'kidney_stone_size')
simpsons_paradox(gb, 'recovery', 'total', 'treatment', 'kidney_stone_size')

# Teste Bayesiano A / B com Python

Qualquer pessoa que queira fazer um teste A / B sabe que as teorias estatísticas têm algo a dizer sobre se é A ou B que tem a melhor performance. O bom do teste Bayesiano A / B é aquele onde fica (relativamente) claro como tomar essa decisão.

Vamos imaginar que temos uma experiência em execução, onde queremos saber se são as Alpacas (Llamas) ou os Ursos que apresentam melhor performance para a taxa de conversào de usuários na página de destino de nosso site. O teste A/B já é muito conhecido entre as pessoas que trabalham com dados e utilizam ferramentas no processo de tomada de decisão. 

Para o artigo original [clique aqui](https://medium.com/hockey-stick/tl-dr-bayesian-a-b-testing-with-python-c495d375db4d).

<br>
<img src="img/bear.png" width="450" />
<br>

## A distribuição BETA

Em teoria da probabilidade e estatística, a distribuição beta é uma família de distribuições de probabilidade contínuas definidas no intervalo [ 0 , 1 ] {\displaystyle [0,1]} [0,1] parametrizado por dois parâmetros positivos, denotados por α {\displaystyle \alpha } \alpha e β {\displaystyle \beta } \beta, que aparecem como expoentes da variável aleatória e controlam o formato da distribuição.

A distribuição beta tem sido aplicada para modelar o comportamento de variáveis aleatórias limitadas a intervalos de tamanho finito em uma grande quantidade de disciplinas.

Em Inferência bayesiana, a distribuição beta é a distribuição conjugada a priori da distribuição de Bernoulli, distribuição binomial, distribuição binomial negativa e distribuição geométrica. Por exemplo, a distribuição beta pode ser usada na análise bayesiana para descrever conhecimentos iniciais sobre a probabilidade de sucesso assim como a probabilidade de que um veículo espacial vai completar uma missão especificada. A distribuição beta é um modelo conveniente para comportamento aleatório de porcentagens e proporções. 

Para saber mais sobre distribuição beta [clique aqui](https://en.wikipedia.org/wiki/Beta_distribution)


### Utilizando a distribuição Beta em nosso experimento

A idéia geral por trás do teste de taxa de conversão bayesiana é gerar duas distribuições que verifiquem todas as taxas possíveis e atualizá-las com informações sobre o desempenho do teste, ajustando a nossa expectativa da taxa mais representativa de acordo com os resultados.

Podemos representar isso com a distribuição Beta que possui dois parâmetros: α, que representa as conversões bem-sucedidas e β, que representa as pessoas que saíram sem converter.

Podemos pensar em α e β como probabilidades: 10 pra 1, 2 pra 3, e assim por diante. A única diferença é que 4 pra 6 representa um resultado mais representativo que, na mesma taxa de conversão, 2 pra 3.

Antes de iniciarmos o experimento, não temos idéia se, entre Llamas ou Ursos, qual das opções é melhor para conversão.

Digamos que, se não temos ideia alguma sobre qual das opções é melhor, para ambas qualquer taxa de conversão seria igualmente provável. Podemos representar isso com uma única conversão e uma única saída ou Beta (α = 1, β = 1).

Graficamente a distribuição que se parece com o gráfico abaixo, que nos permite entender melhor o código e como plotar uma distribuição Beta.

In [None]:
# importando as bilbiotecas

from scipy.stats import beta
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
# Para o gráfico
fig, ax = plt.subplots(figsize=(12,8))

# Gerando a distribuição
beta_distribution = beta(1,1)

# Plotando a destribuição

x = np.linspace(0., 0.5, 1000)

ax.plot(x, beta_distribution.pdf(x),color='red')
ax.set(xlabel='conversion rate', ylabel='density')

## Exemplo de plotagem da distribuição BETA

Na realidade, sabemos um pouco sobre as taxas de conversão prováveis. Podemos usar essa informação para descartar resultados improváveis e acelerar nosso teste!

Digamos que experimentamos Alpacas antes e descobrimos que eles convertem cerca de 16% do tempo. Para representar isso, podemos usar a distribuição Beta (16, 100-16). No entanto, podemos ser um pouco céticos sobre o desempenho, então vamos reduzi-la para Beta (8, 50-8).

Ambas as distribuições são mostradas abaixo. Vale a pena brincar com os parâmetros destas funções Beta para entender melhor o nosso estudo.

In [None]:
# Para o gráfico
fig, ax = plt.subplots(figsize=(12,8)) 

x = np.linspace(0.02, 0.3, 1000) 

# Gerando e plotando as distribuições
alpacas1_distribution = beta(16, 100-16)  # conversão de 16 em 100 cliques
alpacas2_distribution = beta(8, 50-8)     # conversão de 8 em 50 cliques

ax.plot(x, alpacas1_distribution.pdf(x),label='Beta: 16 em 100',color='black')
ax.plot(x, alpacas2_distribution.pdf(x),label='Beta: 8 em 50',color='red')

plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)

## Conduzindo o teste A/B

Agora vamos adicionar dados "reais" à essa experiência, porém vamos vamos ter que assumir uma premissa que ainda é desconhecida, os Ursos têm melhor performance do que as Alpacas.

Vamos simular esta modelagem gerando um pequeno número de resultados aleatórios entre 0 e 1, depois escolhendo valores abaixo de um certo ponto de corte.

O corte representa nossa taxa de conversão real e os valores abaixo dela são nossas conversões.

In [None]:
# total de observações (número de pessoas do univeerso amostral)
people_in_branch = 50

# Dados de controle são Alpaca, e dados de experimento são Ursos
np.random.seed(42)
control, experiment = np.random.rand(2, people_in_branch)

# Número de sucassos das Alpacas (controle) de 16%
c_successes = sum(control < 0.16)

# Vamos assumir uma premissa que os Ursos tem uma performance 10% melhor que as Alpacas
delta=1.1
e_successes = sum(experiment < 0.16*delta)

c_failures = people_in_branch - c_successes
e_failures = people_in_branch - e_successes

# Nossos pontos de partida para resultados do experimento
prior_successes = 8
prior_failures = 42

## Verificando o comportamento dos dados iniciais

Vamos dar uma olhada nos resultados da nossa experiência. A primeira coisa que fazemos é pegar nossa pequena quantidade de dados iniciais e adicionar nossos pontos de partida aos dois grupos do teste (Alpacas=controle e Ursos=experimento). Depois disso, geramos as distribuições posteriores e fazemos alguns gráficos dos resultados.

In [None]:
# Para o gráfico
fig, ax = plt.subplots(figsize=(12,8)) 

# Controle
c_alpha, c_beta = c_successes + prior_successes, c_failures + prior_failures
# Experimento
e_alpha, e_beta = e_successes + prior_successes, e_failures + prior_failures

x = np.linspace(0., 0.5, 1000) 

# Gerando e plotando as distribuições
c_distribution = beta(c_alpha, c_beta)  # controle representa as Alpacas
e_distribution = beta(e_alpha, e_beta)  # experimento representa os Ursos

ax.plot(x, c_distribution.pdf(x))
ax.plot(x, e_distribution.pdf(x))

ax.plot(x, c_distribution.pdf(x),label='controle: alpacas',color='black')
ax.plot(x, e_distribution.pdf(x),label='experimento: ursos',color='red')

plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)
ax.set(xlabel='conversion rate', ylabel='density')

## Aumentando o tamanho do espaço amostral

O resultado do gráfico acima demonstra uma diferença entre os dois grupos, mas eles se sobrepõem tanto que é difícil dizer se esta diferença é estatísticamente significativa.
Precisamos de mais dadso para poder tirar uma melhor conclusão, portanto vamos aumentar o tamanho do espaço amostral para 4000 pessoas.

In [None]:
more_people_in_branch = 4000

# Controle são as Alpacas, experimento são os Ursos
control, experiment = np.random.rand(2, more_people_in_branch)

# Adicinando aos dados existentes
# Performance das Alpacas (controle) de 16% ee a performance dos Ursos (experimento) é 10% superior

c_successes += sum(control < 0.16)
e_successes += sum(experiment < 0.16*delta)

c_failures += more_people_in_branch - sum(control < 0.16)
e_failures += more_people_in_branch - sum(experiment < 0.16*delta)

## Verificando o comportamento dos dados

Vamos plotar as curvas de distribuição Beta para o controle (Alpacas) e o experimento (Ursos), e observar se existe uma diferença significativa entre oss dados.

In [None]:
# Para o gráfico
fig, ax = plt.subplots(figsize=(12,8)) 

# Controle
c_alpha, c_beta = c_successes + prior_successes, c_failures + prior_failures

# Experimento
e_alpha, e_beta = e_successes + prior_successes, e_failures + prior_failures


# Gerando e plotando as distribuições

x = np.linspace(0., 0.5, 1000)

c_distribution = beta(c_alpha, c_beta)
e_distribution = beta(e_alpha, e_beta)

ax.plot(x, c_distribution.pdf(x),label='controle: alpacas',color='Black')
ax.plot(x, e_distribution.pdf(x),label='experimento: ursos',color='red')

plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', borderaxespad=0.)
ax.set(xlabel='conversion rate', ylabel='density')

## Confirmação da hipótese

Agora podemos dizer que a performance dos Ursos (experimento) está claramente melhor do que a performance das Alpacas (controle), pois as curvas apresentam uma área comum bastante reduzida devido ao aumento no tamanho das amostras e a diminuição da variância dos dados.
Vamos calcular o p-valor para verificar o limite da diferença entre os dois grupos

In [None]:
# Arguments are x values so use ppf - the inverse of cdf
print(c_distribution.ppf([0.025, 0.5, 0.975]))
print(e_distribution.ppf([0.025, 0.5, 0.975]))

# [ 0.14443947  0.15530981  0.16661068]
# [ 0.15770843  0.16897057  0.18064618]

In [None]:
sample_size = 10000

c_samples = pd.Series([c_distribution.rvs() for _ in range(sample_size)])
e_samples = pd.Series([e_distribution.rvs() for _ in range(sample_size)])

p_value = 1.0 - sum(e_samples > c_samples)/sample_size
p_value

In [None]:
p_value < 0.05

Como o p-valor é menos que o limite de 0.05, podemos rejeitar a hipótese de que os dois grupos performam igual, e dizer que temos 95% de confiança que os Ursos (experimento) performam melhor que as Alpacas (controle).

## Curva da porcentagem acumulada dos dados do experimento divididos peleos dados de controle

Esta curva revela o quanto a performance dos Ursos (experimento) é melhor em relação à performance das Alpacas (controle).

In [None]:
fig, ax = plt.subplots(1, 1)

ser = pd.Series(e_samples/c_samples)

# Make the CDF
ser = ser.sort_values()
ser[len(ser)] = ser.iloc[-1] 
cum_dist = np.linspace(0., 1., len(ser))
ser_cdf = pd.Series(cum_dist, index=ser)

ax.plot(ser_cdf, color='red')
ax.set(xlabel='Bears / Alpacas', ylabel='CDF')