Module 3, Lab 3 - Causal Claims
===============================

In this lab, we briefly explore the causal claim. Recall that if you
want to truly understand your variables, you want to draw cause-effect
conclusions. 

In this lab, we will use the `effsize` package for measuring effect size
and the `ggplot2` package for data visualization. We will also briefly
explore the `ggridges` package.

___

M√≥dulo 3, Laborat√≥rio 3 - Reivindica√ß√µes causais
====
Neste laborat√≥rio, exploramos brevemente a afirma√ß√£o causal. Lembre-se de que, se voc√™ deseja realmente compreender suas vari√°veis, deve tirar conclus√µes de causa-efeito.

Neste laborat√≥rio, usaremos o pacote effsize para medir o tamanho do efeito e o pacote ggplot2 para visualiza√ß√£o de dados. Tamb√©m exploraremos brevemente o pacote ggridges.


In [None]:
#### LOAD PACKAGES ####
from scipy import stats
import scipy.stats as ss
import pandas as pd
import numpy as np
import statsmodels.stats.weightstats as ws
from statsmodels.stats.power import tt_ind_solve_power
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

Weaknesses of Association Claims for Deep Understanding
========================================================

Association claims are useful; they let you know what variables correlate
with each other. However, they don't tell you what will happen if you
intervene and act in the world in new ways. For example, imagine you have
been analyzing data at your organization and find that employees who are
less stressed tend to be more productive. It may be very unclear *why* that
relationship exists. Some possibilities include:

1.  Stress reduces productivity
2.  Productivity reduces stress
3.  Some other variable is causing both of them
___


Fraquezas das reivindica√ß√µes de associa√ß√£o para compreens√£o profunda¬∂

As reivindica√ß√µes de associa√ß√£o s√£o √∫teis; eles permitem que voc√™ saiba quais vari√°veis ‚Äã‚Äãse correlacionam entre si. No entanto, eles n√£o lhe dizem o que acontecer√° se voc√™ intervir e agir no mundo de novas maneiras. Por exemplo, imagine que voc√™ est√° analisando dados em sua organiza√ß√£o e descobre que os funcion√°rios menos estressados ‚Äã‚Äãtendem a ser mais produtivos. Pode n√£o estar muito claro por que existe esse relacionamento. Algumas possibilidades incluem:

1. Estresse reduz a produtividade
2. Produtividade reduz o estresse
3. Alguma outra vari√°vel est√° causando os dois

___
It is worth putting real thought into all of these.

1.  For example, it is reasonable that stress reduces productivity.
2.  However, it is also reasonable that getting things done may take
    stress off of the shoulders of employees as they clear projects off
    their to-do lists.
3.  It is also possible that something else may be casing both high
    stress and low productivity, such as obligations outside of work,
    health issues, etc.
___

Vale a pena colocar um pensamento real em tudo isso.

1. Por exemplo, √© razo√°vel que o estresse reduza a produtividade.
2. No entanto, tamb√©m √© razo√°vel que fazer as coisas possam tirar o estresse dos ombros dos funcion√°rios enquanto eles eliminam os projetos de suas listas de tarefas pendentes.
3. Tamb√©m √© poss√≠vel que outra coisa possa estar envolvendo alto estresse e baixa produtividade, como obriga√ß√µes fora do trabalho, problemas de sa√∫de, etc.


___
All three of these have different implications for how to increase
productivity:

1.  The first possibility suggests that reducing stress might actually
    help.
2.  The second possibility suggests that reducing stress will not help
    (but finding other contributors to productivity might, so we should
    go looking for those). Time for more research!
3.  The third possibility suggests that attempts to reduce stress would
    do nothing to increase productivity because the real problem is the
    unmeasured *prior cause* of the stress. For example, if health
    issues are causing people to be more stressed and less productive,
    then the desired boost to productivity will not come from reducing
    stress but from fixing the underlying health issues.

___

Todos os tr√™s t√™m implica√ß√µes diferentes sobre como aumentar a produtividade:

1. A primeira possibilidade sugere que reduzir o estresse pode realmente ajudar.
2. A segunda possibilidade sugere que reduzir o estresse n√£o vai ajudar (mas encontrar outros fatores que contribuem para a produtividade pode, ent√£o devemos procur√°-los). √â hora de mais pesquisas!
3. A terceira possibilidade sugere que as tentativas de reduzir o estresse n√£o fariam nada para aumentar a produtividade, porque o problema real √© a causa anterior n√£o medida do estresse. Por exemplo, se os problemas de sa√∫de est√£o fazendo com que as pessoas fiquem mais estressadas e menos produtivas, o aumento desejado na produtividade n√£o vir√° da redu√ß√£o do estresse, mas da corre√ß√£o dos problemas de sa√∫de subjacentes.

___

In conclusion, association claims are limited in their ability to help
you draw cause-effect conclusions. Or, to put it differently, we could
*predict* the productivity of an employee given their stress levels, but
we wouldn't know how to actually *improve* productivity given this
information. Association claims simply don't really tell you what is
causing what.
___
Em conclus√£o, as alega√ß√µes de associa√ß√£o s√£o limitadas em sua capacidade de ajud√°-lo a tirar conclus√µes de causa-efeito. Ou, em outras palavras, poder√≠amos prever a produtividade de um funcion√°rio considerando seus n√≠veis de estresse, mas n√£o saber√≠amos como realmente melhorar a produtividade com essas informa√ß√µes. As reivindica√ß√µes da associa√ß√£o simplesmente n√£o dizem o que est√° causando o qu√™.
Solu√ß√£o: o experimento

___
Solution: The Experiment
========================

To solve this problem, we run an experiment. Imagine we randomly assign
250 employees to either a stress-reduction treatment or a "business-as-usual"
control group. After 7 weeks, the productivity of these employees is
assessed.
___
Para resolver esse problema, fazemos um experimento. Imagine que atribu√≠mos aleatoriamente 250 funcion√°rios a um tratamento de redu√ß√£o de estresse ou a um grupo de controle "business-as-usual". Ap√≥s 7 semanas, a produtividade desses funcion√°rios √© avaliada.

___
Because employees are *randomly* assigned to groups *by the researcher*,
the research can be confident that

-   The two groups were approximately equal to begin with (this can be
    checked, if desired)
-   Any differences at the end of the study are due to the treatment
___
Como os funcion√°rios s√£o designados aleatoriamente a grupos pelo pesquisador, a pesquisa pode ter certeza de que

- Os dois grupos eram aproximadamente iguais para come√ßar (isso pode ser verificado, se desejado)
- Quaisquer diferen√ßas no final do estudo s√£o devido ao tratamento

___
We can draw this conclusion because we will be very careful to treat the
groups *identically* in every way, except for the treatment. We must be
**exceedingly** careful on this point, as any unintended differences in
treatment (the messaging we give them, the scheduling, workload, etc.)
could accidentally cause a second systematic difference between our
groups, and then we would not be sure what was really responsible for
any effects we end up seeing. This is known as a *confound* and it would
run our experiment. We will be very sure not to allow this to happen,
using strict protocols, scripts, email templates, etc. We would be very
careful to manage expectations so neither group had different
expectations (possibly keeping our employees blind to some of the
details, or keeping managers in the dark). Our goal will be to keep
**everything the same between our groups**, tangibly and mentally,
except for the actual treatment itself. This will take very detailed and
rigorous planning, but it is worth it. A small-scale pilot of an
intervention program will take some rigorous planning, but it is much
less expensive than rolling out a company-wide stress program only to
find it is a waste of money and ineffective (as might happen in many
organizations).
___

Podemos tirar essa conclus√£o porque seremos muito cuidadosos em tratar os grupos de forma id√™ntica em todos os sentidos, exceto no tratamento. Devemos ser extremamente cuidadosos neste ponto, pois quaisquer diferen√ßas n√£o intencionais no tratamento (a mensagem que damos a eles, a programa√ß√£o, carga de trabalho, etc.) podem causar acidentalmente uma segunda diferen√ßa sistem√°tica entre nossos grupos, e ent√£o n√£o ter√≠amos certeza do que foi realmente respons√°veis ‚Äã‚Äãpor quaisquer efeitos que acabamos vendo. Isso √© conhecido como confuso e executaria nosso experimento. Teremos a certeza de n√£o permitir que isso aconte√ßa, usando protocolos r√≠gidos, scripts, modelos de e-mail, etc. Ter√≠amos muito cuidado ao gerenciar as expectativas para que nenhum dos grupos tivesse expectativas diferentes (possivelmente mantendo nossos funcion√°rios cegos para alguns dos detalhes, ou mantendo os gerentes no escuro). Nosso objetivo ser√° manter tudo igual entre nossos grupos, tang√≠vel e mentalmente, exceto para o pr√≥prio tratamento em si. Isso vai exigir um planejamento muito detalhado e rigoroso, mas vale a pena. Um piloto em pequena escala de um programa de interven√ß√£o exigir√° um planejamento rigoroso, mas √© muito menos caro do que implantar um programa de estresse em toda a empresa apenas para descobrir que √© um desperd√≠cio de dinheiro e ineficaz (como pode acontecer em muitas organiza√ß√µes).
___
Analyzing the Experiment
========================

To analyze the experiment, a simple independent-groups *t*-test can be
performed. This compares the means of the two groups to determine if
they are statistically significantly different.

Imagine the study is done; the data are called "causal.csv" and are in
the github folder for this lab.
___

Analisando o experimento
=====
Para analisar o experimento, um teste t simples de grupos independentes pode ser realizado. Isso compara as m√©dias dos dois grupos para determinar se eles s√£o estatisticamente significativamente diferentes.

Imagine que o estudo est√° conclu√≠do; os dados s√£o chamados de "causal.csv" e est√£o na pasta github deste laborat√≥rio.

In [None]:
#### LOAD DATA ####
import pandas as pd
dat = pd.read_csv("datasets/causal.csv")

# Inspect data
print(dat.columns)

print('\n')
print(dat.head())

print('\n')
print(dat.group.unique())

dat.describe()

We see we have three variables, an unnamed id variable, a variable
listing the group, and the productivity scores of the employees on a 1-7
scale. We want to compare the two groups, and we can do so by looking at
the means.

We can quickly request more detailed statistics. The values of `prod` can be grouped by the `group` using the Pandas `groupby` method. The mean of each group is then computed. The same recipe can be used to compute the standard deviation of the groups. 
___
Vemos que temos tr√™s vari√°veis, uma vari√°vel id n√£o nomeada, uma vari√°vel listando o grupo e as pontua√ß√µes de produtividade dos funcion√°rios em uma escala de 1 a 7. Queremos comparar os dois grupos e podemos fazer isso observando as m√©dias.

Podemos solicitar estat√≠sticas mais detalhadas rapidamente. Os valores de prod podem ser agrupados por grupo usando o m√©todo Pandas groupby. A m√©dia de cada grupo √© ent√£o calculada. A mesma receita pode ser usada para calcular o desvio padr√£o dos grupos.


In [None]:
dat[['group','prod']].groupby('group').mean()

In [None]:
dat[['group','prod']].groupby('group').std()

We see here that intervention group has a slightly higher average
productivity score. We can next test the null hypothesis to see if this
difference is significant.

Recall that the null hypothesis always says that the **effect is absent
in the population** and that the sample result is an artifact of random
chance. In symbols, this means that the difference between the group
averages is exactly zero in the population.
___
Vemos aqui que o grupo de interven√ß√£o tem uma pontua√ß√£o de produtividade m√©dia ligeiramente superior. Em seguida, podemos testar a hip√≥tese nula para ver se essa diferen√ßa √© significativa.

Lembre-se de que a hip√≥tese nula sempre diz que o efeito est√° ausente na popula√ß√£o e que o resultado da amostra √© um artefato do acaso. Em s√≠mbolos, isso significa que a diferen√ßa entre as m√©dias do grupo √© exatamente zero na popula√ß√£o.
___

*H*<sub>0</sub>‚ÄÑ:‚ÄÑ*Œº*<sub>*g**r**o**u**p*1</sub>‚ÄÖ‚àí‚ÄÖ*Œº*<sub>*g**r**o**u**p*2</sub>‚ÄÑ=‚ÄÑ0
 Remember that *Œº* refers to the population average, so this is saying
that the population difference is exactly zero. Any difference observed
in our sample is therefore due to random chance. We run our *t*-test to
consider this possibility.

Recall that a *t*-test compares the size of the *observed difference*
($\bar{x}_{1} - \bar{x}_{2}$) against the value in the null hypothesis
(zero), divided by what is typically expected by chance:
___
$$t= \frac{result - null }{chance}$$
___

H0: Œºgrupo1 - Œºgrupo2 = 0 Lembre-se de que Œº se refere √† m√©dia da popula√ß√£o, ent√£o isso quer dizer que a diferen√ßa da popula√ß√£o √© exatamente zero. Qualquer diferen√ßa observada em nossa amostra deve-se, portanto, ao acaso. Executamos nosso teste t para considerar essa possibilidade.

Lembre-se de que um teste t compara o tamanho da diferen√ßa observada (ùë•¬Ø1 ‚àí ùë•¬Ø2
) contra o valor na hip√≥tese nula (zero), dividido pelo que √© normalmente esperado ao acaso:

___
 For the two-group *t*-test, the "result" is the difference between the
group averages in the sample, the "null" states the difference, and
"chance" is the standard error of that difference.

How can we run our test? The default in R is to run the "Welch" version
of the test. This version of the test does *not* make any assumptions
about the variances of the two groups.
___
Para o teste t de dois grupos, o "resultado" √© a diferen√ßa entre as m√©dias do grupo na amostra, o "nulo" indica a diferen√ßa e "chance" √© o erro padr√£o dessa diferen√ßa.

Como podemos fazer nosso teste? O padr√£o em R √© executar a vers√£o "Welch" do teste. Esta vers√£o do teste n√£o faz suposi√ß√µes sobre as vari√¢ncias dos dois grupos.

___
$$t'= \frac{result - null }{chance}= \frac{(\bar{x}_{1}-\bar{x}_{2}) - 0 }{\sqrt{\frac{\hat{\sigma}_1^2}{n_{1}}+\frac{\hat{\sigma}_2^2}{n_{2}}}}$$
 The bottom looks complicated but is simply a measure of the standard
error of the size of the difference between our two groups. We can
explore the details of this equation in a later lab. For now, let's run
the test and interpret the result.

The Python code in the function below does the following:
1. Compute the difference of means. 
2. The `ttest_ind` function from the scipy.stats package to compute the t statistic and p-value.
3. The `tconfint_diff` function is used to compute the confidence interval.
4. The `dof_satt` function estimates the degrees of freedom. 
___
A parte inferior parece complicada, mas √© simplesmente uma medida do erro padr√£o do tamanho da diferen√ßa entre nossos dois grupos. Podemos explorar os detalhes dessa equa√ß√£o em um laborat√≥rio posterior. Por enquanto, vamos fazer o teste e interpretar o resultado.

O c√≥digo Python na fun√ß√£o abaixo faz o seguinte:

1. Calcule a diferen√ßa de m√©dias.
2. A fun√ß√£o ttest_ind do pacote scipy.stats para calcular a estat√≠stica t e o valor p.
3. A fun√ß√£o tconfint_diff √© usada para calcular o intervalo de confian√ßa.
4. A fun√ß√£o dof_satt estima os graus de liberdade.


In [None]:
def t_test_two_samp(df, alpha, alternative='two-sided'):
    
    a = df[df.group == 'control']['prod']
    b = df[df.group == 'intervention']['prod']    
    
    diff = a.mean() - b.mean()

    res = ss.ttest_ind(a, b)
      
    means = ws.CompareMeans(ws.DescrStatsW(a), ws.DescrStatsW(b))
    confint = means.tconfint_diff(alpha=alpha, alternative=alternative, usevar='unequal') 
    degfree = means.dof_satt()

    index = ['DegFreedom', 'Difference', 'Statistic', 'PValue', 'Low95CI', 'High95CI']
    return pd.Series([degfree, diff, res[0], res[1], confint[0], confint[1]], index = index)   
   

test = t_test_two_samp(dat, 0.05)
test

The *t*-value of 3.16 tells us that the difference between our groups
(top of *t*-test fraction) is 3.16 times larger than would be expected
typically by chance (bottom of *t*-test fraction). How often would a
result this big happen if the null were actually true? The *p*-value is
.002, so only 0.2% of the time. This is sufficient to reject the null
(*p* &lt; .05), and we can conclude that our difference is not due to
chance. We also have a 95% CI on the size of the difference, and we are
fairly confident that the control group is .457 to 0.107 productivity
points lower than intervention group.

___

O valor t de 3,16 nos diz que a diferen√ßa entre nossos grupos (parte superior da fra√ß√£o do teste t) √© 3,16 vezes maior do que seria esperado normalmente por acaso (parte inferior da fra√ß√£o do teste t). Com que frequ√™ncia um resultado desse tamanho aconteceria se o nulo fosse realmente verdadeiro? O valor p √© 0,002, portanto, apenas 0,2% do tempo. Isso √© suficiente para rejeitar o nulo (p <0,05), e podemos concluir que nossa diferen√ßa n√£o se deve ao acaso. Tamb√©m temos um IC de 95% no tamanho da diferen√ßa e estamos bastante confiantes de que o grupo controle √© 0,457 a 0,107 pontos de produtividade abaixo do grupo de interven√ß√£o.

___

Importantly, because we performed a randomized, controlled experiment,
we can conclude that this was actually the result of our treatment. This
is a good sign, but the size of the improvement is small. We can
conclude that our intervention **did** improve productivity, but it was
only by about a quarter of a point.

How big is that? Well, the scale is a 1-7 scale. We can try plotting the data using a boxplot of the two groups to visualize it. The Seaborn code in the cell below creates a boxplot of the `prod` values grouped by the `group` variable. A `swarmplot` is superimposed so you can see the position of the data points. The swarm plot shows a jittered display of the data points.    
___

Importante, porque realizamos um experimento controlado e randomizado, podemos concluir que esse foi realmente o resultado do nosso tratamento. Este √© um bom sinal, mas o tamanho da melhoria √© pequeno. Podemos concluir que nossa interven√ß√£o melhorou a produtividade, mas foi apenas em cerca de um quarto de ponto.

Qu√£o grande √© isso? Bem, a escala √© uma escala de 1-7. Podemos tentar plotar os dados usando um boxplot dos dois grupos para visualiz√°-los. O c√≥digo Seaborn na c√©lula abaixo cria um gr√°fico de caixa dos valores do produto agrupados pela vari√°vel de grupo. Um swarmplot √© sobreposto para que voc√™ possa ver a posi√ß√£o dos pontos de dados. O gr√°fico de enxame mostra uma exibi√ß√£o tremida dos pontos de dados.

In [None]:
ax = plt.figure(figsize=(8,8)).gca() # define axis
sns.boxplot(x = 'group', y = 'prod', data = dat, ax = ax)
sns.swarmplot(x = 'group', y = 'prod', color = 'black', data = dat, ax = ax, alpha = 0.4)

![](M3_Lab3_-_Causal_Claim_files/figure-markdown_strict/unnamed-chunk-5-1.png)

A violin plot might also help to visualize the differences. The code in the cell below follows the same recipe used above, but with the `violinplot` function. 
___

Uma trama de violino tamb√©m pode ajudar a visualizar as diferen√ßas. O c√≥digo na c√©lula abaixo segue a mesma receita usada acima, mas com a fun√ß√£o violinplot.


In [None]:
ax = plt.figure(figsize=(8,8)).gca() # define axis
sns.violinplot(x = 'group', y = 'prod', data = dat, ax = ax)
sns.swarmplot(x = 'group', y = 'prod', color = 'black', data = dat, ax = ax, alpha = 0.4)

![](M3_Lab3_-_Causal_Claim_files/figure-markdown_strict/unnamed-chunk-7-1.png)

We see from the above plots that, although the effect was statistically significant, the
difference is fairly minimal.

We can estimate our effect size (Cohen's *d*) using the `tt_ind_solve_power`
function from the `statsmodels.stats.power` package:

___


Vemos pelas parcelas acima que, embora o efeito tenha sido estatisticamente significativo, a diferen√ßa √© bastante m√≠nima.

Podemos estimar o tamanho do efeito (d de Cohen) usando a fun√ß√£o tt_ind_solve_power do pacote statsmodels.stats.power:


In [None]:
#cohen.d(prod ~ group, data=dat)
control = dat[dat.group == 'control']['prod']
intervention = dat[dat.group == 'intervention']['prod']
print(np.mean(intervention) - np.mean(control))
ratio = len(control)/len(intervention)
tt_ind_solve_power(effect_size=None, nobs1 = len(control), alpha=0.05, power=0.8, ratio=ratio, alternative='two-sided')

From these results you can see that the actual difference between these groups is a bit larger than Cohen's d required from 0.80 power.
___
A partir desses resultados, voc√™ pode ver que a diferen√ßa real entre esses grupos √© um pouco maior do que o d de Cohen exigido da pot√™ncia de 0,80.
___
Conclusion
==========

Thanks to this study, we can be fairly certain that the stress reduction
intervention had an effect. However, the difference in the effect is
minimal at best.
___
Conclus√£o
====
Gra√ßas a este estudo, podemos estar bastante certos de que a interven√ß√£o de redu√ß√£o do estresse teve efeito. No entanto, a diferen√ßa no efeito √© m√≠nima.