Module 2, Lab 2: *p*-values
===========================

In this lab, we will explore how the basics of null hypothesis
significance testing work. Although you may have examined this in a
previous course, we will review the concepts of *p*-values and tests of
statistical significance with an emphasis on their application in
research.

___
Módulo 2, Laboratório 2: valores p
===========================

Neste laboratório, exploraremos como os conceitos básicos trabalho de teste de significância de hipótese nula. Embora você possa ter examinado isso em um No curso anterior, revisaremos os conceitos de valores p e testes de significância estatística com ênfase em sua aplicação em pesquisa.
___


The Null Hypothesis
===================

First, we briefly review what the null hypothesis is. Recall from the
previous lab that the results that come from samples are only mere
estimates of the population. Because they are estimates, the statistics
they produce will differ somewhat from their population counterparts.
For example, the correlation between engagement in a sample may be *r* =
.2 even when the correlation between those same variables in the
population is something smaller, such as .10 or even 0. This can cause
apparent relationships and effects to appear in *samples* when none in
fact exists in the population. This idea--that the effect/association is
*zero* in the population--is called the null hypothesis. By implication,
any effect/association seen in the *sample* must be entirely due to the
random chance of "sampling error." In other words, the null hypothesis
claims that the sample result is a random fluke.
___
A hipótese nula¶
===================

Primeiro, revisamos brevemente qual é a hipótese nula. Lembre-se do laboratório anterior que os resultados provenientes de amostras são apenas meros estimativas da população. Por serem estimativas, as estatísticas eles produzem diferem um pouco de suas contrapartes populacionais. Por exemplo, a correlação entre o envolvimento em uma amostra pode ser r = .2 mesmo quando a correlação entre essas mesmas variáveis ​​no população é algo menor, como 0,10 ou até 0. Isso pode causar aparentes relações e efeitos a aparecer em amostras quando nenhuma fato existe na população. Esta ideia - que o efeito / associação é zero na população - é chamada de hipótese nula. Por implicação, qualquer efeito / associação observado na amostra deve ser inteiramente devido à chance aleatória de "erro de amostragem". Em outras palavras, a hipótese nula afirma que o resultado da amostra é um acaso aleatório.
___
Let's explore an application of this. Imagine we want to compare males
and females in terms of their interest in a given product. Imagine, for
a moment, that *the two groups have identical interest* (in the
population)...that is, there is no difference between the groups.
Nevertheless, if we take a sample of males and a sample of females, the
error in our estimations will cause a difference to appear.

Imagine that *both* males and females had an interest level averaging at
5, with a standard deviation of 3.

___
Vamos explorar uma aplicação disso. Imagine que queremos comparar homens e mulheres em termos de interesse em um determinado produto. Imagine, por por um momento, que os dois grupos têm interesse idêntico (no população) ... ou seja, não há diferença entre os grupos. No entanto, se coletarmos uma amostra de homens e uma amostra de mulheres, o um erro nas nossas estimativas fará com que apareça uma diferença.

Imagine que ambos homens e mulheres tiveram um nível de interesse médio de 5, com um desvio padrão de 3
___

In [1]:
# set seed to make random number generation reproducible
import numpy as np
import numpy.random as nr
nr.seed(51120122)

#collect a sample of 100 males
males = nr.normal(5, 3, 100)

#collect a sample of 100 females
females = nr.normal(5, 3, 100)

print(np.mean(males))
print(np.mean(females))

5.171234200421537
5.898998940622083


We see here that our two groups have different sample results. Let's see
how large the difference is:
___
Vemos aqui que nossos dois grupos têm resultados de amostra diferentes. Vamos ver
quão grande é a diferença:

In [2]:
np.mean(males)-np.mean(females)

-0.7277647402005458

We see here that the females are almost 3/4 of a point higher than the
males. If you saw this data in an organization where you were working,
you might be tempted to think you'd discovered a female preference for
your product. However, in fact, we *know* in this case that this is
nonsense as we *know* (because we wrote the Python code simulating this data)
that *both* groups were random samples from a population with a mean of
5 and a standard deviation of 3. If their means are both 5.0 (exactly)
in the population, why did the females score higher in the samples? It's
simple: sampling error. That is, the difference is **entirely** due to
random error in the samples, not any real difference in the population.
We have discovered a fluke in some sample data, nothing more.
___
Vemos aqui que as fêmeas são quase 3/4 de um ponto mais alto que o machos. Se você viu esses dados em uma organização em que estava trabalhando, você pode ficar tentado a pensar que descobriu uma preferência feminina por seu produto. No entanto, de fato, sabemos neste caso que isso é absurdo como conhecemos (porque escrevemos o código Python simulando esses dados) que ambos grupos eram amostras aleatórias de uma população com média de 5 e um desvio padrão de 3. Se suas médias forem ambas 5,0 (exatamente) na população, por que as fêmeas pontuaram mais nas amostras? Está simples: erro de amostragem. Ou seja, a diferença é inteiramente devido a erro aleatório nas amostras, nenhuma diferença real na população. Descobrimos um acaso em alguns dados de amostra, nada mais.
___
This is a case of the "null hypothesis." In this case, the means are
*equal* in the population. We write the null hypothesis as
*H*<sub>0</sub> and it is always a statement that the size of the effect
in the population is zero. In this case, we are testing the difference
between the averages ($\mu ' s$), stating that the *difference between
them is zero*:

$$H_0 :\ \mu_{male} - \mu_{female} = 0$$

However, to reiterate what we saw above, *when we looked at our
samples,* we saw there was a difference:
___


Este é um caso da "hipótese nula". Nesse caso, as médias são
*iguais* na população. Escrevemos a hipótese nula como
*H* <sub> 0 </sub> e é sempre uma declaração de que o tamanho do efeito
na população é zero. Nesse caso, estamos testando a diferença
entre as médias ($\mu ' s$), declarando que a * diferença entre
eles é zero *:

$$H_0 :\ \mu_{male} - \mu_{female} = 0$$

No entanto, para reiterar o que vimos acima, *quando analisamos nossa
amostras* vimos que havia uma diferença:

In [3]:
np.mean(males)-np.mean(females)

-0.7277647402005458

So, in conclusion, the null hypothesis says that whatever effect you are
studying is *zero* in the population and *your sample results are due to
random chance.*

This possibility looms ominously over every research finding based on
samples data. How do we know that the effects we trust every day (the
effect of medicine, tested leadership practices, etc.) are real and not
just flukes due to random sampling error? We need to find a way to test
the null hypothesis and see if we can reject this possibility.

Null Hypothesis Significance Test: The *p*-Value
================================================

To test the null hypothesis, we simply ask: *if the null hypothesis were
true, what percentage of the time would I get this result this large?*
The answer to that question is called a *p*-value.

There is a lot of confusion about *p*-values, so let's review:

-   *p*-values represent how often you could get a result as big as you
    did *if the null were true*
-   *p*-values therefore represent how easy/hard it would be to get a
    result by chance
-   *p*-values do **not** tell you the probability that the result is
    due to chance; only the probability of seeing *your result* if the
    null were true
-   If the *p*-value for a result is small, it would be rare to get that
    result by chance (i.e., if the null were true)
-   If the *p*-value for a result is large, it would be common to get
    that result by chance (i.e., if the null were true)
-   Conclusion: the *p*-value is a measure of "incompatibility" between
    your result and the null. If the *p*-value is small, one of the two
    (the data, or the null) is likely wrong. We opt to trust our data
    and reject the null.

To be clear: the *p*-value is a backwards way of testing the null
hypothesis. We would love to know the *probability* that the null
hypothesis is true--the probability that the results *are* due to
chance--but we cannot know that. You will often hear the *p*-value
described this way, but that is **very wrong**.

So, to repeat, the *p-value states the probability of getting **your
result** if the null is true*. It is essentially a statement of
incompatibility between your data and the null. A small *p*-value
(typically, less than 5% or "&lt; . 05") tells you that the data and
null are highly incompatible. Since you did in fact observe the data,
you conclude the null hypothesis is false. This is the only use for the
*p*-value.

Where do *p*-Values Come From?
==============================

Where does a *p*-value come from? Every data situation is different, but
the process in so-called "frequentist" statistics is always the same

1.  Observe data and examine result
2.  Compute the appropriate "test statistic" for that result (e.g., *t*
    test, *z* test, *χ*<sup>2</sup> test, *F* test, *q* test etc.).
3.  Observe how often you could get the observed test statistic if the
    null hypothesis was true. This is the *p*-value
4.  If the *p*-value is less than .05, declare the result "significant"
    and reject the null hypothesis

Let's see this in action. For this example, I will use a "one-sample
*t*-test", as the math is easier.

Imagine we assess people's impressions of a training given in an
organization. We assess attitudes toward the training on a -5 (very
negative) to +5 (very positive) scale (zero = neutral opinion).

The question is whether people have a positive or negative attitude
toward the training, on average. Let's imagine that they actually have a
positive attitude, that in the population the mean is really 2.4 (i.e.,
*μ* = 2.4) with a standard deviation of 2.0. This is a simulated example
(in real life, you would have no idea what the population value is:
that's why you're doing research). Still, by showing you a simulated
example, we can see how the procedure works.

What would the null hypothesis be, here? Well, the null hypothesis
always states that the effect is absent. In this case, an "effect" would
be a non-zero attitude. Thus, in this case, *H*<sub>0</sub> : *μ* = 0.

Let's pull a random sample of 100 scores from that population.

---
Então, em conclusão, a hipótese nula diz que qualquer efeito que você seja
estudar é *zero* na população e *os resultados da sua amostra são devidos a
chance aleatória.*

Essa possibilidade paira ameaçadoramente sobre todos os achados de pesquisa baseados em dados de amostras. Como sabemos que os efeitos em que confiamos todos os dias efeitos da medicina, práticas de liderança testadas etc.) são reais e não
apenas flukes devido a erro de amostragem aleatória? Precisamos encontrar uma maneira de testar a hipótese nula e veja se podemos rejeitar essa possibilidade.

Teste de significância de hipótese nula: o valor *p*
==================================================

Para testar a hipótese nula, simplesmente perguntamos:*se a hipótese nula foi
verdade, que porcentagem de tempo eu obteria esse resultado tão grande?*
A resposta para essa pergunta é chamada de valor *p*.

Há muita confusão sobre os valores *p*, então vamos revisar:

- valores *p* representam quantas vezes você pode obter um resultado tão grande quanto você fez *se o nulo fosse verdadeiro*
-*p*-valores, portanto, representam quão fácil / difícil seria obter um
    resultado por acaso
- os valores *p* **não** indicam a probabilidade de o resultado ser
    devido ao acaso; apenas a probabilidade de ver *seu resultado* se o
    null eram verdadeiros
- Se o valor*p* para um resultado for pequeno, seria raro obter esse valor
    resultado por acaso (ou seja, se o nulo for verdadeiro)
- Se o valor *p* para um resultado for grande, seria comum obter
    esse resultado por acaso (ou seja, se o nulo for verdadeiro)
- Conclusão: o valor *p* é uma medida de "incompatibilidade" entre
    seu resultado e o nulo. Se o valor *p* for pequeno, um dos dois
    (os dados ou o nulo) provavelmente está errado. Optamos por confiar em nossos dados
    e rejeite o nulo.
    

Para ser claro: o valor-p é uma maneira inversa de testar a hipótese nula. Gostaríamos muito de saber a probabilidade de que a hipótese nula seja verdadeira - a probabilidade de os resultados serem devidos ao acaso - mas não podemos saber isso. Você ouvirá frequentemente o valor-p descrito dessa maneira, mas isso é muito errado.

Portanto, repetindo, o valor p indica a probabilidade de obter o resultado se o nulo for verdadeiro. É essencialmente uma declaração de incompatibilidade entre seus dados e o nulo. Um pequeno valor p (normalmente, menor que 5% ou "<. 05") informa que os dados e nulo são altamente incompatíveis. Como você realmente observou os dados, conclui que a hipótese nula é falsa. Este é o único uso para o valor p.


De onde vêm os valores*p*?
==============================

De onde vem um valor*p* ? Toda situação de dados é diferente, mas
o processo nas chamadas estatísticas "freqüentistas" é sempre o mesmo

1. Observe os dados e examine o resultado
2. Calcule a "estatística de teste" apropriada para esse resultado (por exemplo,*t*
    teste,*z* teste,*χ*<sup>2</sup> teste,*F*teste,*q*teste etc.).
3. Observe com que frequência você pode obter a estatística de teste observada se o
    hipótese nula era verdadeira. Este é o valor *p*
4. Se o valor *p* for menor que 0,05, declare o resultado "significativo"
    e rejeitar a hipótese nula

Vamos ver isso em ação. Neste exemplo, usarei uma "amostra única
*t*-test ", pois a matemática é mais fácil.

Imagine que avaliamos as impressões das pessoas de um treinamento ministrado em um
organização. Avaliamos atitudes em relação ao treinamento em um -5 (muito
negativo) a +5 (muito positivo) na escala (zero = opinião neutra).

A questão é se as pessoas têm uma atitude positiva ou negativa
em direção ao treinamento, em média. Vamos imaginar que eles realmente têm um
atitude positiva, que na população a média é realmente 2,4 (ou seja,
*μ*= 2,4) com um desvio padrão de 2,0. Este é um exemplo simulado
(na vida real, você não teria idéia do valor da população:
é por isso que você está pesquisando). Ainda assim, mostrando uma simulação
Por exemplo, podemos ver como o procedimento funciona.

Qual seria a hipótese nula aqui? Bem, a hipótese nula
sempre afirma que o efeito está ausente. Nesse caso, um "efeito" seria
uma atitude diferente de zero. Assim, neste caso,*H*<sub>0</sub>:*μ*= 0.

Vamos extrair uma amostra aleatória de 100 pontuações dessa população.

In [5]:
nr.seed(4455)
attitude = nr.normal(2.4, 2.0, 100)
#`normal(mean, std, n)`

What are the mean and SD in our sample?
___
Qual é a média e o desvio padrão em nossa amostra?

In [6]:
print(np.mean(attitude))

print(np.std(attitude))

2.234095719379859
2.0725742818363613


#### So, our null hypothesis is that the mean is zero
(*H*<sub>0</sub> : *μ* = 0) but our sample result disagrees with that
(sample mean = 2.23).

Does this *sample* gives us enough evidence to reject the null?

To answer that question, we calculate a test statistic. In this case
(one group, sample mean), we conduct a one-group *t*-test for means. (As
you progress in your data science and statistics knowledge, you will
learn when to use different kinds of tests.)

In the *t*-test, we compare the size of the difference between our
observed result and the null hypothesis, divided by what you would
typically expect by chance (i.e., standard error):

$$t=\frac{result - null }{chance}$$

Since our sample result is a sample mean ($\\bar{x}$), and we know the
$$t = \frac{\bar{x}-H_0}{\frac{SD}{\sqrt{n}}}$$

We can plug in our numbers easily:

$$t = \frac{\bar{x}-H_0}{\frac{SD}{\sqrt{n}}} =  \frac{2.234-0}{\frac{2.073}{\sqrt{100}}} = 10.8$$
 The test assesses how much the data disagree with the null (i.e., the
effect; top of fraction) compared to what you would typically expect by
chance (bottom of fraction). Thus, we can literally read the result as
saying "our effect was 10.8 times greater than you would typically
expect by chance." That sounds pretty good for our effect and pretty bad
for the null hypothesis.

It is convenient that the *t*-test works this way. However, truth be
told, the test statistic need not have *any* intuitive meaning. To get
our *p*-value, the only thing we need to do is assess how rare our
result would be if the null hypothesis was true. Thus, it doesn't really
matter if we can interpret the *p*-value directly. We simply need to
know where *t*-test results tend to be when the null is true, and then
we can see how rare a score of 10.8 would be in that situation, giving
us our *p*-value.

This is an easy question to answer. Statisticians have mapped out the
exact behavior of each test statistic when the null hypothesis is true
(or as we often say, "under the null"). We know, for example, that if
the null hypothesis is true, that the *t*-test will be close to zero
(almost always within +/- 3 points of zero). So, what is our *p*-value? If
the null were true, how often could we get *t*-test result as big as
10.8?

Using Python
=======

With a bit of programming, Python will do all of this work for you:

#### Portanto, nossa hipótese nula é que a média é zero

(*H*<sub>0</sub> : *μ* = 0) , mas o resultado da nossa amostra não concorda com isso (média da amostra = 2,23).

Esta amostra nos fornece evidências suficientes para rejeitar o nulo?

Para responder a essa pergunta, calculamos uma estatística de teste. Nesse caso (um grupo, média amostral), realizamos um teste t de um grupo para médias. (À medida que avança no conhecimento de ciência de dados e estatística, você aprenderá quando usar diferentes tipos de testes.)

No teste t, comparamos o tamanho da diferença entre o resultado observado e a hipótese nula, dividido pelo que você normalmente esperaria por acaso (ou seja, erro padrão):

$$t=\frac{result - null }{chance}$$

Como o resultado da amostra é uma média da amostra (𝑏𝑎𝑟𝑥
) e conhecemos o
$$t = \frac{\bar{x}-H_0}{\frac{SD}{\sqrt{n}}}$$

Podemos conectar nossos números facilmente:

$$t = \frac{\bar{x}-H_0}{\frac{SD}{\sqrt{n}}} =  \frac{2.234-0}{\frac{2.073}{\sqrt{100}}} = 10.8$$

O teste avalia quanto os dados discordam dos nulos (ou seja, o efeito; parte superior da fração) em comparação com o que você normalmente esperaria por acaso (parte inferior da fração). Assim, podemos literalmente ler o resultado dizendo "nosso efeito foi 10,8 vezes maior do que você normalmente esperaria por acaso". Isso parece muito bom para o nosso efeito e muito ruim para a hipótese nula.

É conveniente que o teste t funcione dessa maneira. No entanto, verdade seja dita, a estatística do teste não precisa ter nenhum significado intuitivo. Para obter nosso valor-p, a única coisa que precisamos fazer é avaliar quão raro seria o nosso resultado se a hipótese nula fosse verdadeira. Portanto, não importa se podemos interpretar o valor-p diretamente. Simplesmente precisamos saber onde os resultados do teste t tendem a ser quando o nulo é verdadeiro e, em seguida, podemos ver quão rara seria uma pontuação de 10,8 nessa situação, dando-nos nosso valor-p.

Esta é uma pergunta fácil de responder. Os estatísticos mapearam o comportamento exato de cada estatística de teste quando a hipótese nula é verdadeira (ou, como costumamos dizer, "abaixo do nulo"). Sabemos, por exemplo, que se a hipótese nula for verdadeira, que o teste t será próximo de zero (quase sempre dentro de +/- 3 pontos de zero). Então, qual é o nosso valor p? Se o nulo fosse verdadeiro, com que frequência conseguiríamos o resultado do teste t tão grande quanto 10,8?
## Usando Python

Com um pouco de programação, o Python fará todo esse trabalho para você:

stats . ttest_1samp ( array, 0.0 ) => teste t

stats . t . cdf (0.05/2, len(array), loc=0.0, scale=scale) => intervalo de confiança

In [12]:
from scipy import stats
def t_one_sample(samp, mu = 0.0, alpha = 0.05):
    '''Function for two-sided one-sample t test'''
    t_stat = stats.ttest_1samp(samp, mu)
    scale = np.std(samp)
    loc = np.mean(samp)
    ci = stats.t.cdf(alpha/2, len(samp), loc=mu, scale=scale)
    print('Results of one-sample two-sided t test')
    print('Mean         = %4.3f' % loc)
    print('t-Statistic  = %4.3f' % t_stat[0])
    print('p-value      < %4.3e' % t_stat[1])
    print('On degrees of freedom = %4d' % (len(samp) - 1))
    print('Confidence Intervals for alpha =' + str(alpha))
    print('Confidence Intervals =' + str(ci))
    print('Lower =  %4.3f Upper = %4.3f' % (loc - ci, loc + ci))
    
t_one_sample(attitude)    

Results of one-sample two-sided t test
Mean         = 2.234
t-Statistic  = 10.725
p-value      < 2.881e-18
On degrees of freedom =   99
Confidence Intervals for alpha =0.05
Confidence Intervals =0.504800026276705
Lower =  1.729 Upper = 2.739


In [13]:
stats.ttest_1samp(attitude, 0.0)

Ttest_1sampResult(statistic=10.725295559043051, pvalue=2.8805721838958042e-18)

The key information is from this function is:
`t statistic = 10.7, df = 99, p-value < 2.9e-18`. Notice that the *p*-value is displayed in scientific notation. `2.9e-18` is scientific notation:
2.9 x 10<sup>-18</sup> and means the same as 0.0000000000000000029. This
is clearly less than .05 so we can reject the null hypothesis and
conclude that the positive attitude observed among our participants was
not a statistical fluke but likely a real trend in the population.
___
A informação principal desta função é: t estatística = 10.7, df = 99, valor de p <2.9e-18. Observe que o valor p é exibido em notação científica. 2.9e-18 é uma notação científica: 2.9 x 10-18 e significa o mesmo que 0.0000000000000000029. Isso é claramente menor que 0,05, para que possamos rejeitar a hipótese nula e concluir que a atitude positiva observada entre nossos participantes não foi um acaso estatístico, mas provavelmente uma tendência real na população.
___

### For Illustration Purposes

How did Statsmodels compute that *p*-value? I will illustrate.

I start with a plot of all the *t*-test results (for sample size of 100)
you would expect **if the null hypothesis was true.** We know this,
thanks to mathematicians.
___
### Para fins de ilustração¶

Como o Statsmodels calculou esse valor-p? Vou ilustrar.

Começo com um gráfico de todos os resultados do teste t (para o tamanho da amostra de 100) que você esperaria se a hipótese nula fosse verdadeira. Sabemos disso, graças aos matemáticos.
___
![](img/unnamed-chunk-8-1.png)

The bell curve above illustrates all the possible *t*-test results one
would expect when the null is true and their respective probabilities.
We see here that most results are within about +/- 3 points from zero.
Where is our result? Let's add it to the plot.
___
A curva de sino acima ilustra todos os resultados possíveis do teste * t *
seria de esperar quando o nulo for verdadeiro e suas respectivas probabilidades.
Vemos aqui que a maioria dos resultados está dentro de +/- 3 pontos a partir do zero.
Onde está o nosso resultado? Vamos adicioná-lo à trama.
___

![](img/unnamed-chunk-9-1.png)

As we see, our result is out among values that are very, very rare under
the null hypothesis. It appears that our data disagree the null
hypothesis. When the null is true, we should be getting *t*-test results
down in the center of the bell curve (approximately ± 3), but we didn't.
We were up at 12.8.
___
Como vemos, nosso resultado está entre valores muito, muito raros sob
a hipótese nula. Parece que nossos dados discordam do valor nulo
hipótese. Quando o nulo for verdadeiro, deveríamos obter resultados * t * -test
no centro da curva do sino (aproximadamente ± 3), mas não o fizemos.
Nós chegamos às 12.8.
___

To find the *p*-value, we simply ask what percentage of our *t*-curve is
out that far. In other words, what proportion of the bell curve extends
out beyond the red line? What is the area "in the upper tail"?
___
Para encontrar o valor * p *, simplesmente perguntamos qual a porcentagem de nossa curva * t *
tão longe. Em outras palavras, qual a proporção da curva de sino se estende
além da linha vermelha? Qual é a área "na cauda superior"?
___
We can compute the p-value as $1 - cdf$, for the t-statistic, where $cdf$ is the cumulative density function. The statsmodels `t.cdf()` function computes the cdf given the t-statistic and the degrees of freedom; $n − 1 = 100 − 1 = 99$:

___
Podemos calcular o valor-p como $ 1 - cdf $, para a estatística t, onde $ cdf $ é a função de densidade cumulativa. A função statsmodels `t.cdf ()` calcula o cdf, dada a estatística t e os graus de liberdade; $n − 1 = 100 − 1 = 99$:
___

In [15]:
from scipy.stats import t
1 - t.cdf(10.8, df = 99, loc=0, scale=1)

0.0

This result is saying there is "zero" probability of getting a result this big if
the null were true; i.e., *p* = 0. In reality, *p* values are never zero
but can get infinitely small. In this case the a tiny number is rounded to 0.
___
Este resultado está dizendo que há probabilidade "zero" de obter um resultado tão grande se o nulo for verdadeiro; isto é, p = 0. Na realidade, os valores de p nunca são zero, mas podem ficar infinitamente pequenos. Nesse caso, o número minúsculo é arredondado para 0.
___

This is called a one-tailed *p*-value. We actually, however, need to
double it. The reason we need to double it is that our null hypothesis
was that *μ* = 0. That is, the null is false if our result is
significantly *larger* than zero (a positive attitude) or significantly
*smaller* than zero (a negative attitude). This is consistent with how
we asked our question: "do people have positive or negative attitudes?"
In other words, we did not test a directional prediction; we would be
interested in "finding" something regardless of the direction of the
effect. Since the *p*-value is the probability of getting an effect
"this large" and we do not care about the direction, it actually exists
on both sides of the distribution (a negative attitude would have given
us a negative *t*-score):
___

Isso é chamado de valor p unicaudal. Na verdade, precisamos dobrá-lo. A razão pela qual precisamos dobrar é que nossa hipótese nula foi a de μ = 0. Ou seja, o nulo será falso se nosso resultado for significativamente maior que zero (uma atitude positiva) ou significativamente menor que zero (uma atitude negativa). Isso é consistente com a forma como fizemos nossa pergunta: "as pessoas têm atitudes positivas ou negativas?" Em outras palavras, não testamos uma previsão direcional; estaríamos interessados ​​em "encontrar" algo, independentemente da direção do efeito. Como o valor p é a probabilidade de obter um efeito "desse tamanho" e não nos importamos com a direção, ele realmente existe nos dois lados da distribuição (uma atitude negativa nos daria um escore t negativo):
___

![](img/unnamed-chunk-11-1.png)

Thus, we have to double our *p*-value. This is standard practice any
time you would be willing to declare the result significant **regardless
of the direction**. We call this a *two-tailed p-value*.
___
Portanto, temos que dobrar nosso valor-p. Essa é uma prática padrão sempre que você estiver disposto a declarar o resultado significativo, independentemente da direção. Chamamos isso de um valor p bicaudal.
___
If this explanation is confusing, you can also understand it a slightly
different way: by testing *H*<sub>0</sub> : *μ* = 0, you are really
asking whether *μ* &lt; 0 or whether *μ* &gt; 0. You are essentially
asking two separate questions of the data. You need to double your
*p*-value.

___

Se essa explicação é confusa, você também pode entendê-la de uma maneira um pouco diferente: ao testar H0: μ = 0, você está realmente perguntando se μ <0 ou se μ> 0. Você está essencialmente fazendo duas perguntas separadas dos dados. Você precisa dobrar seu valor-p.
___
This is almost always what you want. We almost always want to be able to
declare a result significant if the effect is large, regardless of
whether the direction of the result matches our intuition or not. For
example, if an intervention to increase productivity backfires and
decreases productivity, we want to know that just as much as we want to
know if it works.
___

Isso é quase sempre o que você deseja. Quase sempre queremos declarar um resultado significativo se o efeito for grande, independentemente de a direção do resultado corresponder à nossa intuição ou não. Por exemplo, se uma intervenção para aumentar a produtividade sai pela culatra e diminui a produtividade, queremos saber disso tanto quanto queremos saber se funciona.
___
Thus, we almost always double the *p*-value for this reason. It is true
that it makes it a little harder to get a significant result (less than
.05), but we can extract more meaning from the result. It's worth it.

Note: our doubled *p*-value here is still essentially zero:
___

Assim, quase sempre dobramos o valor de p por esse motivo. É verdade que torna um pouco mais difícil obter um resultado significativo (menor que 0,05), mas podemos extrair mais significado do resultado. Vale a pena.

Nota: nosso valor de p duplicado aqui ainda é essencialmente zero:


In [16]:
2.0 * (1 - t.cdf(10.8, df = 99, loc=0, scale=1))

0.0