# 8 - Estimativa com Intervalos de confiança

Este material foi traduzido e adaptado de {cite}`carlson2017introduction`.

OBJETIVOS DE APRENDIZADO

Depois de ler este capítulo, você será capaz de fazer o seguinte:

- Descrever os objetivos distintos dos testes de significância, tamanhos de efeito e intervalos de confiança;
- Explique a lógica dos intervalos de confiança;
- Calcular um intervalo de confiança para uma média populacional;
- Calcular um intervalo de confiança para uma diferença média entre uma média amostral e uma média populacional;
- Relatar intervalos de confiança;
- Identificar interpretações corretas e incorretas de intervalos de confiança.

## Três procedimentos de estatísticos com três finalidades distintas

No Capítulo 7, você aprendeu como usar o teste t de amostra única para determinar se uma diferença observada entre uma média amostral e uma média populacional tem probabilidade de ser criada por erro amostral ou por uma variável independente (VI; ou seja, o variável de agrupamento). O teste t para amostra única compara a diferença média observada nos dados com a diferença média esperada devido ao erro amostral (ou seja, SEM). Se a diferença média observada for significativamente maior do que a diferença média esperada devido ao erro amostral, a hipótese nula é rejeitada e você conclui que a diferença média foi criada pela VI. Esta conclusão é sólida se a metodologia de pesquisa do estudo for sólida (ou seja, não tiver variáveis de confusão).

In [4]:
# HIDE CODE
from jupyterquiz import display_quiz
#display_quiz("questions.json", preserve_responses = True)
display_quiz("question1.json")

<IPython.core.display.Javascript object>

Depois que os pesquisadores usam testes de significância, eles calculam um tamanho do efeito (por exemplo, d) para descrever a magnitude do impacto do VI na variável dependente (VD). Calcular o tamanho do efeito é tão importante quanto o teste de significância. Por exemplo, você pode usar o resultado de um teste de significância para rejeitar a hipótese nula e então descobrir que o tamanho do efeito é muito pequeno. Isto indicaria que, embora seja pouco provável que os resultados se devam a erros de amostragem, a dimensão do efeito pode ser demasiado pequena para ser importante ou útil.

In [5]:
# HIDE CODE
display_quiz("question2.json")

<IPython.core.display.Javascript object>

Neste capítulo, você aprenderá sobre um terceiro tipo de procedimento estatístico que tem uma finalidade diferente do teste de significância ou do tamanho do efeito. Este terceiro tipo de procedimento estatístico, denominado intervalo de confiança, ajuda os investigadores a generalizar os resultados dos seus estudos para uma população inteira. Estes três procedimentos estatísticos devem ser usados em conjunto rotineiramente. Quando os resultados dos três procedimentos são interpretados corretamente, a combinação constitui informações que facilitam muito o raciocínio científico.

Por exemplo, o reitor de uma faculdade está considerando adicionar uma aula de "vida saudável" aos requisitos de educação geral para os alunos, mas primeiro pretende determinar se frequentar tal aula aumenta os comportamentos saudáveis. Embora o curso discuta uma variedade de comportamentos saudáveis, o reitor está especialmente preocupado com o exercício porque os dados indicam claramente que o exercício está associado a uma série de resultados positivos na saúde física e mental. No ano passado, a reitoria entrevistou toda a população de estudantes e constatou que eles relataram praticar exercícios em média 150 minutos por semana. Para testar a eficácia do curso de vida saudável, foram recrutados 60 estudantes universitários e todos os 60 frequentaram o novo curso. Depois de concluírem a aula, os participantes usaram um monitor de frequência cardíaca durante 1 mês, permitindo aos pesquisadores determinar com precisão a média de exercício de cada participante em minutos por semana. O reitor opta por fazer um teste bicaudal porque, embora espere que o curso aumente o comportamento de exercício, ele teme que as pessoas respondam negativamente ao curso e, na verdade, diminuam a quantidade de tempo que passam se exercitando. Um teste t de amostra única usando $\alpha = 0.05$ revelou que o número médio de minutos que os alunos que participaram da aula de vida saudável se exercitaram a cada semana foi $\bar{x} = 155.67$ (DP = 20.85). Assim, houve uma diferença de 5.67 minutos entre os alunos que fizeram o curso de vida saudável e a média populacional de 150 minutos. O teste t para amostra única indicou que era improvável que essa diferença fosse devida a erro amostral, $t_{(59)} = 2.11$, p = 0.04 (o valor p bicaudal tem que ser multiplicado por dois quando calculado), d = 0.27.
Especificamente, o valor p (p = 0.04) indica que apenas 4 em 100 vezes ocorreria uma diferença média de 5.67 (155.67 - 150) ou maior devido a erro de amostragem quando a hipótese nula for verdadeira. Portanto, a classe de vida saudável provavelmente criou a diferença média. O tamanho do efeito (d = 0.27) indica que o impacto da classe foi pequeno. Especificamente, o d indica que a turma aumentou o tempo médio de exercício em 0.27 de desvio padrão. Agora, o reitor está pronto para generalizar esses resultados para toda a população de alunos da faculdade. Em outras palavras, ele quer uma estimativa de qual seria o tempo médio de exercício de toda a população de estudantes da faculdade se eles fizessem o curso de vida saudável. A melhor estimativa deste parâmetro é a média da amostra que realizou a aula - ou seja, 155.67 minutos. No entanto, devido ao erro amostral, esta média amostral provavelmente não é perfeitamente precisa. Um intervalo de confiança é um procedimento estatístico que utiliza a mesma fórmula de erro amostral esperado (isto é, $SEM_a$) que os testes de hipóteses, mas de uma maneira diferente, para criar um intervalo de valores plausíveis para o parâmetro populacional. 
Por exemplo, nesta situação, o investigador poderia utilizar um intervalo de confiança para concluir com 95% de confiança que o número médio de minutos de exercício na população se todos seguissem o curso de vida saudável estaria entre 150.29 e 161.05 minutos por semana (aprenderemos como calcular esse intervalo de confiança posteriormente neste capítulo). Ele também poderia estimar a diferença média no exercício que resultaria se a população participasse da aula. Nesta situação, ele poderia concluir com 95% de confiança que o tempo de exercício aumentaria entre 0.29 minutos e 11.05 minutos por semana se a população seguiu o curso de vida saudável. Os intervalos de confiança fornecem informações muito importantes para o pesquisador. Por exemplo, saber que o tempo de exercício ficaria entre 150.28 e 161.05 minutos por semana se a população assistisse às aulas pode ajudar o reitor a decidir se deve ou não tornar as aulas obrigatórias para todos os estudantes universitários. Da mesma forma, saber que exigir a aula aumentaria o tempo médio de exercício semanal entre 0.28 e 11.05 minutos também pode ajudar o reitor a considerar o impacto que esta mudança pode ter na vida dos alunos.
Como você pode ver, os intervalos de confiança são um procedimento estatístico extremamente útil. Eles ajudam a aplicar resultados de amostras a populações. Em muitas situações, descrever como os resultados da investigação se generalizam para uma população é o objectivo final da investigação; afinal, os pesquisadores estão realmente interessados em populações, não em amostras. A Tabela 8.1 lista os três tipos de procedimentos estatísticos e suas respectivas finalidades principais.

Procedimento estatístico | Propósito
-- | --
Teste de hipóteses | Avaliar a probabilidade de um resultado ser criado por erro amostral;
Tamanho do efeito | Para quantificar a eficácia do tratamento;
Intervalos de confiança | Estimar o parâmetro populacional com um nível especificado de confiança.

In [7]:
# HIDE CODE
display_quiz("question3.json")

<IPython.core.display.Javascript object>

## _Lógica de intervalos de confiança_

Conforme afirmado anteriormente, o objetivo dos intervalos de confiança (IC) é ajudar os pesquisadores a aplicar resultados de amostras a populações. Mais especificamente, os ICs fornecem uma gama de valores plausíveis para um parâmetro populacional. Esta faixa de valores plausíveis é definida pelos valores limite superior e inferior do IC. O limite superior é o maior valor de parâmetro plausível e o limite inferior é o menor valor de parâmetro plausível. Os ICs usam estatísticas de amostras para determinar esses valores limite. Todos os valores entre estes valores limite, incluindo os próprios valores limite, são considerados valores de parâmetros plausíveis para a população.
Embora existam muitos tipos diferentes de ICs, todos eles têm uma lógica semelhante. Cada IC usa uma estimativa pontual e uma margem de erro em torno dessa estimativa pontual para encontrar valores de limite superior e inferior. Ao estimar uma média populacional, a estimativa pontual é a média amostral, que é o valor mais plausível para $\mu$, e uma margem de erro determina o intervalo de valores plausíveis adicionais para esse parâmetro. No exemplo acima, a média amostral do tempo de exercício semanal dos estudantes universitários após frequentarem o curso de vida saudável ($\bar{x} = 155.67$) é a previsão mais plausível para o tempo médio de exercício da população se eles frequentarem o curso de vida saudável. Mas, devido ao erro amostral, esta estimativa pontual de 155.67 provavelmente não é perfeitamente precisa. Portanto, uma margem de erro é adicionada e subtraída da estimativa pontual para obter os limites superior e inferior do IC. As fórmulas conceituais para os limites superior e inferior são fornecidas a seguir:

Limite superior = estimativa pontual + Margem de erro.

Limite inferior = estimativa pontual - Margem de erro.

In [9]:
# HIDE CODE
display_quiz("question4.json")

<IPython.core.display.Javascript object>

O centro de um IC é a média amostral. O tamanho da margem de erro em torno da média amostral é determinado por dois fatores: (1) a quantidade esperada de erro amostral (SEM) e (2) o nível específico de confiança que você deseja alcançar (geralmente 95% ou 99% confiança). Provavelmente faz sentido para você que estudos com maiores erros amostrais esperados tenham ICs com margens de erro maiores. Afinal, com mais erro amostral, mais valores são plausíveis para a média populacional. Pode ser menos óbvio que, se os investigadores quiserem mais confiança nas suas estimativas, a sua margem de erro deva ser maior. Por analogia, suponha que seu instrutor lhe peça para estimar sua pontuação na próxima final de estatística. Você poderia dizer: "Vou obter uma pontuação entre 84% e 86%" ou: "Vou obter uma pontuação entre 70% e 100%". A primeira estimativa é mais precisa (isto é, tem menos valores plausíveis). Estimativas precisas têm uma pequena faixa de valores plausíveis (isto é, margem de erro); portanto, eles devem ser feitos com uma confiança muito baixa. Por outro lado, a segunda estimativa, uma nota entre 70% e 100%, é menos preciso, mas pode ser feito com maior confiança. Existe sempre uma relação inversa entre a precisão de uma estimativa (ou seja, quão estreita é a gama de valores) e a confiança que se deve ter nessa estimativa. Portanto, quando todas as outras coisas forem iguais, se você quiser ter 99% de confiança em sua estimativa, seu IC precisará ser mais amplo do que se você precisar apenas de 95% de confiança. Mais confiança requer uma margem de erro mais ampla.

In [10]:
# HIDE CODE
display_quiz("question5.json")

<IPython.core.display.Javascript object>

## Cálculo de um intervalo de confiança para uma média populacional

As fórmulas da seção anterior são fórmulas "conceituais", pois ajudam a explicar a lógica geral dos ICs. As fórmulas descritas nesta seção serão as que você realmente usará ao estimar a média de uma população. Conforme mencionado anteriormente, uma média amostral serve como estimativa pontual, e uma margem de erro é adicionada e subtraída da média amostral para encontrar os limites superior e inferior de um IC. Nesta seção, você aprenderá a calcular a margem de erro. Conforme mencionado acima, a margem de erro é derivada do erro amostral esperado, SEM, e de um nível de confiança específico (geralmente 95% ou 99%). Ao usar uma média amostral para estimar a média, a quantidade esperada de amostragem o erro é definido pelos $SEM_a$ ($DP/\sqrt{N}$). O nível de confiança específico (95% ou 99%). é definido por um valor t específico da tabela t crítica. Como sempre, o valor crítico específico de t depende dos graus de liberdade (gl) associados à fórmula de erro amostral, neste caso, df = N - 1. Ao calcular um IC de 95%, use o df para procurar o valor t crítico na tabela t crítica bicaudal 0.05. Um IC de 99% requer o valor t crítico na tabela t crítica bicaudal 0.01. A atividade neste capítulo explicará por que esses valores específicos são usados para ICs de 95% e 99%, respectivamente. Neste ponto, basta você saber quando usar qual tabela t.

In [11]:
# HIDE CODE
display_quiz("question6.json")

<IPython.core.display.Javascript object>

No exemplo do início deste capítulo, usamos um teste t de amostra única para comparar o tempo médio semanal de exercícios de estudantes universitários que participaram de aulas sobre vida saudável, $\bar{x} = 155.67$, com 150 minutos. Descobrimos que aqueles que participaram da aula se exercitaram mais ($\bar{x} = 155.67$, DP = 20.85) do que a média populacional de 150 minutos, $t_{(59)} = 2.11$, p = 0.04, d = 0.27. Agora, o reitor quer aplicar esses resultados da pesquisa à população de seu interesse – ou seja, seus estudantes universitários. Ele quer saber qual seria o intervalo de valores plausíveis para o tempo médio de exercício semanal se a população fizesse o curso de vida saudável. Ele precisa que você calcule um IC de 95% para estimar esse parâmetro populacional. Comece escrevendo as seguintes fórmulas para os limites superior e inferior do IC.

$Limite\quad superior = \bar{x} + t_{IC}SEM_a$

$Limite\quad inferior = \bar{x} + t_{IC}SEM_a$

Para ambas as equações, você precisa dos mesmos três valores: (1) a estimativa pontual ou $\bar{x}$, (2) o valor t crítico correto para o IC ou $t_{IC}$ e (3) o erro de amostragem esperado ou $SEM_a$. A estimativa pontual vem da média amostral ($\bar{x} = 155.67$). O valor t crítico vem da tabela t crítica bicaudal 0.05 porque estamos computando um IC de 95% de confiança. O _gl_ é 59 (gl = n - 1 = 60 - 1 = 59), então o $t_{IC}$ é 2.001. E os $SEM_a$ é $DP/\sqrt{N}$ ou 20.85/60 = 2.69. Portanto, o limite superior do IC de 95% é

$Limite\quad superior = 155.67 + (2.001)(2.69) = 161.05$

Você deve notar que a linha final do cálculo acima é idêntica à fórmula conceitual discutida na seção anterior, a estimativa pontual de 155.67 mais a margem de erro de 5.383. O limite inferior é

$Limite\quad inferior = 155.67 - (2.001)(2.69) = 150.29$

Novamente, vale a pena notar que o limite inferior é a estimativa pontual de 155.67 menos a margem de erro de 5.38. Com base nestes cálculos, deveríamos ter 95\% de confiança de que o intervalo 150.29 e 161.05 minutos por semana, contém o tempo médio real de exercício da população de estudantes universitários, se participassem nas aulas de vida saudável. Este IC pode ajudar os decisores políticos a determinar se os benefícios de saúde obtidos ao exigir o curso compensariam o custo adicional da oferta do curso. Os ICs ajudam os investigadores, ou decisores políticos, a pensar sobre as possíveis consequências da aplicação dos resultados de uma amostra a uma população inteira.

In [12]:
# HIDE CODE
display_quiz("question7.json")

<IPython.core.display.Javascript object>

## Computação de intervalos de confiança para uma diferença média

Na seção anterior, calculamos um IC que forneceu uma faixa de valores plausíveis para uma média populacional. Aprendemos também que os ICs fornecem informações muito úteis sobre como os resultados da amostra podem ser generalizados para uma população inteira. Nesta seção, calcularemos um tipo diferente de IC que fornece informações diferentes, mas igualmente úteis, para pesquisadores e formuladores de políticas. Este IC estima a diferença média e não a média em si. Por exemplo, suponhamos que os decisores políticos quisessem saber quanto o tempo de exercício semanal mudaria na população se a classe de vida saudável fosse necessária. Como todos os outros ICs, este é calculado com uma estimativa pontual, um erro amostral esperado e um $t_{CI}$. A estimativa pontual, neste caso, é a diferença média entre a média amostral ($\bar{x} = 155.67$) e a média populacional ($\mu = 150$), 5.67 (ou seja, 155.67 - 150.00 = 5.67). O erro de amostragem esperado (SEMa) é o mesmo do exemplo anterior. O valor $t_{CI}$ também é o mesmo. Portanto, a única diferença entre este IC e o calculado acima é que estamos usando uma diferença entre uma média amostral e uma média populacional como estimativa pontual, em vez da média amostral em si. Os limites superior e inferior são calculados da seguinte forma:

Limite superior = Estimativa pontual + Margem de erro.

$Limite\quad superior = (\bar{x}-\mu) + t_{IC}SEM_a$

Limite superior = (155.67 - 150) + (2.001)(2.69).

Limite superior = 5.67+5.383 = 11.05.

Limite inferior = Estimativa pontual - Margem de erro.

$Limite\quad superior = (\bar{x}-\mu) - t_{IC}SEM_a$

Limite inferior = (155.67 - 150) - (2.001)(2.69).

Limite inferior = 5.67-5.383 = 0.29.

Com base nestes cálculos, deveríamos ter 95% de confiança de que se a população de estudantes universitários frequentasse as aulas de vida saudável, o seu tempo de exercício aumentaria entre 0.29 e 11.05 minutos por semana. Agora, como você deve interpretar essa faixa de valores plausíveis? Primeiro, você deve reconhecer que nem todos os valores do IC são igualmente plausíveis. Embora todos os valores no IC sejam considerados plausíveis, os valores dos limites inferior e inferior são os menos plausíveis e a estimativa pontual é a mais plausível. A regra geral é que os valores de IC tornam-se menos plausíveis com o aumento da distância da estimativa pontual.

Em segundo lugar, vale a pena observar se a diferença média de zero está incluída ou não no intervalo de valores plausíveis. Se uma diferença média de zero não estiver entre os limites superior e inferior do IC de 95% para a diferença média, a média amostral de 155.67 e a média populacional de 150 são significativamente diferentes uma da outra. Esta conclusão é completamente consistente com os resultados do teste de significância descrito no início do capítulo. Este será sempre o caso. Se você realizar um teste de significância bicaudal com um valor alfa de 0.05 e rejeitar o nulo, o IC de 95% para a diferença média nunca conterá zero. Por outro lado, se você não rejeitar o nulo, o IC de 95% sempre conterá zero.

In [15]:
# HIDE CODE
display_quiz("question8.json")

<IPython.core.display.Javascript object>

Por que você deveria realizar um IC para uma diferença média depois de realizar um teste de significância? A resposta remonta ao início do capítulo. Os dois procedimentos estatísticos têm finalidades distintas. O teste de significância indica se um determinado efeito foi provavelmente criado ou não por erro amostral. Então, o tamanho do efeito descreve a magnitude do efeito. E, finalmente, o IC ajuda a generalizar seus resultados para a população, identificando valores plausíveis de parâmetros populacionais.

In [21]:
# HIDE CODE
display_quiz("question9.json")

<IPython.core.display.Javascript object>

Este capítulo ilustra como calcular dois tipos diferentes de ICs. A Tabela 8.3 exibe os dois tipos de ICs, a fórmula dos _gl_ apropriada e a fórmula específica de IC.

Tipo do intervalo (IC) | Fórmula do _gl_ | Fórmula do IC
-- | -- | --
Para $\mu$ | $gl=N-1$ | $IC(\mu, \gamma)=\bar{X}+/-t_{IC}(SEM_a)$
Para diferença $\bar{X}-\mu$ | $gl=N-1$ | $IC(\mu, \gamma)=(\bar{X}-\mu)+/-t_{IC}(SEM_a)$

## Relatório de intervalos de confiança

Embora o procedimento de IC não seja novo, a sua proeminência nas ciências tem aumentado. Recomenda se que os pesquisadores calculem e interpretem os ICs em conjunto com testes de significância e tamanhos de efeito ao relatar resultados. 

Observe como as informações de IC que calculamos neste capítulo são integradas ao relatório. Ele relata o IC de 95% para a média da população e a diferença média. Na primeira vez que você relata um IC para um conjunto de análises, você informa o nível de confiança (ou seja, 95% ou 99%). Depois disso, não é necessário indicar o nível de confiança, pois o leitor pode inferir que você utilizou o mesmo nível de confiança para todas as análises.

Um teste t de amostra única revelou que os alunos que frequentaram o curso de vida saudável se exercitavam mais semanalmente ($\bar{x} = 155.67$, DP = 2.69), IC 95% [150,29, 161,05], do que os alunos da população ($\mu = 150$), $t_{(59)} = 2.11$, p = 0.04, d = 0.27, IC [0,29, 11,05].

In [23]:
# HIDE CODE
display_quiz("question10.json")

<IPython.core.display.Javascript object>

## Interpretações de intervalos de confiança

O principal objetivo dos ICs é ajudar os pesquisadores a aplicar os resultados de uma amostra a uma população. Um IC pode ser interpretado como um conjunto de valores plausíveis para o parâmetro populacional (ou seja, uma média populacional ou uma diferença média populacional, dependendo do tipo de IC). A estimativa pontual é considerada o valor mais plausível, e a plausibilidade de cada valor diminui à medida que você se afasta da estimativa pontual. Valores fora dos limites superior e inferior são interpretados como implausíveis.
Em segundo lugar, a largura dos ICs ajuda os pesquisadores a interpretar a precisão da estimativa dos parâmetros de um determinado estudo. ICs mais restritos (ou seja, aqueles com margens de erro menores) fornecem estimativas mais precisas.
Terceiro, um IC de 95% tem uma taxa de recaptura de replicação de 0,83. Esta interpretação requer mais algumas explicações. Se um determinado estudo produzir um IC de 95% de [10, 20], a primeira interpretação do IC descrita anteriormente indica que os investigadores devem ter 95% de confiança de que o intervalo entre 10 e 20 contém $\mu$. Porém, isso não significa que se os pesquisadores repetissem o estudo uma segunda vez, a média do segundo estudo ficaria entre 10 e 20, 95% das vezes.

Por fim, mencionaremos uma maneira adicional de usar a lógica de IC que é limitada a ICs para diferenças médias. É uma extensão lógica da primeira interpretação que discutimos anteriormente – nomeadamente, que os valores fora dos limites do IC são implausíveis. Ao calcular um IC de 95% para uma diferença média, se zero não for plausível, um teste t bicaudal de 0.05 descobriria que as duas médias são significativamente diferentes. Por outro lado, se o zero estiver localizado entre os limites superior e inferior, as duas médias não seriam significativamente diferentes. Por exemplo, considere um intervalo de confiança de 95% para uma diferença média com um limite inferior de -0.5 e um limite superior de 1.50. Na Figura 8.2a, a estimativa pontual é a diferença média amostral de 0.5. O limite inferior é -0.5 e o limite superior é 1.5. Uma diferença média de zero fica entre o limite superior e inferior. Para este IC, uma diferença média de zero é um valor plausível, portanto, se você executou um teste t bicaudal com $\alpha = 0.05$ para determinar se essa diferença era significativa, você não rejeitaria a hipótese nula. No entanto, conforme ilustrado na Figura 8.2b, um intervalo de confiança com uma estimativa pontual de 1.5, um limite inferior de 0.5 e um limite superior de 2.5 não inclui zero e, portanto, se você executou um teste bicaudal com $\alpha = 0.05$ nesses dados, você rejeitaria a hipótese nula. As Figuras 8.2a e 8.2b devem ajudá-lo a compreender a relação entre os resultados de um IC e os resultados do teste de significância para uma diferença média. Se zero estiver entre os limites inferior e superior, a diferença não é significativa. Se estiver fora desses limites, é significativo.

In [25]:
# HIDE CODE
display_quiz("question11.json")

<IPython.core.display.Javascript object>

## Prática complementar OPCIONAL

Código python: [![Abra com Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/ridasilva/bioestatisca/blob/master/capitulos/chap8/intervalo_confianca.ipynb)

Google Planilhas: [![Abra com Colab](../chap5/fig/google_sheet.png)](https://docs.google.com/spreadsheets/d/1DIl3aX9ue6mV9E_9TMTy8qw6usZuLAacNudxMQqYXeg/edit?usp=sharing)

## Bibliografia

```{bibliography}
```