# Central Limit Theorem (CLT)

## Objetivo

1. Entender o funcionamento do [Teorema do Limite Central](https://pt.wikipedia.org/wiki/Teorema_central_do_limite) na prática.

## O teorema

Para uma determinada população, meça uma característica de cada individuo (peso, altura, renda, idade, tamanho etc.).



O CLT diz afirma que quando o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Este resultado é fundamental na teoria da inferência estatística.

É importante observar que o CLT é válido **qualquer que seja a distribuição inicial dos dados!**


![clt](../images/640px-IllustrationCentralTheorem.png)

Seja uma amostra aleatória ($x_1, x_2, \cdots, x_n$) de uma variável aleatória $X$ com qualquer distribuição, média $\mu$ e desvio padrão $\sigma$. 

A medida que $n$ cresce, a distribuição de probabilidade da média amostral, $\overline{X}$, se aproxima de uma Normal com média $\mu$ e desvio padrão $\frac{\sigma}{\sqrt{n}}$. Isto é $\overline{X} \sim N (\mu, \sigma^2/n)$.

Se a transformação a baixo for realizada, então $Z \sim N (0,1)$.

$$Z = \frac{\overline{X} -\mu}{\sigma/\sqrt{n}} $$


O **Teorema do Limite Central** afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. 

Este fato é assegurado para $n$ maior ou igual a 30.

$$\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}$$

O desvio padrão das médias amostrais é conhecido como **erro padrão da média**

# Valores de referência

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
df = sns.load_dataset('tips')

1. Calcule a média (mu) e o desvio padrão (sigma) das gorjetas do dataset `tips`. 

2. Faça o histograma das gorjetas. Ele parece uma curva normal?

# Amostragem

## Sem repetição

1. Selecione aleatóriamente e **sem repetição** 10 linhas do dataset e calcule a média da amostra $\bar{x}$.

## Com repetição

1. Selecione aleatóriamente e **com repetição** 1000 linhas do dataset e calcule a média da amostra $\bar{x}$.

2. Quantas linhas temos no dataset?

# Média das médias

Crie uma lista `means` que armazene as médias de $N$ amostras de tamanho amostral $n$.

Começe com $N = 10$ amostras de tamanho $n = 5$.

1. Na mesma célula, faça um gráfico da distribuição de `means`. 
1. Mantenha $n$ constante e aumente $N$. O que você observa?
1. Mantenha $N$ constante e aumente $n$. O que você observa?

# CLT na prática

1. Faça uma grade com 6 distribuições para  $ n \in \{ 1, 5, 50, 100, 500, 1000 \}$.

# Verificando o CLT

Vamos verificar o Teorema do Limite Central computacionalmente:

Para cada valor de $n$:
- Compare `mu` com a média das médias $\bar{x}$;
- Compare `sigma` com o desvio padrão das médias (não esqueça o fator $\sqrt{n}$).

# Exemplo

Imagine que você seja um garçon e que em determinado período tenha sido designado pelo gerente para atender 100 mesas. O valor médio da conta de suas mesas deu R$ 18,00 (`target`). Qual a chance disso acontecer?

Vamos supor que coletemos uma amostra de 100 contas da nossa população global com $\mu=3€$ and $\sigma=1.38€$ 
e que o valor médio das contas $\mu_x$ seja R$ 18,00.

Como seria o formato da distribuição das médias se nós repetissemos o processo de amostragem diversas vezes? Pense na forma, média e desvio padrão.

1. Faça um gráfico da distribuição da média das contas de 100 mesas aleatórias. Use stats.norm pra facilitar!
1. Acrescente um ponto com a média das suas 100 mesas. O que vc pode concluir?

Nos vemos claramente que tal cenário é improvável. Vamos calcular a probabilidade.

## Calcule usando o z-teste

$$z={x-\mu  \over \sigma }$$

1. Calcule Z para o valor de R$ 18,00. 

Faça um gráfico da distribuição normal (0, 1) e inclua um ponto vermelho para o target (use a funcão `pdf`).

**Conclusão:** 

# Mais inforações

- [StatQuest - Probability vs Likelihood](https://www.youtube.com/watch?v=pYxNSUDSFH4)
- [StatQuest - Central Limit Theorem](https://www.youtube.com/watch?v=YAlJCEDH2uY)
- [3blue1brown - Bayes Theorem](https://www.youtube.com/watch?v=HZGCoVF3YvM)