# Estatística
## 1. Variáveis Aleatórias contínuas e discretas
Uma variável aleatória é uma variável quantitativa, sujo resultado (valor) depende de fatores aleatórios

### 1.1 Variáveis Aleatórias Discretas

#### Função/Distribuição de probabilidade
A coleção de pares $(x_i,p(x_i)); i = 1,2,...$ é algumas vezes denominada **distribuição de probabilidade de X**. Assim, podemos falar que a distribução de probabilidades de uma variável aleatória discreta $X$, definida em um espaço amostral $\Omega$, é uma tabela que associa a cada valor de $X$ sua probabilidade.

Exemplo:
![tabela-dist-proba](img/tabela-dist-proba.png)

#### Função de distribuição acumulada
Qualquer variável aleatória pode ser descrita por uma função de distribuição acumulada, que descreve a **probabilidade que a variável aleatória ser menor ou igual a um certo valor**.

$F_X(x) = P(X \leq x)$, em que $x$ é um número real e F(x) pertence ao intervalo $[0,1]$

Exemplo:
![func-dist-acum](img/func-dist-acum.png)

#### Esperança/Variância
O valor esperado, ou esperança, de uma variáevl aleatória $X$ é definido como:
$E[X] = \sum_{i=1}^{\infty}x_ip_i$

A variância é uma medida de disperção, indicando "o quão longe" em geral os valores se encontram da esperança. Ela é definida como o valor esperado do quadrado do desvio de $X$ em relação à média.

$Var(X) = E[(X - \mu)^2]$, com $\mu = E[X]$

Uma outra forma de escrever a variância:

$Var(X) = E[(X - E[X]^2)] = E[X^2 - 2XE[X] + E[X]^2] = E[X^2] - 2E[x]E[X] + E[X]^2 = E[X^2] - E[X]^2$

A variãncia também pode ser vista como a covariância de uma variável aleatória $X$ com ela mesma: $Var(X) = Cov(X,X)$

#### Estimação da média e do desvio padrão
Como estimar a média?

$\bar{X} = \sum_{i=1}^n \frac{x_i}{n}$

Como estivar o desvio padrão?

$s = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}$

### 1.2 Outras propriedades de distribuições
#### Média
A média é um número único usado para representar um conjunto de dados.
A média aritmética é a soma de valores de um conjunto, dividida pelo número de elementos do conjunto

$\bar{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i$

A média geométrica, por sua vez, é a n-ésima raiz do produto de todos os valores

$MG = \sqrt[n]{\prod_{i=1}^n x_i}$

A média harmônica é a recíproca da média aritmética:

$MH = \frac{1}{\frac{1}{n}\sum_{i=1}^n\frac{1}{x_i}}$

A média ponderada é a média aritmética com pesos atribuídos a cada valor:

$\frac{\sum_{i=1}^n w_ix_i}{\sum_{i=1}^n w_i} = \frac{w_1x_1 + w_2x_2 + ... + w_nx_n}{w_1 + w_2 + ... + w_n}$

A média é bastante afetada por outliers.

#### Moda
A moda amostral de um conjunto de dados trata do **Valor que ocorre com maior frequência** ou o valor mais comum em um conjunto de dados. 

Especialmente útil quando os valores ou as observações não são numéricos.

Moda amostral não é necessariamente única como média ou mediana:

- Amostras que possuem uma moda são chamadas unimodais. {1, 2, 3, 5, 5, 6, 7} tem moda 5.
- Amostras que possuem duas modas são chamadas bimodais. {1, 2, 3, 5, 5, 6, 6} tem modas 5 e 6. 
- Amostras que possuem várias modas são chamadas multimodais. {1, 2 3, 5, 5, 6, 6, 7, 7} tem modas 5, 6 e 7. 
- Amostras que não possuem moda são chamadas amodais. {1, 3, 2, 5, 7, 6} não tem moda.

Já a moda populacional de uma distribuição de probabilidade discreta é o valor {\displaystyle x}x, em que a função massa de probabilidade atinge o valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrado.

#### Mediana
Mediana é o valor que **separa a metade maior e a metade menor de uma amostra**, uma população ou uma distribuição de probabilidade.

A mediana é definida como qualquer número real $m$ tal que:

$P(X \leq m) \geq \frac{1}{2}$ ou $P(X \geq m) \geq \frac{1}{2}$

A vantagem da mediana em relação à média é que a mediana pode dar uma **ideia melhor de um valor típico** porque não é tão distorcida por valores extremamente altos ou baixos. **(robusta a outliers)**

Exemplo: No conjunto de dados {1,3,5,7,9,20}, a mediana é 6.

#### Quartis
**Quartis** (Q1, Q2 e Q3): São valores dados a partir do conjunto de observações **ordenado em ordem crescente**, que **dividem a distribuição em quatro partes iguais**. O primeiro quartil, Q1, é o número que deixa 25% das observações abaixo e 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% das observações abaixo e 25% acima. Já **Q2 é a mediana**, deixa 50% das observações abaixo e 50% das observações acima.

Uma medida de disperção alternativa ao desvio padrão é a distância interquartil, definida como a diferença entre o terceiro e o primeiro quartis, ou seja, $d_q = Q_3 - Q_1$.

Ele foi desenvolvido no âmbito da estatística a fim de **avaliar o grau de espalhamento dos dados** (dispersão).

**Percentil**: dividido em 100 partes

**Quantil**: generalização dessas divisões?
- Boxplot/Whisker plot:

![boxplot](img/boxplot.png)

Notar que o max e o min estão a 3\*IRQ, a partir da mediana!


#### Observa;'ao importante 
![moda_mediana_media](img/moda_mediana_media.jpg)

### 1.3 Variáveis Aleatórias Contínuas

#### Função densidade de probabilidade
Seja $X$ uma variável aleatória contínua. A função de densidade de probabilidade (f.d.p.) $f(x)$ é uma fução que satistaz as seguintes condições:
![func-denc-prob](img/func-denc-prob.png)

![func-denc-prob-grafico](img/func-denc-prob-grafico.png)

OBS: $P(X=x) = 0$ para todo valor de $x$, uma vez que a área embaixo da curva de $f(x)$ para um único ponto é nula.

#### Função de distribuição acumulada (F)
A função de distribuição acumulada descreve como probabilidades são associadas aos valores ou aos intervalos de valores de uma variável aleatória. Ela representa a probabilidade de uma variável aleatória ser menor ou igual a um valor real $x$.

$F(x) = P(X \leq x)$

## 2. Distribuições

### 2.1 Distribuições Discretas

#### 1. Bernoulli
A distribuição de Bernoulli é a distribuição discreta de **espaço amostral {0,1}** que tem valor 1 com a probabilidade de sucesso $p$ e valor 0 com a probabilidade de falha $p = q - 1$.

$P(X=x) = p^x(1 - p){1-x}$

$P(X=1) = 1 - P(X=0) = 1-q = p$

\begin{equation}
\text{f(k;p)} =  
\begin{cases} 
p  , &\textrm{ se $k = 1$}\\
1 - p  , &\textrm{ se $k = 0$}\\
\end{cases}
\end{equation}

Esperança e variância

$E(X) = p$

$Var(x) = p(1 - p)$

Exemplo: 

Um exemplo clássico de uma experiência de Bernoulli é uma jogada única de uma moeda. A moeda pode dar "coroa" com probabilidade $p$ e "cara" com probabilidade $1 - p$ A experiência é dita justa se $p = 0.5$.


#### 2. Binomial
A distribuição binomial é a distribuição de probabilidade discreta do **número de sucessos numa sequência de n tentativas** tais que:
- Cada tentativa tem **dois resultados possíveis** (experimento de Bernoulli)
- As tentativas são **independentes**
- A probabilidade de sucesso **p é constante**
- A variável de interesse é o **número de sucessos k** em n tentativas

$f(k,n,p) = P_r(k,n,p) = P_r(X=k) = {n\choose k}p^k(1-p)^{n-k}$

Esperança e variânvia:

$E(X) = np$

$Var(X) = np(1-p)$

Exemplos:

Suponha que uma moeda viciada tenha uma probabilidade de 0,3 de cair em "cara". A probabilidade de ver exatamente 4 "caras" em 6 tentativas é:

$f(4,6,0.3) = {6 \choose 4}0.3^4(1-0.3)^{6-4} = 0.059535$

#### 3. Geométrica
Se a probabilidade de sucesso de cada tentativa é $p$, então a probabilidade de **n tentativas serem necessárias para ocorrer um sucesso** é:

$P(X=n) = (1-p)^{n-1}p$

Esperança e variância de uma variável aleatória $X$ geometricamente distribuída:

$E(X) = \frac{1}{p}$

$Var(X) = \frac{1-p}{p^2}$

Exemplo:
Suponha um dado que é atirado repetidamente até a primeira vez que aparece um "1". A variável X = quantidade de ocorrências até um sucesso (ocorrência de 1) segue uma distribuição geométrica com $p = \frac{1}{6}$.

#### 4. Poisson
Probabilidade de uma série de eventos ocorrer num certo período de tempo se estes eventos **ocorrem independendentemente de quando ocorreu o último evento**.

$f(k;\lambda) = P_r(X=k) = \frac{\lambda^ke^{-\lambda}}{k!}$

Esperança e variância:

$E(X) = \lambda$

$Var(X) = \lambda$

Exemplos:
- O número de meteoritos de diametro maior que 1m que atingem a Terra em um ano
- O número de pacientes que chegam em um ambulatório entre 10 e 11 da tarde

Suposições
- k é o **numero de vezes em que um evento ocorre em um intervalo**, e k assume valores 0,1,2...
- A ocorrência de um evento não afeta a probabilidade de que um segundo evento ocorra (eventos acontecem de forma **independente**)
- A taxa na qual os eentos acontecem é independente das ocorrências (geralmente, assume-se que a **taxa é constante**)
- Dois eventos **não podem acontecer ao mesmo tempo**

Nesse caso, k é uma variável aleatória de Poisson.

### 2.2 Distribuições Contínuas

#### 1. Uniforme
A probabilidade de se gerar qualquer ponto em um intervalo contido no espaço amostral é proporcional ao tamanho do intervalo, visto que na distribuição uniforme a $f(x)$ é igual para qualquer valor de x no intervalo considerado:

\begin{equation}
\text{f(x;a,b)} =  
\begin{cases} 
\frac{1}{b-a}  , &a \leq x \leq b\\
0  , &\textrm{, c.c}\\
\end{cases}
\end{equation}

Função de distribuição acumulada:

\begin{equation}
\text{$F(x) = P(X\leq 2) = \int_{-\infty}^{x} f(x)dx$} =  
\begin{cases} 
0  , &\textrm{se $x < \alpha$}\\
\frac{x - \alpha}{\beta - \alpha}  , &\textrm{se $\alpha \leq x \leq \beta$}\\
1  , &\textrm{se $x \geq \beta$}\\
\end{cases}
\end{equation}

Esperança e variância:
$E(X) = \frac{a+b}{2}$

$Var(X) = \frac{(b-a)^2}{12}$

Exemplo:
Um simples exemplo de distribuição uniforme é lançar um dado não viciado. Os possíveis valores são 1,2,3,4,5,6, e a cada turno que o dado é jogado a probabilidade de cada valor é 1/6.

#### 2. Normal
Em termos mais formais, a distribuição normal é uma distribuição de probabilidade absolutamente contínua parametrizada pela sua esperança matemática e desvio padrão. A densidade de probabilidade da distribuição normal é denotada como:

$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$

Um grande número de fenômenos naturais apresenta uma distribuição de probabilidade aproximadamente normal.

Quando uma variável aleatória X segue uma distribuição normal, ela é chamada de gaussiana ou de normal. Comumente é usada a notação: $X ~ N(\mu, \sigma^2)$.

Distribuição normal padrão:
A distribuição normal com **média 0 e desvio padrão 1** é chamada de **distribuição normal padrão.**
Podemos transformar um valor x em escore z usando a fórmula:
$z = \frac{x - \mu}{\sigma}$

Quando um valor de uma variável aleatória x distribuida normalmente é transformado em um **score-z**, a distribuição de z será uma distribuição normal padrão.

Função de densidade:
$\phi(t) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}t^2}$

#### 3. Exponencial
Esta é uma distribuição que se caracteriza por ter uma função de taxa de falha constante.

Tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais.

A variável aleatória $X$ tem distribuição Exponencial com parâmetro $\lambda$, $\lambda > 0$, se tiver função
densidade de probabilidade dada por:

\begin{equation}
\text{$f(x)$} =  
\begin{cases} 
\lambda e^{-\lambda x}  , &\textrm{se $x \geq 0$}\\
0  , &\textrm{se $x < 0$}\\
\end{cases}
\end{equation}

em que $\lambda$, é o parâmetro de taxa da distribuição e deve satisfazer $\lambda > 0$. Neste caso, $\lambda$ é o tempo
médio de vida e $x$ é um tempo de falha. O parâmetro deve ter a mesma unidade do tempo da falha $x$. Isto é, se $x$ é medido em horas, $\lambda$ também será medido em horas.

A função de distribuição acumulada F(x) é dada por:

\begin{equation}
\text{$F(x) = \int_{0}^{x} f(s)ds$} =  
\begin{cases} 
1 - e^{-\lambda x}  , &\textrm{se $x \geq 0$}\\
0  , &\textrm{se $x < 0$}\\
\end{cases}
\end{equation}

Esperança e variância:

$E(X) = \frac{1}{\lambda}$

$Var(X) = E(X^2) - |E(X)|^2 = \frac{1}{\lambda^2}$

Falta de memória:

$P(X > s + t | X > s) = P(X > t)$, para todo $s,t \geq 0$

Isso significa que a probabilidade de que seja necessário esperar, por exemplo, mais que 30 segundos até que o evento aconteça, dado que esse evento não aconteceu antes de 20 segundos, é a mesma de que esse evento ocorra depois dos 10 segundos iniciais 

**Relação com Poisson**

O lambda, em Poisson, indica a quantidade de ocorrências em um dado intervalo de tempo.

É possível utilizar o lambda de uma distribuição Poisson no lambda de uma distribuição exponencial para avaliar o intervalo de tempo entre as ocorrências de dois eventos. Para isso, $\lambda_{Exp} = \frac{\lambda_{Poisson}}{tempo}$


## 3. Teste de hipóteses
Teste de hipóteses é um procedimento estatístico que permite tomar uma decisão (aceitar ou rejeitar a hipótese nula Ho entre duas ou mais hipóteses (H0 ou hipótese alternativa H1)), utilizando os dados observados de um determinado experimento.

São fundamentais os seguintes conceitos para um teste de hipóteses:
- Hipótese nula (HO): é a hipótese assumida como verdadeira para a construção do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar.
- Hipótese alternativa (H1): é considerada quando a hipótese nula não tem evidência estatística
- Erro do tipo 1 (alfa): é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.
- Erro do tipo il: (beta) é a probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira.

### 3.1 Teste de hipóteses usando região crítica
É possível adotar o seguinte procedimento ao estabelecer o teste de hipóteses:

1. Escolher a hipótese nula e a hipótese alternativa com base no problema.
2. Estabelecer a estimativa de teste (média, desvio padrão, distribuição) para testar a hipótese nula a partir da teoria estatistica e das informações disponíveis no problema.
3. Determinar um valor para o erro do tipo I (nivel de significância). Os valores comuns são 5% e 1%. Construir a região crítica com o valor do erro do tipo I, os parâmetros os quais deseja-se testar e os parâmetros obtidos do problema (a região crítica determinará se a hipótese nula será ou não será rejeitada).
4. Retirar uma amostra da população. Fazer os cálculos para determinar o valor da estimativa de teste a partir das observações da amostra da população. Geralmente as observações seguem uma distribuição normal (estatística de teste Z) ou uma distribuição t de Student (estatística de teste t).
5. Se o valor da estatística (por exemplo, de teste Z ou de teste t) pertencer à região crítica definida pelo nível de significância, rejeitar a hipótese nula. Em caso contrário, não rejeitar a hipótese nula.
6. Para os casos em que não for possível rejeitar a hipótese nula, o procedimento pode ser repetido com diferentes valores para o nível de significância para dar maior precisão à decisão pelo cálculo da região crítica e da estatística de teste.

#### 1. Teste Z
População normal ou n>30 e sigma conhecido.

$z = \frac{\bar{x}-\mu_0}{(\frac{\sigma}{\sqrt{n}})}$

em que $\bar{x}$ é a média da amostra, mu é a média esperada da população, $\sigma$ é o desvio padrão populacional e $n$ é o tamanho da amostra.

Em seguida, consulta-se na tabela da curva normal o Z correspondente a cada caso.

Finalmente, verifica-se se z encontra-se na área de rejeição do teste de hipótese:

**Unilateral (unicaudal à esquerda)**

$H_0: \mu = \mu_0$

$H_1: \mu < \mu_0$

Rejeita-se $Z_{calc} < -Z_{\alpha}$

**Unilateral (unicaudal à direita)**

$H_0: \mu = \mu_0$

$H_1: \mu > \mu_0$

Rejeita-se $Z_{calc} > Z_{\alpha}$

**Bilateral**

$H_0: \mu = \mu_0$

$H_1: \mu \neq \mu_0$

Rejeita-se $Z_{calc} < -Z_{\frac{\alpha}{2}}$ ou se $Z_{calc} > Z_{\frac{\alpha}{2}}$

#### 2. Teste T
N<30 e sigma desconhecido.

$t = \frac{\bar{x} - \mu_0}{(\frac{s}{\sqrt{n}})}$, $df = n-1$ (df = degrees of freedom)

#### 3. Teste qul quadrado
- Para variância: Usados para determinar se uma população normal tem uma variância específica. A hipótese nula é que a população normal tem a variância especifica.
- Para independência: Usados para decidir se duas variáveis são associadas ou independentes. As variáveis são categóricas em vez de numéricas. A hipótese nula é que as variáveis são independentes. 
- De bondade de ajuste: usados para determinar a adequação das curvas ajustadas aos dados. A hipótese nula é que a curva ajustada é adequada.

$\chi^2 = (n-1)\frac{s^2}{\sigma_0^2}$

### 3.2  Teste de hipóteses usando p-value
O p-value é uma estatistica muito usada para sintetizar o resultado de um teste de hipóteses.

Ele é definido como a probabilidade de obter-se uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população assumindo-se a hipótese nula como verdadeira.

1. Calcular a estatística de teste (por exemplo, de teste Z ou de teste t) a partir das observações.

2. Calcular o p-value.

3. Rejeitar a hipótese nula, se e somente se o p-value for menor que o nível de significância pré-estabelecido.

Exemplo: Uma vendedora de chocolates recebe reclamações de que a quantidade de nozes em seu chocolate é menor do que o divulgado no pacote (pacote de 200g de chocolate com 75g de nozes).

HO: média de nozes = 75g

H1: média de nozes < 75g

A vendedora pega uma amostra de 20 pacotes (do seu estoque de 400 pacotes), e mede a quantidade de nozes em cada um neles.

Se todos os pacotes tivessem valores < 70g (com uma média de 30g por exemplo), seria óbvio que HO está errada.

Supondo que a média da amostra foi 68.7g. Calculando o p-value, ela obtém 0.18. Ou seja: existe uma chance de 18% de conseguir uma média com esse valor (ou menos) se não houver nada errado com as barras (se Ho fosse verdadeira). Assumindo que o nível de significância é 0.05, esse valor de p-value não fornece evidências suficientes para rejeitar a hipótese nula.
