# Sumário

- Distribuição Binomial

- Distribuição de Poisson

- Distribuição Normal

- Intervalos de Confiança

- Tamanho Amostral

---

## Distribuição Binomial

Um evento **binomial** é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de **sucesso** e **fracasso**.

# $$P(k)=\binom{n}{k} p^k q^{n-k}$$

Onde:

$p$ = probabilidade de sucesso

$q = (1 - p)$ = probabilidade de fracasso

$n$ = número de eventos estudados

$k$ = número de eventos desejados que tenham sucesso

### Experimento Binomial

1. Realização de $n$ ensaios idênticos.

2. Os ensaios são independentes.

3. Somente dois resultados são possíveis, exemplo: Verdadeiro ou falso; Cara ou coroa; Sucesso ou fracasso.

4. A probabilidade de sucesso é representada por $p$ e a de fracasso por $1-p=q$. Estas probabilidades não se modificam de ensaio para ensaio.

### Média da distribuição binomial

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.

# $$\mu = n \times p$$

### Desvio padrão da distribuição binomial

O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.

# $$\sigma = \sqrt{n \times p \times q}$$

In [None]:
from scipy.stats import binom


def Probabilidade_DistribBinomial (k, n, p, cumulativo= False):
    
    #p= probabilidade de sucesso evento unico
    #q= (1-p) = probabilidade de fracasso evento unico
    #n= numero de eventos estudados
    #k= numero de eventos desejados que tenham sucesso (pode ser uma lista)

    if (cumulativo):
        return binom.cdf(k,n,p)

    else:
        return binom.pmf(k,n,p)

---

## Distribuição Poisson

É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.

Como exemplos de processos onde podemos aplicar a distribuição de Poisson temos a determinação do número de clientes que entram em uma loja em determinada hora, o número de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, a determinação do número de acidentes registrados em um trecho de estrada etc.

# $$P(k) = \frac{e^{-\mu}(\mu)^k}{k!}$$

Onde:

$e$ = constante cujo valor aproximado é 2,718281828459045

$\mu$ = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço

$k$ = número de sucessos no intervalo desejado

### Experimento Poisson

1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.

2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.

3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

### Média da distribuição Poisson

# $$\mu$$

### Desvio padrão da distribuição Poisson

# $$\sigma = \sqrt{\mu}$$

In [None]:
from scipy.stats import binom, poisson


def Probabilidade_DistribPoisson (k, u):

    #e= constante= 2.718281828459045
    #u= representa o numero medio de ocorrencias em um determinado intervalo de tempo ou espaco
    #k= numero de sucessos no intervalo desejado

    return poisson.pmf(k, u)

---

## Distribuição Normal

A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição de frequências de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.

![Normal](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img001.png)

### Características importantes

1. É simétrica em torno da média;

2. A área sob a curva corresponde à proporção 1 ou 100%;

3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;

4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo $x$;

5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;

6. A distribuição é definida por sua média e desvio padrão;

7. A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.

# $$f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Onde:

$x$ = variável normal

$\sigma$ = desvio padrão

$\mu$ = média

A probabilidade é obtida a partir da área sob a curva, delimitada pelos limites inferior e superior especificados. Um exemplo pode ser visto na figura abaixo.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img002.png)

Para obter a área acima basta calcular a integral da função para os intervalos determinados. Conforme equação abaixo:

# $$P(L_i<x<L_s) = \int_{L_i}^{L_s}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Onde:

$x$ = variável normal

$\sigma$ = desvio padrão

$\mu$ = média

$L_i$ = limite inferior

$L_s$ = limite superior

### Tabelas padronizadas

As tabelas padronizadas foram criadas para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas.

Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada $Z$.

Esta variável $Z$ representa o afastamento em desvios padrões de um valor da variável original em relação à média.

# $$Z = \frac{x-\mu}{\sigma}$$

Onde:

$x$ = variável normal com média $\mu$ e desvio padrão $\sigma$

$\sigma$ = desvio padrão

$\mu$ = média

In [None]:
from scipy.stats import norm


def Probabilidade_DistribNormal (x, o, u, typeP= "cumulative"):

    #x= variavel normal
    #o= desvio padrao
    #u= media
    #typeP= cumulative, between, rest

    if (typeP== "cumulative"):
        Z= (x - u)/o

        return norm.cdf(Z)

    elif (typeP== "between"):
        Zinf= (x[0] - u)/o
        Zsup= (x[1] - u)/o

        return norm.cdf(Zsup) - norm.cdf(Zinf)

    elif (typeP== "rest"):
        Z= (x - u)/o

        return 1 - norm.cdf(Z)

---

## Intervalos de Confiança

### Intevalo de confiança para a média da população

#### Com desvio padrão populacional conhecido

## $$\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão populacional desconhecido

## $$\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}$$

In [None]:
from statsmodels.stats.weightstats import zconfint, DescrStatsW


#PROBABILIDADE - Intervalo de Confianca Normal

def intervaloConfianca_Norm(significancia, media_amostral, sigma):

    #sigma= desvio padrao/ raiz(quantidade Amostra)
    
    return norm.interval (alpha= significancia, loc= media_amostral, scale= sigma)

#---------------------------------------------------------------------------------------------
#PROBABILIDADE - Intervalo de Confianca Z - Amostras Grandes

def intervaloConfianca_Zconf(df, significancia= 0.05):

    return zconfint(df, alpha= significancia)

#---------------------------------------------------------------------------------------------
#PROBABILIDADE - Intervalo de Confianca T - Amostras Pequenas

def intervaloConfianca_Tconf(df, significancia= 0.05):

    df_DescStats= DescrStatsW(df)
    return df_DescStats.tconfint_mean(alpha= significancia)


---

## Tamanho Amostral

# $$e = z \frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão conhecido

## $$n = \left(z\frac{\sigma}{e}\right)^2$$

#### Com desvio padrão desconhecido

## $$n = \left(z\frac{s}{e}\right)^2$$

Onde:

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial



In [None]:
def tamanhoAmostra (z, e, o):

    #z= variavel normal padronizada - ex: caso queira 95% de confianca Z= norm.ppf(0.5 + (0.95/2))
    #o= desvio padrao populacional ou amostral (s) caso seja desconhecido o desvio padrao
    #e= erro inferencial - valor que pode ser variada a variavel normal ex: R$3000 +- 100.. o 100 seria o erro inferencial

    return (z*(o/e))**2

def tamanhoAmostra (N, z, o, e):

    #N= Tamanho da populacao
    #z= variavel normal padronizada - ex: caso queira 95% de confianca Z= norm.ppf(0.5 + (0.95/2))
    #o= desvio padrao populacional ou amostral (s) caso seja desconhecido o desvio padrao
    #e= erro inferencial - valor que pode ser variada a variavel normal ex: R$3000 +- 100.. o 100 seria o erro inferencial

    return ((z**2)*(o**2)*N) / ( ((z**2)*(o**2)) + (e**2)*(N-1) )