# <font size=6>**Estatística com R: probabilidade e amostragem**</font>

Estamos atuando como **cientistas de dados** em uma empresa que presta consultoria a muitas empresas das mais diversas áreas.

Aqui, precisaremos utilizar uma série de conceitos da estatística para investigar e auxiliar nos problemas e demandas que essas empresas estão enfrentando, baseando suas decisões na análise dos dados recebidos.

Neste projeto, vamos ter acesso a resultados de pesquisas e dados levantados por times de marketing, atendimento ao cliente, logística entre outros.

**Desafio**

Nosso desafio é aplicar os conceitos de diferentes **distribuições, calcular probabilidades, realizar amostragens e estimar resultados** para cada caso trazido por essas empresas para que possa agregar valor aos times e ajudar nos processos de decisão. Para isso, serão repassados alguns questionamentos que foram separados para que nós possamos contribuir na execução dessa demanda.

Vamos utilizar a **linguagem R** para responder todos os questionamentos levantados.

## **Iniciando o projeto**

In [None]:
# Importando os pacotes do projeto
library(dplyr)
library(ggplot2)
options(repr.matrix.max.rows = 10)


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union





Muitas ferramentas estatísticas e técnicas utilizadas na análise de dados são baseadas em **probabilidade**.

A probabilidade mede o quão provável um evento ocorra em uma escala de **0** (o evento nunca ocorre) a **1** (o evento sempre ocorre).

Ao trabalhar com dados, as variáveis em um conjunto de dados (e.g. idade, sexo biológico, avaliação, etc.) podem ser consideradas **variáveis aleatórias**: variam devido ao acaso. Uma **distribuição de probabilidade**, como aprenderemos neste curso, descreve como uma variável aleatória é distribuída;

Vamos focar aqui em 3 delas:

-   Distribuição Binomial

-   Distribuição de Poisson

-   Distribuição Normal

Em estatística, cada distribuição de probabilidade tem a sua própria forma e pode ser utilizada para modelar diferentes tipos de eventos aleatórios. Para aprender sobre cada uma delas vamos responder aos questionamentos de diversas empresas utilizando a linguagem R.

Vamos nessa?

# **1. Distribuição binomial**

---



Nesta aula, vamos trabalhar com exemplos de problemas que envolvem distribuições binomiais. Mas, antes disso, vamos responder ao primeiro case trazido pelo time de marketing de uma grande empresa do e-commerce, chamada Zoop.

## **1.1 Calculando as combinações possíveis**

---



### <font color="#E23155" face="Verdana">Case 1: Combinando ofertas de produtos</font>

A Zoop está planejando uma grande campanha promocional para impulsionar as vendas de fim de ano, que incluirá pacotes de produtos para promoções de Black Friday e Natal.

O time de marketing decidiu combinar diferentes produtos em pacotes atrativos. A campanha envolve a seleção de **10 produtos** diferentes, criando pacotes promocionais de **3 produtos cada**. O time precisa saber quantas combinações de pacotes são possíveis e como podemos calcular esse valor.

### **Combinação sem repetição:**

A fórmula matemática para encontrar o número de combinações de $n$ objetos, tomados $k$ a cada vez, é:

$$C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}$$

Onde:

$$n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)$$

$$k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)$$

Por definição:

$$0! = 1$$

### <font color="#E23155" face="Verdana">Solução:</font>

> **Documentações:**
>
> - [**choose**](https://www.rdocumentation.org/packages/base/versions/3.6.1/topics/Special)


Voltando ao problema, a fórmula da nossa combinação seria a seguinte:

&nbsp;

$$C_{3}^{10} = \binom{10}{3} = \frac{10!}{3!(10 - 3)!}$$

&nbsp;

Utilizando o R, podemos resolver esse problema de forma prática, por meio da função `choose()`.

In [None]:
n <- 10  # nº de produtos
k <- 3   # nº de produtos por pacote

In [None]:
combinacoes <- choose(n, k)
combinacoes

Legal! E se quisermos calcular, por exemplo, a **probabilidade** de 1 pacote específico ser escolhido. Como podemos fazer isso?

In [None]:
probabilidade <- 1 / combinacoes
probabilidade

Com isso, descobrimos que a equipe de marketing da Zoop tem **120 combinações únicas** de pacotes promocionais que podem ser feitos escolhendo 3 produtos de uma lista de 10.

Mas não para por aí, vamos resolver na sequência o nosso primeiro problema envolvendo uma distribuição binomial, aprendendo o que é um experimento binomial, quando utilizá-lo e como calcular a probabilidade desejada.

## **1.2 Calculando a probabilidade**

---



### <font color="#E23155" face="Verdana">Case 2: Probabilidade de sucesso nas vendas dos pacotes promocionais</font>

Após definirmos as **120 combinações** possíveis de pacotes de produtos para a campanha de Black Friday e Natal, o time de marketing quer entender a probabilidade de sucesso desses pacotes promocionais. Analisando os dados históricos de campanhas anteriores, temos que, em média, **40% dos pacotes** oferecidos aos clientes resultam em vendas acima da média quando vendidos separadamente.

Como a equipe de marketing da Zoop pode calcular a **probabilidade de vender exatamente 50 pacotes** dessa seleção acima da média quando vendidos separadamente? E de vender **pelo menos 50 pacotes**?

### **Distribuição binomial**

Um evento **binomial** é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de **sucesso** e **fracasso**.

$$P(k)=\binom{n}{k} p^k q^{n-k}$$

Onde:

$p$ = probabilidade de sucesso

$q = (1 - p)$ = probabilidade de fracasso

$n$ = número de eventos estudados

$k$ = número de eventos desejados que tenham sucesso

&nbsp;

#### **Experimento Binomial:**

1.  Realização de $n$ ensaios idênticos.

2.  Os ensaios são independentes.

3.  Somente dois resultados são possíveis, exemplo: Verdadeiro ou falso; Cara ou coroa; Sucesso ou fracasso.

4.  A probabilidade de sucesso é representada por $p$ e a de fracasso por $1-p=q$. Estas probabilidades não se modificam de ensaio para ensaio.

### <font color="#E23155" face="Verdana">Solução:</font>

> **Documentações:**
>
> - [**Binomial**](https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/Binomial)

Voltando ao nosso problema, vamos verificar se o mesmo é um experimento binomial:

#### **Qual o número de ensaios ($n$)?**

In [None]:
n <- 120
n

#### **Os ensaios são independentes?**

Sim. Um pacote escolhido não influencia em nada a escolha ou não de outro pacote.

#### **Somente dois resultados são possíveis em cada ensaio?**

Sim. A venda de um pacote estar acima da média quando vendido separadamente tem duas possibilidades, VERDADEIRO ou FALSO.

#### **Qual a probabilidade de sucesso ($p$)?**

In [None]:
p <- 0.40
p

#### **Qual o total de eventos que se deseja obter sucesso ($k$)?**

In [None]:
k <- 50
k

Utilizando o R, podemos resolver esse problema por meio da função `dbinom()` calculando a probabilidade de vender exatamente 50 pacotes.

In [None]:
dbinom(k, n, p)

### Obter a posibilidade de vender pelo menos 50 pacotes acima da média

$$P(pacotes \geq 50) = P(50) + P(51) + P(52) + P(53) + ... + P(120)$$

#### <font color="#E23155" face="Verdana">Solução 1:</font>

In [None]:
pbinom(49, n, p, lower.tail = FALSE)

#### <font color="#E23155" face="Verdana">Solução 2:</font>

In [None]:
1 - pbinom(49, n, p)

## **1.3 Aplicando a média da distribuição binomial**

---



### <font color="#E23155" face="Verdana">Case 3: Projetando equipes no Atendimento ao Cliente</font>

A Zoop possui um time de atendimento ao cliente para dar suporte às pessoas que compram na loja on-line e ele é divido em equipes. De acordo com dados anteriores, **60% do time é do sexo biológico feminino**. A empresa está organizando **30 novas equipes, com 15 integrantes cada**, para atender ao aumento da demanda durante a Black Friday.

A equipe de RH deseja prever quantas dessas equipes terão **10 ou mais agentes do sexo feminino**.

### **Média da distribuição binomial**

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.

$$\mu = n \times p$$

#### <font color="#E23155" face="Verdana">Solução:</font>

In [None]:
p <- 0.6
p

In [None]:
n <- 15
n

In [None]:
k <- 10
k

In [None]:
probabilidade <- pbinom(k-1, n, p, lower.tail = F)
probabilidade

In [None]:
equipes <- 30 * probabilidade
equipes

# **2. Distribuição de Poisson**

---



## **2.1 Aplicando a distribuição de Poisson**

---



### <font color="#E23155" face="Verdana">Case 4: Tempo de resposta em redes sociais</font>

Uma empresa posssui uma equipe de atendimento que presta suporte aos clientes por meio das interações pelas redes sociais, como X e Instagram. A **média histórica é de 200 interações (perguntas ou reclamações) por hora** durante campanhas de marketing intensas.

A equipe de atendimento ao cliente quer saber qual a probabilidade de receber **exatamente 220 interações por hora** durante uma dessas campanhas, para planejar melhor o tempo de resposta, dada uma divisão mais igualitária do pessoal para o suporte aos clientes. E, considerando um número justo de **220 interações ou menos por hora**, qual seria a probabilidade também para esse caso?

### **Distribuição de Poisson**

Descreve a probabilidade de um determinado número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.

**Exemplo:** Probabilidade de um nº de clientes entrar em uma loja em determinada hora, nº de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, nº de acidentes registrados em um trecho de estrada etc.

&nbsp;

$$P(k) = \frac{e^{-\lambda}(\lambda)^k}{k!}$$

Onde:

$e$ = número de Euler, é uma constante cujo valor aproximado é 2,718281828459045

$\lambda$ = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço

$k$ = número de sucessos no intervalo desejado

&nbsp;

#### **Experimento Poisson:**

1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.

2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.

3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

### <font color="#E23155" face="Verdana">Solução (exatamente 220 interações por hora):</font>

> **Documentações:**
>
> - [**Poisson**](https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/Poisson)

Voltando ao nosso problema, vamos preencher os dados para realizar os cálculos:

#### **Qual o número médio de ocorrências por hora ($\lambda$)?**

In [None]:
lambda <- 200
lambda

#### **Qual o número de ocorrências que queremos obter no período ($k$)?**

In [None]:
k <- 220
k

Para calcular a probabilidade do time de atendimento ter exatamente 220 interações por hora nas redes sociais utilizaremos a função `dpois()`

In [None]:
dpois(k, lambda=lambda)

### <font color="#E23155" face="Verdana">Solução (220 ou menos interações por hora):</font>

In [None]:
ppois(k, lambda=lambda)

## **2.2 Calculando resultados esperados**

---



### <font color="#E23155" face="Verdana">Case 5: Prevendo picos de vendas</font>

Nos 4º trimestres dos últimos 5 anos, uma loja de confeitaria observa um aumento significativo nas vendas de bolos decorativos, impulsionado por eventos como Dia das Crianças, Natal e Ano Novo. Historicamente, a **média de vendas semanais durante esse período é de 150 bolos decorativos**. Entretanto, o time de vendas quer prever os picos de demanda e garantir que o estoque esteja preparado para semanas de vendas mais altas.

Logo, qual seria a probabilidade, por exemplo, de vender **160 ou mais bolos decorativos em uma semana específica** durante o último trimestre deste ano, dado a média histórica.

### <font color="#E23155" face="Verdana">Solução 1:</font>

Uma das formas de calcular a probabilidade de vender 160 ou mais produtos em uma semana específica pode ser por meio da função `dpois()` junto a `ppois()`

In [None]:
prob_exata_160 <- dpois(160, lambda=150)
prob_exata_160

In [None]:
prob_acima_160 <- ppois(160, lambda=150, lower.tail = F)
prob_acima_160

In [None]:
probabilidade <- prob_exata_160 + prob_acima_160
probabilidade

### <font color="#E23155" face="Verdana">Solução 2:</font>

In [None]:
prob_160_ou_mais <- ppois(159, lambda=150, lower.tail=FALSE)
prob_160_ou_mais

## **2.3 Investigando o quantil da distribuição de Poisson**

---



### <font color="#E23155" face="Verdana">Case 6: Garantia da Qualidade das Smart TVs</font>

Um dos produtos mais vendidos de uma loja de eletrônicos são as Smart TVs. Nos últimos meses, houve relatos de clientes sobre defeitos em algumas unidades de Smart TVs, o que acendeu o alerta para o time de garantia de qualidade.

Sabendo que defeitos são inevitáveis em qualquer processo de produção em massa, a equipe de suporte e garantia precisa garantir que a proporção de TVs com defeito seja mantida dentro de um limite aceitável.

Para isso, vamos calcular qual o **número máximo de TVs com defeito** que pode ocorrer, de forma que em **95% dos casos**, a quantidade de TVs defeituosas seja menor que esse limite, sabendo que, em média, a taxa de defeitos observada é de **2 TVs defeituosas por mês**.

### <font color="#E23155" face="Verdana">Solução:</font>

Aqui, nós vamos utilizar a operação inversa do Poisson, já possuímos a probabilidade e queremos o valor máximo de casos defeituosos. No R, podemos calcular isso por meio da função `qpois()`

In [None]:
qpois(p= 0.95, lambda = 2)

Interpretando a nossa resposta, no percentil 0.95 (95%) da nossa distribuição temos o valor 5. Ou seja, em 95% dos casos, a produção tem menos do que 5 Smart TVs com defeito.

# **3. Distribuição Normal**

---



Agora, vamos partir para uma das distribuições de probabilidade mais famosas e com inúmeras aplicações: **Distribuição Normal**. Mas, antes disso, vamos entender os novos cases que devemos responder da Zoop e como este tipo de distribuição poderá nos ajudar

## **3.1 Calculando a probabilidade da distribuição - Caso I**

---



### <font color="#E23155" face="Verdana">Case 7: Analisando o tempo de entrega dos produtos</font>

Agora, vamos auxiliar o time de logística de uma grande empresa que está monitorando os tempos de entrega dos produtos. Em um estudo sobre o prazo de entrega dos produtos, verificou-se que os os dados de entrega seguem uma **distribuição aproximadamente normal, com média de 7 dias e desvio padrão de 2 dias**.

Com base nestas informações, vamos obter o seguinte conjunto de probabilidades como resposta às demandas do pessoal:

> A) probabilidade de uma entrega demorar menos de 9 dias.
>
> B) probabilidade de uma entrega demorar entre 5 e 9 dias.
>
> C) probabilidade de uma entrega demorar mais de 10 dias.

### **Distribuição Normal**

A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição de frequências de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.

![Distribuição Normal](https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal.png?raw=true)

#### **Características importantes:**

1. É simétrica em torno da média;

2. A área sob a curva corresponde à proporção 1 ou 100%;

3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;

4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo $x$;

5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;

6. A distribuição é definida por sua média e desvio padrão;

7. A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.

&nbsp;

$$f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Onde:

$x$ = variável normal

$\sigma$ = desvio padrão

$\mu$ = média



### **Como calcular de maneira mais simples?**

Para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas, foram inventadas as tabelas padronizadas. Vou deixar uma atividade para que você possa aprender como construí-la ou consultá-la.

Para o escopo do nosso curso, vamos aprender como transformar nossa variável em uma variável padronizada $Z$.

Esta variável $Z$ representa o afastamento em desvios padrões de um valor da variável original em relação à média.

$$Z = \frac{x-\mu}{\sigma}$$

Onde:

$x$ = variável normal com média $\mu$ e desvio padrão $\sigma$

$\sigma$ = desvio padrão

$\mu$ = média

&nbsp;

Com este valor, basta rodarmos as funções do R para distribuição normal para calcularmos as probabilidades em diferentes casos, como veremos ao longo deste tópico.

Aqui abaixo temos um caso para valores entre $-\infty$ e $Z$ desvios padrão acima da média. Lembrando que por se tratar de valores padronizados temos $\mu = 0$.

![Distribuição Normal](https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-z.png?raw=true)

Este exemplo é bem semelhante ao 1º caso do nosso problema da logística. Vamos resolvê-lo?

### <font color="#E23155" face="Verdana">Texto:</font>

Agora, vamos auxiliar o time de logística de uma grande empresa que está monitorando os tempos de entrega dos produtos. Em um estudo sobre o prazo de entrega dos produtos da Zoop, verificou-se que os os dados de entrega seguem uma **distribuição aproximadamente normal, com média de 7 dias e desvio padrão de 2 dias**.

A) probabilidade de uma entrega demorar **menos de 9 dias**.


![Distribuição Normal](https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-caso-I.png?raw=true)

### <font color="#E23155" face="Verdana">Solução - CASO A:</font>

> **Documentações:**
>
> - [**Normal**](https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/Normal)

Vamos preencher os dados para realizar os cálculos:

#### **Obter a variável padronizada $Z$**

In [None]:
media <- 
media

In [None]:
desvio_padrao <- 
desvio_padrao

In [None]:
Z <- 
Z

Para calcular a  probabilidade de uma entrega demorar **menos de 9 dias** utilizaremos a função `pnorm()`, passando o $Z$ para ela.

#### **Calculando a probabilidade**

## **3.2 Calculando a probabilidade da distribuição - Caso II**

---



### <font color="#E23155" face="Verdana">Texto:</font>

Agora, vamos auxiliar o time de logística de uma grande empresa que está monitorando os tempos de entrega dos produtos. Em um estudo sobre o prazo de entrega dos produtos da Zoop, verificou-se que os os dados de entrega seguem uma **distribuição aproximadamente normal, com média de 7 dias e desvio padrão de 2 dias**.

B) probabilidade de uma entrega demorar **entre 5 e 9 dias**.


![Distribuição Normal](https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-caso-II.png?raw=true)

### <font color="#E23155" face="Verdana">Solução - CASO B:</font>

#### **Obter a variável padronizada $Z$**

In [None]:
Z_inf <- 
Z_inf

In [None]:
Z_sup <- 
Z_sup

Para calcular a  probabilidade de uma entrega demorar **entre 5 e 9 dias** podemos utilizar a simetria da curva e os dados que obtemos anteriormente ou a função `pnorm()`, subtraindo as probabilidades dos valores padronizados $Z$.

#### **Solução 1: Usando os conceitos da curva**

In [None]:
probabilidade <- 
probabilidade

#### **Solução 2: Usando a função `pnorm()`**

In [None]:
probabilidade <- 
probabilidade

## **3.3 Calculando a probabilidade da distribuição - Caso III**

---



### <font color="#E23155" face="Verdana">Texto:</font>

Agora, vamos auxiliar o time de logística de uma grande empresa que está monitorando os tempos de entrega dos produtos. Em um estudo sobre o prazo de entrega dos produtos da Zoop, verificou-se que os os dados de entrega seguem uma **distribuição aproximadamente normal, com média de 7 dias e desvio padrão de 2 dias**.

C) probabilidade de uma entrega demorar **mais de 10 dias**.


![Distribuição Normal](https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-caso-III.png?raw=true)

### <font color="#E23155" face="Verdana">Solução - CASO C:</font>

#### **Obter a variável padronizada $Z$**

In [None]:
Z <- 
Z

Para calcular a  probabilidade de uma entrega demorar **mais de 10 dias** utilizaremos a função `pnorm()` e pegar a parte superior da curva.

#### **Calculando a probabilidade**

In [None]:
probabilidade <- 
probabilidade

Podemos usar também os valores normais, sem passar pela padronização. Para isso deixamos evidente em `pnorm()` os valores de média ($u$) e desvio padrão ($\sigma$) do problema, visto que por padrão ele assume $u = 0$ e $\sigma = 1$.

## **3.4 Adicionando previsões na probabilidade**

---



### <font color="#E23155" face="Verdana">Case 8: Previsão de vendas</font>

Um analista financeiro de uma rede de restaurantes fez previsões para o próximo trimestre, projetando um **aumento de 20% nas vendas** e um **aumento de 30% na volatilidade (desvio padrão)** das vendas.

Atualmente, o **valor médio de venda no trimestre é de R\$ 250 mil**, com um **desvio padrão de R\$ 100 mil**. A gestão da rede de restaurantes quer saber a probabilidade de o valor médio de venda estar **abaixo ou igual a R$ 300 mil** no próximo tri, planejando melhorias em algumas de suas unidades.


### <font color="#E23155" face="Verdana">Solução:</font>

#### **Atualizando os valores de média e desvio padrão**

In [None]:
media_nova <- 
media_nova

In [None]:
desvio_padrao_novo <- 
desvio_padrao_novo

#### **Calculando a probabilidade**

#### **Distribuições simuladas**

In [None]:
simula_curva_normal_antes <- 
simula_curva_normal_depois <- 

In [None]:
ggplot() +
  geom_density(aes(simula_curva_normal_antes), color = "blue") +
  geom_density(aes(simula_curva_normal_depois), color = "red")

# **4. Estimação**

---



## **4.1 Aplicando a amostragem aleatória simples**

---



### <font color="#E23155" face="Verdana">Case 9: Pesquisa de satisfação dos clientes</font>

Um de nossos maiores clientes, a empresa e-commerce Zoop, quer realizar uma **pesquisa rápida** para avaliar a **satisfação dos clientes que realizaram 1 ou mais compras** no ano de 2023.

Para isso, eles precisam realizar uma pesquisa de satisfação, mas pela breviedade necessária é inviável coletar respostas de todos os clientes.

Como selecionar uma **amostra de clientes** que pode refletir a população de compradores(as) da Zoop?





### **População e Amostra**

População e amostra são conceitos estatísticos que representam o tamanho e a representatividade de um dado grupo

#### **População**

Conjunto de todos os elementos que possuem uma característica comum. Pode ser um grupo de pessoas, como os habitantes de uma cidade. Diversos elementos podem compor uma população: pessoas, carros, produtos, idades, etc. Ela pode ser:
- Finita: permite contagem de elementos, exemplo, funcionários numa empresa ou alunos em uma escola
- Infinita: não é possível contar seus elementos, porções de água do mar para análise, temperatura medida de cada ponto de um território

#### **Amostra**

É um subconjunto da população que pode ser selecionado para análises e inferências sobre toda a população. A partir dela podemos gerar estimativas e testar hipóteses sobre os parâmetros populacionais por meio dos parâmetros da população como sua média, variância e desvio padrão, são conhecidos como **parâmetros**.


Existem diferentes métodos para selecionar uma amostra, como a amostragem aleatória, a amostragem por conveniência e a amostragem estratificada. Vamos trabalhar aqui neste exemplo com a **amostragem aleatória simples**.

### <font color="#E23155" face="Verdana">Solução:</font>

Vamos realizar uma amostragem aleatória simples para garantir que o feedback seja representativo. Para isso leremos a base de dados com os dados de todas as vendas de eletrônicos e eletro domésticos da Zoop em 2023.

In [None]:
dados <- read.csv("https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/raw/refs/heads/main/dados/zoop_vendas_2023.csv")

#### **Parâmetros da população**

#### **Realizando a amostragem**

*Quando utilizamos uma amostra?*

1. **Populações infinitas:** quando não é possível investigar todos os elementos da população.

2. **Testes destrutivos:** onde elementos avaliados são totalmente consumidos ou destruídos.
    * Exemplo: testes de vida útil, testes de segurança contra colisões em automóveis, teste de qualidade do produto.

3. **Resultados rápidos:** pesquisas que precisam de mais agilidade na divulgação.
    * Exemplo: pesquisas de opinião, pesquisas que envolvam problemas de saúde pública.

4. **Custos elevados:** Quando a população é finita mas muito numerosa, o custo de um censo pode tornar o processo inviável.


#### **Comparando a distribuição por região**

## **4.2 Compreendendo o nível de confiança e significância**

---



### <font color="#E23155" face="Verdana">Case 10: Faixa de peso de produtos pelo lote</font>

Agora, estamos prestando consultoria a uma indústria alimentícia que produz diversos grãos, do processo que vai da colheita ao ensacamento.

Estamos analisando os pesos dos sacos de arroz desta empresa, sendo que eles se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatória de 30 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**.

Precisamos construir um **intervalo de confiança para a média populacional** assumindo um **nível de significância de 5%**.




### **Nível de confiança e significância**

O **nível de significância** ($\alpha$) expressa a probabilidade de erro da estimativa. De forma complementar, o **nível de confiança** ($1 - \alpha$) representa a probabilidade de acerto desta estimativa.

O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um **nível de confiança** de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

<img src="https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-confianca-significancia.png?raw=true" alt="Distribuição Normal com nível de confiança e significância" width="460">

Vamos então construindo aos poucos a solução deste problema?

### <font color="#E23155" face="Verdana">Solução (Nível de confiança e $Z$):</font>

#### **Média amostral**

In [None]:
media_amostral <- 
media_amostral

#### **Nível de significância ($\alpha$)**

In [None]:
significancia <- 
significancia

#### **Nível de confiança ($1 - \alpha$)**

In [None]:
confianca <- 
confianca

#### **Obter a variável padronizada $Z$**

&nbsp;

<img src="https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/blob/main/imagens/outros/distribuicao-normal-confianca-95.png?raw=true" alt="Distribuição Normal com nível de confiança de 95%" width="460">

In [None]:
z <- 
z

### **Valores de $z$ para os níveis de confiança mais utilizados**

|Nível de<br>confiança|Valor da área sob<br>a curva normal| $z$ |
|:----------------:|:---------------------------------:|:---:|
|90%               |0,95                               |1,645|
|95%               |0,975                              |1,96 |
|99%               |0,995                              |2,575|


## **4.3 Calculando o erro inferencial e intervalo de confiança**

---



### <font color="#E23155" face="Verdana">Case 10: Faixa de peso de produtos pelo lote</font>

Agora, estamos prestando consultoria a uma indústria alimentícia que produz diversos grãos, do processo que vai da colheita ao ensacamento.

Estamos analisando os pesos dos sacos de arroz desta empresa, sendo que eles se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatória de 30 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**.

Precisamos construir um **intervalo de confiança para a média populacional** assumindo um **nível de significância de 5%**.




### **Teorema do Limite Central**

O **Teorema do Limite Central** afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para $n$ maior ou igual a 30.

$$\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}$$

> O desvio padrão das médias amostrais é conhecido como **erro padrão da média**

### **Erro inferencial**

O **erro inferencial** indica a precisão da estimativa de um parâmetro populacional baseada em uma amostra aleatória. Ele é definido pelo **desvio padrão das médias amostrais** $\sigma_\bar{x}$ e pelo **nível de confiança** determinado para o processo.

$$e = z \times \sigma_\bar{x} = z \frac{\sigma}{\sqrt{n}}$$

### <font color="#E23155" face="Verdana">Solução (Erro inferencial e intervalo de confiança):</font>

#### **Obtendo $\sigma_\bar{x}$**

In [None]:
desvio_padrao <- 
desvio_padrao

In [None]:
n <- 
n

In [None]:
raiz_n <- 
raiz_n

In [None]:
sigma <- 
sigma

#### **Obtendo $e$**

In [None]:
e <- 
e

### **Intervalo de confiança**

O **intervalo de confiança** representa um intervalo numérico para os parâmetros populacionais, como a **média** ou **desvio padrão**. É uma medida de incerteza que ajuda a avaliar a precisão e a confiabilidade das estimativas e é frequentemente utilizado para deduzir informações sobre a população a partir de amostras.

#### **Com desvio padrão populacional conhecido**

$$\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}$$

#### **Com desvio padrão populacional desconhecido**

$$\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}$$

#### **Solução 1: Calculando o intervalo de confiança para a média**

In [None]:
cat("O intervalo de confiança para os sacos de arroz é:\nMínimo:", media_amostral - e, "\nMáximo:", media_amostral + e)

#### **Solução 2: Calculando o intervalo de confiança para a média**

> **Documentações:**
>
> - [**MeanCI**](https://www.rdocumentation.org/packages/DescTools/versions/0.99.30/topics/MeanCI)

Instalação rápida do pacote DescTools

In [None]:
# Baixando o arquivo de ambiente do R
R_environment_file <- "https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/raw/refs/heads/main/libs/library.tar.gz"
download.file(R_environment_file, destfile="./library.tar.gz")

# unzip do arquivo library do R: 'library.tar.gz' para a pasta library do R
untar("library.tar.gz", "library")

# Mudando a pasta das libs do R para './library'
.libPaths("library")

In [None]:
library(DescTools)

In [None]:
int_confianca <- MeanCI(x = ..., sd = ..., type = ..., conf.level = ..., sides = ...)
int_confianca

In [None]:
cat("O intervalo de confiança para os sacos de arroz é:\nMínimo:", int_confianca["lwr.ci"], "\nMáximo:", int_confianca["upr.ci"])

# **5. Cálculo do tamanho da amostra**

---



## **5.1 Definindo tamanho de amostra para população infinita**

---



### <font color="#E23155" face="Verdana">Case 11: Pesquisa do perfil do público por idade</font>

Um de nossos maiores clientes, a empresa e-commerce Zoop, quer realizar uma pesquisa a respeito do perfil do seu público pela **faixa de idade** segundo os dados de 2023.

O nosso cliente determinou que o **erro máximo em relação a média seja de 1 ano**. Sabemos que o **desvio padrão populacional** deste grupo de clientes é de **9,60 anos**. Para um **nível de confiança de 99%**, qual deve ser o tamanho da amostra para esta pesquisa?





### **Variáveis quantitativas e população infinita**

$e = z \frac{\sigma}{\sqrt{n}}$

&nbsp;

#### **Com desvio padrão conhecido**

$$n = \left(z\frac{\sigma}{e}\right)^2$$

#### **Com desvio padrão desconhecido**

$$n = \left(z\frac{s}{e}\right)^2$$

Onde:

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

### **Observações**

1. O desvio padrão ($\sigma$ ou $s$) e o erro ($e$) devem estar na mesma unidade de medida.

2. Quando o erro ($e$) for representado em termos percentuais, deve ser interpretado como um percentual relacionado à média.

### <font color="#E23155" face="Verdana">Solução:</font>

#### **Obtendo $z$**

In [None]:
area <- 
area

In [None]:
z <- 
z

#### **Obtendo $\sigma$**

In [None]:
sigma <- 
sigma

#### **Obtendo $e$**

In [None]:
e <- 
e

#### **Calculando o $n$**

$$n = \left(z\frac{\sigma}{e}\right)^2$$

In [None]:
n <- 
round(n)

## **5.2 Definindo tamanho de amostra para população finita**

---



### <font color="#E23155" face="Verdana">Case 12: Definindo o tamanho da amostra de um produto</font>

Nosso novo case envolve a consultoria a uma indústria que produz bebidas, como refrigerantes e energéticos.

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. Para a qualidade de entrega do produto, o fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**.

Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

### **Variáveis quantitativas e população finita**

#### **Com desvio padrão conhecido**

$$n = \frac{z^2 \sigma^2 N}{z^2 \sigma^2 + e^2(N-1)}$$

#### **Com desvio padrão desconhecido**

$$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

Onde:

$N$ = tamanho da população

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

### <font color="#E23155" face="Verdana">Solução:</font>

#### **Obtendo $N$**

In [None]:
N <- 
N

#### **Obtendo $z$**

In [None]:
z <- 
z

#### **Obtendo $s$**

In [None]:
s <- 
s

#### **Obtendo $e$**

In [None]:
e <- 
e

#### **Calculando o $n$**

$$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

In [None]:
n <- 
round(n)

## **5.3 Adequando o tamanho de amostra para diferentes casos**

---



### <font color="#E23155" face="Verdana">Case 13: Escolhendo a amostra adequada para os parâmetros da pesquisa</font>

Para nosso último case, a Zoop gostaria de realizar uma pesquisa acerca do perfil do seu público na região que mais possuem clientes (Sudeste) utilizando a **faixa de idade** como critério principal.

Neste caso, precisaremos definir qual seria a amostra adequada para a realização dessa pesquisa. O nosso cliente determinou que o **erro máximo em relação a média seja de 1 ano**. Obtenha as informações abaixo:

1. Qual deve ser o tamanho da amostra para a pesquisa para:
    * nível de confiança de **90%**
    * nível de confiança de **95%**
    * nível de confiança de **99%**

2. Sabendo que os recursos para as pesquisas aceitam até 500 entrevistados(as), qual a maior amostra possível dentre os níveis de confiança? Qual é  o intervalo de confiança para a média considerando esse tamanho de amostra?

3. Apresente uma prova gráfica, simulando amostras de idades do problema em questão para o nível de confiança escolhido.





### <font color="#E23155" face="Verdana">Solução:</font>

#### **Calculando a média e desvio padrão populacional dos dados**

In [None]:
dados <- read.csv("https://github.com/alura-cursos/estatistica-r-probabilidade-amostragem/raw/refs/heads/main/dados/zoop_clientes_2023.csv")

In [None]:
media <- 
media

In [None]:
sigma <- 
sigma

#### **Calculando o tamanho da amostra para cada nível de confiança**

$$n = \left(z\frac{\sigma}{e}\right)^2$$

##### **Tamanho da amostra ($1 - \alpha = 90\%$)**

In [None]:
z <- 
e <- 
n_confianca_90 <- 
n_confianca_90 <- round(n_confianca_90)
cat("Para um nível de confiança de 90% devemos selecionar uma amostra de", n_confianca_90, "elementos.")

##### **Tamanho da amostra ($1 - \alpha = 95\%$)**

In [None]:
z <- 
n_confianca_95 <- 
n_confianca_95 <- round(n_confianca_95)
cat("Para um nível de confiança de 95% devemos selecionar uma amostra de", n_confianca_95, "elementos.")

##### **Tamanho da amostra ($1 - \alpha = 99\%$)**

In [None]:
z <- 
n_confianca_99 <- 
n_confianca_99 <- round(n_confianca_99)
cat("Para um nível de confiança de 99% devemos selecionar uma amostra de", n_confianca_99, "elementos.")

#### **Calculando o intervalo de confiança**


### Realizando uma prova gráfica

In [None]:
options(repr.plot.width = 10, repr.plot.height = 6)
tamanho_simulacao = 500
medias <- c()

for(i in 1:tamanho_simulacao){
    medias <- c(medias, mean(sample_n(dados_sudeste, n_confianca_95)$idade_cliente))
}
medias <- data.frame(medias)

ggplot(data = medias, aes(x = c(1:tamanho_simulacao), y = medias)) +
    geom_point(size = 2.5, stroke = 0) +
    geom_hline(yintercept = media, color = 'green') +
    geom_hline(yintercept = limite_inferior, color = 'red') +
    geom_hline(yintercept = limite_superior, color = 'red')