# Problemas de Estimativa

## Introdução

Para trabalhar com dados um especialista (seja cientista ou engenheiro de dados) deve conhecer a parte descritiva da Estatística  (que trata, em linhas gerais, das medidas de centralidade e variabilidade), mas também deve entender de **inferência**.

Uma explicação superficial (e nada formal) a respeito da Inferência é que este ramo trata a respeito de conclusões a partir dos dados disponíveis. Tais conclusões consideram dois aspectos importantes:
* Que os dados disponíveis representam amostras da população
* Que os dados consideram a existência de variabilidade natural

Caso esteja trabalhando com dados de uma amostra então fazer inferências é essencial para o trabalho do especialista. Isto se deve ao fato de ter apenas um extrato dos dados, algumas incertezas e imprecisões que nos levam a ter um resultado mais probabilístico e menos determinístico.

Para compreender esse tema é necessario um conhecimento sobre os seguintes assuntos:
* **Média** (como medida de central)
* **Variância e desvio padrão** (como medidas de dispersão)
* **Distribuições** (dentre elas a Distribuição Normal, Distribuição de Poisson e Distribuição Binomial)

Os principais temas abordados são:
* Problemas de estimativa (por exenplo intervalos de confiança)
* Testes de hipóteses

Para estes temas o objetivo é trazer exemplos que envolvem o uso de **médias** e **proporções**.

Este material será seguido de exemplos para que o especialista materialize melhor as explicaçãoes. Além disso, usaremos o Python como a linguagem de programação para o exercicio destes exemplos.

Outro ponto importante é que ao longo deste material vamos considerar que temos disponivel **apenas dados amostras sem nenhum tipo de viés ou erro sistemático de extração**.



## Estimando com confiança
Normalmente quando recebemos um conjunto de dados com variáveis (ou features) quantitativas executamos o trabalho de analisar casos faltantes (missing), outiers e algumas tarefas mais descritivas (como moda, mediana e média). Além disso, buscamos entender a variabilidade dos dados a partir da variância e do desvio padrão.

A média destes dados deve ser chamada **média amostral** ($\bar{x}$) e é um estimador natural da média da população ($\mu$) que, geralmente é desconhecida. 

Um fato importante é que se recebermos uma nova amostra, muito provalvemente, a média deve ter um número diferente da amostra anterior. Consequentemente sucessivas amostras resultarão em médias que podem não ser exatamente iguais.

### Intervalos de confiança
Para minimizar esse efeito trabalhamos com um **intervalo de confiança de nivel C** composto por:
* Um intervalo calculado que considera: **margem_erro - estimativa + margem_erro**, sendo estimativa, por exemplo, nossa média.
* Um nível de confiança (no caso C) que fornece a probabilidade de que a verdadeira média populacional estará nesse intervalo se usássemos repetidas amostras.

Um entendimento sobre distribuições normais, desvio padrão populacional, teorema do limite central e grandes amostras é essencial para a compreensão destes conceitos. A priori considere que grandes amostras representam conjuntos de dados com 30 ou mais casos. Quando isso acontece podemos substituir o desvio padrão populacional ($\sigma$) pelo desvio padrão amostral (s). 

### Intervalo de confiança para uma média populacional
Para trabalhar com intervalos de confiança precisamos estabelecer a relação entre a confiança de nivel C e um valor crítico (z*).

|C  |   90% |   95% |   99% |
|---|-------|-------|-------|
|z* | 1,645 | 1,960 | 2,576 |

Com estes dados é possivel definir a margem de erro:
$$
z^* \times \frac{\sigma}{\sqrt{n}}
$$
E o intervalo de confiança>

$$
(z^* \times \frac{\sigma}{\sqrt{n}}) + \bar{x} - (z^* \times \frac{\sigma}{\sqrt{n}})
$$

Com isso já é possível estimar o intervalo de confiança

### Intervalos de confiança

Você recebeu uma base com 110 registros referentes a uma pesquisa de satisfação feita pelo time de marketing. Ao analisar a média e o desvio padrão você chegou aos seguintes resultados:

$\bar{x}=76.7$ (média da amostra) 

$s=12.3$ (desvio padrão) 

$n=110$ (tamanho da amostra)

Como são dados amostrais então novas pesquisas podem gerar novos resultados. 

Tendo isto em mente, estabeleça um intervaldo de confiança de 95% para a média real da população (neste caso usuários do produto ou serviço)

In [16]:
import math

In [17]:
x_bar = 76.7
desvpad = 12.3
n = 110
z_critico = 1.960

margem_erro = z_critico * (desvpad/math.sqrt(n))

print('Temos 95% de confiança de que a satisfação está entre', x_bar-margem_erro, x_bar+margem_erro)


Temos 95% de confiança de que a satisfação está entre 74.40139238984673 78.99860761015327
