# Estimando Tamanho da População - Frederick Caldas
## Inspirado em *Introduction to Statistics: The Nonparametric Way - Gottfried E. Noether*
### Estratégia: método *capture-recapture*

### Carregando Libraries
A library _random_ vai usada para extrair amostras aleatórias, neste trabalho; <br>
Já a library _pandas_ tem o propósito de contar o número de elementos repetidos entre múltiplas extrações.

In [2]:
import random
import pandas as pd

### Forjando Dados e realizando amostragens
No estudo atual, a população forjada possui 10.000 indivíduos. Nosso objetivo consiste em estimar um valor próximo aos 10 mil. <br>
Para o fim proposto, duas amostras de 1000 e 1400 indivíduos, respectivamente, estão sendo empregadas. <br>
<br>
O método _capture-recapture_ tem como estratégia a comparação entre o número de observações repetidas com relação ao tamanho das amostras coletadas. <br>
Nesse sentido, o primeiro passo é, justamente, coletar as amostras e, em seguida, verificar quantas observações foram repetidas.

In [3]:
# Forjando uma população de 10.000 baleias
baleias = [i for i in range(1,10001)]

# criando objeto N com a tamanho estimado da população. Estimar o valor dessa variável é o nosso objetivo.
N = 0

# definindo tamanho das amostras a extrair
n1 = 1000
n2 = 1400
tamanho_amostras = [n1, n2]

# Extraindo uma amostra da população de baleias
amostra = []

for j in tamanho_amostras:
    amostra = amostra + random.sample(baleias, k=j)

# Contando quantas baleias da segunda amostra já haviam sido extraídas na primeira amostra
amostra_pd = pd.Series(amostra)
contagem = amostra_pd.value_counts()
X = len(contagem[contagem > 1])

if X == 0:
    print("A população é muito maior do que as amostras coletadas.")
else:
    print(f"Após a segunda amostragem, foram registradas {X} extrações repetidas.")


131


#### Estimando valores
Uma vez obtido o número de indivíduos da população que inicidiram em ambas as amostras realizadas, vão feitas as seguintes considerações: <br>
A proporção *P* entre o tamanho da primeira amostra e o total da população podem ser estimada pela proporção entre o número de indivíduos repetidos na segunda amostra e o tamanho da segunda amostra. Em notação matemática temos que: <br>
$ P = \frac{n1}{N} $ <br>
Estimando P por $ P = \frac{X}{n2} $ , temos: <br>
$ \frac{X}{n2} = \frac{n1}{N} $ <br>
Isolando o valor N, obtemos que a estimativa de N é igual a: <br>
$ N = \frac{(n1 * n2)}{X} $

In [11]:
# Considerando proporções observadas
p = X/n2
P = n1/len(baleias)
N = (n1 * n2)/X

print(f"A proporção estimada do tamanho da primeira amostra com relação ao tamanho da população que buscamos é de {p:.2f}.")
print(f"A população estimada é de {N:.2f} baleias.")
print(f"A proporção real entre o tamanho da primeira amostra e o tamanho real da população é de {P:.2f}.")
print(f"O tamanho real da população é de {len(baleias):.0f} baleias.")

A proporção estimada do tamanho da primeira amostra com relação ao tamanho da população que buscamos é de 0.09.
A população estimada é de 10687.02 baleias.
A proporção real entre o tamanho da primeira amostra e o tamanho real da população é de 0.10.
O tamanho real da população é de 10000 baleias.


### Resultados
Seguindo a presente estratégia, sendo o tamanho real de 10.000 unidades, conseguimos obter uma estimativa de 10.687 baleias pelo método *capture-recapture*.