# Problema de los tanques alemanes

## Objetivo
 
 * Mostrar cómo comparar diferentes estimadores: sesgo y varianza.
 * Cómo simular datos en R
 
## Problema

En la segunda guerra mundial los alemanes llegaron a conquistar una gran parte de Europa, para derrotarlos los Aliados tenían que conocer la fuerza de su oponente.


### ¿Cuantos tanques Panzer fabricaban los alemanes?


![Panzer II](panzer_II.jpg)

Los Aliados se hacían esa pregunta y trataron de obtener respuesta utilizando dos métodos diferentes. 
* **métodos convecionales de inteligencia**: Mediante espionaje tratar de averiguar la capacidad productora.
* **análisis estadístico**:  Analizando los números de serie de diferentes piezas de tanques destruidos en el campo de batalla.

Tras finalizar la guerra se pudieron acceder a los registros alemanes y se vio que el análisis estadístico dio valores muy próximos a los reales:

| Mes  | Estimación estadística| Estimación de espionaje | Registros alemanes |
|-----|-----|-----|----|
| June 1940 | 169 | 1,000 | 122 |
| June 1941	| 244 | 1,550 | 271 |
| August 1942 |	327	| 1,550 | 342 |



## ¿Cómo se estimó? 

Partiendo de las siguientes suposiciones:
* Los alemanes ponen número de serie consecutivos a los tanques que fabrican.
* El número de serie empieza en 1.
* Tenemos los números de serie de diferentes tanques destruidos, los cuales son una muestra **aleatoria** de la población total de tanques.

Consiste en estimar el **máximo** de una **distribución uniforme**.


![title](Uniform_Distribution.png)
\begin{equation*}
pdf(x)=\left\{\begin{matrix}
\frac{1}{b-a} & para\: a \leq x \leq b \\ 
0 & para\: x<a \;,\; x>b
\end{matrix}\right. \\
\mu=\frac{a+b}{2}\;\;\;\;\sigma^2=\frac{(b-a)^2}{12}
\end{equation*}

## Ejemplo


Por ejemplo, imaginemos que los alemanes fabricaron en total 5000 tanques, con números de serie del 1 al 5000. Tentremos a=1, y querremos estimar b cuyo valor real será 5000.



In [None]:
set.seed(123)
totalPopulationSerialNo<-1:5000

# Tamaño del gráfico en Jupyter
options(repr.plot.width=4,repr.plot.height=3)

#Vamos a dibujar la función de densidad de probabilidad 
a<-min(totalPopulationSerialNo)
b<-max(totalPopulationSerialNo)
pdf<-1/(b-a)

plot(c(a,a,b,b), c(0,pdf,pdf,0),t="l",xlim = c(0,b+1),ylim = c(0,0.0005),lwd=3,col="blue",ylab="pdf(x)",xlab="Num. serie")


# Capturamos 5 tanques
capturedSerialNo<-sample(totalPopulationSerialNo,size = 5)

points(capturedSerialNo,rep(pdf,length.out=length(capturedSerialNo)),col="black",cex=1,pch=8)
grid()

print(paste("Los números de serie de tanques capturados son: ", paste(capturedSerialNo,collapse=",")))

Los números de serie capturados consisten en un **muestreo aleatorio simple** de la población total de tanques.
Nuestro objetivo es, sabiendo que se distribuyen siguiendo una función uniforme, estimar el máximo, que llamaremos **b**, suponiendo que **a=1**.

## Estimación utilizando la media


En el caso de muestreo aleatoria simple, la **media** de la distribución original **coincide** con la de la muestra. Suponiendo que la media de la *población total* es $\mu$ y que la media de nuestra distribución de *tanques capturados* es $\bar{x}$, entonces.
\begin{equation*}
\mu=\frac{a+b}{2}=\frac{1}{N}\sum_{i=1}^N{x_i}=\bar{x}
\end{equation*}

Desarollando llegamos a la fórmula:

\begin{equation*}
\bar{x}=\frac{a+b}{2}\\
2\cdot\bar{x}=a+b\\
b=2\cdot\bar{x}-a \\
\end{equation*}


In [None]:
a<-1
b<-2*mean(capturedSerialNo)-a
print(paste("Utilizando como estimador la media, el número máximo de tanques fabricados es",round(b)))

## Estimación utilizando la varianza

Utilizando el mismo razonamiento que antes, podemos utilizar la varianza para calcular el máximo número de tanques. Sabemos que la varianza de la *población total* de tanques $\sigma^2$ tiene que coincidir con la varianza de los *números de serie capturados* $Var[x]$.
\begin{equation*}
\sigma^2=\frac{(b-a)^2}{12} \\
Var[x]=\frac{1}{N-1}\sum_{i=1}^N{(x_i-\bar{x})^2}
\end{equation*}
Desarrollando llegamos a la fórmula:
\begin{equation*}
Var[x]=\frac{(b-a)^2}{12} \\
12\cdot Var[x]=(b-a)^2\\
b=a+\sqrt{12\cdot Var[x]}
\end{equation*}




In [None]:
a<-1
b<-a+sqrt(12*var(capturedSerialNo))
print(paste("Utilizando como estimador la varianza, el número máximo de tanques fabricados es",round(b)))

## ¿Cual es el mejor estimador?

El mejor estimador será aquel que tenga una probabilidad mayor de dar un valor cercano al correcto.

Repetimos el proceso varias veces, suponiendo que tenemos diferentes intententos o diferentes tipos de tanques que probar.


In [None]:
numTries<-1e5
numCapturedTanks<-5

meanEstimated<-rep(NA,numTries)
varEstimated<-rep(NA,numTries)
for (i in 1:numTries){
    capturedSerialNo<-sample(totalPopulationSerialNo,size = numCapturedTanks)
    meanEstimated[i]<-2*mean(capturedSerialNo)-1
    varEstimated[i]<-sqrt(12*var(capturedSerialNo))-1
}
df<-data.frame(mean=meanEstimated,var=varEstimated)
margin_mean<-round(quantile(df$mean,c(0.05,0.95)))
margin_var<-round(quantile(df$var,c(0.05,0.95)))

library(ggplot2)
library(reshape2)

ggplot(data=melt(df),aes(x=value,color=variable))+geom_density()
print(paste0("Estimador usando la media:    media: ",round(mean(df$mean)),"  varianza: ",round(var(df$mean)),
      "  margen: [",margin_mean[1],",",margin_mean[2],"]"))
print(paste0("Estimador usando la varianza: media: ",round(mean(df$var)),"  varianza: ",round(var(df$var)),
      "  margen: [",margin_var[1],",",margin_var[2],"]"))

## Estimador insesgado de varianza mínima

Un **estimador insesgado de varianza mínima** es aquel que tiene menor varianza que cualquier otro estimador insesgado para todos los posibles valores del parámetro. Para el caso de una distribución uniforme es:
\begin{equation*}
b=\left(1+N^{-1}\right)·x_N-1=x_N+\frac{x_N}{N}-1
\end{equation*}
Donde:
* $x_N$ es el número de serie más grande capturado.
* $N$ es el número total de tanques capturados.
* $a=1$

Esta fórmula sale de suponer que:
\begin{equation*}
x_1-1  \approx  b-x_N
\end{equation*}
Lo que se puede extender a:
\begin{equation*}
x_1-1 \approx x_2-x_1-1 \approx x_3-x_2-1 \approx x_{N}-x_{N-1}-1 \approx  b-x_N\\
\frac{(x_1-1) + (x_2-x_1-1) + (x_3-x_2-1) + \cdots + (x_{N}-x_{N-1}-1)}{N} \approx  b-x_N \\
\frac{x_{N}}{N}-1 \approx  b-x_N \\
b \approx x_N +\frac{x_N}{N}-1
\end{equation*}

In [None]:
mvue<-rep(NA,numTries)
for (i in 1:numTries){
    capturedSerialNo<-sample(totalPopulationSerialNo,size = numCapturedTanks)
    mvue[i]<-max(capturedSerialNo)*(1+1/length(capturedSerialNo))-1
}
df<-data.frame(mean=meanEstimated,var=varEstimated,mvue=mvue)

ggplot(data=melt(df),aes(x=value,color=variable))+geom_density()

margin_mean<-round(quantile(df$mean,c(0.05,0.95)))
margin_var<-round(quantile(df$var,c(0.05,0.95)))
margin_mvue<-round(quantile(df$mvue,c(0.05,0.95)))

print(paste0("Estimador usando la media:    media: ",round(mean(df$mean)),"  varianza: ",round(var(df$mean)),
      "  margen: [",margin_mean[1],",",margin_mean[2],"]"))
print(paste0("Estimador usando la varianza: media: ",round(mean(df$var)),"  varianza: ",round(var(df$var)),
      "  margen: [",margin_var[1],",",margin_var[2],"]"))
print(paste0("Estimador usando la mvue:     media: ",round(mean(df$mvue)),"  varianza: ",round(var(df$mvue)),
      "   margen: [",margin_mvue[1],",",margin_mvue[2],"]"))

## ¿Como varía el margen con el número de tanques capturados?

Por ahora se han realizado experimentos con un número fijo de tanques recuperados. 

En esta sección veremos cómo varía el margen de error dado por cada estimador en función del número de tanques capturados.

Así por ejemplo podemos saber cuantos tanques necesitamos capturar como mínimo para alcanzar el margen de error necesario.


In [None]:
numTries<-1e3
numTanksCaptured<-2:50

margin_mean<-matrix(rep(NA,2*length(numTanksCaptured)),ncol=2)
margin_var<-matrix(rep(NA,2*length(numTanksCaptured)),ncol=2)
margin_mvue<-matrix(rep(NA,2*length(numTanksCaptured)),ncol=2)

for (j in 1:length(numTanksCaptured)){
    
    meanEstimated<-rep(NA,numTries)
    varEstimated<-rep(NA,numTries)
    mvue<-rep(NA,numTries)
    for (i in 1:numTries){
        capturedSerialNo<-sample(totalPopulationSerialNo,size = numTanksCaptured[j])
        meanEstimated[i]<-2*mean(capturedSerialNo)-1
        varEstimated[i]<-sqrt(12*var(capturedSerialNo))-1
        mvue[i]<-max(capturedSerialNo)*(1+1/length(capturedSerialNo))-1
    }

    margin_mean[j,]<-quantile(meanEstimated,c(0.05,0.95))
    margin_var[j,]<-quantile(varEstimated,c(0.05,0.95))
    margin_mvue[j,]<-quantile(mvue,c(0.05,0.95))
}

df_mean<-melt(data.frame(m1=margin_mean[,1],m2=margin_mean[,2],num=numTanksCaptured),id="num")
df_mean$group<-"mean"
df_var<-melt(data.frame(v1=margin_var[,1],v2=margin_var[,2],num=numTanksCaptured),id="num")
df_var$group<-"variance"
df_mvue<-melt(data.frame(n1=margin_mvue[,1],n2=margin_mvue[,2],num=numTanksCaptured),id="num")
df_mvue$group<-"mvue"
df<-rbind(df_mean,df_var,df_mvue)

ggplot(data=df,aes(x=num,y=value,group=variable,color=group))+geom_line()