

# Diseño de Experimento:

Se realizarán dos experimentos, el primero seguirá la metodología del Challenge del 2017 propuesto por el NIJ utilizando los datos de Portland, USA. La motivación de este experimento es someter los algoritmos a una comparación de eficiencia con los resultados obtenidos en el Challenge, ya que no existe un valor o umbral de las métricas estándar para admitir cuándo un algoritmo es (o no) apto para el uso. También se busca utilizar una base de datos diferente para que las dinámicas de los datos no influyan en los resultados. En resumen, queremos hacer los algoritmos __robustos y contrastables__. El segundo experimento se adaptará al objetivo final y será con los datos de Villavicencio. 

## Problema:

Nuestro problema es, a partir de datos históricos de criminalidad (fecha, hora aproximada, lugar, tipo de crimen),  crear un modelo predictivo para los crímenes de una ciudad en un rango de tiempo y espacio determinado (predictive policing). Este no es un problema clásico de aprendizaje de máquina (problema híbrido) y las propuestas de solución están desde histogramas básicos, pasando por modelos supervisados de [RKHS](http://www.gatsby.ucl.ac.uk/~gretton/coursefiles/lecture4_introToRKHS.pdf), hasta modelos que involucran procesos de Hawkes y aprendizaje profundo. 

## Métricas: 

Se utilizarán dos métricas de eficiencia estándar en predictive policing. 

- Prediction Accuracy Index (PAI)


El Índice de Exactitud de Predición mide la eficacia (effectiveness) de la predición con la siguiente ecuación:
$$
PAI = \frac{n/N}{a/A}
$$
Donde $n$ es igual al número de cirmes que ocurren en el área predecida, $N$ es el número total de crímenes, $a$ es el área de predicción y $A$ es el área total del estudio.

- Prediction Efficiency Index (PEI): 

El Índice de Eficiencia de Predicción mide la eficiencia de la predicción con la siguiente ecuación:

$$
PEI^* = \frac{PAI}{PAI^*} = \frac{\frac{n/N}{a/A}}{\frac{n^*/N}{a/A}}
$$

Donde $PEI*$ es igual al valor máximo que se obtiene de $PAI$ para el área predecida. $n*$ es el máximo valor que se obteniene para el área predecida $a$.


[Ejemplo](https://www.nij.gov/funding/documents/fy16-crime-forecasting-challenge-example-score-calculation.pdf) de cómo cálcular PEI y PAI. Nos enfocaremos en PEI para aprovechar la normalización.

## Protocolo de Evaluación:


Para medir el progreso del PEI utilizaremos validación cruzada anidada para las series de tiempo. El objetivo de este protocolo es comparar los modelos que vamos a utilizar.

![Image of Yaktocat](https://miro.medium.com/max/700/1*5vky1z29e1iO6iOvCTBJxg.png)

## Modelo 1: Histograma:
 
 
## Modelo 2: Kernel Density Estimation (KDE)
 
 
 ![title](https://github.com/jscanass/modeling/blob/master/kde.png?raw=true)
 
## Modelo 3: Self-Exciting Point Process (SEPP)
 
 ![title](https://github.com/jscanass/modeling/blob/master/hp00.png?raw=true)
 ![title](https://github.com/jscanass/modeling/blob/master/hp01.png?raw=true)
 ![title](https://github.com/jscanass/modeling/blob/master/hp1.png?raw=true)
 
 
 
## Modelo 4: Clasificadores clásicos 

Support Vector Machine ([SVM](https://dash-gallery.plotly.host/dash-svm/)) (otro?)
    
    
 ![Image SVM](https://github.com/jscanass/modeling/blob/master/svm.png?raw=true)

## Experimento 1: Portland.

Nos basamos en el siguiente [Challenge](https://www.nij.gov/funding/Pages/fy16-crime-forecasting-challenge-document.aspx) propuesto por la NIJ en el 2017. 


- Lugar: Portland, OR (USA).
- Tiempo a predecir: 1 semana, 2 semanas, 1 mes, 2 meses, 3 meses.
- Tipos de crimenes: Para todos los crímenes y crímenes específicos (robo residencial y comercial, crimen callejero o robo de vehículos) automotores).

- Base de datos: La base de datos corresponde a los registros de emergencia de la Oficina de Policia de Portland para el periodo de __cinco años__, de Enero del 2012 a Febrero del 2017. 
- Región de interés:The region of interest (Portland, OR) can be divided into cells of uniform (but any) shape and area. Each cell had to be in within the range of 62,500 – 360,000 ft2. Out of the total area of around 148 miles2, only an aggregate area within 0.25-0.75 miles2 could be forecast as hotspots.

- Rejilla: Seguiremos las utilizadas por [Flaxman (2018)](https://arxiv.org/pdf/1801.02858.pdf).




## Experimento 2: Villavicencio.

Adaptamos el experimento 2 a las condiciones y objetivos finales. Los parámetros están sujetos a cambios según la dinámica de patrullaje en Villavicencio.

- Lugar: Villavicencio, Colombia.
- Tiempo a predecir: 8 horas que serán distribuidas de la siguiente forma:

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg .tg-0a7q{border-color:#000000;text-align:left;vertical-align:middle}
.tg .tg-xwyw{border-color:#000000;text-align:center;vertical-align:middle}
</style>
<table class="tg">
  <tr>
    <th class="tg-0a7q">Hora</th>
    <th class="tg-0a7q">Lunes </th>
    <th class="tg-0a7q">Martes</th>
    <th class="tg-0a7q">Miércoles</th>
    <th class="tg-0a7q">Jueves</th>
    <th class="tg-0a7q">Viernes</th>
    <th class="tg-0a7q">Sábado</th>
    <th class="tg-0a7q">Domingo</th>
  </tr>
  <tr>
    <td class="tg-0a7q">22:00 - 5:59</td>
    <td class="tg-xwyw" colspan="4">&gt;--------------TURNO 1 -----------------&lt;</td>
    <td class="tg-xwyw" colspan="3">&gt;----------TURNO 4 ----------&lt;</td>
  </tr>
  <tr>
    <td class="tg-0a7q">6:00 - 13:59</td>
    <td class="tg-xwyw" colspan="4">&gt;--------------TURNO 2 -----------------&lt;</td>
    <td class="tg-xwyw" colspan="3">&gt;----------TURNO 5 ----------&lt;</td>
  </tr>
  <tr>
    <td class="tg-0a7q">14:00 - 21:59</td>
    <td class="tg-xwyw" colspan="4">&gt;--------------TURNO 3 -----------------&lt;</td>
    <td class="tg-xwyw" colspan="3">&gt;----------TURNO 6 ----------&lt;</td>
  </tr>
</table>


- Tipos de crimenes: Previamente definimos 3 tipos de crímenes de interés (hurto, homicidio y riña). Primero se tomarán todos los crímenes y después se variarán las bases de datos de origen y el crimen. La __evaluación__ será con datos de denuncias (suponemos mayor confiabilidad sobre estos datos).

- Base de datos: 3 bases de datos (denuncias, llamadas de emergencias y comparendos) con datos desde Enero del 2017 hasta Junio del 2019. Las 3 bases de datos suman aproximadamente 50k en la zona metropolitana.

- Región de interés: Área metropolitana de 	4266 km², Villavicencio 1338 km² y 604 679 hab  Total	527 668 hab.2 Densidad	397,34 hab/km²

- Rejilla: 150m² y las de [Flaxman (2018)](https://arxiv.org/pdf/1801.02858.pdf).
