# Implementación del algoritmo PSO para el clustering de puntos georeferenciados
---

## Introducción 
En este proyecto implementamos el algoritmo de optimizacion [PSO](https://es.wikipedia.org/wiki/Optimizaci%C3%B3n_por_enjambre_de_part%C3%ADculas) y lo modificamos para optimizar el clustering de puntos georeferenciados. Los puntos georeferenciados tienen los atributos latitud, longitud y tiempo en tienda. Al hacer el clustering se intenta minimizar la varianza entre los totales de tiempo en tienda de cada cluster, intentando así que todos los grupos se parezcan en sus sumas de tiempos en tienda.


## Implementación
---

In [1]:
#This is magic, don't touch it
%reload_ext autoreload
%autoreload 2
%matplotlib inline


El proyecto está siendo desarrollado como una librería de python 2.7 que consta de 3 partes principales:
* utils.py

   Este archivo ccontiene funciones que propiamente no pertenecen a PSO pero que son utilizadas dentro de la implementación para sacar distancias, areas, etc.
* classes.py

   Este archivo contiene las clases que usamos para representar los puntos y clusters de puntos.
   
* pso.py 

   Este archivo contiene nuestra implementación de PSO para clusterizar usando como función fitnes la varianza entre los totales de tiempo en tienda de los clusters.

In [12]:
import pandas as pd #esto es para la visualización de los resultados 
import numpy as np #esto es para la visualización de los resultados
from pyoptclass import utils as utl
from pyoptclass import pso

### Extracción de los datos
La función getData abre el archivo csv de los puntos, extrae la latitud, longitud y calcula el tiempo el tienda de cada punto, y regresa un arreglo de arreglos del tipo [numpay.array](https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html)

In [3]:
data = utl.getData(file_path="./../assets/sprint7ToroideMixto.csv")

In [7]:
data

array([[  20.60294, -100.431  ,  780.     ],
       [  20.6063 , -100.4371 ,  700.     ],
       [  20.58149, -100.41   , 2600.     ],
       ...,
       [  20.5871 , -100.356  , 1200.     ],
       [  20.6428 , -100.4501 , 1200.     ],
       [  20.6389 , -100.3799 , 1200.     ]])

### PSO
vamos a usar pso para buscar las soluciones al problema usando diferentes tamaños de población y por cada tamaño de población haremos 30 corridas del algoritmo, luego promediaremos y calcularemos la varianza para cada grupo de corridas. Comparando la varianza y el promedio de la solucion que genera nuestro algoritmo por cada tamaño de población nos permite evaluar su eficacia.

vamos a crear un [dataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) de pandas para almacenar los resultados y luego poder visualizarlos de una forma más cómoda.

In [31]:
res_pd = pd.DataFrame(columns=["Tamaño población","Iteraciones","Fitness promedio","Varianza"])

Corremos PSO 30 veces por cada tamaño de población

In [None]:
tamanos_poblacion = [10, 30, 50, 100]
iteraciones = 100

for N in tamanos_poblacion:
    resultados = []
    for _ in xrange(30):
        pso = pso.PSO(data, N, max_iter = iteraciones, seed = None)
        resultados.append(pso.search[0])
    var = np.var(resultados)
    prom = np.average(resultados)
    res_pd.append(pd.Series([N, iteraciones, prom, var],index=res_pd.columns), ignore_index=True)
    
    
    

### Resultados


In [32]:
res_pd

Unnamed: 0,Tamaño población,Iteraciones,Fitness promedio,Varianza
