<img src="newlogomioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura: Machine learning 2: Unsupervised learning</center>

# Challenge S5: Clusterización II

## Plan de expansión: apertura de nuevas tiendas

Una cadena de supermercados desea identificar áreas en las que abrir nuevos centros.

Utilizando información censal (tabla CENSUS2000) el objetivo es encontrar áreas cuyos perfiles de clientes se adapten a diferentes tipologías de centros: boutiques, supermercados de presupuesto medio, grandes superficies, etc.

Se supone que el país tiene una densidad muy baja de establecimientos comerciales y se puede seguir abriendo tiendas en las diferentes regiones.

<img src="tienda.jpg">

## Configuración del entorno

Es recomendable declarar en un bloque al inicio todos los paquetes que vas a utilizar en este notebook:

In [1]:
%matplotlib inline

import warnings
warnings.filterwarnings("ignore")

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

### Información del dataset Census2000
Como hemos mencionado, vamos a hacer uso de un dataset con información censal (tabla CENSUS2000).

Las variables de las que dispone son:  

* Numrow: Numero de fila
* ID: Identificador del registro
* LocX y LocY para geolocalizar las zonas
* RegDens: Densidad de población de la región
* RegPop: Número de habitantes de la región
* MedHHInc: Nivel de ingresos medio de la unidad familiar
* MeanHHSz: Tamaño medio de la unidad familiar (HH = Household)

Los datos se encuentran en un fichero `csv` llamado `census2000.csv`.

Carga los datos en un dataframe para hacer los ejercicios de este bloque.

In [2]:
dfc=pd.read_csv("census2000.csv")

Una vez cargados los datos debemos inspeccionarlos antes de empezar nuestro análisis.

In [3]:
dfc.head()

Unnamed: 0,Numrow,ID,LocX,LocY,RegDens,RegPop,MedHHInc,MeanHHSz
0,0,601,-66.749472,18.180103,70.0,19143.0,9888.0,3.24
1,1,602,-67.180247,18.363285,83.0,42042.0,11384.0,3.1
2,2,603,-67.134224,18.448619,86.0,55592.0,10748.0,2.84
3,3,604,-67.136995,18.498987,83.0,3844.0,31199.0,3.0
4,4,606,-66.958807,18.182151,65.0,6449.0,9243.0,3.2


¿Cuantos registros y columnas tiene el dataset?

¿De que tipo son los datos cargados?

## Filtrado de datos
Una particularidad de este dataset es que contiene información sobre hogares que no tiene miembros en la unidad familiar. Cuantos registros se tienen con unidades familiares iguales o superiores a 1?:

En este caso vamos a trabajar sólo con aquellos registros con unidades familiares mayores o iguales que 2, para ello tienes que filtrar los datos y quedarte solo con dichos datos.

De esta manera hemos filtrado los datos y podemos ver el resultado:

## Visualización de los datos
Para hacernos una idea de los datos podemos generar algunos gráficos con las principales características de los datos. Podemos utilizar gráficos de barras, sectores, histograma de frecuencias.

* ¿Qué nos están diciendo estos gráficos sobre los datos?
* ¿Aprecias normalidad de los datos? Genera un histograma con cada variable que consideres y revisa si ¿Tiene forma de campana?

También puedes revisar la relación que existe entre las variables, la forma mas sencilla es mediante un gráfico de dispersión o calculando el coeficiente de correlación para revisar las relaciones lineales.

#### Algunos apuntes sobre el coeficiente de correlación
El [coeficiente de correlación ](https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson) es una medida del grado de *dependencia lineal* entre dos variables. El [coeficiente de correlación](https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson) oscila entre -1 y 1. Un valor de 1 significa que una [ecuación lineal](https://es.wikipedia.org/wiki/Ecuaci%C3%B3n_de_primer_grado) describe la relación entre las dos variables a la perfección, con todos los puntos de datos cayendo sobre una línea recta de pendiente positiva. Un valor de -1 implica que todos los puntos de datos se encuentran en una línea con pendiente negativa. Un valor de 0 implica que no existe una correlación lineal entre las variables. Lo podemos calcular con el método `corr`.

In [None]:
# coeficiente de correlación
dfc.corr()

#### Recuerda también que correlación no implica causalidad.
Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).

Echa un vistazo a este link y sorprendete con las "Spurious correlations"  http://tylervigen.com/spurious-correlations

<img src="correlacion.png" style="height: 150px">

## Transformación de variables

Una herramienta muy interesante a utilizar en aquellas variables que no cumplan con los criterios de normalidad es aplicar alguna transformación sobre las mismas, en particular el logaritmo funciona muy bien, y después de aplicarla confirma si los datos transformados se comportan como una normal.

Las ventajas de aplicar una transformación cuando la distribución de la variable no es normal son las siguientes:

* Que el efecto de posibles outliers sea menor.
* En algunos casos podría inducir normalidad, condición no necesaria, pero deseable.
* Que los rangos de las variables sean más comparables

<img src="logaritmo.png" style="height: 200px">

## Tratamiento de los datos, preprocessing

Respecto al tratamiento de datos, se llevarán a cabo las siguientes tareas:

* Imputación de missings.- la única variable que contiene valores missings es RegDens. Se predecirán sus valores a partir del resto de explicativas.

* Tratamiento de outliers.- se podrían filtras aquellas observaciones atípicas respecto de cada una de las variables. Hay que tener en cuenta que esto implicaría la pérdida de algunas regiones. 

* Alternativamente (para no perder registros) o de forma adicional, se puede aplicar una transformación a las variables con las ventajas ya mencionadas

## Imputación de valores ausentes
En los pasos anteriores hemos identificado los outliers y les hemos asignado a un valor nulo.

Ahora en este paso lo que vamos a hacer es darles un valor a los outliers para tener un dataset sin valores nulos y completar también si hay datos missing. Utiliza la técnica que consideres mas adecuada.

Recuerda que una opción es predecir los valores missing a partir de otras variables explicativas a través de una regresión.

Para mostrarte como realizar una regresión simple te incluyo un ejemplo a continuación.
En primer lugar generamos unos datos "casi aleatorios" que nos sirvan de ejemplo. Se trata de ajustar una línea que siga el modelo siguiente:
$$
y = ax + b
$$
donde $a$ es conocida como *slope* o *pendiente*, y $b$ es conocida como *intercept* o *constante*.

Consideramos los siguientes datos, que mostramos con gráfico de dispersión y que consiste en un modelo con pendiente 2 y constante -5:

In [None]:
rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = 2 * x - 5 + rng.randn(50)
plt.scatter(x, y);

Podemos utilizar el estimador Scikit-Learn's LinearRegression para ajustar los datos y construir la recta que mejor se ajusta:

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

model.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 10, 1000)
yfit = model.predict(xfit[:, np.newaxis])

plt.scatter(x, y)
plt.plot(xfit, yfit);

Y ya lo tenemos, la pendiente y la constante del modelo están en los parámetros fit, que como sabemos aparecen en Scikit-Learn marcados con un guión bajo.
Los parámetros relevantes son ``coef_`` y ``intercept_``. Y podemos utilizar cualquier nuevo dato de x para estimar y.

* ¿Consideras que dispones ahora de un dataset mas adecuado para hacer un clustering? ¿Por qué?

# Clustering jerárquico aglomerativo y kmeans

En esta parte queremos aplicar el método K-means ( y en particular kmeans ++) al dataset anterior con el objetivo de determinar los clusters mas adecuados para abrir tiendas e incluso la tipología de tiendas que consideremos mas apropiada para los diferentes clusters.

* Aunque existen otras técnicas, se recomienda aplicar un método de clusterización jerárquico aglomerativo en una primera etapa y a través del dendrograma seleccionar el número de clusters adecuado

* Posteriormente aplicamos kmeans sobre los clusters estimados por el metodo jerárquico.

<img src="dendrograma.png" width="50%">

Para que sea mas productivo, la recomendación es realizarlo de la siguiente forma:

* Primero seleccionar una submuestra de 100-200 registros para visualizar adecuadamente el dendrograma y de ahí extraer el número de clusters.
* Aplicar kmeans al número de clusters elegido previamente.

Si el resultado no fuese adecuado ejecutar kmeans variando el número de clusters de acuerdo a la información proporcionada por el dendrograma.

# ¿Y si utilizas DBSCAN?

# Perfiles de los clusters (profiling)

Una vez generados los clusters adecuados tenemos que analizar el pérfil de cada uno de los segmentos, utilizando las variables que tenemos disponibles.

El análisis de los pérfiles nos ayudará a establecer las conclusiones y las recomendaciones.

# Conclusiones y recomendaciones

* ¿Cuantos clusters has identificado?
* ¿Qué les caracteriza a cada uno de ellos?
* ¿Qué propuesta de tipología de tiendas propondrías?
* ¿Que otros factores tendrías en cuenta para diseñar un plan de expansión de tiendas?