# Caso grupal: Técnicas de agrupamiento

## Objetivos

- Entender el método de clustering K-means.
- Generar agrupamientos con los métodos de clustering indicados y realizar una comparativa de ambos.

## Descripción de la actividad

El conjunto de datos con el cual vamos a trabajar se encuentra en el siguiente enlace http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption 

Se trata de un dataset que contiene mediciones del consumo de energía eléctrica en un hogar con una tasa de muestreo de un minuto durante un período de casi 4 años. Están disponibles diferentes magnitudes eléctricas y algunos valores de submedición. Debe descargarse el fichero comprimido que se encuentra en la carpeta 'Data Folder'.

### Tareas a realizar
- Clustering
  - Debes completar el código pedido en este notebook y contestar las preguntas finales.
- Detección de anomalías
  - Buscar dos artículos científicos (https://scholar.google.es/) con un caso de uso de detección de anomalías. Los artículos deben estar en revistas científicas, y deben ser posteriores a 2015. No debe utilizar técnicas de Deep Learning.
  - Para cada artículo indicar:
    - Objetivo: cuál es el objetivo de la investigación, es decir a qué problema real está aplicando la detección de anomalías.
    - Técnicas de detección de anomalías empleadas.
    - Principales resultados de la aplicación y de la investigación.


### Clustering

Comenzamos importando las librerías necesarias y cargando el dataset.

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
plt.style.use('seaborn')

# se carga el dataset, con separados ;, se transforman las dos columnas Date y Time a una única columna con tipo datetime
# en el fichero CSV existen NaN identificados por ?
df = pd.read_csv('household_power_consumption.txt', sep=';',
                        parse_dates={'dt' : ['Date', 'Time']}, 
                        infer_datetime_format=True,low_memory=False,
                        na_values=['nan','?'])

## ¿Cuántas instancias tiene el dataset?


In [None]:
df.shape

## cuál es el tipo de datos de la variable 'Voltage'.

Float

## ¿es una variable continua o categórica?

Continua

# ¿cuáles son los valores mínimo y máximo de la variable 'Voltage'?

# ¿existe alguna variable con más del 30% de valores faltantes?

# ¿cuántas variables categóricas hay en el dataset? 

## Indica las categorías de cada una de ellas si las hubiera.

## Para los algoritmos de clustering el dataset no puede tener instancias con datos faltantes. ¿Tiene este dataset datos faltantes?

### Existen diferentes alternativas para completar los datos faltantes, algunas de ellas las hemos estudiado en la asignatura.
### Sin embargo, en esta actividad vamos a prescindir de estos datos.

In [None]:
df.dropna(inplace=True)

# Calcula las correlaciones de Pearson de las variables

### ¿Cuál es la variable que tiene mayor correlación con 'Global_active_power'? ¿Son variables dependientes o independientes?

### ¿Podemos eliminar alguna variable?

In [None]:
# eliminamos variable dt
dataFrame = dataFrame.drop(columns='dt')

### ¿Es necesario hacer algún tratamiendo adicional sobre los datos?

In [None]:
### PON AQUÍ TU CÓDIGO EN CASO DE QUE SEA NECESARIO HACER ALGÚN TRATAMIENTO ADICIONAL

#### Los métodos de clustering necesitan saber de antemano cuántos clusters deben crear. ¿Cuál es uno de los métodos más populares para saber cuál es el número apropiado de clústers?

In [None]:
_indica aquí tu respuesta_

Crea una lista de 20 modelos de KMeans y entrénalos. 

Haciendo uso del método indicado en la respuesta anterior, indica cuál es el número de clusters que parece más prometedor.

El modelo de KMeans debe tener los siguientes parámetros:
- n_clusters (entre 1 y 20)
- init: k-means++
- algorithm: algoritmo de Lloyd

In [None]:
from sklearn.cluster import KMeans

nc = # intervalo de 20 clusters
kmeans = [] #introduce aqui la sentencia para crear los 20 modelos


In [None]:
X = dataFrame.copy()

# entrena cada uno de los modelos y guarda el resultado en una lista.
score = ## PON AQUI TU CODIGO

#### A partir de estos resultados, ¿cómo sabemos cuál es el número óptimo de clústers? ¿qué número es?

_indica aquí tu respuesta_

In [None]:
### PON AQUÍ TU CÓDIGO

In [None]:
# Después de decidir el número de clusters, entrena el modelo con dicho número
n = 

In [None]:
kmeans = KMeans(n_clusters = n).fit(X)
centroids = kmeans.cluster_centers_
print(centroids)

kmeansmodel = KMeans(n_clusters = n, init='k-means++', random_state=0)
y_kmeans = kmeansmodel.fit_predict(X)

Ahora toca interpretar lo que Kmeans ha realizado. Recordemos que el objetivo de KMeans es encontrar patrones en los datos.

Lo primero que vamos a realizar es un gráfico para visualizar los clústers que ha creado en base a las variables utilizadas para crearlos.

In [None]:
import plotly.express as px

clusters = pd.DataFrame(X,columns=X.columns)
clusters['label'] = kmeansmodel.labels_
polar = clusters.groupby("label").mean().reset_index()
polar = pd.melt(polar,id_vars=["label"])
fig4 = px.line_polar(polar, r="value", theta="variable", color="label", line_close=True,height=800,width=600)
fig4.show()

En base a la figura de la representación de los clusters, ¿cuál es la variable que más nos ayuda a diferenciar los usos?

Introduce aqui tu respuesta

In [None]:
pie = clusters.groupby('label').size().reset_index()
pie.columns = ['label','value']
px.pie(pie,values ='value',names ='label')

¿Qué representa el gráfico de la celda anterior?

Introduce aquí tu respuesta

¿Qué características tiene el consumo del cluster 0?

Introduce aquí tu respuesta

Repite lo mismo pero esta vez utiliza para el entrenamiento de KMeans el algortimo de 'Elkan', ¿existen diferencias en el número de clústers? ¿y en la importancia de las variables?