# An√°lisis cl√∫ster y an√°lisis de anomal√≠as

## 1. Introducci√≥n
Una de las tareas del an√°lisis de datos consiste en la identificaci√≥n de agrupaciones naturales de individuos.

Para esto, normalmente se cuenta con una base de datos cuyas f√≠las son los individuos de inter√©s
(personas, empresas, transacciones, etc.) y las columnas son sus caracter√≠sticas. Esto √∫ltimo, que existan muchas variables por cada registro, es muy relevante en esta parte del curso y justif√≠ca el uso de metodolog√≠as

multivariadas de agrupaci√≥n. Estas t√©cnicas usualmente se grupan bajo el t√≠tulo de an√°lisis cl√∫ster.
Para el aprendizaje de m√°quina (machine learning) el an√°lisis cl√∫ster hace parte del aprendizaje no
supervisado porque no se tienen concepciones a priori sobre c√≥mo conformar los grupos.

## 2. An√°lisis cl√∫ster

El objetivo del an√°lisis cl√∫ster es la identificaci√≥n de grupos de individuos (o de variables) en conjuntos de datos multidimensionales. Los individuos (variables) que pertenecen a un mismo grupo deben ser parecidos, mientras que los grupos deben ser diferentes entre s√≠. Aqu√≠, el concepto de parecido (o diferente) dependende de alg√∫n tipo de distancia entre las observaciones.
El an√°lisis cl√∫ster es popular siempre que exista interes en grupos de individuos (variables). Por ejemplo, en mercadeo, es importante hacer segmentaciones de clientes de acuerdo con sus caracter√≠sticas para despu√©s aplicar estrategias de ventas diferentes enfocadas a cada subgrupo.
En la pr√°ctica, se deben tener en cuenta las siguientes recomendaciones:
* En los datos, los elementos que se quieren agrupar deben estar organizados por f√≠las, mientras que las caracter√©sticas que definen a estos elementos van por columnas.
* Se debe evitar la presencia de valores perdidos. Si existen se deben imputar o eliminar la observaci√≥n, teniendo muy en cuenta las posibles consecuencias en t√©rminos de sesgo en los datos.
* Las variables deben tener escalas similares.

Con respecto al √∫ltimo punto, los algoritmos de clustering, en general, son sensibles a la escala de las variables. Por ejemplo, en una base de datos de pa√≠ses, se pueden tener como variables el producto interno bruto (PIB) y el crecimiento. Aqu√≠, el PIB suele venir en unidades monetarias, y tener valores incluso de billones, mientras que el crecimiento es un porcentaje. De esta forma, la escala de las variables es muy diferente y el algoritmo tender√° a agrupar con base en la variable de mayor escala, en este caso el PIB. Para evitar esto, las variables pueden estandarizarse (llevar a series con media 0 y varianza 1) o reescalarse (todas tienen el mismo m√≠nimo y m√°ximo).

> **üìù Nota:** Los procesos de estandarizaci√≥n o reescalamiento no aplican si las variables que describen al individuo son categ√≥ricas. En este caso, se debe recurrir a opciones distintas como la construcci√≥n de variables dummys (dicot√≥micas, de ceros y unos) o utilizar medidas de distancia capaces de tratar con este tipo de informaci√≥n.

## 2.1. Medidas de distancia

La distancia entre dos observaciones mide su cercan√≠a (como era de esperar). Para un grupo de individuos, se puede obtener una matriz que contenga la distancia entre todos ellos. Como resultado, la matriz de distancias es cuadrada (igual n√∫mero de filas y columnas) y tiene ceros en su diagonal principal.

La distancia entre un par de individuos 1 y 2, definidos a partir de p variables $x_{1i}, x_{2i}, ... x_{pi}$ con $i = 1,2$ se puede calcular como:

* Distancia Eucl√≠dea: $d (x_1, x_2) = \sqrt{\sum_{j=1}^{p} (x_{j1}-x_{j2})^2}$.
* Distancia Manhattan (o del taxista):  $d (x_1, x_2) = \sum_{j=1}^{p} |x_{j1}-x_{j2}|$.
* Distancia de Mahalanobis: $d (x_1, x_2) = \sqrt{{(x_{j1}-x_{j2})^T} * {\Sigma}^{-1} (x_{1}-x_{2})}$ donde $\Sigma$ es la matriz de varianzas y covarianzas entre $x_1$ y $x_2$.

Tambi√©n existen otras medidas basadas en la correlacion entre individuos que son utilizadas en contextos
espec√≠ficos. En este caso, se considera que dos individuos son parecidos si tienen una alta correlaci√≥n en sus caracter√≠sticas, a√∫n cuando los valores que √©stas tomen sean muy diferentes:
* Distancia de correlaci√≥n Pearson: $d (x_1, x_2) = 1 - \dfrac{\sum_{j=1}^{p} (x_{j1} - \bar x)(x_{j2} - \bar x)}{\sqrt{\sum_{j=1}^{p} (x_{j1} - \bar x)^2(x_{j2} - \bar x)^2}}$.

Muchas de las medidas de distancia aplican √∫nicamente a variables num√©ricas, pero en la pr√°ctica es
usual que las caracter√≠sticas de los individuos est√©n definidas como series ordinales o incluso categoricas.

Para estos casos se ha desarrollado la distancia de Gower, que agrupa las variables de un conjunto de datos de acuerdo con su naturaleza y aplica las medidas de distancias pertinentes seg√∫n cada caso: para variables num√©ricas y ordinales se utiliza la distancia Manhattan (con un ajuste por empates para el segundo caso), y para variables nominales con k categor√≠as se generan k variables indicadoras (dicot√≥micas) y luego se aplican medidas de similaridad adecuadas. Las distancias de cada caso se combinan de manera lineal, usualmente como un promedio simple.

## 3. Implementando algoritmos en Python

### 3.1. Carga y exploraci√≥n de datos
A continuaci√≥n se utilizar√°n datos empresariales con informacion de estados financieros. En primera instancia, se cargan y exploran los datos, para esto se utilizar√° la libreria de Pandas:


In [1]:
import pandas as pd
