# Aprendizaje de máquina
***
El aprendizaje de máquina se divide en dos grandes áreas:

1.**Aprendizaje supervisado**
>En el aprendizaje supervisado se entrena un clasificador para identificar la etiqueta de un elemento nuevo. Las entradas para este modelo son: $\mathbf{X}$ la matriz de datos de dimensión $n\times p$, donde $n$ es el número de observaciones y $p$ es el número de características, y el conjunto de etiquetas $C=[c_1,c_2,\ldots,c_k]$, donde $k$ es el número de clases.

2.**Aprendizaje no supervisado**
>En el aprendizaje no supervisado, se intenta agrupar el conjunto de datos, de tal forma que la separación entre los grupos sea la más conveniente. En este caso la entrada va a estar dada solo por la matriz de datos $\mathbf{X}$, definida por:

$$\mathbf{X}=\left[\begin{array}{cccc}
x_{11} & x_{12} & \ldots & x_{1p}\\
x_{21} & x_{22} & \ldots & x_{2p}\\
\vdots& &\ldots &\vdots\\
x_{n1} & x_{n2} & \ldots & x_{np}
\end{array}\right]$$

De forma general, un modelo de ML tiene las siguientes etapas:

1. *Adquisición de datos*
2. *Acondicionamiento de los datos, también llamado preprocesamiento (filtrado y remoción de artefactos).*
3. *Caracterización*
4. ***Preprocesamiento de las características***
5. *Reducción de dimensión*
6. ***Aplicación del modelo ML***
7. ***Análisis del resultado***

## Aprendizaje supervisado
Con el fin de aplicar un modelo supervisado para la clasificación de datos, en necesario iniciar con la carga o adquisición de los datos, en nuestro caso será una matriz $\mathbf{X}$ artificial:

$$\mathbf{X}=\left[\begin{array}{ccc}
5.1 &-2.9 &3.3\\
-1.2 & 7.8 &-6.1\\
3.9 & 0.4 & 2.1\\
7.3 &-9.9 & -4.5
\end{array}
\right]$$

En este caso tendremos 4 observaciones y 3 características

In [16]:
import numpy as np

X = np.array([[5.1,-2.9,3.3],[-1.2,7.8,-6.1],[3.9,0.4,2.1],[7.3,-9.9,-4.5]])
print('La matriz de datos es:\n',X) #imprimos la matriz X generada en la línea anterior


La matriz de datos es:
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


## Preprocesamiento de la matriz de datos
***
La idea de esta etapa es dar uniformidad a las características con el fin de no sesgar el clasificador. Hay diferentes tipos de preprocesamiento entre los que se encuentran:

1. Binarización
2. Remoción de la media
3. Escalamiento
4. Normalización

### Binarización:
La binarización consiste en convertir las características en variables Booleanas (True,False) o (1,0). Se debe fijar un umbral $\gamma$ para la binarización de los datos

In [2]:

#Hacemos la función de binarización
def Binarizacion(X,gamma):
    filas = np.shape(X)[0]
    columnas = np.shape(X)[1]
    for i in range(filas):
        for j in range(columnas):
            if X[i][j] >= gamma:
                X[i][j] = 1
            else:
                X[i][j] = 0
    return X
    

In [3]:
#primero preguntamos el valor de gamma
gamma = float(input('Ingrese el valor de gamma: '))
datos_binarizados = Binarizacion(X,gamma)
print(datos_binarizados)


Ingrese el valor de gamma: 2.1
[[ 1.  0.  1.]
 [ 0.  1.  0.]
 [ 1.  0.  1.]
 [ 1.  0.  0.]]


### Remoción de la media
La idea con este preprocesamiento es eliminar la tendencia en los datos. 
La operación que se realiza sobre la matriz de datos es la siguiente:

$$\frac{\mathbf{X}-\mathbf{\hat{X}}}{\sigma_{\mathbf{X}}},$$

donde $\mathbf{\hat{X}}$ es la media y $\sigma_{\mathbf{X}}$ es la desviación.

In [2]:
# Revisamos la media y la desviación actual de los datos
media = X.mean(axis=0)
print('La media de las características es:\n',media)
desviacion = X.std(axis=0)
print('La desviación de las características es:\n',desviacion)


La media de las características es:
 [ 3.775 -1.15  -1.3  ]
La desviación de las características es:
 [ 3.12039661  6.36651396  4.0620192 ]


In [3]:
#Hacemos la función para la remoción de la media
def Remocion(X):
    X = X - X.mean(axis=0)
    X = X/X.std(axis=0)
    return X
    

In [4]:
#Aplicamos el preprocesamiento
datos_centralizados = Remocion(X)
media = datos_centralizados.mean(axis=0)
print('La media de las características es:\n',media)
desviacion = datos_centralizados.std(axis=0)
print('La desviación de las características es:\n',desviacion)


La media de las características es:
 [  1.11022302e-16   0.00000000e+00   2.77555756e-17]
La desviación de las características es:
 [ 1.  1.  1.]


### Escalamiento
La idea del escalamiento es medir con la mismas *regla* a todas las características, para ello se realiza la siguiente operación:

$$\frac{\mathbf{X}-min(\mathbf{X})}{max(\mathbf{X})-min(\mathbf{X})}$$

In [10]:
minimo = X.min(axis=0)
print(minimo)
maximo = X.max(axis=0)
print(maximo)
data = (X-minimo)/(maximo-minimo)
print(data)

[-1.2 -9.9 -6.1]
[ 7.3  7.8  3.3]
[[ 0.74117647  0.39548023  1.        ]
 [ 0.          1.          0.        ]
 [ 0.6         0.5819209   0.87234043]
 [ 1.          0.          0.17021277]]


### Normalización

Con la normalización podemos alcanzar dos objetivos diferentes, aunque ambos intentan *medir* las características de cada observación con la misma *regla*

1. Normalización $L_1$:
> Con la normalización $L_1$ es posible eliminar la influencia de la valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto de cada observación sea unitaria. i.e:

> $$ \sum_{j=1}^{p}||x_{ij}||=1, \quad\quad \forall i=1,\ldots,n$$

2. Normalización $L_2$:
> Con la normalización $L_2$ es posible hacer más notable la influencia de los valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto al cuadrado sea unitaria. i.e.:

> $$ \sqrt{\sum_{j=1}^{p}||x_{ij}||^2}=1, \quad\quad \forall i=1,\ldots,n$$

Para conseguir la normalización, debemos dividir cada elemento de la fila por la norma correspondiente.

Los resultados para la normalización son:

In [5]:
norma = np.linalg.norm(X,ord=1,axis=1)
norma = np.repeat(norma,3)
norma = np.resize(norma,(4,3))
data = X/norma
print("Los datos normalizados con L1 son:\n ",data)


Los datos normalizados con L1 son:
  [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]


In [6]:
norma = np.linalg.norm(X,ord=2,axis=1)
norma = np.repeat(norma,3)
norma = np.resize(norma,(4,3))
data = X/norma
print("Los datos normalizados con L2 son:\n ",data)

Los datos normalizados con L2 son:
  [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]


### Codificación del etiquetado

La codificación del etiquetado se utiliza para hacer el cambio de las etiquetas cualitativas, a unas etiquetas cuantitativas.

Primero definimos el codificador

In [11]:
def codificador(lista_etiquetas):
    diccionario_etiquetas = {}
    longitud = len(lista_etiquetas)
    i = list(range(longitud))
    lista_temporal = zip(lista_etiquetas,i)
    for lista_etiquetas,i in lista_temporal:
        diccionario_etiquetas[lista_etiquetas] = i
    return(diccionario_etiquetas)

Luego generamos la función para codificar las etiquetas

In [12]:
def CodificarEtiquetas(etiquetas,diccionario):
    for i in range(len(etiquetas)):
        etiquetas[i] = diccionario[etiquetas[i]]
    return etiquetas
    

In [13]:
etiquetas = codificador(['red', 'green', 'black', 'yellow', 'white'] ) # con esta función le "enseñamos" al codficador las etiquetas

In [14]:
lista = (['green','black','white','green'])
salida = CodificarEtiquetas(lista,etiquetas)  #Aquí validamos las funciones
print(salida)

[1, 2, 4, 1]
