## Resumen de shortcuts de teclado para Jupyter

- Ctr+Enter = Ejecuta una celda
- Esc+b = Genera una nueva celda hacia abajo
- Esc+a = Genera una nueva celda hacia arriba
- Esc+d d = Elimina la celda
- Esc+x = Corta la celda
- Esc+m = Convierte la celda en una celda de texto
- Esc+y = Convierte la celda en una celda de código
- Ctr+} = Comenta un bloque o elimina el comentario de un bloque

# Aprendizaje de máquina
***
El aprendizaje de máquina se divide en dos grandes áreas:

1.**Aprendizaje supervisado**
>En el aprendizaje supervisado se entrena un clasificador para identificar la etiqueta de un elemento nuevo. Las entradas para este modelo son: $\mathbf{X}$ la matriz de datos de dimensión $n\times p$, donde $n$ es el número de observaciones y $p$ es el número de características, y el conjunto de etiquetas $C=[c_1,c_2,\ldots,c_k]$, donde $k$ es el número de clases.

2.**Aprendizaje no supervisado**
>En el aprendizaje no supervisado, se intenta agrupar el conjunto de datos, de tal forma que la separación entre los grupos sea la más conveniente. En este caso la entrada va a estar dada solo por la matriz de datos $\mathbf{X}$, definida por:

$$\mathbf{X}=\left[\begin{array}{cccc}
x_{11} & x_{12} & \ldots & x_{1p}\\
x_{21} & x_{22} & \ldots & x_{2p}\\
\vdots& &\ldots &\vdots\\
x_{n1} & x_{n2} & \ldots & x_{np}
\end{array}\right]$$

De forma general, un modelo de ML tiene las siguientes etapas:

1. *Adquisición de datos*
2. *Acondicionamiento de los datos, también llamado preprocesamiento (filtrado y remoción de artefactos).*
3. *Caracterización*
4. ***Preprocesamiento de las características***
5. *Reducción de dimensión*
6. ***Aplicación del modelo ML***
7. ***Análisis del resultado***

## Aprendizaje supervisado
Con el fin de aplicar un modelo supervisado para la clasificación de datos, en necesario iniciar con la carga o adquisición de los datos, en nuestro caso será una matriz $\mathbf{X}$ artificial. Recuerda que el número de filas corresponde al número de observaciones u objetos, mientras el número de columnas corresponde al número de características o descriptores de los objetos:

$$\mathbf{X}=\left[\begin{array}{ccc}
5.1 &-2.9 &3.3\\
-1.2 & 7.8 &-6.1\\
3.9 & 0.4 & 2.1\\
7.3 &-9.9 & -4.5
\end{array}
\right]$$

En este caso tendremos 4 observaciones y 3 características

In [26]:
import numpy as np  #primero importamos la librería numérica y le ponemos el alias np

#posteriormente generamos un arreglo que corresponde a la matriz de datos
X = np.array([[5.1,-2.9,3.3],[-1.2,7.8,-6.1],[3.9,0.4,2.1],[7.3,-9.9,-4.5]])
print('La matriz de datos es:\n',X) #imprimos la matriz X generada en la línea anterior


La matriz de datos es:
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


## Preprocesamiento de la matriz de datos
***
La idea de esta etapa es dar uniformidad a las características con el fin de no sesgar el clasificador. Hay diferentes tipos de preprocesamiento entre los que se encuentran:

1. Binarización
2. Remoción de la media
3. Escalamiento
4. Normalización

### Binarización:
La binarización consiste en convertir las características en variables Booleanas (True,False) o (1,0). Se debe fijar un umbral $\gamma$ para la binarización de los datos, de tal forma que si $dato > \gamma \rightarrow dato=1$ en caso contrario, si $dato < \gamma \rightarrow dato=0$

In [7]:
#Hacemos la función de binarización
def Binarizacion(X,gamma): #definimos la función "Binarización" y las entradas "X" y "gamma"
    filas = np.shape(X)[0] #shape define las dimensiones de la matriz. El índice [0] son las filas, mientras el [1] las columnas
    columnas = np.shape(X)[1]
    for i in range(filas): #recorremos las filas
        for j in range(columnas): #recorremos las columnas
            if X[i][j] >= gamma: #hacemos la asignación
                X[i][j] = 1
            else:
                X[i][j] = 0
    return X #devolvemos la matriz binarizada

In [8]:
#Ahora corremos la función para binarizar la matriz. Primero preguntamos el valor de gamma
gamma = float(input('Ingrese el valor de gamma: ')) #nos aseguramos que sea flotante
datos_binarizados = Binarizacion(X,gamma) #llamamos la función y el resultado lo almacenamos en la variable "datos_binarizados"
print(datos_binarizados) #imprimimos el resultado


Ingrese el valor de gamma: 3.0
[[ 1.  0.  1.]
 [ 0.  1.  0.]
 [ 1.  0.  0.]
 [ 1.  0.  0.]]


### Remoción de la media
La idea con este preprocesamiento es eliminar la tendencia en los datos. 
La operación que se realiza sobre la matriz de datos es la siguiente:

$$\frac{\mathbf{X}-\mathbf{\hat{X}}}{\sigma_{\mathbf{X}}},$$

donde $\mathbf{\hat{X}}$ es la media y $\sigma_{\mathbf{X}}$ es la desviación.

In [9]:
# Revisamos la media y la desviación actual de los datos
media = X.mean(axis=0)  #el "axis=0" indica que calculamos la media por columnas, el "axis=1" lo haría por las filas
print('La media de las características es:\n',media) #imprimimos el valor de la media
desviacion = X.std(axis=0) #hacemos lo mismo para la desviación estándar
print('La desviación de las características es:\n',desviacion) #la imprimimos


La media de las características es:
 [ 0.75  0.25  0.25]
La desviación de las características es:
 [ 0.4330127  0.4330127  0.4330127]


In [10]:
#Hacemos la función para la remoción de la media, nuestra idea es que la desviación estándar sea 1 y la media sea 0
def Remocion(X): #definimos la función
    X = X - X.mean(axis=0) # a los datos les restamos el valor de la media
    X = X/X.std(axis=0) #al resultado lo dividimos por la desviación estándar
    return X #retornamos los datos normalizamos
    

In [11]:
#Aplicamos el preprocesamiento
datos_centralizados = Remocion(X) #llamamos la función y almacenamos el resultado
media = datos_centralizados.mean(axis=0) #Calculamos la media de la matriz de datos normalizada para comprobar que su valor sea 0
print('La media de las características es:\n',media) #la imprimimos
desviacion = datos_centralizados.std(axis=0) #Calculamos la desviación de la matriz de datos normalizada para comprobar que su valor sea 1
print('La desviación de las características es:\n',desviacion) #la imprimimos


La media de las características es:
 [  5.55111512e-17  -5.55111512e-17  -5.55111512e-17]
La desviación de las características es:
 [ 1.  1.  1.]


### Escalamiento
La idea del escalamiento es medir con la mismas *regla* a todas las características, para ello se realiza la siguiente operación:

$$\frac{\mathbf{X}-min(\mathbf{X})}{max(\mathbf{X})-min(\mathbf{X})}$$

In [12]:
def Escalamiento(X): #definimos la función de escalamiento
    minimo = X.min(axis=0) #calculamos el mínimo valor de cada columna
    maximo = X.max(axis=0) #calculamos el máximo valor de cada columna
    X = (X-minimo)/(maximo-minimo) #aplicamos la fórmula del escalamiento
    return(X) #retornamos el valor

**Ejercicio 1**

Aplica el escalamiento a la matriz $\mathbf{X}$ de entrada. Muestra el mínimo y el máximo antes  y después del preprocesamiento. ¿En qué se diferencian?

In [17]:
#Espacio para solucionar el ejercicio 1
minimo = X.min(axis=0)
maximo = X.max(axis=0)
print('El minimo antes de escalamiento es: \n', minimo)
print('El minimo antes de escalamiento es: \n', maximo)
xEscalada = Escalamiento(X)
minimo = xEscalada.min(axis=0)
maximo = xEscalada.max(axis=0)
print('El minimo después de escalamiento es: \n', minimo)
print('El minimo después de escalamiento es: \n', maximo)

El minimo antes de escalamiento es: 
 [-1.2 -9.9 -6.1]
El minimo antes de escalamiento es: 
 [ 7.3  7.8  3.3]
El minimo después de escalamiento es: 
 [ 0.  0.  0.]
El minimo después de escalamiento es: 
 [ 1.  1.  1.]


### Normalización

Con la normalización podemos alcanzar dos objetivos diferentes, aunque ambos intentan *medir* las características de cada observación con la misma *regla*

1. Normalización $L_1$:
> Con la normalización $L_1$ es posible eliminar la influencia de la valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto de cada observación sea unitaria. i.e:

> $$ \sum_{j=1}^{p}||x_{ij}||=1, \quad\quad \forall i=1,\ldots,n$$

2. Normalización $L_2$:
> Con la normalización $L_2$ es posible hacer más notable la influencia de los valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto al cuadrado sea unitaria. i.e.:

> $$ \sqrt{\sum_{j=1}^{p}||x_{ij}||^2}=1, \quad\quad \forall i=1,\ldots,n$$

Para conseguir la normalización, debemos dividir cada elemento de la fila por la norma correspondiente.

Las funciones para la normalización se muestran a continuación:

In [20]:
def norma1(X): #definimos la función para la norma L1
    norma = np.linalg.norm(X,ord=1,axis=1) #calculamos el valor de la norma con la función np.linalg.norm. El orden 
                                            #indica qué tipo de norma es y "axis=1" nos dice que la calculamos sobre las filas
    norma = np.repeat(norma,3) #como tenemos 4 normas en total (1 por cada fila), repetimos cada una tres veces
    norma = np.resize(norma,(4,3)) #reorganizamos las normas para que nos queden del mismo tamaño de X
    X = X/norma #dividimos punto a punto los datos entre la norma
    return X #retornamos la matriz normalizada

**Ejercicio 2**

Aplica la normalización por norma $L_1$ a la matriz $\mathbf{X}$ de entrada.

In [25]:
#espacio para solucionar el ejercicio 2
print('La matriz sin normalizar L1 es: \n', X, '\n')
minimo = X.min(axis=0)
maximo = X.max(axis=0)
print('El minimo antes de escalamiento es: \n', minimo, '\n')
print('El minimo antes de escalamiento es: \n', maximo, '\n')
xNormalizada = norma1(X)
print('La matriz luego de normalizar L1 es: \n', xNormalizada, '\n')
minimo = xNormalizada.min(axis=0)
maximo = xNormalizada.max(axis=0)
print('El minimo antes de escalamiento es: \n', minimo, '\n')
print('El minimo antes de escalamiento es: \n', maximo, '\n')


La matriz sin normalizar L1 es: 
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]] 

El minimo antes de escalamiento es: 
 [-1.2 -9.9 -6.1] 

El minimo antes de escalamiento es: 
 [ 7.3  7.8  3.3] 

La matriz luego de normalizar L1 es: 
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]] 

El minimo antes de escalamiento es: 
 [-0.0794702  -0.4562212  -0.40397351] 

El minimo antes de escalamiento es: 
 [ 0.609375    0.51655629  0.328125  ] 



**Ejercicio 3**

Define la función y aplica la normalización por norma $L_2$ a la matriz $\mathbf{X}$ de entrada.

In [27]:
#espacio para solucionar el ejercicio 3
def norma2(X): #definimos la función para la norma L1
    norma = np.linalg.norm(X,ord=2,axis=1) #calculamos el valor de la norma con la función np.linalg.norm. El orden 
                                            #indica qué tipo de norma es y "axis=1" nos dice que la calculamos sobre las filas
    norma = np.repeat(norma,3) #como tenemos 4 normas en total (1 por cada fila), repetimos cada una tres veces
    norma = np.resize(norma,(4,3)) #reorganizamos las normas para que nos queden del mismo tamaño de X
    X = X/norma #dividimos punto a punto los datos entre la norma
    return X #retornamos la matriz normalizada
print('La matriz sin normalizar L2 es: \n', X, '\n')
xNormalizada = norma1(X)
print('La matriz luego de normalizar L1 es: \n', xNormalizada, '\n')
xNormalizada = norma2(X)
print('La matriz luego de normalizar L2 es: \n', xNormalizada, '\n')

La matriz sin normalizar L2 es: 
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]] 

La matriz luego de normalizar L1 es: 
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]] 

La matriz luego de normalizar L2 es: 
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]] 



### Codificación del etiquetado

La codificación del etiquetado se utiliza para hacer el cambio de las etiquetas cualitativas (letras), a unas etiquetas cuantitativas (números).

**Ejercicio 4**

Desarrolla y aplica un codificador de etiquetas, de tal forma que para una entrada $\verb|['red', 'green', 'red, 'yellow', 'green'] |$ se obtenga como salida $\verb|[1,2,1,3,2]|$

In [3]:
#espacio para solucionar el ejercicio 4
import numpy as np
entrada = np.array([['red','green','red','yellow','green']])
def etiquetado(entrada):
    filas = np.shape(entrada)[0]
    columnas = np.shape(entrada)[1]
    for i in range(filas):
        print('aqui 1')
        for j in range(columnas):
            print('aqui 2')
            if entrada[i][j] == 'red':
                entrada[i][j] = 1
                print('aqui 3')
            elif entrada[i][j] == 'green':
                entrada[i][j] = 2
                print('aqui 4')
            elif entrada[i][j] == 'yellow':
                entrada[i][j] = 3
                print('aqui 5')
#             else:
#                 print('aqui 6')
#                 return (entrada)
    return (entrada)

In [4]:
salida = etiquetado(entrada)
print ("holi \n", salida)

aqui 1
aqui 2
aqui 3
aqui 2
aqui 4
aqui 2
aqui 3
aqui 2
aqui 5
aqui 2
aqui 4
holi 
 [['1' '2' '1' '3' '2']]
