# Aprendizaje de máquina
Se divida en dos grandes áreas:
1. **Aprendizaje supervisado**: Se entrena un clasificador para identificar la etiqueta de un elemento nuevo. Las entradas para este modelo son: $\mathbf{X}$ la matriz de datos de dimension $n\times p$, donde $n$ es el numero de observaciones y $p$ es el numero de caracteristicas, y el conjunto de etiquetas $C=[c_1, c_2, \ldots, c_k]$, donde $k$ es el numero de clases
2. **Aprendizaje no supervisado**: Se intenta agrupar el conjunto de datos, de tal forma que la separción entre los grupos sea la más conveniente. En este caso la entrada va a estar dado solo por la matriz de datos $\mathbf{X}$, definida por


$$\mathbf{X} = \left[\begin{array}{cccc}
x_{11} & x_{12} & \ldots & x_{1p}\\
x_{21} & x_{22} & \ldots & x_{2p}\\ 
\vdots& &\ldots &\vdots \\
x_{n1} & x_{n2} & \ldots & x_{np}\\ 
\end{array}\right]$$

De forma generla, un modelo de ML tiene las siguientes etapas:

1. *Adquisición de datos*
2. *Acondicionamiento de los datos, tambien llamado preprocesamientos (filtrado y remoción de artefactos)*
3. *Caracterización*
4. ***Preprocesamiento de las caracteristicas***
5. *Reducción de dimensión*
6. ***Aplicación del modelo ML***
7. ***Analisis de resultado***

## Aprendizaje Supervisado
Con el fin de aplicar un modelo supervisado para la clasificación de datos, es necesario iniciar con la carga o adquisición de los datos,en nuestro caso será una matriz  $\mathbf{X}$  artificial:

$$\mathbf{X} = \left[\begin{array}{ccc}
5.1&-2.0&3.3\\
-1.2&7.8&-6.1 \\
3.9&0.4&2.1\\
7.3&-9.9&-4.5 \\
\end{array}\right]$$


In [2]:
import numpy as np
from numpy import linalg as LA

X = np.array([[5.1,-2.9,3.3],[-1.2,7.8,-6.1], [3.9,0.4,2.1],[7.3,-9.9,-4.5]])

print(X)

[[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


## Preprocesamiento de la matriz de datos
Dar uniformidad a las características con el fin de no sesgar el clasificador. Hay diferentes tipos de preprocesamiento entre los que se encuentran

1. Binarización 
2. Remoción de media
3. Escalamiento
4. Normalización

### 1. Binarización 
Convertir las caracteristicas en variables booleanas. Se debe fijar un umbral $\gamma$ para la binarización de los datos

In [3]:
def binarizacion(X, gamma) :
    filas = np.shape(X)[0]
    columnas = np.shape(X)[1]
    
    for i in range(filas) :
        for j in range(columnas) :
            X[i][j] = 1 if X[i][j] >= gamma else 0
    return X

In [4]:
gamma = float(input('Ingrese el valor de gamma'))
datos_binarizados = binarizacion(X,gamma)

print(datos_binarizados)

Ingrese el valor de gamma


ValueError: could not convert string to float: 

### 2. Remoción de la media
Eliminar la tendencia de los datos. La operación que se realiza sobre la matriz de datos es la siguiente: 

$$\frac{\mathbf{X}-\mathbf{\hat{X}}}{\sigma_{\mathbf{X}}},$$

donde $\mathbf{\hat{X}}$ es la media y ${\sigma_{\mathbf{X}}}$ es la desviación 

In [None]:
def remocion(X):
    X = X - X.mean(axis=0)
    X = X/X.std(axis=0)
    
    return X

In [None]:
datos_centralizados = remocion(X)
media = datos_centralizados.mean(axis=0)
print('La media de las caracteristicas es', media)
desviacion = datos_centralizados.std(axis=0)
print('La desviacion de las caracteristicas es', desviacion)

### 3. Escalamiento
Medir con la misma *regla* todas las caracteristicas a todas las caracteristicas,para ello se realiza la siguiente operacion:


$$\frac{\mathbf{X}-min(\mathbf{X})}{max(\mathbf{X}) - min(\mathbf{X})},$$


In [None]:
def escalamiento(X):
    X = X - X.min(axis=0)
    X = X/(X.max(axis=0) - X.min(axis=0))
    
    return X

In [None]:
datos_escalados = escalamiento(X)
print(datos_escalados)

### 4. Normalización (este es por filas)
Con la normalización podemos alcanzar dos objetivos diferentes, aunque ambos intentan *medir* las caracteristicas de cada observación con la misma *regla*

- Normalización $L_1$: Es posible eliminar la influencia de los valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto sea unitaria. i.e: 

$$ \sum_{j=1}^{p}||x_{ij}||=1, \quad\quad \forall i=1, \ldots, n$$
- Normalización $L_2$: Es posible hacer más notable la influencia de los valores atípicos (*outliers*). La idea de esta normalización es que la suma del valor absoluto al cuadrado sea unitaria i.e:
$$ \sum_{j=1}^{p}||x_{ij}||^2=1, \quad\quad \forall i=1, \ldots, n$$

In [None]:
def normalizacion_uno(X):
    norm = LA.norm(X, ord=1, axis=1)
    
    filas = np.shape(X)[0]
    columnas = np.shape(X)[1]
    
    for i in range(filas) :
        X[i][:] =  X[i][:] / norm[i]
    return X

In [None]:
def normalizacion_dos(X):
    norm = LA.norm(X, ord=2, axis=1)
    
    filas = np.shape(X)[0]
    columnas = np.shape(X)[1]
    
    for i in range(filas) :
        for j in range(columnas) :
            X[i][j] =  X[i][j] / norm[i]
    return X

In [None]:
datos_normalizados = normalizacion_uno(X)
print(datos_normalizados)

In [None]:
datos_normalizados = normalizacion_dos(X)
print(datos_normalizados)

## Codificación de Etiquetas

El usuario ingresa primero las etiquetas, es decir: 'perro', 'gato', 'pajaro'. Luego ingresa todos los datos para armar el array y luego lo convierto en valores numericos.



In [29]:
etiquetas = input('Ingresa las etiquetas separadas por coma ')
keys = etiquetas.split(',')
values = list(range(len(keys)))
              
hash = {k:v for k, v in zip(keys, values)}

datos = input('Ingresa las etiquetas separadas por coma ')
data = datos.split(',')

key_number = list()
for i in range(len(data)):
    key_number.append(hash[data[i]])
    
print(key_number)

Ingresa las etiquetas separadas por coma perro, gato, rata
Ingresa las etiquetas separadas por coma perro, gato, rata, rata
[0, 1, 2, 2]
