## Aprendizaje de máquina

Partimos de una matriz de observaciones $\mathbf{X}$ de la forma:

$$\mathbf{X}=\begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1p}\\
x_{21} & x_{22} & \ldots & x_{2p}\\
\vdots &\vdots &\ldots &\vdots\\
x_{n1} & x_{n2} & \ldots &x_{np}
\end{bmatrix}$$

donde $p$ el número de características (número de columnas) y $n$ es el número de observaciones o ejemplos.

**Ejemplo**

bCon el fin de aplicar las diferentes estrategias de preprocesamiento, vamos a generar una matriz de observaciones para el entrenamiento y otra para la validación (o test).

$$\mathbf{X}_{train} = \begin{bmatrix}
5.1 & -2.9 & 3.3\\
-1.2 & 7.8 & -6.1\\
3.9 & 0.4 & 2.1\\
7.3 & -9.9 & -4.5
\end{bmatrix}$$

$$\mathbf{X}_{test} = \begin{bmatrix}
3.9 & 7.5 & 2.2
\end{bmatrix},$$

donde $\
mathbf{x}_{train} \in R^{n \times p}$ y $\mathbf{X}_{test} \in
R^{m\times p}$


 ## Remoción de la media
 
 La idea e la remoción de la media es eliminar la tendencia de los datos. La operación que se realiza es la siguiente:
 
 $$\mathbf{X}_{prepro} = \frac{\mathbf{X}-\hat{\mathbf{X}}}
 {\sigma_{\mathbf{X}}}$$
 
 donde $\hat{\mathbf{X}}$ es la media de $\mathbf{X}$ y $\sigma_{\mathbf{X}}$ la
 desviación estándar.
 
 

In [4]:
import numpy as np # importamos la librería numérica y le asignamos el alias np

#generamos un arreglo númerico para X_train
X_train = np.array([[5.1, -2.9, 3.3], [-1.2, 7.8, -6.1], [3.9, 0.4, 2.1], [7.3, -9.9, -4.5]])
#generamos un arreglo numérico para X_test
X_test = np.array([3.9, 7.5, 2.2])
#imprimimos ambos arreglos
print('La matriz de entrenamiento es: \n', X_train)
print('La matriz de validación o test es: \n', X_test)



La matriz de entrenamiento es: 
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]
La matriz de validación o test es: 
 [3.9 7.5 2.2]


In [9]:
#realizamos la función para la remoción

def remocion(X_train, X_test):
    media = X_train.mean(axis = 0) #calcula un vector de medias por columna
    #o sea por caracteristicas. Debe ser de tamaño p
    X_train = X_train - media #hace la operación para cada fila
    desviacion = X_train.std(axis = 0) #calcula la desviación estándar
    X_train = X_train/desviacion #hacemos la división sobre la desviación
    #realizamos la misma operación sobre el X_test con los datos del x_train
    return X_train, X_test #retornamos las dos matrices preprocesadas

In [10]:
X_train_prepro, X_test_prepro = remocion(X_train, X_test) #aplicamos la función 
print(X_train_prepro) #imprimimos los resultados. para validar que el resultado 
#sea correcto, la desviación estándar debe de ser 1 y la media 0 (solo en el train).
print(X_test_prepro) #como para el test utilizamos los datos del train, no tiene
#sentido hacer la validación de media y desviación estándar.

[[ 0.42462551 -0.2748757   1.13244172]
 [-1.59434861  1.40579288 -1.18167831]
 [ 0.04005901  0.24346134  0.83702214]
 [ 1.12966409 -1.37437851 -0.78778554]]
[3.9 7.5 2.2]
