# Preprocesamiento

Para la etapa de preprocesamiento partimos de una matriz de observaciones:

$$\mathbf{X} \in R^{n \times p}$$

In [1]:
#definimos las librerías
import numpy as np #importar la librería numpy y asignarles el "alias" np

#generamos una matriz de datos artificial o toyset de 4 observaciones por 3 características
X = np.array([[5.1,-2.9,3.3],[-1.2,7.8,-6.1],[3.9,0.4,2.1],[7.3,-9.9,-4.5]])
#imprimimos la matriz de datos
print('La matriz de datos es: \n',X)

La matriz de datos es: 
 [[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


## Remoción de la media
Para la remoción de la media debemos aplicar la siguiente operación:

$$\mathbf{X}_{prepro}=\frac{\mathbf{X}-\hat{\mathbf{X}}}{\sigma_{\mathbf{X}}}$$

Una vez esté normalizada la matriz, debería tener media 0 y desviación estandar 1

In [2]:
#verificamos los parámetros actuales de los datos
media = X.mean(axis = 0)
print('La media de la matriz de observaciones es: \n',media)
desviacion = X.std(axis = 0)
print('La desviación estandar de la matriz de observaciones es: \n', desviacion)

La media de la matriz de observaciones es: 
 [ 3.775 -1.15  -1.3  ]
La desviación estandar de la matriz de observaciones es: 
 [ 3.12039661  6.36651396  4.0620192 ]


In [3]:
#definimos la función de remoción de la media
def Remocion(X):
    X = X - X.mean(axis = 0)
    X = X/X.std(axis = 0)
    return X

In [4]:
#aplicamos el preprocesamiento
X_prepro = Remocion(X)
#validamos los parámetros
media = X_prepro.mean(axis = 0) #cálculo de la media
print('La nueva media de los datos es: \n',media)
desviacion = X_prepro.std(axis = 0) #cálculo de la desviación estandar
print('La nueva desviación estandar es: \n',desviacion)

La nueva media de los datos es: 
 [  1.11022302e-16   0.00000000e+00   2.77555756e-17]
La nueva desviación estandar es: 
 [ 1.  1.  1.]


## Escalamiento
En el escalamiento se busca que las características tengan valores entre 0 y 1. Esto se logra aplicando la siguiente operación:
$$\mathbf{X}_{prepro} = \frac{\mathbf{X}-min(\mathbf{X})}{max(\mathbf{X})-min(\mathbf{X})}$$

In [5]:
#definimos la función de escalamiento
def Escalamiento(X):
    #en una sola operación
    X = (X - X.min(axis = 0))/(X.max(axis = 0) - X.min(axis = 0))
    # con las dos operaciones
    #X = X - X.min(axis = 0)
    #X = X/X.maxi(axis = 0)
    return X

In [7]:
#aplicamos el preprocesamiento
X_prepro = Escalamiento(X)
#validmos los parámetors
print('El máximo de X es: \n', X_prepro.max(axis = 0))
print('El mínimo de X es: \n', X_prepro.min(axis = 0))

El máximo de X es: 
 [ 1.  1.  1.]
El mínimo de X es: 
 [ 0.  0.  0.]


## Normalización por L1
La idea de la normalización $L_1$ es que la norma 1 de características sea unitaria, esto es:
$$\sum_{j=1}^{p}||x_{ij}||=1, \forall i = 1,\ldots,n$$
O sea, que la suma del valor absoluto de cada observación sea unitaria.

In [13]:
def Norma1(X):
    norma = np.linalg.norm(X, ord = 1, axis = 1) #cálculo de la norma por observación (axis =1)
    #para hacer las operaciones, debemos hacer una matriz de normas
    norma = np.repeat(norma,3) #repite la norma tres veces
    norma = np.resize(norma,(4,3)) #la convierte en una matriz de 4x3
    #división elemento a elementos
    X = X/norma
    return X

In [15]:
#aplicamos el preprocesamiento
X_prepro = Norma1(X)
print('La matriz normalizada es: \n',X_prepro)

La matriz normalizada es: 
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]


In [16]:
norma = np.linalg.norm(X_prepro, ord = 1, axis = 1) 
print(norma)

[ 1.  1.  1.  1.]
