# Random Projections
Es una técnica utilizada para reducir la dimensionalidad de un conjunto de puntos que se encuentran en el espacio euclidiano. Los métodos de proyección aleatoria son métodos potentes conocidos por su simplicidad y resultados menos erróneos en comparación con otros métodos. De acuerdo con los resultados experimentales, la proyección aleatoria preserva bien las distancias, pero los resultados empíricos son escasos.

In [55]:
import numpy as np
import random
import matplotlib.pyplot as plot
import math

In [56]:
from sklearn.model_selection import train_test_split
from sklearn import random_projection

In [57]:
data = np.genfromtxt(fname='../../datasets/cancer.txt', delimiter=',')
data = np.delete(data, np.s_[0], axis=1)
data = data[~np.isnan(data).any(axis=1)] #Eliminamos los nan

labels = data[:, -1]
features = data[:, :-1]

X_train, X_valid, Y_train, Y_valid = train_test_split(features, labels, test_size = 0.1)

In [58]:
#Preprocesamiento de datos
X_train = np.concatenate((X_train, X_train), axis=0)
X_train = np.concatenate((X_train, X_train), axis=0)
X_train = np.concatenate((X_train, X_train), axis=0)
X_train = np.concatenate((X_train, X_train), axis=0)
X_train = np.concatenate((X_train, X_train), axis=0)

X_train = X_train.transpose()

In [59]:
print(X_train)
print(X_train.shape)

[[ 1.  5.  8. ...  8.  4.  4.]
 [ 1.  8. 10. ...  8.  1.  2.]
 [ 1.  8.  8. ...  7.  3.  1.]
 ...
 [ 1.  8.  7. ...  7.  2.  1.]
 [ 1. 10.  7. ...  8.  1.  1.]
 [ 1.  3.  1. ...  7.  1.  1.]]
(9, 19648)


### 1. Gaussian random projection
Reduce la dimensionalidad al proyectar el espacio de entrada original, en una matriz generada aleatoriamente donde los componentes se extraen de una distribución Gausiana.

In [61]:
from sklearn import random_projection

transformer = random_projection.GaussianRandomProjection()
X_train_grp = transformer.fit_transform(X_train)

print(X_train_grp)
print(X_train_grp.shape)

[[ 15.19183096 -10.16414927 -17.44909937 ...  19.65384016  15.06068732
    2.61785873]
 [ -5.3367115   -6.96024007  -3.00135264 ...  19.31847843   8.62332117
   17.09704725]
 [ -1.21132274  -6.61948234  -0.65136157 ...  21.80617776   5.84355229
   14.28034118]
 ...
 [ -1.63565767 -10.19289235  -5.5159568  ...  21.75301588   8.06806928
   11.24590236]
 [ -0.9106085  -10.53912188  -3.13063048 ...  20.15322357  -0.31472641
    9.276318  ]
 [  1.83862368  -9.48524673   7.59671268 ...  13.21339553   3.44819347
    0.7366958 ]]
(9, 1883)


### 2. Sparse random projection
Reduce la dimensionalidad al proyectar el espacio de entrada original, utilizando una matriz aleatoria dispersa.
<br>Las matrices aleatorias dispersas garantizan una calidad de inclusión similar a la Gausiana y a su vez que son mucho más eficientes en cuanto a la memoria y permiten un cálculo más rápido de los datos proyectados.

In [62]:
from sklearn import random_projection

transformer = random_projection.SparseRandomProjection()
X_train_srp = transformer.fit_transform(X_train)

print(X_train_srp)
print(X_train_srp.shape)

[[ 2.72837730e-01  2.72837730e+00  2.10085052e+01 ...  3.16491767e+01
  -1.33226763e-15 -2.86479616e+01]
 [-1.55517506e+01 -1.90986411e+00  1.96443166e+01 ...  1.58245883e+01
   6.54810552e+00 -1.17320224e+01]
 [-1.30962110e+01 -6.00243006e+00  2.04628297e+01 ...  1.69159393e+01
  -5.18391687e+00 -1.88258034e+01]
 ...
 [-2.45553957e+00 -1.36418865e+00  1.69159393e+01 ...  2.37368825e+01
   2.45553957e+00 -1.93714788e+01]
 [-1.60974261e+01 -6.82094325e+00  1.63702638e+01 ...  1.20048601e+01
   5.45675460e+00 -2.45553957e+01]
 [ 3.54689049e+00  6.54810552e+00  1.22776978e+01 ...  8.73080736e+00
   1.63702638e+00 -1.44603997e+01]]
(9, 1883)
