## Erick J. Pineda Amézquita      - - - - - 17012140
#### Statistical Learning II
#### Maldición de la dimensionalidad y características polinomiales


En este notebook se va demostrar que mientras mas variables se tenga en un modelo, mas complejo será el problema a resolver. Comúnmente se cree que debería utilizarce la mayor cantidad de datos disponibles, todas las columnas que tenga la tabla de entrada, sin embargo, esto puede causar problemas de rendimiento computacional o crear un modelo deficiente, por tal razón es neceario aplicar otras técnicas que reduzcan el espacio de los datos, por ejemplo, aplicar feature engineering, PCA, T-SNE, o regularización.

In [1]:
## se importan librerias
import numpy as np
from sklearn.preprocessing import PolynomialFeatures


### Tomar en cuenta el funcionamiento del paquete "PolynomialFeatures":
Según la documentación:

"PolynomialFeatures generates a new matrix with all polynomial combinations of features with given degree.

Like [a] will be converted into [1,a,a^2] for degree 2.

You can visualize input being transformed into matrix generated by PolynomialFeatures."



In [2]:
from sklearn.preprocessing import PolynomialFeatures
a = np.array([1,2,3,4,5])
a = a[:,np.newaxis]
poly = PolynomialFeatures(degree=2)
a_poly = poly.fit_transform(a)
print(a_poly)


[[ 1.  1.  1.]
 [ 1.  2.  4.]
 [ 1.  3.  9.]
 [ 1.  4. 16.]
 [ 1.  5. 25.]]


### Comenzado la demostración: Creacion de variables o dimensiones

Definición de variables unidimensionales, bidimensionales y tridimensionales y de grado alto mayor a 10

In [15]:
feature10x1 = np.random.rand(10,1)
feature10x2 = np.random.rand(10,2)
feature10x3 = np.random.rand(10,3)
feature10x15 = np.random.rand(10,15)
feature10x30 = np.random.rand(10,30)

print(feature10x1.shape)
print(feature10x2.shape)
print(feature10x3.shape)
print(feature10x30.shape)
print(feature10x15.shape)

(10, 1)
(10, 2)
(10, 3)
(10, 30)
(10, 15)


### Creación de modelos polinomiales de grado 1, 2, 3, 15 y 50

In [16]:
polinomioG1=PolynomialFeatures(1)
polinomioG2=PolynomialFeatures(2)
polinomioG3=PolynomialFeatures(3)
polinomioG15=PolynomialFeatures(15)
polinomioG50=PolynomialFeatures(50)

### Entrenamiento de los modelos en base a las dimensiones de entrada

Grado 1 con 1 variable, genera 2 columnas utilizando un polinomio de grado 1.

In [20]:
resultado= polinomioG1.fit_transform(feature10x1)
print(feature10x1)
print(resultado)
print(resultado.shape)


[[0.37441989]
 [0.00736075]
 [0.51186164]
 [0.86999813]
 [0.8925703 ]
 [0.87031062]
 [0.68974822]
 [0.65754953]
 [0.44997432]
 [0.28607309]]
[[1.         0.37441989]
 [1.         0.00736075]
 [1.         0.51186164]
 [1.         0.86999813]
 [1.         0.8925703 ]
 [1.         0.87031062]
 [1.         0.68974822]
 [1.         0.65754953]
 [1.         0.44997432]
 [1.         0.28607309]]
(10, 2)


Grado 2 con 2 variable, observar que genera 6 nuevas variables.

In [21]:
print(feature10x2)
resultado= polinomioG2.fit_transform(feature10x2)
resultado.shape

[[0.45246235 0.04738576]
 [0.44147523 0.29274052]
 [0.08431415 0.70912735]
 [0.03916337 0.27091703]
 [0.78537014 0.37853715]
 [0.92994981 0.92391649]
 [0.48266807 0.97551506]
 [0.78937766 0.04501595]
 [0.59756792 0.95183411]
 [0.44199585 0.90879455]]


(10, 6)

Grado 3 con 3 variables, observar que a partir de 3 columnas está generando 20 nuevas variables.

In [22]:
print(feature10x3)
resultado= polinomioG3.fit_transform(feature10x3)
resultado.shape

[[0.64025223 0.23857463 0.03890683]
 [0.8234204  0.57119165 0.1996486 ]
 [0.78684056 0.71226884 0.24395107]
 [0.38392765 0.20707523 0.86254938]
 [0.02046932 0.83367872 0.80057435]
 [0.95779744 0.56692724 0.37626995]
 [0.07125617 0.2814617  0.39285121]
 [0.3236038  0.03645594 0.25975339]
 [0.06944759 0.66443374 0.2800199 ]
 [0.39266988 0.30619374 0.85012755]]


(10, 20)

Grado 15 con 3 variables, observar que a partir de 3 columnas está generando 816 nuevas variables si se utiliza grado 15.

In [23]:
print(feature10x3)
resultado= polinomioG15.fit_transform(feature10x3)
resultado.shape


[[0.64025223 0.23857463 0.03890683]
 [0.8234204  0.57119165 0.1996486 ]
 [0.78684056 0.71226884 0.24395107]
 [0.38392765 0.20707523 0.86254938]
 [0.02046932 0.83367872 0.80057435]
 [0.95779744 0.56692724 0.37626995]
 [0.07125617 0.2814617  0.39285121]
 [0.3236038  0.03645594 0.25975339]
 [0.06944759 0.66443374 0.2800199 ]
 [0.39266988 0.30619374 0.85012755]]


(10, 816)

Grado 50 con 3 variables, observar que a partir de 3 columnas está generando 23,426 nuevas variables si se utiliza grado 50.

In [12]:
print(feature10x3)
resultado= polinomioG50.fit_transform(feature10x3)
resultado.shape


[[0.97259702 0.53199232 0.22370282]
 [0.37736732 0.69420079 0.01429336]
 [0.21217667 0.63368758 0.19202106]
 [0.88798855 0.75793978 0.73697009]
 [0.53523387 0.98502262 0.6309104 ]
 [0.80737051 0.29418006 0.37122316]
 [0.44442701 0.09119173 0.85304424]
 [0.94944531 0.08429461 0.42026759]
 [0.49945616 0.0362938  0.16537144]
 [0.43746382 0.45182574 0.85481289]]


(10, 23426)

## Conclusiones:
Mientras mas variables se tengan, el polinomio se vuelve mas complejo. Esto representa un claro problemo de Overfitting, por lo que el modelo puede fallar cuando se ingresen valores desconocidos o fuera del rango de los datos de entrenamiento. 
El problema también reside en el procesamiento, mientras mas columnas o variables tengamos, el costo de procesamiento será mas elevado al mismo tiempo que se sacrifica la precisión del modelo. 

Para solucionar este tipo de problemas se puede utilizar regularización, feature engineering, analisis de varianzas ya sea por homocedasticidad o heterocedasticidad, correlación entre variables independientes, selección de variables en base algún criterio no aleatorio. 