# Predicción de Utilidades de Películas

En primer lugar se cargaron los archivos de datos.

El conjunto de entrada X corresponde a un dataset disperso o *sparse* lo que significa que tiene una gran cantidad de elementos iguales a cero. Por tanto es importante mantener esta matriz en formato disperso para usar menos memoria haciendo uso de compresión y usar algoritmos eficientes para estas matrices para distintas operaciones. 

En este caso se cargaron las matrices en formato csc_matrix (*Compressed Sparse Column matrix*) de forma de acelerar operaciones sobre columnas.

La entrada considera 145256 características. El conjunto de entrenamiento consta de 1147 ejemplos, el de validación 317 y el de pruebas 254.

In [18]:
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix, csc_matrix
from scipy.io import mmread



print "Cargando set de entrenamiento..."
X = csc_matrix(mmread('train.x.mm'))
y = np.loadtxt('train.y.dat')
print "Cargando set de validacion..."
Xv = csc_matrix(mmread('dev.x.mm'))
yv = np.loadtxt('dev.y.dat')
print "Cargando set de prueba..."
Xt = csc_matrix(mmread('test.x.mm'))
yt = np.loadtxt('test.y.dat')
print "Conjuntos cargados"

print X.shape
print Xv.shape
print Xt.shape

Cargando set de entrenamiento...
Cargando set de validacion...
Cargando set de prueba...
Conjuntos cargados
(1147, 145256)
(317, 145256)
(254, 145256)


Para obtener una meta inicial se aplicó directamente sobre el conjunto una regresión lineal sin ninguna preparación de los datos de forma de obtener un coeficiente de determinación inicial sobre el conjunto de pruebas el cual mejorar. Se puede ver que al aplicar este enfoque se produce un sobre-ajuste.

$R^2$ sobre el conjunto de entrenamiento es igual o muy cercano a $1$, sin embargo, tanto sobre el conjunto de validación como del conjunto de pruebas éste se acerca solo a $0.60$.

In [9]:
import sklearn.linear_model as lm

linreg = lm.LinearRegression(fit_intercept=False)
linreg.fit(X,y)

print "training R2=%f"%linreg.score(X,y)
print "validate R2=%f"%linreg.score(Xv,yv)
print "test R2=%f"%linreg.score(Xt,yt)

training R2=1.000000
validate R2=0.612864
test R2=0.590315


Se probaron distintos enfoques. Los más destacables siendo:

- Umbral de varianza
- Forward Stepwise Selection
- Regresión Lasso

No obstante ningún enfoque logro una mejora substancial sobre la regresión lineal anteriormente vista.

## Umbral de Varianza

Umbral de varianza es una tipo de selección de características básico que remueve aquellas características de baja varianza con la idea de que estas no tendrán tanta influencia sobre la solución. Un caso extremo es cuando una característica tenga varianza igual a cero, se puede remover con seguridad puesto que todos sus valores son iguales.

Se probaron umbrales de $0.5$, $0.1$, $0.01$ y $0.001$ y se calcularon los coeficientes de determinación. Se puede ver que se puede remover una gran cantidad de variables (pasando de 145256 a 58685) sin tener un cambio significativo de $R^2$ sobre todos los conjuntos. Sin embargo al reducir por este criterio aún más características el $R^2$ se reduce enormemente sobre los conjuntos de validación y entrenamiento.


In [19]:
import sklearn.feature_selection as fs

selector = fs.VarianceThreshold(threshold=0.5)
Xn = selector.fit_transform(X)
Xnt = selector.transform(Xt); Xnv = selector.transform(Xv)
linreg.fit(Xn,y)
print Xn.shape
print "training R2=%f"%linreg.score(Xn,y)
print "validate R2=%f"%linreg.score(Xnv,yv)
print "test R2=%f"%linreg.score(Xnt,yt)

selector = fs.VarianceThreshold(threshold=0.1)
Xn = selector.fit_transform(X)
Xnt = selector.transform(Xt); Xnv = selector.transform(Xv)
linreg.fit(Xn,y)
print Xn.shape
print "training R2=%f"%linreg.score(Xn,y)
print "validate R2=%f"%linreg.score(Xnv,yv)
print "test R2=%f"%linreg.score(Xnt,yt)

selector = fs.VarianceThreshold(threshold=0.01)
Xn = selector.fit_transform(X)
Xnt = selector.transform(Xt); Xnv = selector.transform(Xv)
linreg.fit(Xn,y)
print Xn.shape
print "training R2=%f"%linreg.score(Xn,y)
print "validate R2=%f"%linreg.score(Xnv,yv)
print "test R2=%f"%linreg.score(Xnt,yt)

selector = fs.VarianceThreshold(threshold=0.001)
Xn = selector.fit_transform(X)
Xnt = selector.transform(Xt); Xnv = selector.transform(Xv)
linreg.fit(Xn,y)
print Xn.shape
print "training R2=%f"%linreg.score(Xn,y)
print "validate R2=%f"%linreg.score(Xnv,yv)
print "test R2=%f"%linreg.score(Xnt,yt)


(1147, 1087)
training R2=0.991065
validate R2=-1.346798
test R2=-0.464357
(1147, 6214)
training R2=1.000000
validate R2=0.567887
test R2=0.553110
(1147, 58685)
training R2=1.000000
validate R2=0.611514
test R2=0.593959
(1147, 145222)
training R2=1.000000
validate R2=0.612862
test R2=0.590313


## Forward Stepwise Selection

Se aplicó también FSS. Sin embargo, por eficiencia no se aplicó directamente sobre todo el conjunto de características. En lugar de eso, en cada iteración se tomaban aleatoriamente 10 características aún no integradas en el modelo y se integraba la mejor. Se probaron diferentes puntajes:

- Coeficientes del modelo
- $R^2$ sobre el conjunto de validación
- Balance de $R^2$ sobre los conjuntos de entrenamiento y validación

En cualquier caso el proceso se detenía si encontraba un modelo con $R^2$ mayor a $0.6$ sobre el conjunto de pruebas (notar que solo se aprovechaba como criterio de parada, no para la construcción del modelo). El proceso se detenía luego de la inclusión de 1000 características por temas de eficiencia.

### Coeficientes del modelo

Al hacer uso de los coeficientes del modelo al integrar una característica se esperaba llegar a un modelo que ingresara aquellas características con influencia sobre la respuesta.

Así el puntaje era calculado como: 
```python
#indexes los indices de las características ingresadas al modelo en esta iteración más el candidato
score = abs(model.coef_[indexes.index(candidate)])
```
Este enfoque provoco un fuerte sobre-ajuste del conjunto de entrenamiento.

```
#Salida de FSS usando coeficientes del modelo
...
R2test = -0.661601
selected = 132655 ...
totalvars=1000, R2train = 0.999654, R2val = -0.974732
R2test = -0.673779
selected = 110725 ...
totalvars=1001, R2train = 0.999654, R2val = -0.965488
R2test = -0.658075
training R2=0.999654
validate R2=-0.965488
test R2=-0.658075
```
Se puede ver que habiendo agregado un gran número de características al modelo, aunque el valor de $R^2$ era alto en el conjunto de entrenamiento, se volvió negativo en el conjunto de validación y en el conjunto de pruebas lo cual muestra que este enfoque en realidad no funciona.

### $R^2$ sobre el conjunto de validación

Se pensó hacer uso de $R^2$ como puntaje al integrar una característica al modelo con la idea de que hasta el momento los coeficientes de determinación sobre el conjunto de validación y de prueba se han mantenido similares.

Por lo que el puntaje fue calculado como:
```python
score_val = model.score(x_val,yval)
score = score_val
```
Se planteó como criterio de parada cuando $R^2$ del conjunto de validación sobrepasara el valor de $R^2 = 0.75$.
```
...
selected = 38620 ...
totalvars=136, R2train = 0.443353, R2val = 0.749829
R2test = 0.199941
selected = 132557 ...
totalvars=137, R2train = 0.443852, R2val = 0.749972
R2test = 0.200726
selected = 131014 ...
totalvars=138, R2train = 0.445928, R2val = 0.752395
R2test = 0.187693
training R2=0.445928
validate R2=0.752395
test R2=0.187693
```

El proceso se detuvó luego de ingresar 138 variables al modelo. Se puede observar un fuerte sobre-ajuste respecto del conjunto de validación con $R^2$ del conjunto de validación mucho mayor que el de entrenamiento y de prueba.

Se probó también con el promedio de los $R^2$ de los conjuntos de entrenamiento y validación con un similar sobre-ajuste.

### Balance de $R^2$

En un intento de mitigar el sobre-ajuste se pensó en trabajar con los $R^2$ de los conjuntos de entrenamiento y de validación. Pero balanceandolos, esto es que en un cierto número de iteraciones el modelo intentará aumentar el $R^2$ sobre el conjunto de entrenamiento y decrecer el $R^2$ sobre el conjunto de validación, y en otras iteraciones hará lo contrario.

La idea era que al incluir características que tuvieran influencia sobre un conjunto y no sobre el otro se incluirían aquellas que tuvieran influencia sobre todo el espacio.

Por tanto el puntaje de ingresar una característica era calculado como:
```python
score_train = model.score(x_train,y)
score_val = model.score(x_val,yval)
#balancing = 1, se mejora R2 conjunto entrenamiento
#balacing = -1, se mejora R2 conjunto de validación
#balancing cambia cuando un R2 sobrepasa 0.7 o queda por debajo de 0.2
score = balancing*(score_train-score_val)
```

FSS se ejecutó hasta incluir 1000 características con este criterio. Abajo se muestra el output de las últimas iteraciones:

```
...
selected = 128861 ...
totalvars=1000, R2train = 0.961736, R2val = 0.689288
selected = 51450 ...
totalvars=1001, R2train = 0.961801, R2val = 0.689880
training R2=0.961801
validate R2=0.689880
test R2=-0.612203
```
Luego de haber incluido 1000 variables se observó un resultado similar a cuando se hizo uso de los coeficientes. El $R^2$ del conjunto de entrenamiento y validación es bastante alto, sin embargo, el $R^2$ del conjunto de pruebas es negativo por lo que se concluyé que se llegó a un modelo incorrecto.

## Lasso

Finalmente se decidió probar con regresión Lasso. La razón para probar esta regresión es que el criterio de umbral de varianza parecia sugerir que al eliminar coeficientes se lograba un modelo correcto. 

Lasso elimina coeficientes de aquellas características que podrían catalogarse de menor importancia, es decir, que tienen menor influencia en la respuesta.

Se hizo una búsqueda semi-manual del parámetro $\alpha$ que maximizara $R^2$ sobre el conjunto de pruebas. La búsqueda se realizó en el rango $[10^{100},10^0]$

```python
#alphas_ = np.logspace(100,10,base=10)
#alphas_ = np.logspace(10,0,base=10,num=10)
#alphas_ = np.logspace(3,5,base=10,num=10)
#alphas_ = np.arange(1000.,4000.,500).tolist()
alphas_ = np.arange(1000.,4000.,500).tolist()
model = lm.Lasso(fit_intercept = False)
for a in alphas_:
	print "alpha=%f"%a
	model.set_params(alpha=a)
	model.fit(X,y)
	print "training R2=%f"%model.score(X,y)
	print "validate R2=%f"%model.score(Xv,yv)
	print "test R2=%f"%model.score(Xt,yt)
```



```
...
alpha=1500.000000
training R2=0.999961
validate R2=0.536099
test R2=0.540964
alpha=2000.000000
training R2=0.999931
validate R2=0.543443
test R2=0.546293
alpha=2500.000000
training R2=0.999892
validate R2=0.548085
test R2=0.543148
...
```

Se puede ver que el máximo valor de $R^2$ que obtiene Lasso sobre el conjunto de pruebas es de $R^2 = 0.546$ para $alpha = 2000$ lo cual esta por debajo del modelo de regresión lineal. Es cuestionable que $R^2$ cambie significativamente en la vecindad del valor de $\alpha$.

## Conclusiones

Se probaron diferentes enfoques los que obtuvieron diferentes valores para el coeficiente de determinación. 

Al aplicar un modelo de regresión lineal directamente sobre el modelo se obtuvo un coeficiente de determinación base de $0.590$ sobre el conjunto de pruebas. Se intentó mejorar sobre este con distintos enfoques.

El primer enfoque de Umbral de Varianza consistía en eliminar aquellas características con una varianza menor a cierto umbral. Al aplicar este criterio se logró reducir el número de características de 145265 a 58685, mejorando el valor de $R^2$ sobre el conjunto de pruebas marginalmente a $R^2 = 0.594$. 

Un problema es la eficiencia de la solución debido al tamaño de la entrada, con esto se puede ver que incluso reduciendo el número de características significativamente se puede mantener un $R^2$ similar a usar todo el conjunto para construir el modelo. 

El segundo enfoque fue aplicar distintos criterios (coeficientes, mejora y balance de $R^2$) con FSS probando con una cantidad limitada de características en una iteración. Dos de estos enfoques (coeficientes y balance de $R^2$ encontraron un modelo con un coeficiente negativo para el conjunto de pruebas por lo que podrían considerarse como modelo invalidos con un fuerte sobre-ajuste al conjunto de entrenamiento o validación. Podía anticiparse que el enfoque de mejorar $R^2$ para el conjunto de validación provocaría un serio sobre-ajuste y a priori debia considerarse invalido.

El tercero enfoque fue aplicar regresión Lasso. Lasso no logró mejorar el coeficiente de determinación base encontrando un $R^2 = 0.546$ para $\alpha = 2000$.

Probablemente se deba trabajar con una combinación de otros enfoques distintos y con el umbral de varianza que es el que obtuvo resultados decentes. Quizás sea razonable probar otros criterios para la selección de características en Forward Stepwise Selection o probar otros enfoques de selección de características.
