# Trabajo, flujo de trabajo en machine learning con `scikit-learn`
Para ilustar el flujo de trabajo frente a un conjunto de datos usando scikit-learn, vamos a considerar la predicción de la nota media de los alumnos de grados de la ETSIT que ya se abordó en el trabajo anterior.

El fichero que contiene los datos es `notas_DURM_media_ETSIT.csv` que se puede descargar del Aula Virtual y guardar en la carpeta data del directorio asociado a nuestro workspace. 

Después de cargar las librerías `pandas`, `numpy` y `matplotlib`, cargar los datos en un dataframe llamado `grados`.


In [1]:
# Completar aquí

# --------------------


In [2]:
# Completar aquí

# --------------------


## Empezamos por definir la matriz `X` de características y el vector `y` de respuestas

Vamos a empezar por definir la matriz `X` de características. Queremos incluir todas las características numéricas desde `NOTA_PAU_FISICA` que tienen que ver con la PAU, así como las de notas y las convocatorias de las asignaturas de las carrera consideradas. (No vamos a incluir las matrículas) Podréis usar loc, pasando un vector booleano en la dimensión de las columnas. Para crear este vector booleano, podréis usar el método `str.contains` que se puede aplicar a  `grados.columns`. Admite una expresión regular como argumento. Concretamente, para quedarnos con las columnas cuyos nombres contienen "NOTA" o "CONVOCS", escribimos `str.contains("NOTA|CONVOCS")`

In [3]:
# Completar aquí: Definimos primero el DataFrame X.df que contenga las columnas que nos interesen

# --------------------
print(X_df.columns)


Podemos transformar `X_df` a `X`, que será un `ndarray` de `numpy`usando su atributo `values`

In [4]:
# Completar aquí

# --------------------
print(f'X es un objeto de tipo {type(X)} con tamaño {X.shape}')

Definimos ahora el vector `y` de respuestas

In [5]:
# Completar aquí

# --------------------
print(y[:10])

In [6]:
import sklearn

# Primer bloque en la cadena de manipulación: imputación de valores faltantes
Empezad por obtener el número de valores faltantes de cada columna, desglosando por grado.

In [7]:
# Completar aquí

# --------------------


Podemos decidir asignar a los valores faltantes el valor de la mediana de su columna. Para ello, podemos usar la clase `SimpleImputer` del submódulo `impute` de `sklearn`. `SimpleImputer` es un objeto de la clase `Transformer`. para más información, ver la [referencia](https://scikit-learn.org/stable/modules/impute.html#impute)

Para ello, vamos a seguir los pasos vistos en las transparencias:
1. Instanciamos el objeto que llamaremos `imp`, especificando el parámetro `strategy='median'` indicando así que queremos que sustituya los valores faltantes (codificados como `np.nan`) por la mediana de su columna:

In [8]:
# Completar aquí: 

# --------------------
imp


2. Ahora podemos realizar la estimación de los parámetros necesarios para el transformador, en el caso de nuestro conjunto de datos. Se realiza con el método `fit`.

In [9]:
# Completar aquí

# --------------------
# Comprobamos los valores que ha calculado para poder posteriormente hacer la sustitución de los valores faltantes  
imp.statistics_

Entendéis cómo se ha calculado el valor 6. por ejemplo? Explicad lo aquí:




3. Podemos ahora aplicar el transformador con sus parámetros ya preparados a la matrix `X` y asignar el resultado a una nueva matriz `X_completada`. Se realiza con el método `transform`.

In [10]:
# Completar aquí

# --------------------
pd.DataFrame(X_completada).count()

## Creación del flujo con un `pipe`
Vamos ahora a unir tres etapas del procesamiento de los datos:
- imputación de valores faltantes
- estanderización: aunque las columnas no sean de ordenes de magnitud muy diferentes, para ilustrar el procedimiento, vamos a usar del submodulo `preprocessing` el transformador `StandardScaler`
- estimación por regresión lineal. Para ello, vamos el usar el estimador `LinearRegression` del submódulo `linear_model` de `sklearn`

Además los combinaremos en un único flujo usando `Pipeline` del submódulo `pipeline`. Lo hacemos creando el objeto que llamaremos `procesado_regresion`. Llamaremos los steps 'imputacion', 'estanderizacion', 'regresion'.

In [11]:
# Completar aquí

# --------------------
procesado_regresion

## Separación del conjunto de aprendizaje y el de test
Usando `train_test_split` del submódulo `model_selection`, vamos a separar un conjunto de aprendizaje, que llamaremos `X_train` e `y_train` y el conjunto de test `X_test` e `y_test`. 
Lo realizamos reservando el 20% de los casos para `test` y, para que podáis comparar vuestros resultados con los míos, usando el parámetro `random_state=314`. 

In [12]:
# Completar aquí

# --------------------
print(f'Tamaño de X_train: {X_train.shape}, tamaño de y_train {y_train.shape}')
print(f'Tamaño de X_test: {X_test.shape}, tamaño de y_test {y_test.shape}')

## Ajuste del modelo sobre el conjunto de aprendizaje y comprobación sobre conjunto de test
Vamos ahora a aplicar la combinación de transformadores y estimador que definimos como pipeline con las tres etapas ('imputacion', 'estanderizacion', 'regresion') sobre los datos de aprendizaje. El objeto pipeline se aplica con los mismos pasos de instanciación, ajuste. 

In [13]:
# Completar aquí

# --------------------


Ahora vamos a realizar la predicción sobre el conjunto de test, creando el vector `y_test_pred`.

In [14]:
# Completar aquí

# --------------------
y_test_pred[:10]

Nos queda evaluar la calidad de la predicción sobre el conjunto de test, calculando el RMSE. Lo guardamos en un objeto que llamamos `RMSE`.

In [15]:
# Completar aquí

# --------------------
print(f'El valor del RMSE sobre el conjunto test es {RMSE}')

## Probamos con un subconjunto de características
Queremos probar con sólo las notas, tanto de la parte de acceso a la universidad como en la UPCT. Creamos una matriz `X_train_notas` que contenga sólo las columnas de `X_train` correspondientes a las características de notas (son las 7 primeras).

In [16]:
# Completar aquí

# --------------------
# imprimimos las tres primeras filas:
print(X_train_notas[:3,])

Repetid el análisis usando `X_train_notas` y considerando `X_test_notas`


In [17]:
# Completar aquí

# --------------------
print(f'El valor del RMSE sobre el conjunto test es {RMSE}')

# Ajuste con RandomForestRegressor
`scikit-learn` implementa otros muchos algoritmos para la predicción. En este apartado vamos a probar una regresión "Random Forest" que está basada en muchos árboles de decisión cuya predicción promedio es el resultado de nuestro algoritmo. 
Se trata de la clase `RandomForestRegressor` del submodulo `ensemble`. Depende de varios hiperparámetros, de los cuáles destacaremos:
- El número de estimadores `n_estimators`, que es el número de árboles de decisión en el "bosque", a priori cuanto más mejor, pero hay un momento en el que ya no mejora el ajuste y el coste computacional es grande.
- El número de características, que es el número máximo de características que debe considerar el modelo. Sobre todo útil si tenemos muchas. Si no especificamos nada para este hiperpárametro, su defecto es `None` que contempla todas las características.

Puesto que tenemos que fijar los valores de los hiperparámetros, lo vamos a hacer con el procedimiento de `GridSearchCV` que aplica validación cruzada sobre el conjunto de training, para determinar qué combinación de los hiperparámetros proporciona el mejor ajuste.

## Creación del flujo (pipe)
Al igual que en el apartado anterior, vamos a crear un flujo que incluya las tres etapas de imputación de valores faltantes, estanderización y regresión usando randomforests en este caso. Lo llamaremos `procesado_rfr`.

In [18]:
# Completar aquí

# --------------------
procesado_rfr

## Ajuste de los hiperparámetros
Vamos ahora a llevar a cabo la búsqueda de los  mejores hiperparamétros entre las combinaciones de los siguientes valores:
- `n_estimators` toma los valores 3, 10, 30
- `max_features` toma los valores 2, 8, 15

Siguiendo las transparencias, llevar a cabo el `GridSearchCV`, instanciando el objeto necesario para empezar (lo llamamos `grid_search`)

In [19]:
# Completar aquí

# --------------------
grid_search

Podemos ahora aplicar el método `fit` sobre `grid_search`.

In [20]:
# Completar aquí

# --------------------
grid_search

Y aplicamos el resultado (que es el mejor estimador entre las combinaciones) sobre el conjunto de test, calculando su RMSE

In [21]:
# Completar aquí

# --------------------
print(f'El valor de RMSE para la mejor combinación de hiperparámetros es: {RMSE}')

Obtened los mejores parámetros:

In [22]:
# Completar aquí

# --------------------


Y recorremos todos los algoritmos que se probaron, imprimiendo su puntuación


In [23]:
resultados = grid_search.cv_results_
for mean_score, params in zip(resultados['mean_test_score'], resultados['params']):
    print(np.sqrt(-mean_score), params)

## Importancia de cada característica en la predicción
`RandomForestRegressor` proporciona la importancia relativa de cada característica en la predicción. Se obtiene con el atributo `feature_importances_` del estimador ajustado. En este caso, lo aplicamos al tercer paso de `best_estimator_`, que corresponde a random forest regression de `grid_search`. 

In [24]:
grid_search.best_estimator_.steps[2][1].feature_importances_

Podemos identificar qué variables tienen mayor importancia en la predicción usando RandomForestRegressor.

## Opcional: representación gráfica
Procurad replicar esta gráfica que compara valores observados y predichos sobre el conjunto test.

In [25]:
# Completar aquí

# --------------------


# Opcional. Ajuste incluyendo características polinomiales en la regresión de RandomForest.
Es posible incluir las características que corresponden a potencias y productos de características existentes en el conjunto. Se puede hacer de manera muy sencilla usando el `transformer` `PolynomialFeatures` del submódulo `preprocessing`. 
Añadid un paso en el flujo `procesado_rfr` que consista en el transformer  `PolynomialFeatures`.
Una vez añadido, realizad el `GridSearchCV` incluyendo también el hiperparámetro `degree` de `PolynomialFeatures` que pueda tomar el valor 2 o 3.
Comprobad la bondad del ajuste del mejor modelo sobre el conjunto de test.

In [26]:
# Completar aquí

# --------------------
print(f'El valor de RMSE para la mejor combinación de hiperparámetros es: {RMSE}')

In [27]:
# Completar aquí: mejor combinación de hiperparámetros

# --------------------


In [28]:
# Completar aquí: valores de la puntuación de todos los modelos probados

# --------------------
