Modelo de Regresión Lineal en RapidMiner
========================================

Previo análisis de los datos, llegamos a la conclusión de que un algoritmo de regresión lineal podría ser una buena opción para predecir la altura de una persona según datos recopilados de sus restos óseos. Veremos como implementar este algoritmo en RapidMiner con este caso de estudio.

## Carga de datos

Utilizamos el operador `Read Access` para acceder a la base de datos del archivo `Knogler.accdb`. Nos aseguramos tambien de seleccionar la tabla `Dataindsamling` para cargar los datos.

![Carga de datos](../images/rm-rl-01.png)

## Preprocesamiento

Cargados los datos, pasamos a etiquetarlos correctamente. Utilizamos el operador `Set Role` y marcamos la columna de altura como `label`, la columna ID como `id` y las columnas de informacion extra como Notes y Signature como `metadata`. El resto quedan como `regular`.

![Etiquetado de datos](../images/rm-rl-02.png)

Segunda tarea es la selección de atributos. Conocemos por el análisis exploratorio realizado anteriormente que existen algunas columnas con muchos valores faltantes. Removemos estas columnas con el operador `Select Attributes` y seleccionamos las columnas que no contengan mas de 40 valores faltantes.

![Selección de atributos](../images/rm-rl-03.png)

Tercera tarea son los atributos faltantes. Utilizamos el operador `Replace Missing Values` para reemplazar los valores faltantes del atributo `Canine largest age`. Hay otros atributos con valores faltantes, pero estos no tienen tantos valores faltantes, por lo que simplemente removeremos los ejemplos donde esten presentes.

![Atributos faltantes](../images/rm-rl-04.png)

Utilizamos el operador `Filter Examples` para remover los ejemplos con valores faltantes en todos los atributos.

![Remover ejemplos](../images/rm-rl-05.png)  

Luego convertimos los atributos categoricos a numéricos con el operador `Nominal to Numerical`, seleccionando convertirlos a enteros únicos. Seleccionamos los atributos `Sex`, `Hyperplasia`, y `Teeth Scorable`.

![Atributos categoricos](../images/rm-rl-06.png)

Sexta tarea, es reasignar los tipos de atributo perdidos en las conversiones utilizando el operador `Guess Types` sobre los atributos numeros, esto nos restaurara los tipos reales.

![Tipos de atributos](../images/rm-rl-07.png)

Siguiente, removeremos atributo correlacionados utilizando el operador `Remove Correlated Attributes`. Seleccionamos un umbral de 0.35, determinado empiricamente.

![Atributos correlacionados](../images/rm-rl-08.png)

Cerca el final, pasamos a detectar datos anomalos. Utilizamos el operador `Detect Outliers (LOF)` para detectar outliers en los datos. Este operador utiliza el algoritmo LOF (Local Outlier Factor) para detectar outliers, creando un atributo nuevo llamado `outlier` que contiene el factor de outlier para cada ejemplo. Luego utilizamos el operador `Filter Examples` para remover los ejemplos con un factor de outlier mayor a 2.

![Datos anomalos](../images/rm-rl-09.png)

Finalmente, aplicamos una optimizacion de atributos utilizando los operadores `Optimize Selection` y `Select by Weights`. El primero nos permite optimizar los pesos de los atributos corriendo un algotimo de regresión lineal interno y mediante forwards selection. El segundo nos permite seleccionar los atributos con un peso mayor a un parametro dado. En este caso, seleccionamos los atributos con un peso mayor a 0.2, y configuraremos la optimizacion de parametros para utilizar 5 generaciones especulativas. Luego, continuaremos con una normalización de los datos utilizando el operador `Normalize`. Estos ultimos pasos los realizaremos dentro de un `Cross Validation` para prevenir contaminación accidental de datos.

## Entrenamiento

Para entrenar el modelo, utilizaremos el operador `Linear Regression`. Este operador nos permite entrenar un modelo de regresión lineal con los datos de entrada. Para evaluar el modelo, utilizaremos el operador `Cross Validation` que nos permite realizar una validación cruzada de los datos de entrada. Dentro de este operador, utilizaremos los operadores `Optimize Selection` y `Select by Weights` para seleccionar los atributos mas importantes.

## Proceso Completo

![Proceso completo 01](../images/rm-rl-10.png)
![Proceso completo 02](../images/rm-rl-11.png)
![Proceso completo 03](../images/rm-rl-12.png)
![Proceso completo 04](../images/rm-rl-13.png)

## Evaluación

Una vez ejecutado el proceso, podemos ver los resultados de la evaluación del modelo en la pestaña `Results`. Aquí podemos ver el RMSE o Root Mean Squared Error, que es una medida de la diferencia entre los valores predichos por el modelo y los valores reales. 

![Resultados](../images/rm-rl-14.png)

En este caso, el RMSE es de 3.589, lo que significa que el modelo tiene un error promedio de ~3.6 cm en sus predicciones. Tambien podemos graficares los valores reales contra los valores predichos por el modelo, para ver como se comporta.

![Resultados](../images/rm-rl-15.png)

## Conclusiones

Es mi opinion que dado el error para el modelo entrenado, regresión lineal presenta una buena opción para predecir la altura de una persona según datos recopilados de sus restos óseos. Dados los pesos reportados por el modelo de regresión lineal entrenado, parece ser que los unicos datos necesarios del conjunto para realizar las predicciones son el sexo de la persona, y la longitud del femur.