## Regresion Polinomial & Feature engineering
Por Rodolfo Antonio Zea Posadas

In [1]:
import pandas as pd
from sklearn.preprocessing import Imputer
import numpy as np
import tensorflow as tf
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [2]:
data = pd.read_csv('winequality-red.csv')

### Red Wine Quality Data

Se aplicará regresión para crear un modelo de la calidad de vino en función de características del mismo, siendo 1 el peor vino y 10 el mejor.

Variables de entrada:
1. fixed acidity 
2. volatile acidity 
3. citric acid 
4. residual sugar 
5. chlorides 
6. free sulfur dioxide 
7. total sulfur dioxide 
8. density 
9. pH 
10. sulphates 
11. alcohol 

Varaible a predecir: 
12. quality (puntuacion  entre 0 y 10) 



In [3]:
data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


### Instrucciones

1. Seleccionar y transformar(generando las combinaciones polinomiales para un polinomio de grado dos o tres a elección) las features que considere que son las mejores para predecir la calidad del vino, utilizar como minimo 2 features. Para seleccionar las features, hacer un analisis exploratorio por ejemplo(pero no limitado a ):  graficando y viendo la forma en que se comportan los datos.

 Por ejemplo, se tienen las features "a" y "b" y seleccionamos polinomio de grado 2, hacemos feature engineering para obtener :
 
 $[a,b,a^{2},b^{2},ab]$
 
 No olvidar el "bias" (parámetro multiplicado por 1) ,con lo cual el dataset puede quedar con las columnas:
 
 $[1,a,b,a^{2},b^{2},ab]$
2. Una vez transformada la data aplicar regresion lineal con las features polinomiales usando Tensorflow.

Requisitos adicionales:
* Se debe agregar al notebook un screenshot del grafo de tensorboard, simplificando(usando  names , y name_scope como visto en clase).

* Se debe generar un directorio de logs de tensorboard para cada corrida/experimento , con cada directorio identificando facilmente la configuración del experimento como visto en clase, por ejemplo para un experimento con learning rate = 0.1 , y polinomio grado 2  crear un directorio: lr=0.1_polinomio_grado=2. (Agregar al notebook un screenshot de estas gráficas)

* Concluir en markdown cual es el mejor modelo para este caso basado en la comparativa entre curvas de costo/error en tensorboard.

# Solución

Como primer paso, aplicamos feature engineering para preparar los datos, esto previo a iniciar cualquier cálculo. Para ello, hacemos data cleaning en el cual sustituiremos cada valor faltante en el dataset (de las variables independientes) y lo sustituiremos por el valor de la media para dicha variable.

In [4]:
imputer = Imputer(strategy="median") 

# Hacemos una copia del dataset sin incluir la columna "quality"
clean_ds = data.drop("quality", axis=1)

# Aplicamos la strategy del imputer (media) en el dataset clean_ds
imputer.fit(clean_ds)

# Creamos un dataset X en donde sustituiremos por la media (de su respectiva columna), los valores faltantes.
X = imputer.transform(clean_ds) 

# Creamos un dataframe con los valores procesados con data cleaning
data_x = pd.DataFrame(X, columns=clean_ds.columns)
data_x.head()



Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4


Procedemos a crear una función para transformar los datos y tenerlos de la siguiente forma:

[1,𝑎,𝑏,𝑎2,𝑏2,𝑎𝑏]

In [5]:
def get_independent_variables_ds(a, b):
    # Obtenemos la cantidad de registros en a (a y b deben tener el mismo número de filas)
    nfilas = len(a.index)
    ones = np.ones([nfilas, 1])
    a2 = np.power(a,2)
    b2 = np.power(b,2)
    ab = np.multiply(a,b)
    ds = np.column_stack((ones, a,b, a2, b2, ab))
    return ds

Definimos una función de regresión lineal polinomial.

In [6]:
def regresion_polinomial_tf(x, y, epochs, imprimir_error_cada, lrs):
    
    # Creamos el grafo que utilizaremos
    grafo = tf.Graph()
    with grafo.as_default():
    
        # Definimos nuestros placeholders
        X = tf.placeholder("float", name="X") 
        Y = tf.placeholder("float", name="Y")
        LR = tf.placeholder("float", name="LR")

        # Declaramos e inicializamos los pesos a calcular para la hipótesis.
        w = tf.Variable([[0],[0],[0],[0],[0],[0]], name="w", dtype="float")

        # Calculamos la cantidad de registros, como un valor constante, de x
        n = np.shape(x)[0]

        # Construimos la hipótesis o modelo de regresion lineal 
        with tf.name_scope("hipotesis"):
            yhat = tf.linalg.matmul(X, w, name="hipotesis_matmul_WX")

        # Definimos la función de costo (error)
        with tf.name_scope("funcion_costo"):
            costo = tf.reduce_mean(tf.square(yhat-Y)) / (2 * n)
        
        # Creamos nuestro resumen de tipo scalar
        with tf.name_scope("optimizador_gradient_descent"):
            costo_summary = tf.summary.scalar(name='funcion_costo_summary', tensor=costo)
        
        # Definimos el optimizador de Gradient Descent
        optimizador = tf.train.GradientDescentOptimizer(LR).minimize(costo)
        
        # Recorremos nuestro vector de learning rates
        for lr in np.nditer(lrs):
            
            # Imprimimos el learning reate a utilizar en la iteración
            print('Learning rate: ', lr)

            # Inicializamos las variables globales
            init = tf.global_variables_initializer()

            # Inicializamos el grafo
            with tf.Session(graph = grafo) as session:
                
                # Creamos un writer para nuestros logs en tensorboard
                writer = tf.summary.FileWriter('./grafos/lr=' + str(lr) + '_polinomio_grado=2' , session.graph)

                # Inicializamos las variables en la sesión
                session.run(init)

                # Iteramos el número de veces que indica el parámetro "epochs"
                for epoch in range(epochs):

                    # Ejecutamos el paso de gradient descent
                    session.run(optimizador, feed_dict = {X: x, Y: y, LR: lr})
                    
                    summary = session.run(costo_summary, feed_dict = {X: x, Y: y, LR: lr})
                    writer.add_summary(summary, epoch)
                    
                    # Verificamos si debemos de imprimir el resultado
                    if (epoch + 1) % imprimir_error_cada == 0:

                        # Calculamos el costo de cada epoch
                        c = session.run(costo, feed_dict = {X: x, Y: y})
                        print('Iteración: ' + str(epoch + 1))
                        print('Error del modelo: ', c)

                # Obtenemos el costo y los estimados para Weights y Bias
                costos = session.run(costo, feed_dict = {X: x, Y: y})
                weights = session.run(w)
                
                # Cerramos el writer
                writer.close()
                
                # Imrpimimos los valores finales
                print('********** VALORES FINALES **********')
                print('Costos: ', costos)
                print('Weights: ', weights)
                print('*************** ***************')

Realizamos un análisis para seleccionar las 2 features que nos servirán para la regresión lineal. Para ello utilizaremos la tecnica de Univariate feature selection, la cual selecciona los mejores features basada en una prueba estadistica de chi cuadrada.

In [7]:
data_y = data['quality']

sel = SelectKBest(chi2, k=2)
sel.fit(data_x, data_y)
results = sel.transform(data_x)
cols = sel.get_support(indices=True)
mejores_features = data[data.columns[cols]]
mejores_features.head()


Unnamed: 0,free sulfur dioxide,total sulfur dioxide
0,11.0,34.0
1,25.0,67.0
2,15.0,54.0
3,17.0,60.0
4,11.0,34.0


En base al analisis anterior, determinamos que las features que utilizaremos para construir el modelo de regresion polinomial son 'free sulfur dioxide' y 'total sulfur dioxide'.

Procedemos a tranformar la informacion de dichas features para tenerlas en la forma [1,𝑎,𝑏,𝑎2,𝑏2,𝑎𝑏] en donde:

a = free sulfur dioxide

b = total sulfur dioxide

In [10]:
# Asignamos nuestros hiper parametros
learning_rates = np.array([0.00001, 0.000001, 0.0000001])
epochs = 1000
imprimir_error_cada = 100

# Obtenemos los valores de X tranformados
data_x_transformed = get_independent_variables_ds(data_x[['free sulfur dioxide']], data_x[['total sulfur dioxide']])

# Ejecutamos nuestra función que construye el modelo regresión lineal.
regresion_polinomial_tf(data_x_transformed, data_y, epochs, imprimir_error_cada, learning_rates)

Learning rate:  1e-05
Iteración: 100
Error del modelo:  0.006652289
Iteración: 200
Error del modelo:  0.0064208666
Iteración: 300
Error del modelo:  0.0063194567
Iteración: 400
Error del modelo:  0.00627402
Iteración: 500
Error del modelo:  0.006252683
Iteración: 600
Error del modelo:  0.006241721
Iteración: 700
Error del modelo:  0.0062352275
Iteración: 800
Error del modelo:  0.0062306584
Iteración: 900
Error del modelo:  0.0062269187
Iteración: 1000
Error del modelo:  0.0062235347
********** VALORES FINALES **********
Costos:  0.0062235347
Weights:  [[2.2261347e-05]
 [2.0922380e-04]
 [5.6290219e-04]
 [1.1407844e-03]
 [1.0469245e-05]
 [1.7865779e-03]]
*************** ***************
Learning rate:  1e-06
Iteración: 100
Error del modelo:  0.0071321484
Iteración: 200
Error del modelo:  0.0070410618
Iteración: 300
Error del modelo:  0.006977093
Iteración: 400
Error del modelo:  0.006918406
Iteración: 500
Error del modelo:  0.006864436
Iteración: 600
Error del modelo:  0.006814789
Iteraci

# Grafo

Una vez hemos ejecutado nuestra función de regresión lineal, procedemos a mostrar el grafo obtenido con tensorboard.

![Grafo](grafos/grafo.png)


# Conclusión

A partir de realizar un feature selection determinamos que las features a usar son 'free sulfur dioxide' y 'total sulfur dioxide'.

Tomando estas features construimos un modelo de regresion polinomial utilizando varios learning rates. En la siguiente imagen se grafica el error obtenido (en el modelo de regresión polinomial obtenido) para cada learning rate.

![Resumen](grafos/resumen.png)

Los learning rates utilizados son:

0.00001 : Celeste

0.000001 : Rosado

0.0000001 : Verde

Podemos decir que el modelo que mejor se adecua se obtiene utilizando un learning rate de 0.00001, utilizando las variables 'free sulfur dioxide' y 'total sulfur dioxide' para predecir la variable 'quality'.

El mejor modelo obtenido es cuando los pesos obtenidos son:

Weights:  [[2.4599176e-06]
 [2.8890976e-05]
 [6.7778863e-05]
 [4.2618002e-04]
 [3.1724523e-04]
 [6.9363671e-04]]

