# Tarea 2 - Regresion Polinomial & Feature engineering

### Parte 1 - Modelo exponencial de covid-19 usando feature-eng

Usando el ejemplo de covid-19 en el notebook de feature-eng (https://colab.research.google.com/drive/1sJV2HG7tQgCGKES3-dIclzHQJ9qAWB3b?usp=sharing) crear un modelo de covid-19 para Guatemala.

* Convertir la fecha a un entero "número de día", por ejemplo si se usan datos desde el 22 de abril, este es el día 0, el 23 es el día 1.
* Aplicar regresión lineal sobre la variable "Confirmed" transformada.
* Una vez entrenado el modelo usarlo para aproximar la cantidad de casos confirmados para el 30 de mayo. Se debe reportar la cantidad de casos, no la cantidad transformada obtenida.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import datetime as dt

In [2]:
data_covid = pd.read_csv('covid_19_clean_complete.csv')

Convertimos a dataframe de Pandas y obtenemos solo las columnas de País, Fecha y Confirmados

In [3]:
data_covid = pd.DataFrame(data = data_covid, columns = ["Country/Region", "Date", "Confirmed"])
data_covid.head()

Unnamed: 0,Country/Region,Date,Confirmed
0,Afghanistan,1/22/20,0
1,Albania,1/22/20,0
2,Algeria,1/22/20,0
3,Andorra,1/22/20,0
4,Angola,1/22/20,0


Filtramos solo por Guatemala y aprovechamos a quitar la columna de País. 

Se hará caso omiso a los días que no se hayan reportado casos. Esto quiere decir que el dia 0 no sera el 22/01/2020, sino el 14/03/2020

In [4]:
data_covid = data_covid[data_covid["Country/Region"] == "Guatemala"]
data_covid = data_covid[data_covid["Confirmed"] > 0]

data_covid = data_covid.drop("Country/Region", axis = 1)
data_covid.head()

Unnamed: 0,Date,Confirmed
13851,3/14/20,1
14115,3/15/20,1
14379,3/16/20,2
14643,3/17/20,6
14907,3/18/20,6


Creamos la transformación de la columna de Fecha a números enteros. Para volver el 14 de marzo el día 0 e irle sumando 1 al cada uno de los días que le siguen.

In [12]:
data_covid["Day"] = data_covid["Date"].apply(lambda x: 
                                    (dt.datetime.strptime(x,'%m/%d/%y').date() - dt.datetime.strptime("3/14/20", '%m/%d/%y').date()).days)
data_covid.head()

Unnamed: 0,Date,Confirmed,Day
13851,3/14/20,1,0
14115,3/15/20,1,1
14379,3/16/20,2,2
14643,3/17/20,6,3
14907,3/18/20,6,4


Ahora creamos una columna para los casos confirmados por día. Actualmente tenemos el acumulado, pero necesitamos los casos que se dieron por día.

In [24]:
data_covid["Cases"] = np.zeros(data_covid["Day"].shape, dtype=int)
data_covid

Unnamed: 0,Date,Confirmed,Day,Cases
13851,3/14/20,1,0,0
14115,3/15/20,1,1,0
14379,3/16/20,2,2,0
14643,3/17/20,6,3,0
14907,3/18/20,6,4,0
15171,3/19/20,9,5,0
15435,3/20/20,12,6,0
15699,3/21/20,17,7,0
15963,3/22/20,19,8,0
16227,3/23/20,20,9,0


### Parte 2 - Modelo polinomial de calidad de vinos

Es permitido utilizar [sklearn.preprocessing.polynomialfeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)


### Instrucciones

1. Seleccionar y transformar(generando las combinaciones polinomiales para un polinomio de grado dos o tres a elección) las features que considere que son las mejores para predecir la calidad del vino, utilizar como minimo 2 features. Para seleccionar las features, hacer un analisis exploratorio por ejemplo(pero no limitado a ):  graficando y viendo la forma en que se comportan los datos.

 Por ejemplo, se tienen las features "a" y "b" y seleccionamos polinomio de grado 2, hacemos feature engineering para obtener :
 
 $[a,b,a^{2},b^{2},ab]$
 
 No olvidar el "bias" (parámetro multiplicado por 1) ,con lo cual el dataset puede quedar con las columnas:
 
 $[1,a,b,a^{2},b^{2},ab]$
2. Una vez transformada la data aplicar regresion lineal con las features polinomiales usando Tensorflow.

Requisitos adicionales:
* Se debe agregar al notebook un screenshot del grafo de tensorboard, simplificando(usando  names , y name_scope como visto en clase).

* Se debe generar un directorio de logs de tensorboard para cada corrida/experimento , con cada directorio identificando facilmente la configuración del experimento como visto en clase, por ejemplo para un experimento con learning rate = 0.1 , y polinomio grado 2  crear un directorio: lr=0.1_polinomio_grado=2. (Agregar al notebook un screenshot de estas gráficas)

* Concluir en markdown cual es el mejor modelo para este caso basado en la comparativa entre curvas de costo/error en tensorboard.

In [2]:
data = pd.read_csv('winequality-red.csv')

### Red Wine Quality Data

Se aplicará regresión para crear un modelo de la calidad de vino en función de características del mismo, siendo 1 el peor vino y 10 el mejor.

Variables de entrada:
1. fixed acidity 
2. volatile acidity 
3. citric acid 
4. residual sugar 
5. chlorides 
6. free sulfur dioxide 
7. total sulfur dioxide 
8. density 
9. pH 
10. sulphates 
11. alcohol 

Varaible a predecir: 
12. quality (puntuacion  entre 0 y 10) 



In [3]:
data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
