# En este notebook vamos a hacer un ejercicio de regresión usando una dataset de diabetes

**Importar las siguientes librerías : numpy (como np), pandas (como pd) y matplotlib.pylab ( como plt)**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt

**Leer el archivo de datos "diabetes" usando pandas, llámandolo "diabetes_df"**

In [None]:
diabetes_df = pd.read_excel('../../datasets/diabetes.xlsx')

### Vamos a recordar un poco las herramientas aprendidas el otro día.

**Usa un método de pandas para mostrar información sobre el tipo de variable y el numero de no nulos de la data**

In [None]:
diabetes_df.info()

**Usa un método de pandas para mostrar información estadística que resuma la información estadística de cada variable de los datos**
    

In [None]:
diabetes_df.describe()

** Mediante un loop, muestra el valor medio de cada variable (columna). Para ello, tendréis que utilizar alguno de los métodos de pandas para seleccionar columnas y después aplicar la función, que se encuentra en la librería numpy. Comprobar que coincide con el valor que muestra en la celda anterior. (Puede ser también útil acceder a los nombres de las columnas, mediante el uso del método `columns` que tienen los dataframes de pandas)**

In [None]:
for col in diabetes_df.columns:
    print( "la media de la variable ", col, " es igual a= ", np.mean(diabetes_df.loc[:,col]))

**Mediante un loop y usando la librería matplotlib, plotear cada las primeras diez variables con respecto la última, llamada progression**

In [None]:
for col in diabetes_df.columns[0:10]:
    plt.figure()
    a = diabetes_df.loc[:, col].values
    b = diabetes_df.loc[:, 'progression'].values
    plt.scatter(a,b)

**Crear un dataframe con el 70% de las primeras observaciones y otro con el 30% restante. Llamad al primero "train_df" y al segundo "test_df". (Ayuda= Igual necesitáis convertir el número que de observaciones que vais a coger a entero. Para ello, usad la function `int`, nativa de python**

In [None]:
train_df= diabetes_df.iloc[:int(diabetes_df.shape[0]*0.7),:]
test_df= diabetes_df.iloc[int(diabetes_df.shape[0]*0.7):,:]

**A su vez, coged las primeras diez columnas y cread para ambas datasets un array de numpy con los nombres "X_train" y "X_test". Asimismo, cread otro array de numpy para las dos datasets con unicamente la columna "progresión". Llamad a estos objetos "y_train" e "y_test" respectivamete**

In [None]:
X_train=train_df.drop(columns=["progression"]).values
X_test=test_df.drop(columns=["progression"]).values
y_train= train_df['progression'].values
y_test= test_df['progression'].values

## regresión univariada

**Primero, cargad los métodos de regresión linear_regression, lasso, Ridge y ElasticNet de scikit**

In [None]:
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet

**Cargad a su vez el módulo de scikit `metrics`, que lo usaremos para medir el rendimiento de los métodos de regresión recién importados **

In [None]:
from sklearn import metrics

**Encontrad el rendimiento de cada variable de manera individual para predecir la variable progression. Para ello, ajustad el modelo usando X_train e y_train, para posteriormente, predecir en los datos X_test. Comparad el resultado predicho con el real y_test mediante el uso de las métricas aprendidas. Haced esto para esto solo para la regresión lineal sin regularización, i.e., la función que acabamos de cargar `LinearRegression()` (Ayuda: acordáos de que X tiene que ser siempre una matriz, aunque sólo tengamos una variable. Quizá en algún momento debéis usar la función `reshape` de numpy)** 

In [None]:
clf = LinearRegression()
for idx in range(X_train.shape[1]):
    # Hacemos fit

    clf.fit(X_train[:,idx].reshape(-1,1), y_train)
    # Hacemos predict
    Y_pred = clf.predict(X_test[:,idx].reshape(-1,1))
    
    evs = metrics.explained_variance_score(y_test, Y_pred)
    mae = metrics.mean_absolute_error(y_test, Y_pred)
    mse = metrics.mean_squared_error(y_test, Y_pred)
    mne=  metrics.median_absolute_error(y_test, Y_pred)
    r2= metrics.r2_score(y_test, Y_pred)
    
    #print(" las metricas para el modelo ", clas_names[idx], " son ")
    print("evs = " , np.round(evs, 3), " mae= ", np.round(mae,3), " mse= ",np.round(mse,3),\
          " mne = ", np.round(mne,3), " r2 = ", np.round(r2, 3))
    print(" ")
    

**Haced para cada variable un scatter plot ploteando los valores predichos frente a los reales**

In [None]:
for idx in range(X_train.shape[1]):
    # Hacemos fit

    clf.fit(X_train[:,idx].reshape(-1,1), y_train)
    # Hacemos predict
    y_pred = clf.predict(X_test[:,idx].reshape(-1,1))
    
    plt.figure()
    plt.scatter(y_test,y_pred)

**Usad la función `corrcoef` para cuantificar la similaridad entre la predicción y los valores reales. Si tennéi alguna duda de cómo usar dicha función, abrid el menú de ayuda usando `help` o `??`, o entrad en []().**

In [None]:
for idx in range(X_train.shape[1]):
    # Hacemos fit

    clf.fit(X_train[:,idx].reshape(-1,1), y_train)
    # Hacemos predict
    y_pred = clf.predict(X_test[:,idx].reshape(-1,1))
    
    print("pearson coeficient =", np.corrcoef(y_test,y_pred)[0,1])

**Usando todas las variables, comparar el rendimiento entre los cuatro algoritmos cargados**

In [None]:
clf_1, clf_2, clf_3, clf_4 = LinearRegression(normalize=False), Lasso(normalize=False), Ridge(normalize=False),ElasticNet(normalize=False)

for clf in [clf_1,clf_2,clf_3, clf_4]:
    # Hacemos fit

    clf.fit(X_train, y_train)
    # Hacemos predict
    Y_pred = clf.predict(X_test)
    
    evs = metrics.explained_variance_score(y_test, Y_pred)
    mae = metrics.mean_absolute_error(y_test, Y_pred)
    mse = metrics.mean_squared_error(y_test, Y_pred)
    mne=  metrics.median_absolute_error(y_test, Y_pred)
    r2= metrics.r2_score(y_test, Y_pred)
    
    #print(" las metricas para el modelo ", clas_names[idx], " son ")
    print("evs = " , np.round(evs, 3), " mae= ", np.round(mae,3), " mse= ",np.round(mse,3),\
          " mne = ", np.round(mne,3), " r2 = ", np.round(r2, 3))
    print(" ")

In [None]:
clf_1.fit(X_train, y_train)
Y_pred = clf_1.predict(X_test)
print(metrics.explained_variance_score(y_test, Y_pred))

from sklearn.preprocessing import StandardScaler
ss= StandardScaler()
clf_1.fit(ss.fit_transform(X_train), y_train)
Y_pred = clf_1.predict(ss.transform(X_test))
print(metrics.explained_variance_score(y_test, Y_pred))


In [None]:
diabetes_df