In [None]:
import numpy as np

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

# Construimos un dataframe con las cuatro columnas de datos
iris_df = pd.DataFrame(data=load_iris()["data"], columns=load_iris()["feature_names"])

# Añadimos como quinta columna, el nombre de la especie de flor
iris_df["label"] = load_iris()["target_names"][load_iris()["target"]]

In [None]:
# Mostramos el DataFame
iris_df

In [None]:
# Para mostrar todo el DataFame
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)


In [None]:
# Mostramos el DataFame
iris_df

In [None]:
# Restauramos las opciones de visualización a los valores por defecto
pd.reset_option('^display.', silent=True)

In [None]:
# La info útil sobre los datos en general
iris_df.info()

In [None]:
# Podemos extraer las estadísticas principales de los datos
iris_df.describe()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.pairplot(iris_df, hue="label", height=3)
plt.show()

In [None]:
# Restauramos los valores por defecto para no mostrar tantas lineas
pd.reset_option('^display.', silent=True)

In [None]:
# Explorar si existen valores nulos
iris_df.isnull()

In [None]:
# Conteo de valores perdidos/faltantes
iris_df.isnull().sum()

In [None]:
# Quitar los posibles valores perdidos
iris_df = iris_df.dropna()
iris_df

In [None]:
# Estadísticas principales de los datos
iris_df.describe()

boxplot muestra un diagrama de caja  
https://seaborn.pydata.org/generated/seaborn.boxplot.html  

subplots permite organizar los gráficos de forma estructurada (en filas y columnas)  
https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html   


In [None]:
# Graficar la distribución y los valores demostrados en el diagrama de caja
# Creamos un diagrama de dos filas y dos columnas (2,2)
fig, axes = plt.subplots(2, 2, figsize=(16,9))
sns.boxplot(y="petal width (cm)", x= "label", data=iris_df,  orient='v', ax=axes[0, 0])
sns.boxplot(y="petal length (cm)", x= "label", data=iris_df,  orient='v', ax=axes[0, 1])
sns.boxplot(y="sepal width (cm)", x= "label", data=iris_df,  orient='v', ax=axes[1, 0])
sns.boxplot(y="sepal length (cm)", x= "label", data=iris_df,  orient='v', ax=axes[1, 1])
plt.show()

In [None]:
# Creamos un nuevo DataFrame para quedarnos solamente con los datos de la especie "setosa"
dataframe_setosa_df = iris_df[iris_df['label']=="setosa"]

# Visualizamos los valores del largo del pétalo y su diagrama de cajas
# Creamos un diagrama de dos filas y una columna (2,1)
fig, axes = plt.subplots(2,1)
sns.swarmplot(x=dataframe_setosa_df['petal length (cm)'], ax=axes[0])
sns.boxplot(x=dataframe_setosa_df['petal length (cm)'], ax=axes[1])
plt.show()

In [None]:
# Filtrar los valores atípicos para la especie "setosa" basada en el rango intercuartil
Q1 = dataframe_setosa_df['petal length (cm)'].quantile(0.25)
Q3 = dataframe_setosa_df['petal length (cm)'].quantile(0.75)

# IQR es el rango intercuartil
IQR = Q3 - Q1

# Limites permitidos para los datos del largo del pétalo
lim_inf = (Q1 - 1.5 * IQR)
lim_sup = (Q3 + 1.5 * IQR)

# Crear la máscara
filtro_oulier = (dataframe_setosa_df['petal length (cm)'] < lim_inf) | (dataframe_setosa_df['petal length (cm)'] > lim_sup)

# Filtramos el dataset aplicando la máscara
dataframe_setosa_df[filtro_oulier]

In [None]:
# Estadísticas principales de los datos
dataframe_setosa_df.describe()

In [None]:
# Podemos identificar los outliers por sus índices
dataframe_setosa_df[filtro_oulier].index

In [None]:
# Quitamos los 4 outliers de setosa del dataset principal "iris_df"
outliers_ind = dataframe_setosa_df.loc[filtro_oulier].index
iris_df = iris_df.drop(index=outliers_ind).reset_index(drop=True)
iris_df

Es fundamental tener en cuenta que un modelo de regresión lineal solamente puede contener  medidas numéricas. La columna "label" que indica el tipo de flor no nos hace falta, porque este ejercicio no consiste en determinar el tipo de flor más probable en función de sus características, sino en estimar la longitud del sépalo a partir del conocimiento de la longitud del pétalo mediante una regla general y=f(x) que se ha obtenido mediante los datos de la muestra.

In [None]:
# Nos quedamos solamente con las columnas numéricas. Eliminamos la columna "label"
iris_df_num = iris_df.drop("label", axis=1)
iris_df_num

Tenemos los siguientes datos:  

- iris_df: dataset principal, con todos los datos (150)  
- dataframe_setosa: las 50 setosas  
- iris_df_num: dataframe numérico, sin la especie de la flor  

### Normalizar los datos
Por normalizar nos referimos a **poner los datos en una escala similar**, como la escala `[0,1]`, que es un caso especial de la escalación llamado **“min-max”**.

![0_pVqd_DjfuvdUN5mc.png](attachment:0_pVqd_DjfuvdUN5mc.png)

In [None]:
# importar los objetos necesarios de la librería sklearn
from sklearn.preprocessing import MinMaxScaler

# declarar el tipo de escalamiento y aplicarlo al conjunto de datos
escalado = MinMaxScaler().fit(iris_df_num)
iris_array_normal = escalado.transform(iris_df_num)

In [None]:
iris_array_normal

Tenemos los siguientes datos:  

- iris_df: dataset principal, con todos los datos (150) y con sus cabeceras  
- dataframe_setosa: igual que el anterior, pero solo con las 50 setosas  
- iris_df_num: dataframe numérico, sin la especie de la flor, con sus cabeceras  
- iris_array_normal: array numérico normalizado [0,1], sin la especie de la flor y sin cabeceras

In [None]:
# El DataFrame numérico original sigue como antes
iris_df_num

In [None]:
# Datos normalizados (valores 0-1)
print(type(iris_array_normal)) #Array
print(iris_array_normal.shape) #146x4
print(iris_array_normal.ndim) #2

iris_array_normal

Documentación para la creación de un dataframe  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

In [None]:
# Convertimos el array en un DataFrame, especificando sus etiquetas mediante el argumento columns
# ...num.columns no tiene nada que ver con número de columnas! Sólo estamos usando las cabeceras del dataset numérico dataset_num
iris_df_normal = pd.DataFrame(data=iris_array_normal, columns=iris_df_num.columns)
print(type(iris_df_normal))

Tenemos los siguientes datos:  

- iris_df: dataset principal, con todos los datos (150) y con sus cabeceras  
- dataframe_setosa: igual que el anterior, pero solo con las 50 setosas  
- iris_df_num: dataframe numérico, sin la especie de la flor, con sus cabeceras  
- iris_array_normal: array numérico normalizado [0,1], sin la especie de la flor y sin cabeceras
- iris_df_normal: dataframe numérico normalizado [0,1], sin la especie de la flor y con cabeceras

In [None]:
iris_df_normal

In [None]:
# Verificamos los valores mínimos y los máximos
iris_df_normal.describe()

In [None]:
# Visualizamos la normalización para el ancho de pétalo
plt.plot(iris_df_num['petal width (cm)'], color = 'green')
plt.plot(iris_df_normal['petal width (cm)'], color = 'red')
plt.title('petal width (cm)')
plt.legend(['Datos originales', 'Datos normalizados (MinMaxScaler)'])
plt.show()

Tenemos los siguientes datos:  

- iris_df: dataset principal, con todos los datos (150) y con sus cabeceras  
- dataframe_setosa: igual que el anterior, pero solo con las 50 setosas  
- iris_df_num: dataframe numérico, sin la especie de la flor, con sus cabeceras  
- iris_array_normal: array numérico normalizado [0,1], sin la especie de la flor y sin cabeceras
- iris_df_normal: dataframe numérico normalizado [0,1], sin la especie de la flor y con cabeceras

scatterplot muestra un diagrama de dispersión  
https://seaborn.pydata.org/generated/seaborn.scatterplot.html

Los datos de la especie los tomamos del dataset original con hue=dataset['label']

In [None]:
# Visualizamos las medidas de pétalo para los dos dataframes
# Creamos un diagrama de una fila y dos columnas (1,2)
fig, axes = plt.subplots(1,2, figsize=(16,7))

sns.scatterplot(x=iris_df_num['petal width (cm)'], y=iris_df_num['petal length (cm)'], hue=iris_df['label'], ax=axes[0])
axes[0].set_title("Datos originales")

sns.scatterplot(x=iris_df_normal['petal width (cm)'], y=iris_df_normal['petal length (cm)'], hue=iris_df['label'], ax=axes[1])
axes[1].set_title("Datos normalizados (MinMaxScaler)")

plt.show()

Se puede apreciar que **se mantienen las relaciones y las proporciones entre las variables**, aunque el rango y la escala se haya cambiado al normalizar los datos.

### **Planteamiento del problema**: predecir la longitud del sépalo (cm) de las flores iris

Estableceremos las **longitudes de los pétalos** como la variable ***X*** y el **largo de los sépalos** como la variable ***Y*** (variable objetivo).

Y=f(X)

Queremos estimar o predecir y (largo de los sépalos) en función de X (largo de los pétalos)

Recordamos que en el modelo de regresión lineal simple, sólo tenemos dos variables. Por lo tanto el resto de los datos del dataset no nos interesarán para este ejercicio.

In [None]:
arrX = iris_df_num['petal length (cm)']
arrY = iris_df_num['sepal length (cm)']

print(arrX)
print(arrY)

### **Paso 1.**  Obtención y preparación de datos

### *Estructura de datos (sklearn)*
Para entrenar los modelos con la librería sklearn, los datos deben de estar como arrays numericos (como **numpy array bidimensional**) con esta etructura:
**(filas = muestras,    columnas = atributos)**

In [None]:
# Tenemos que adaptar los valores numericos a una estructura 2D
print(arrX.values)
print(arrX.values.shape)
arrX.values.ndim

Aquí el problema es que print(X.values.shape) nos ha devuelto un único array de una dimensión con 146 elementos (146,)

X.values.ndim nos dice que la dimensión es 1, pero necesitamos 2

Necesitamos conseguir tener un array de dos dimensiones de la forma (146,1) es decir 146x1

Tenemos que **restructurar** los datos para que tengan la forma adecuada. Podemos aplicar el ``reshape(-1)`` que es para mantener esa dimensión de tamaño indefinido y hacer que se ajuste al resto de las dimensiones. Es decir por ejemplo ``X.values.reshape(-1,1)`` nos dará un array en que hemos especificado que queremos que tenga 1 columna. Por tanto tendremos que usar las filas necesarias para que "quepan" todos los datos.

Más info  
https://numpy.org/doc/stable/reference/generated/numpy.reshape.html  
https://stackoverflow.com/questions/44993977/reshape-a-data-for-sklearn  
https://medium.com/@24littledino/reshape-numpy-in-python-e0094198537a  

In [None]:
# Convertir los arrays 1D a arrays bidimensionales (2D)
arrX = arrX.values.reshape(-1, 1)
arrY = arrY.values.reshape(-1, 1)

In [None]:
print(arrX)
print(arrX.shape)
arrX.ndim

In [None]:
print(arrY)
print(arrY.shape)
arrY.ndim

Tenemos los siguientes datos:  

- iris_df: dataset principal, con todos los datos (150) y con sus cabeceras  
- dataframe_setosa: igual que el anterior, pero solo con las 50 setosas  
- iris_df_num: dataframe numérico, sin la especie de la flor, con sus cabeceras  
- iris_array_normal: array numérico normalizado [0,1], sin la especie de la flor y sin cabeceras
- iris_df_normal: dataframe numérico normalizado [0,1], sin la especie de la flor y con cabeceras

Recordemos que estamos usando iris_df_num así que tenemos que volver a normalizar

In [None]:
# Normalizar los datos a escala [0,1]
escalado_x = MinMaxScaler().fit(arrX)
X_norm = escalado_x.transform(arrX)

escalado_y = MinMaxScaler().fit(arrY)
Y_norm = escalado_y.transform(arrY)


In [None]:
print(X_norm)

In [None]:
print(Y_norm)

### **Paso 2.**  Dividir el dataset en Training y Test set

In [None]:
# Separar los conjuntos de datos de entrenamiento (Training) y de prueba (Test) para las variables de entrada y salida
from sklearn.model_selection import train_test_split
X_train1, X_test1, Y_train1, Y_test1 = train_test_split(X_norm, Y_norm, test_size= 0.3, random_state= 101)

In [None]:
# "test_size" representa la proporción del conjunto de datos a incluir en la división de Test
print(X_train1.size)
print(X_test1.size)
X_train1.size + X_test1.size

### **Paso 3.** Aplicar el modelo de regresión lineal simple

In [None]:
# Defino el algoritmo a utilizar
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

### **Paso 4.** Entrenar el modelo de regresión lineal simple con los datos de entrenamiento

In [None]:
# Entrenamos el modelo con el conjunto de datos de entrenamiento X_train, y_train
lr.fit(X_train1, Y_train1)

### **Paso 5.** Obtener las predicciones

In [None]:
# Lanzamos una predicción (siempre indicando un objeto de 2D)
lr.predict([[0.8]])

Esta predicción significa que si tenemos un pétalo de largo 0.8 cm estimamos que el sépalo será de 0.63 cm

In [None]:
# Calcular las estimaciones ajustadas por el modelo (predicciones del conjunto de entrenamiento)
pred_train1 = lr.predict(X_train1)
pred_train1

Esas son las longitudes de los sépalos según la predicción, para el conjunto de datos de entrenamiento (102 elementos)

In [None]:
# Lanzamos todas las predicciones sobre el juego de datos de test
pred_test1 = lr.predict(X_test1)
pred_test1

Esas son las longitudes de los sépalos según la predicción, para el conjunto de datos de test (44 elementos)

In [None]:
# Desnormalizamos las variables para volver a la escala original

# Desnormalizamos el juego de datos de entrenamiento:
X_train1_des = escalado_x.inverse_transform(X_train1)
Y_train1_des = escalado_y.inverse_transform(Y_train1)

# Desnormalizamos el juego de datos de test
X_test1_des = escalado_x.inverse_transform(X_test1)
Y_test1_des = escalado_y.inverse_transform(Y_test1)

# Desnormalizamos las predicciones sobre el conjunto de datos de entrenamiento
pred_train1_des = escalado_y.inverse_transform(pred_train1)

# Desnormalizamos las predicciones sobre el conjunto de datos de test
pred_test1_des = escalado_y.inverse_transform(pred_test1)


In [None]:
pred_test1_des

In [None]:
# Visualizar la normalización para el ancho de pétalo
plt.plot(pred_test1_des, color = 'green')
plt.plot(pred_test1, color = 'red')
plt.title('sepal length (cm)')
plt.legend(['Predicción en escala original', 'Predicciones normalizadas'])
plt.show()

### **Paso 6.** Visualizamos los resultados

Los **puntos verdes** representan los datos que teníamos guardados en el *y_test* y la línea azul se trata de la **recta de regresión** que hemos generado con el modelo de regresión lineal simple, ajustando el algoritmo a los datos de entrenamiento (los puntos negros). Aquí los **puntos rojos** muestran la salida de nuestro modelo para el conjunto de test.

In [None]:
# Dibujar la recta de regresión
plt.plot(X_train1_des, pred_train1_des, color = 'blue')

# Dibujar los puntos ajustados al modelo para el conjunto de entrenamiento (Training)
plt.scatter(X_train1_des, pred_train1_des, color = 'black')

# Dibujar los puntos obtenidos del modelo para el conjunto de prueba (Test)
plt.scatter(X_test1_des, pred_test1_des, color = 'red')

# Dibujar las medidas reales para el conjunto de prueba (Test)
plt.scatter(X_test1_des, Y_test1_des, color = 'green')

plt.title('petal length (cm) vs sepal length (cm)')
plt.xlabel('petal length (cm)')
plt.ylabel('sepal length (cm)')
plt.show()

Ahora vamos a comparar la bondad de nuestra predicción con los datos reales.

La línea **diagonal** representa el **modelo ideal**, en el cual, cada predicción coincide con el valor real. Cuanto más alejados estén los punto de esta diagonal peor serán nuestras predicciones.

In [None]:
# Comparación de valores reales vs. predichos
plt.scatter(Y_test1_des, pred_test1_des, color = 'red')
plt.plot(Y_test1_des, Y_test1_des, color = 'blue')
plt.title('valores_reales vs. predicción')
plt.xlabel('Y_test1_des')
plt.ylabel('pred_test1_des')
plt.show()

### **Paso 7.**  Evaluación del modelo a través de sus métricas

Hay diferentes métricas de la evaluación del modelo de regresión, pero la mayoría de ellos se basan en la similitud de los valores pronosticados con reales. Para entender estas métricas primero vamos a definir qué es el error de un modelo de regresión.

**El error de un modelo de regresión** es la diferencia entre los datos puntuales y la línea de tendencia (recta regresión lineal en el caso de regresión lineal simple) generada por el algoritmo.

El error puede ser determinado de multiples maneras:
* Error medio absoluto (**MAE**) es la media del valor absoluto de los errores. Es la medida más fácil de entender, ya que es sólo el error promedio.
* Error cuadrático medio (**MSE**) es la media de los errores al cuadrado. Es más popular que el error medio absoluto porque el enfoque se orienta más hacia grandes errores. Esto se debe a que el término al cuadrado aumenta exponencialmente los errores más grandes en comparación con los más pequeños.
* Raiz cuadrada del error cuadrático medio (**RMSE**) es la raíz cuadrada de la anterior medida.

![image.png](attachment:image.png)

**R-cuadrado** (también se conoce como **coeficiente de determinación**) no mide el error sino lo contrario: la calidad de la estimación. Es una métrica popular para determinar la precisión del modelo, es decir, la capacidad del modelo para predecir futuros resultados. Representa como de cerca a realidad están los valores de los datos de la línea de regresión ajustada.

El mejor resultado posible es 1.0, y ocurre cuando la predicción coincide con los valores de la variable objetivo. $R^{2}$ puede tomar valores negativos que representan que la predicción es arbitrariamente mala. Cuanto **más alto sea el $R^{2}$, mejor** encaja el modelo a los datos.

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas de evaluación del modelo sobre el conjunto de datos de test (esta es la que refleja realmente la capacidad predictiva del modelo)
print('Mean Absolute Error (MAE):', mean_absolute_error(Y_test1_des, pred_test1_des), "(ideal=0)")
print('Mean Absolute Percentage Error (MAPE):', mean_absolute_percentage_error(Y_test1_des, pred_test1_des)*100, "% (ideal=0%)")
print('Mean Squared Error (MSE):', mean_squared_error(Y_test1_des, pred_test1_des), "(ideal=0)")
print('Root Mean Squared Error (RMSE):', np.sqrt(mean_squared_error(Y_test1_des, pred_test1_des)), "(ideal=0)")
print('R^2 coefficient of determination:', r2_score(Y_test1_des, pred_test1_des), "(ideal=1)")


Mean Absolute Error (MAE): 0.3415162480180699  
Mean Absolute Percentage Error (MAPE): 5.650419208670305 %  
Mean Squared Error (MSE): 0.18534114649475547  
Root Mean Squared Error (RMSE): 0.43051265544087725  
R^2 coefficient of determination: 0.7387793950235169  

Comentarios:
- Si MAE, MAPE, MSE, RMSE = 0 entonces tenemos una predicción perfecta.
- MAPE es un %
- Si R^2 = 1 entonces tenemos una predicción perfecta.
- MAE y RMSE muestra resultados en las unidades originales de los datos.

Además:
- MAE es el error promedio (en este caso, en cm)
- En MSE elevamos al cuadrado el error (por tanto, el resultado no corresponde con las unidades originales. No son cm)
- RMSE soluciona este problema al hacer la raíz cuadrada (tenemos el error nuevamente en cm)
- Las métricas MSE y RMSE son muy penalizadas por los errores grandes en la predicción. En cambio, MAE es más "robusto" (más optimista) cuando los datos tienen outliers o datos atípicos, así que MAE puede ser la opción más realista con datos atípicos.

https://medium.com/@nicolasarrioja/m%C3%A9tricas-en-regresi%C3%B3n-5e5d4259430b
