**Machine Learning con Python**\
Laboratorio semana 3

---
Dataset tomado de https://www.kaggle.com/datasets/qoisalqorni/fishball-texture-dataset-with-images

Artículo de referencia: [Cortez et al., 2009]

Ejemplo para la predicción de valores aproximados con regresión lineal y modelo Lasso.

**Preparado por:** Sofia Toro Vásquez

---



**PASO 1: Importar las librerías necesarias.**



In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error
import pandas as pd
import matplotlib.pyplot as plt

**PASO 2: Cargar el dataset.**

In [None]:
# Cargar dataset
# https://www.kaggle.com/datasets/qoisalqorni/fishball-texture-dataset-with-images

# Input variables ():
#1 - energy
#2 - homogenity
#3 - entrophy
#4 - contrast

# Output variable (based on sensory data):
#12 - class        (value between 1 and 5)

dataset="datasetGLCM_5x100.csv"
dataf= pd.read_csv(dataset)

# Eliminando la columna de identificador ya que no es numérica
dataf = dataf.drop(columns = ['file'])
dataf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   energy      500 non-null    float64
 1   homogenity  500 non-null    float64
 2   entrophy    500 non-null    float64
 3   contrast    500 non-null    float64
 4   class       500 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 19.7 KB


In [None]:
data= dataf.values
x=data[:,:-1]  # Entradas
y=data[:,-1]   # Columna de salida (variable de salida) --- Output
n,d=x.shape     # Dimensión de nuestro dataset.

**PASO 3: Creación del modelo de predicción.**

In [None]:
# Dividir Training/Testing
# Dividir en 10, 20 y 30 porciento de separación de datos de testing y entrenamiento
porc_test10= 0.1
porc_test20= 0.2
porc_test30= 0.3

x_train10, x_test10, y_train10, y_test10 = train_test_split(x, y, test_size= porc_test10)
print("\t %d datos para training" %x_train10.shape[0])
print("\t %d datos para testing" %x_test10.shape[0])

x_train20, x_test20, y_train20, y_test20 = train_test_split(x, y, test_size= porc_test20)
print("\t %d datos para training" %x_train20.shape[0])
print("\t %d datos para testing" %x_test20.shape[0])

x_train30, x_test30, y_train30, y_test30 = train_test_split(x, y, test_size= porc_test30)
print("\t %d datos para training" %x_train30.shape[0])
print("\t %d datos para testing" %x_test30.shape[0])

# Creación del objeto modelo
# Modelo de regresión lineal
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression
modelo_Linear10= LinearRegression()
modelo_Linear20= LinearRegression()
modelo_Linear30= LinearRegression()

# Modelo Lasso
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso
modelo_Lasso10= Lasso()
modelo_Lasso20= Lasso()
modelo_Lasso30= Lasso()


	 450 datos para training
	 50 datos para testing
	 400 datos para training
	 100 datos para testing
	 350 datos para training
	 150 datos para testing


**PASO 4: Entrenamiento del modelo**

In [None]:
# Entrenar el modelo.
# Regresión Lineal
# 10%
modelo_Linear10.fit(x_train10, y_train10)
print("Coeficientes modelo linear 10%")
print(modelo_Linear10.coef_)

# 20%
modelo_Linear20.fit(x_train20, y_train20)
print("Coeficientes modelo linear 20%")
print(modelo_Linear20.coef_)

# 30%
modelo_Linear30.fit(x_train30, y_train30)
print("Coeficientes modelo linear 30%")
print(modelo_Linear30.coef_)

Coeficientes modelo linear 10%
[ 1.26013202e+03  1.05895967e+11  2.02001166e+00 -1.05895967e+11]
Coeficientes modelo linear 20%
[ 1.19063752e+03  1.22550390e+11  1.71087503e+00 -1.22550390e+11]
Coeficientes modelo linear 30%
[ 1.13389494e+03  1.75129695e+11  1.60267544e+00 -1.75129695e+11]


In [None]:
# Entrenar el modelo.
# Regresión Lineal
# Lasso
# 10%
modelo_Lasso10.fit(x_train10, y_train10)
print("Coeficientes modelo lasso 10%")
print(modelo_Lasso10.coef_)

# 20%
modelo_Lasso20.fit(x_train20, y_train20)
print("Coeficientes modelo lasso 20%")
print(modelo_Lasso20.coef_)

# 30%
modelo_Lasso30.fit(x_train30, y_train30)
print("Coeficientes modelo lasso 30%")
print(modelo_Lasso30.coef_)

Coeficientes modelo lasso 10%
[ 0.00000000e+00  4.93057751e-03 -0.00000000e+00  1.14207258e-16]
Coeficientes modelo lasso 20%
[ 0.00000000e+00  5.84311718e-03 -0.00000000e+00  9.06722226e-17]
Coeficientes modelo lasso 30%
[ 0.00000000e+00  4.52110097e-03 -0.00000000e+00  4.41295002e-17]


**PASO 5: Validación del modelo.**

In [None]:
# Realizar predicción
# Modelo de regresion linear
print("Modelo de regresión linear")

# 10%
y_train_predict_Linear10= modelo_Linear10.predict(x_train10) # Con los datos de entrenamiento.
y_test_predict_Linear10= modelo_Linear10.predict(x_test10)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Linear10, y_train10)
print("Error en training lineal 10: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Linear10, y_test10)
print("Error en testing lineal 10: %s" % round(error_test,2))

print("-----------------------")

# 20%
y_train_predict_Linear20= modelo_Linear20.predict(x_train20) # Con los datos de entrenamiento.
y_test_predict_Linear20= modelo_Linear20.predict(x_test20)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Linear20, y_train20)
print("Error en training lineal 20: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Linear20, y_test20)
print("Error en testing lineal 20: %s" % round(error_test,2))

print("-----------------------")

# 30%
y_train_predict_Linear30= modelo_Linear30.predict(x_train30) # Con los datos de entrenamiento.
y_test_predict_Linear30= modelo_Linear30.predict(x_test30)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Linear30, y_train30)
print("Error en training lineal 30: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Linear30, y_test30)
print("Error en testing lineal 30: %s" % round(error_test,2))


Modelo de regresión linear
Error en training lineal 10: 1.59
Error en testing lineal 10: 1.25
-----------------------
Error en training lineal 20: 1.65
Error en testing lineal 20: 1.21
-----------------------
Error en training lineal 30: 1.54
Error en testing lineal 30: 1.64


In [None]:
# Realizar predicción
# Modelo Lasso
print("Modelo Lasso")

# 10%
y_train_predict_Lasso10= modelo_Lasso10.predict(x_train10) # Con los datos de entrenamiento.
y_test_predict_Lasso10= modelo_Lasso10.predict(x_test10)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Lasso10, y_train10)
print("Error en training lineal 10: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Lasso10, y_test10)
print("Error en testing lineal 10: %s" % round(error_test,2))

print("-----------------------")

# 20%
y_train_predict_Lasso20= modelo_Lasso20.predict(x_train20) # Con los datos de entrenamiento.
y_test_predict_Lasso20= modelo_Lasso20.predict(x_test20)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Lasso20, y_train20)
print("Error en training lineal 20: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Lasso20, y_test20)
print("Error en testing lineal 20: %s" % round(error_test,2))

print("-----------------------")

# 30%
y_train_predict_Lasso30= modelo_Lasso30.predict(x_train30) # Con los datos de entrenamiento.
y_test_predict_Lasso30= modelo_Lasso30.predict(x_test30)  # Con los datos de prueba.

# Evaluar los scores
error_train= mean_squared_error(y_train_predict_Lasso30, y_train30)
print("Error en training lineal 30: %s" % round(error_train,2))
error_test= mean_squared_error(y_test_predict_Lasso30, y_test30)
print("Error en testing lineal 30: %s" % round(error_test,2))


Modelo Lasso
Error en training lineal 10: 2.01
Error en testing lineal 10: 1.56
-----------------------
Error en training lineal 20: 2.03
Error en testing lineal 20: 1.69
-----------------------
Error en training lineal 30: 1.91
Error en testing lineal 30: 2.14


**PASO 6: Utilizar el modelo.**

In [None]:
# Evaluar los valores de una nueva muestra
# Crear un vector con valores pertenecientes al rango de los valores en las columnas originales
v=np.array([np.random.uniform(0.0004, 0.008),np.random.uniform(9.8, 262),np.random.uniform(5.4, 8.4),np.random.uniform(3.9, 261)])

# Se seleccionaron los mejores modelos los cuales fueron al 20%
# Lineal
predLineal=modelo_Linear20.predict(v.reshape(1, -1))
print("\nLa clase para el nuevo valor (modelo de regresión lineal) es:",str(round(pred[0],0)))

# Lasso
predLineal=modelo_Lasso20.predict(v.reshape(1, -1))
print("\nLa clase para el nuevo valor (modelo Lasso) es:",str(round(pred[0],0)))


La clase para el nuevo valor (modelo de regresión lineal) es: 5.0

La clase para el nuevo valor (modelo Lasso) es: 5.0
