<a href="https://colab.research.google.com/github/RaulDeLoSantos/MachineLearning-11-2024/blob/development/I_ModeloAprendSupervl.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



Ejemplo de Aprendizaje Supervisado: Predicción de Especies de Flores Iris
Este ejemplo muestra cómo entrenar un modelo para predecir la especie de una flor de iris basándose en las medidas de sus sépalos y pétalos.

1. Recopilar y preparar un conjunto de datos etiquetados.

Utilizaremos el popular conjunto de datos Iris, que está integrado en scikit-learn:



In [4]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data  # Características (longitud del sépal, ancho del sépal, longitud del pétal, ancho del pétal)
y = iris.target  # Etiquetas (especies: 0, 1, o 2)



In [5]:
## agregar visualizacion o impresion
print (iris.feature_names)
print (iris.target_names )

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']


2. Dividir los datos en conjuntos de entrenamiento y prueba.

Utilizaremos el 80% de los datos para el entrenamiento y el 20% para las pruebas:

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

"""
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
"""  #  propuesto por Colab notebook
"""
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
"""
"""
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)
"""

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(120, 4)
(30, 4)
(120,)
(30,)


3. Entrenar el modelo utilizando el conjunto de entrenamiento.
Utilizaremos un modelo de regresión logística simple:

In [13]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

from sklearn.linear_model import LogisticRegression
modelo = LogisticRegression(max_iter=1000)  # 1000 =  Preciion 1 - Aumentar max_iter si es necesario
modelo.fit(X_train, y_train)


print("Datos Originales")
## agregar visualizacion o impresion
print (iris.feature_names)
print (iris.target_names )
"""
print (iris.shape())
print (iris.head())
print (iris.describe())
print (iris.groupby('species').size())
"""
print ("Entrenamiento completado.")
print ("Precisión del modelo:", modelo.score(X_test, y_test))


print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

Datos Originales
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']
Entrenamiento completado.
Precisión del modelo: 1.0
(120, 4)
(30, 4)
(120,)
(30,)


4. Evaluar el rendimiento del modelo utilizando el conjunto de prueba.

Utilizaremos la precisión como nuestra métrica de evaluación:

In [14]:
from sklearn.metrics import accuracy_score
y_pred = modelo.predict(X_test)
precision = accuracy_score(y_test, y_pred)
print(f"Precisión: {precision}")

Precisión: 1.0


5. Ajustar los hiperparámetros del modelo y repetir los pasos 3-4 hasta lograr el rendimiento deseado.

Podríamos probar diferentes valores para el parámetro max_iter de LogisticRegression o utilizar un modelo completamente diferente. Este paso es iterativo e implica experimentar para encontrar la mejor configuración.

In [17]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Carga el dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define los hiperparámetros que deseas ajustar y sus posibles valores
param_grid = {
    'C': [0.1, 1, 10, 100],  # Parámetro de regularización
    'penalty': ['l1', 'l2'],  # Tipo de regularización
    'solver': ['liblinear', 'saga']  # Algoritmo de optimización
}

# Crea un objeto GridSearchCV para buscar la mejor combinación de hiperparámetros
grid_search = GridSearchCV(LogisticRegression(max_iter=1000), param_grid, cv=5, scoring='accuracy')

# Ajusta el modelo utilizando GridSearchCV
grid_search.fit(X_train, y_train)

# Obtén el mejor modelo y sus hiperparámetros
mejor_modelo = grid_search.best_estimator_
mejores_hiperparametros = grid_search.best_params_

# Evalúa el mejor modelo en el conjunto de prueba
y_pred = mejor_modelo.predict(X_test)
precision = accuracy_score(y_test, y_pred)
print(f"Precisión del mejor modelo: {precision}")
print(f"Mejores hiperparámetros: {mejores_hiperparametros}")



Precisión del mejor modelo: 1.0
Mejores hiperparámetros: {'C': 10, 'penalty': 'l2', 'solver': 'saga'}




Justificación:

Dataset load_iris: El código carga el dataset iris utilizando load_iris() de sklearn.datasets, el cual ya contiene las características (X) y las etiquetas (y).
param_grid: Se han añadido más opciones de hiperparámetros específicos para LogisticRegression al trabajar con el dataset iris:
'solver': Se incluyen dos algoritmos de optimización, 'liblinear' y 'saga', que son adecuados para este tipo de datos. Puedes experimentar con otros solvers como 'lbfgs', 'newton-cg' si lo deseas.
GridSearchCV, fit, best_estimator_, best_params_, accuracy_score: El resto del código funciona igual que en el ejemplo anterior, buscando la mejor combinación de hiperparámetros, entrenando el modelo, obteniendo el mejor modelo y evaluando su precisión.
Al ejecutar este código, se buscarán la mejor combinación de C, penalty y solver para el modelo LogisticRegression utilizando el dataset iris, imprimiendo la precisión del mejor modelo y los hiperparámetros que la lograron.

Recuerda que puedes modificar los valores en param_grid para explorar otras posibilidades y ajustar el modelo de manera más precisa. También, puedes considerar otros modelos, como Support Vector Machines (SVM) o K-Nearest Neighbors (KNN) y ajustar sus hiperparámetros de forma similar.


6. Usar el modelo entrenado para hacer predicciones sobre nuevos datos.

In [16]:
nuevos_datos = [[5.1, 3.5, 1.4, 0.2]]  # Ejemplo de nuevo punto de datos
prediccion = modelo.predict(nuevos_datos)
print(f"Predicción: {prediccion}")  # Salida: Especie predicha

Predicción: [0]


7. Aprendizaje no supervisado:

Este ejemplo se centra en el aprendizaje supervisado. El aprendizaje no supervisado implicaría el uso de algoritmos como la agrupación en clústeres (por ejemplo, KMeans) para agrupar las flores de iris en función de sus características sin utilizar las etiquetas de las especies.

Espero que esto te ayude a comprender mejor el proceso de aprendizaje supervisado en Python con el conjunto de datos Iris. No dudes en preguntarme si tienes alguna duda o si quieres explorar otros aspectos.

Conslusiones

Inferencias del dataset Iris y los algoritmos:

Separabilidad de Clases: El dataset Iris es relativamente sencillo, con tres clases de flores (Setosa, Versicolor, Virginica) que son en su mayoría linealmente separables. Esto significa que algoritmos simples como la Regresión Logística o el SVM lineal pueden lograr un buen rendimiento.

Importancia de las Características: Algunas características, como la longitud y el ancho del pétalo, son más importantes para la clasificación que otras. Esto se puede observar al analizar la importancia de las características de los modelos o visualizando los datos.

Complejidad del Modelo: Para este dataset, modelos simples suelen ser suficientes. Modelos más complejos, como redes neuronales profundas, podrían ser propensos al sobreajuste y no proporcionar una mejora significativa en el rendimiento.

Cómo mejorar el modelo:

Ingeniería de Características: Aunque el dataset Iris ya tiene características bien definidas, se podría experimentar con la creación de nuevas características, como la relación entre la longitud y el ancho del pétalo, para ver si mejora el rendimiento.

Selección de Modelo: Probar diferentes algoritmos de clasificación, como KNN, Árboles de Decisión o Random Forest, y comparar su rendimiento. Elegir el modelo que mejor se adapte a los datos y al problema específico.

Ajuste de Hiperparámetros: Optimizar los hiperparámetros del modelo seleccionado utilizando técnicas como Grid Search o Random Search para encontrar la mejor configuración.

Validación Cruzada: Utilizar técnicas de validación cruzada, como k-fold, para obtener una estimación más robusta del rendimiento del modelo y evitar el sobreajuste.

Aumento de Datos: Si se dispone de pocos datos, se podría considerar el aumento de datos para generar nuevas muestras y mejorar la generalización del modelo.

Análisis de Errores: Analizar los errores del modelo para identificar patrones y áreas de mejora. Esto podría implicar revisar los datos de entrenamiento, ajustar el modelo o considerar un enfoque diferente.

En resumen:

El dataset Iris es un buen punto de partida para aprender sobre el aprendizaje automático y la clasificación. Se pueden aplicar diversos algoritmos para lograr un buen rendimiento, y la mejora del modelo se puede lograr a través de la ingeniería de características, la selección de modelos, el ajuste de hiperparámetros, la validación cruzada y el análisis de errores.

Recuerda que no hay un enfoque único para todos los casos, y la mejor manera de mejorar un modelo es experimentar y analizar los resultados.

Espero que esto te ayude a comprender mejor cómo inferir información del dataset Iris y los algoritmos aplicados, y cómo puedes mejorar el rendimiento de tus modelos.