# Importar librer√≠as



In [None]:
#Conjunto de datos
from sklearn.datasets import load_iris
#√Årbol de decisi√≥n
from sklearn import tree
#An√°lisis
import pandas as pd
#Segmentaci√≥n de datos (entrenamiento, validaci√≥n y prueba)
from sklearn.model_selection import train_test_split
#Vizualizaci√≥n
import seaborn as sns #Box plot
import matplotlib.pyplot as plt #Distribuci√≥n
#Importamos la funci√≥n confusion_matrix desde sklearn.metrics
from sklearn.metrics import confusion_matrix
#Libreria para metricas
from sklearn.metrics import accuracy_score

# Carga de conjunto de datos

In [None]:
#Dataset
iris = load_iris()
#Dataframe
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
#Ver informaci√≥n de una dataset
df.info()
#Etiqueta de salida (setosa, versicolor y virginica)
df['target'] = iris.target
#Adici√≥n de nombres a etiquetas de salida
df['species'] = df['target'].map(dict(enumerate(iris.target_names)))

In [None]:
# Mostrar las primeras filas del DataFrame completo
print(df.head(10))

# Estad√≠stica datos

In [None]:
# Estad√≠sticas descriptivas
print(df.describe())

# Vizualizaci√≥n de distribuci√≥n

In [None]:
# Establece el tama√±o de la figura (ancho x alto en pulgadas)
plt.figure(figsize=(8, 6))

# Crea un gr√°fico de dispersi√≥n con seaborn
# - data: el DataFrame que contiene los datos
# - x: columna para el eje X ('largo del s√©palo')
# - y: columna para el eje Y ('ancho del s√©palo')
# - hue: color seg√∫n la especie (distingue clases con diferentes colores)
# - palette: paleta de colores ('Set2' es una paleta pastel atractiva)
# - s: tama√±o de los puntos en el gr√°fico
sns.scatterplot(data=df,
                x='sepal length (cm)',
                y='sepal width (cm)',
                hue='species',
                palette='Set2',
                s=100)

# T√≠tulo del gr√°fico
plt.title("Gr√°fico de Dispersi√≥n: Largo vs Ancho del S√©palo")
# Etiqueta del eje X
plt.xlabel("Largo del S√©palo (cm)")
# Etiqueta del eje Y
plt.ylabel("Ancho del S√©palo (cm)")
# Activa la grilla para facilitar la lectura del gr√°fico
plt.grid(True)
# Muestra el gr√°fico en pantalla
plt.show()


# Vizualizaci√≥n Box plot

In [None]:
# Creamos una figura general con un tama√±o de 14x10 pulgadas
plt.figure(figsize=(14, 10))

# Recorremos cada caracter√≠stica num√©rica del conjunto de datos 'iris'
for i, column in enumerate(iris.feature_names):

    # Creamos una subgr√°fica en una cuadr√≠cula de 2 filas x 2 columnas
    # 'i+1' indica la posici√≥n actual (1 a 4)
    plt.subplot(2, 2, i+1)

    # Dibujamos un boxplot con seaborn
    # En el eje X colocamos las especies (setosa, versicolor, virginica)
    # En el eje Y colocamos la caracter√≠stica num√©rica actual (ej. sepal length)
    # 'data=df' indica que los datos vienen del DataFrame 'df'
    sns.boxplot(x='species', y=column, data=df)

    # A√±adimos un t√≠tulo a cada subgr√°fico con el nombre de la caracter√≠stica
    plt.title(f'Distribuci√≥n de {column}')

# Ajustamos el dise√±o para que los subgr√°ficos no se superpongan
plt.tight_layout()

# Mostramos todos los gr√°ficos en pantalla
plt.show()


# Segmentaci√≥n de datos 70%, 15%, 15%

In [None]:
# Divisi√≥n inicial en 70% entrenamiento y 30% temporal
X = df[iris.feature_names]
y = df['target']
#Datos de entrenamiento 70%
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.30, random_state=42, stratify=y)

# Divisi√≥n del 30% restante en validaci√≥n y prueba (50/50 => 15% cada uno)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.50, random_state=42, stratify=y_temp)

print(f"Entrenamiento: {len(X_train)}, Validaci√≥n: {len(X_val)}, Prueba: {len(X_test)}")


# Carga de modelo y entrenamiento

In [None]:
# -------------------------------
#     üîÅ DEFINICI√ìN DEL MODELO
# -------------------------------

# Creamos un modelo de √°rbol de decisi√≥n para clasificaci√≥n
# El par√°metro 'random_state=42' se usa para fijar un generador
# de valores aleatorios

modelo = tree.DecisionTreeClassifier(random_state=42)

# -------------------------------
#         üîß ENTRENAMIENTO
# -------------------------------

# Entrenamos (ajustamos) el modelo usando los datos de entrenamiento 70%
# X_train: conjunto de variables independientes (caracter√≠sticas)
# y_train: conjunto de variables dependientes (clase o etiqueta)
modelo.fit(X_train, y_train)

In [None]:
# ------------------------------------
#     üå≥ VISUALIZACI√ìN DEL √ÅRBOL
# ------------------------------------

# Usamos la funci√≥n plot_tree de sklearn para dibujar el √°rbol de decisi√≥n entrenado
# Esto muestra gr√°ficamente c√≥mo el modelo toma decisiones (las divisiones en los nodos)
# Es √∫til para interpretar el modelo y entender qu√© atributos est√° utilizando
tree.plot_tree(modelo)


In [None]:
# ---------------------------------------------
#   üîÆ PREDICCI√ìN SOBRE LOS DATOS DE VALIDACI√ìN
# ---------------------------------------------

# Utilizamos el modelo ya entrenado para hacer predicciones sobre el conjunto de validaci√≥n (X_val)
# Esto permite evaluar el rendimiento del modelo en datos que no se usaron en el entrenamiento
# y_pred_val almacenar√° las clases predichas por el modelo para X_val
y_pred_val = modelo.predict(X_val)

In [None]:
# ------------------------------------
# üìè M√âTRICAS DE EVALUACI√ìN DEL MODELO
# ------------------------------------
# üîπ Accuracy: porcentaje total de aciertos
# 2. Accuracy de validacion
accuracy_v = accuracy_score(y_val, y_pred_val)
# Imprimimos las m√©tricas %
print("Accuracy:", accuracy_v * 100)

In [None]:
# ---------------------------------------
#     üîÆ PREDICCI√ìN CON EL MODELO
# ---------------------------------------

# Usamos el modelo ya entrenado para hacer predicciones sobre los datos de prueba (X_test)
# El resultado (y_pred) ser√° un array con las clases predichas para cada observaci√≥n de prueba
y_pred = modelo.predict(X_test)

In [None]:
# ------------------------------------
# üìè M√âTRICAS DE EVALUACI√ìN DEL MODELO
# ------------------------------------
# 1. Accuracy de prueba
# üîπ Accuracy: porcentaje total de aciertos
accuracy_p = accuracy_score(y_test, y_pred)
# Imprimimos las m√©tricas %
print("Accuracy:", accuracy_p * 100)


# Vizualizaci√≥n de informaci√≥n

In [None]:
# ------------------------------------
#       üìä MATRIZ DE CONFUSI√ìN
# ------------------------------------

# Calculamos la matriz de confusi√≥n comparando los valores reales (y_test)
# con las predicciones hechas por el modelo (y_pred)
# La matriz indica cu√°ntas predicciones fueron correctas y cu√°ntas se equivocaron
cm = confusion_matrix(y_test, y_pred)

# --------------------------------------------
#      üìà GR√ÅFICO DE LA MATRIZ DE CONFUSI√ìN
# --------------------------------------------

# Usamos seaborn para crear un mapa de calor (heatmap) de la matriz
# 'annot=True' muestra los n√∫meros en cada celda
# 'fmt="d"' indica que los valores son enteros
# 'cmap="Blues"' da el color azul al gr√°fico
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")

# Etiquetas de los ejes
plt.xlabel("Predicci√≥n")    # Eje X: lo que predijo el modelo
plt.ylabel("Verdadero")     # Eje Y: las clases reales
plt.title("Matriz de Confusi√≥n")  # T√≠tulo del gr√°fico

# Muestra el gr√°fico en pantalla
plt.show()

#Exportar modelo ML

In [None]:
#Exportar modelo de machine learning
import joblib # joblib sirve para serializar eficientemente objetos Python,
               # en especial modelos de machine learning, permitiendo guardarlos
               # y cargarlos m√°s r√°pido, lo cual es √∫til para la persistencia.

joblib.dump(modelo, 'modelo_iris.pkl')
# Esta l√≠nea utiliza la funci√≥n 'dump' de joblib para guardar (serializar) el
# objeto Python llamado 'modelo' (que se asume es un modelo de Machine Learning
# previamente entrenado, como un clasificador de Scikit-learn) en un archivo
# binario llamado 'modelo_iris.pkl'. Esto permite reutilizar el modelo sin tener
# que entrenarlo de nuevo.


#Cargar modelo ML


In [None]:
# Nombre del archivo donde se guard√≥ el modelo
nombre_archivo = 'modelo_iris.pkl'

# Cargar el modelo desde el archivo binario
# El modelo cargado se asigna a la variable 'modelo_cargado'
modelo_cargado = joblib.load(nombre_archivo)

print(f"‚úÖ Modelo cargado exitosamente desde '{nombre_archivo}'.")
