# **Modelo de Aprendizaje Automático Supervisado: Clasificación**

In [None]:
#---------------------------------------------------------------------------------
# Modelo de Aprendizaje Automático Supervisado: Clasificación
#---------------------------------------------------------------------------------
# Este notebook implementa un modelo de clasificación supervisado utilizando el conjunto de datos Iris,
# uno de los datasets clásicos en el campo del aprendizaje automático. A diferencia de los problemas
# de regresión, la clasificación implica predecir una categoría o clase discreta. En este caso,
# las clases corresponden a tres tipos de flores Iris.

#---------------------------------------------------------------------------------
# Paso 1: Importación de Bibliotecas
#---------------------------------------------------------------------------------
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
from sklearn.datasets import load_iris

#---------------------------------------------------------------------------------
# Paso 2: Carga del Conjunto de Datos
#---------------------------------------------------------------------------------
# El dataset de Iris contiene características de tres tipos de flores: Setosa, Versicolor y Virginica.
#---------------------------------------------------------------------------------
dataset = load_iris()
X, y = dataset.data, dataset.target

#---------------------------------------------------------------------------------
# Paso 3: División de los Datos
#---------------------------------------------------------------------------------
# Separamos los datos en entrenamiento (70%), prueba (15%) y validación (15%)
#---------------------------------------------------------------------------------
X_train, X_temp, y_train, y_temp = train_test_split( X,      y,      test_size = 0.30, random_state = 42 )
X_test,  X_val,  y_test,  y_val  = train_test_split( X_temp, y_temp, test_size = 0.50, random_state = 42 )

#---------------------------------------------------------------------------------
# Paso 4: Escalado de los Datos
#---------------------------------------------------------------------------------
# Normalizamos los datos de prueba y de validación para mejorar el rendimiento del modelo
#---------------------------------------------------------------------------------
scaler = StandardScaler()
X_train       = scaler.fit_transform( X_train )
X_test, X_val = scaler.transform( X_test ), scaler.transform( X_val )


#---------------------------------------------------------------------------------
# Paso 5: Creación y Entrenamiento del Modelo
#---------------------------------------------------------------------------------
# Usamos un Árbol de Decisión para la clasificación: DecisionTreeClassifier
#
#   criterion               decide cómo se divide el árbol: 'gini', 'entropy'
#   max_depth               profundidad máxima del árbol. Entero o None (sin límite)
#   min_samples_split       muestras mínimas para dividir un nodo interno
#   min_samples_leaf        muestras mínimas por hoja
#   max_features            subconjunto aleatorio de características: None, 'sqrt', 'log2'
#   random_state            semilla para la reproducibilidad: entero o None
#   max_leaf_nodes          máximo de nodos por hoja en el árbol
#   min_impurity_decrease   umbral para la reduccion mínima en cada división, si la reducción de impureza es menor, la división NO se realiza
#   splitter                estrategia para dividir un nodo: 'best' (según el criterion), 'random'
#   class_weight            peso balanceado de las clases y útil si las clases no están balanceadas: 'balanced', 'dictionary', None
#---------------------------------------------------------------------------------
classifier = DecisionTreeClassifier(
    #criterion              = ,
    #max_depth              = ,
    #min_samples_split      = ,
    #min_samples_leaf       = ,
    #max_features           = ,
    #random_state           = ,
    #max_leaf_nodes         = ,
    #min_impurity_decrease  = ,
    #splitter               = ,
    #class_weight           =
)
classifier.fit( X_train, y_train )

#---------------------------------------------------------------------------------
# Paso 6: Predicciones y Evaluación
#---------------------------------------------------------------------------------
# Realizamos predicciones con el conjunto de datos de prueba
#---------------------------------------------------------------------------------
y_test_pred = classifier.predict( X_test )

#---------------------------------------------------------------------------------
# Paso 7: Matriz de Confusión
#---------------------------------------------------------------------------------
# Evaluamos el desempeño del modelo comparando predicciones con valores reales
#---------------------------------------------------------------------------------
plt.figure( figsize = ( 8, 6 ) )
cm = confusion_matrix( y_test, y_test_pred )
sns.heatmap( cm, annot = True, fmt = 'd', cmap = 'Blues', xticklabels = dataset.target_names, yticklabels = dataset.target_names )
plt.xlabel( 'Clase Predicha' )
plt.ylabel( 'Clase Verdadera' )
plt.title(  'Matriz de Confusión' )
plt.show()

#---------------------------------------------------------------------------------
# Paso 8: Visualización del Árbol de Decisión
#---------------------------------------------------------------------------------
# Lista de características en español
atributos_espanol = [ 'longitud del sépalo (cm)', 'anchura del sépalo (cm)', 'longitud del pétalo (cm)', 'anchura del pétalo (cm)' ]

# Representamos gráficamente la estructura del árbol para analizar sus decisiones
plt.figure( figsize = ( 12, 8 ) )
#plot_tree(classifier, feature_names=dataset.feature_names, class_names=dataset.target_names, filled=True)
plot_tree( classifier, feature_names = atributos_espanol, class_names = dataset.target_names, filled = True )
plt.title( "Árbol de Decisión" )
plt.show()
