In [None]:
###
# Importar librerias necesarias para el procesamiento del dataframe
###

'''Pandas para la lectura del archivo'''
import pandas as pd

'''Sns y plt para organizar los graficos visuales'''
import seaborn as sns
import matplotlib.pyplot as plt

###
# Importar librerias necesarias del modelo, el entrenamiendo y las métricas
###

'''Train test split para dividir el data frame en partes'''
from sklearn.model_selection import train_test_split

'''Modelo de ejecución de entrenamiento'''
from sklearn.tree import DecisionTreeClassifier

'''Metricas de desempeño'''
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

'''Escaladores de caracteristicas para este caso la variable de estudio'''
from sklearn.preprocessing import StandardScaler

'''Pipelines para transformar los datos procesados y el modelo'''
from sklearn.pipeline import Pipeline

#
# Importar el archivo csv del set online llamado winequality-red.csv
#
df = pd.read_csv('/content/sample_data/winequality-red.csv')

#
# 1. Para este caso de estudio todas las variables se filtran por un proceso
# de análisis y se visualizan a travéz de graficos de puntos las relaciones
# entre variables y la variable dependiente
#
sns.pairplot(df, hue='quality') # Para visualizaciones multivariables
plt.show()

#
# 2. Preprocesamiento y Selección de Características
#
features = df.drop('quality', axis=1)
target = df['quality']

#
# 3. Selección de caracteristicas relevantes, para este caso se toman todas
# las que serán procesadas poseriormente en base a la variable de pendiente
#

#
# Escalado de características
#
scaler = StandardScaler()
X_scaled = scaler.fit_transform(features)

#
# Pipeline de preprocesamiento y entrenamiento del modelo
#
pipeline = Pipeline([
     ('scaler', scaler),
     ('classifier', DecisionTreeClassifier(random_state=42))
])

#
# 4. Dividir el conjunto de datos
#
X_train, X_test, y_train, y_test = train_test_split(X_scaled, target, test_size=0.2, random_state=42)

#
# 5. Entrenamiento del modelo
#
pipeline.fit(X_train, y_train)

#
# 6. Evaluación del desempeño del modelo
#
y_pred = pipeline.predict(X_test)

ac_score = accuracy_score(y_test, y_pred)
cl_report = classification_report(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

print(f"Accuracy: {ac_score}")
print(f"Classification Report: {cl_report}")
print(f"Confusion Matrix: {conf_matrix}")

#
# 7. Generar y mostrar la matriz de confusión
#
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='g')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()