In [1]:
# Importar librerías necesarias
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# Cargar el conjunto de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
DatosVino = pd.read_csv(url, sep=';')

def LimpiarDatos(df):
    # Verificar datos nulos
    if df.isnull().sum().any():
        df = df.dropna()
    
    # Asegurar que 'Calidad' sea un entero
    df['Calidad'] = df['quality'].astype(int)
    
    return df

# Limpiar los datos
DatosVino = LimpiarDatos(DatosVino)

def IngeniarCaracteristicas(df):
    df['EsBuena'] = (df['Calidad'] >= 6).astype(int)  # Calidad buena
    # Agregar otras características según sea necesario
    return df

# Ingeniar características
DatosVino = IngeniarCaracteristicas(DatosVino)

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

def ConstruirModelo(df):
    X = df.drop(columns=['quality', 'Calidad', 'EsBuena'])
    y = df['EsBuena']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    Modelo = RandomForestClassifier(n_estimators=100)
    Modelo.fit(X_train, y_train)
    
    y_pred = Modelo.predict(X_test)
    Precision = accuracy_score(y_test, y_pred)
    
    return Precision, classification_report(y_test, y_pred)

Precision, Reporte = ConstruirModelo(DatosVino)
print(f"Precisión: {Precision}\nReporte de Clasificación:\n{Reporte}")


def CalcularKPIs(df):
    kpi_dict = {
        "Precisión": 0,  # Placeholder, calcular después
        "F1 Score": 0,  # Placeholder, calcular después
        "Promedio de alcohol": df[df['EsBuena'] == 1]['alcohol'].mean(),
        "Promedio de acidez": df[df['EsBuena'] == 1]['volatile acidity'].mean(),
        "Número de vinos buenos": df[df['EsBuena'] == 1].shape[0],
        "Proporción de vinos buenos": df[df['EsBuena'] == 1].shape[0] / df.shape[0],
    }
    return kpi_dict

# Calcular KPIs
KPIs = CalcularKPIs(DatosVino)

import os

# Crear la carpeta 'data' si no existe
os.makedirs("data", exist_ok=True)

# Exportar el DataFrame a CSV
DatosVino.to_csv("data/MLChemicalQualityWine.csv", index=False)



Precisión: 0.796875
Reporte de Clasificación:
              precision    recall  f1-score   support

           0       0.77      0.77      0.77       141
           1       0.82      0.82      0.82       179

    accuracy                           0.80       320
   macro avg       0.79      0.79      0.79       320
weighted avg       0.80      0.80      0.80       320

