In [1]:
# Paso 1: Preparación de los Datos

# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split

In [3]:
# Cargar el conjunto de datos
data = pd.read_csv('wine-quality.csv')

In [4]:
# Verificar valores faltantes
print(data.isnull().sum())  # Verifica si hay valores nulos

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64


In [5]:
# Si hay valores nulos, se pueden manejar así (ejemplo: eliminar filas con valores nulos)
data = data.dropna()

In [6]:
# Dividir en características (X) y el objetivo (y)
X = data.drop('quality', axis=1)  # Características
y = data['quality']  # Objetivo

In [7]:
# Dividir los datos en conjunto de entrenamiento y prueba (opcional para el paso de entrenamiento)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
# Paso 2: Construcción del Modelo de Regresión

# Importar la clase RandomForestRegressor de Scikit-Learn
from sklearn.ensemble import RandomForestRegressor

In [9]:
# Crear el modelo de Random Forest para regresión
# Puedes ajustar 'n_estimators' para definir el número de árboles
model = RandomForestRegressor(n_estimators=100, random_state=42)

In [10]:
# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

In [11]:
# Paso 3: Evaluación del Modelo de Regresión

# Importar las métricas de evaluación
from sklearn.metrics import mean_squared_error, r2_score

In [12]:
# Realizar predicciones con el modelo en el conjunto de prueba
y_pred = model.predict(X_test)

In [13]:
# Calcular el Error Cuadrático Medio (MSE)
mse = mean_squared_error(y_test, y_pred)

In [14]:
# Calcular el Coeficiente de Determinación (R²)
r2 = r2_score(y_test, y_pred)

In [15]:
# Mostrar los resultados
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de Determinación (R²): {r2}")

Error Cuadrático Medio (MSE): 0.34775581632653063
Coeficiente de Determinación (R²): 0.5509775612930288


Parte 2 

In [16]:
# Paso 1: Preparación de los Datos

# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split


In [18]:
# Cargar el conjunto de datos
data = pd.read_csv('wine-quality.csv')

In [19]:
# Verificar valores faltantes
print(data.isnull().sum())  # Verifica si hay valores nulos

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64


In [20]:
# Si hay valores nulos, puedes eliminarlos (o usar otra técnica de imputación)
data = data.dropna()

In [21]:
# Dividir en características (X) y etiquetas de clase (y)
X = data.drop('quality', axis=1)  # Características
y = data['quality']  # Etiquetas de clase

In [22]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [23]:
# Paso 2: Construcción del Modelo de Clasificación

# Importar la clase RandomForestClassifier de Scikit-Learn
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Crear el modelo de Random Forest para clasificación
# Puedes ajustar 'n_estimators' para definir el número de árboles
model = RandomForestClassifier(n_estimators=100, random_state=42)

In [24]:
# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

In [25]:
# Paso 3: Evaluación del Modelo de Clasificación

# Importar las métricas de evaluación
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [26]:
# Realizar predicciones con el modelo en el conjunto de prueba
y_pred = model.predict(X_test)


In [38]:
print(y_test[:5])  # Verifica los primeros 5 valores de y_test
print(y_pred[:5])  # Verifica los primeros 5 valores de y_pred

4656    7
3659    8
907     8
4352    5
3271    7
Name: quality, dtype: int64
[6.85 7.58 6.59 5.12 6.85]


In [39]:
# Si son valores continuos, convertirlos a enteros (si corresponde)
y_test = y_test.astype(int)
y_pred = y_pred.astype(int)


In [46]:
# Ahora calcula las métricas de clasificación
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)

In [47]:
# Calcular el recall
recall = recall_score(y_test, y_pred, average='weighted')

In [48]:
# Calcular el F1-score
f1 = f1_score(y_test, y_pred, average='weighted')

In [49]:
# Mostrar los resultados
print(f"Precisión: {precision}")
print(f"Recall: {recall}")
print(f"F1-score: {f1}")

Precisión: 0.5032415705412601
Recall: 0.48673469387755103
F1-score: 0.43983964887304966
