In [45]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [46]:
df = pd.read_csv('Data/video_games_sales_completo.csv')

In [47]:
print(df.columns)

Index(['Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Ventas_Clase',
       'Nota PEGI', 'User Score', 'User Ratings Count', 'Platforms Info',
       'Estado_Consola', 'Price', 'Price_Platform', 'Year_Consola',
       'Play Time', 'Modo Juego', 'Años_desde_lanzamiento_consola',
       'Precio_relativo', 'PEGI_categoria', 'Duracion_juego_cat'],
      dtype='object')


In [50]:
# Definicion de variables
X = df.drop(columns=['Ventas_Clase', 'Global_Sales', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Name', 'User Ratings Count', 'Platforms Info', 'Nota PEGI','Play Time'])  # Variables independientes
y = df['Ventas_Clase']                                  # Variable dependiente

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir las columnas categóricas para One-Hot Encoding
categorical_columns = ['Platform', 'Year', 'Genre', 'Publisher', 'PEGI_categoria', 'Estado_Consola', 'Year_Consola', 'Modo Juego', 'Duracion_juego_cat']

# Crear un transformador para las columnas categóricas (One-Hot Encoding)
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), categorical_columns),  # One-Hot Encoding en las columnas categóricas
        ('num', StandardScaler(), X.select_dtypes(include=['float64', 'int64']).columns)  # Escalado en columnas numéricas
    ])

# Crear el pipeline que primero realiza la transformación y luego aplica el modelo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=300))
])

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Hacer predicciones
y_pred = pipeline.predict(X_test)

# Evaluar el modelo
print(f"Exactitud: {accuracy_score(y_test, y_pred)}")
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

Exactitud: 0.502460024600246
Matriz de confusión:
[[199 122  63 278]
 [ 66 936  16 277]
 [117  30  90  78]
 [160 382  29 409]]
Reporte de clasificación:
              precision    recall  f1-score   support

        Alta       0.37      0.30      0.33       662
        Baja       0.64      0.72      0.68      1295
  Gran Éxito       0.45      0.29      0.35       315
       Media       0.39      0.42      0.40       980

    accuracy                           0.50      3252
   macro avg       0.46      0.43      0.44      3252
weighted avg       0.49      0.50      0.49      3252





In [51]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy del modelo: {accuracy:.2f}")

Accuracy del modelo: 0.50
