In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import numpy as np

In [8]:
df = pd.read_csv('Data/video_games_sales_completo.csv')

In [9]:
print(df.columns)

Index(['Name', 'Platform', 'Year', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Ventas_Clase',
       'Nota PEGI', 'User Score', 'User Ratings Count', 'Platforms Info',
       'Estado_Consola', 'Price', 'Price_Platform', 'Year_Consola',
       'Play Time', 'Modo Juego', 'Años_desde_lanzamiento_consola',
       'Precio_relativo', 'PEGI_categoria', 'Duracion_juego_cat',
       'Nombre_Base', 'Es_Saga', 'Tipo_Saga', 'Situacion_Economica'],
      dtype='object')


In [10]:
X = df.drop(columns=['Ventas_Clase', 'Global_Sales', 'NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Name', 'Platforms Info', 'Nota PEGI','Play Time','Es_Saga'])  
y = df['Ventas_Clase']

In [11]:

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Definir las columnas categóricas para One-Hot Encoding
categorical_columns = ['Platform', 'Year', 'Genre', 'Publisher', 'PEGI_categoria', 'Estado_Consola', 'Year_Consola', 'Modo Juego', 'Duracion_juego_cat','Tipo_Saga']

# Crear un transformador para las columnas categóricas (One-Hot Encoding)
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), categorical_columns),  # One-Hot Encoding en las columnas categóricas
        ('num', StandardScaler(), X.select_dtypes(include=['float64', 'int64']).columns)  # Escalado en columnas numéricas
    ])

# Crear el pipeline que primero realiza la transformación y luego aplica el modelo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=300))
])

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Hacer predicciones
y_pred = pipeline.predict(X_test)

# Evaluar el modelo
print(f"Exactitud: {accuracy_score(y_test, y_pred)}")
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

Exactitud: 0.6756867568675686
Matriz de confusión:
[[ 124   98  268]
 [  16 2445  421]
 [  54  725  727]]
Reporte de clasificación:
              precision    recall  f1-score   support

        Alta       0.64      0.25      0.36       490
        Baja       0.75      0.85      0.80      2882
       Media       0.51      0.48      0.50      1506

    accuracy                           0.68      4878
   macro avg       0.63      0.53      0.55      4878
weighted avg       0.66      0.68      0.66      4878





In [12]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy del modelo: {accuracy:.2f}")

Accuracy del modelo: 0.68
