In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.metrics import confusion_matrix, classification_report

# 1. Carregar o Dataset
try:
    df = pd.read_csv("Steam_2024_bestRevenue_1500.csv")  # Nome correto do arquivo
except FileNotFoundError:
    print("Arquivo não encontrado. Certifique-se de que 'Steam_2024_bestRevenue_1500.csv' está no mesmo diretório.")
    exit()



# 2. Limpeza e Pré-processamento

# Converter 'releaseDate' para datetime e extrair o ano
df['releaseDate'] = pd.to_datetime(df['releaseDate'], errors='coerce')
df['Release Year'] = df['releaseDate'].dt.year

# Converter publisherClass para string
df['publisherClass'] = df['publisherClass'].astype(str)

# Selecionar colunas relevantes e criar/transformar features
df = df[['name', 'revenue', 'price', 'copiesSold', 'avgPlaytime', 'reviewScore', 'publisherClass','Release Year']] # 'steamId' pode ser útil como ID, mas não como feature
df.rename(columns={'revenue': 'Revenue'}, inplace=True) # Padronizar nome da coluna alvo

# Criar categorias de receita (exemplo)
df['Revenue_Category'] = pd.qcut(df['Revenue'], q=3, labels=['Baixa', 'Média', 'Alta']) # Divide em 3 categorias com base nos quartis

# 3. Tratar valores faltantes (imputação com a mediana para numéricas, mais frequente para categóricas)

numerical_features = ['price', 'copiesSold', 'avgPlaytime', 'reviewScore', 'Release Year']
categorical_features = ['publisherClass']

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])


# 4. Dividir em Treino e Teste (antes do pré-processamento final)
X = df.drop(['Revenue', 'Revenue_Category'], axis=1)  # Remove ambas as colunas de receita
y = df['Revenue_Category'] # Define 'Revenue_Category' como alvo (y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Armazenar os nomes dos jogos ANTES do pré-processamento
X_train_names = X_train['name']
X_test_names = X_test['name']

# Remover a coluna 'name' do X_train e X_test para o treinamento do modelo
X_train = X_train.drop('name', axis=1)
X_test = X_test.drop('name', axis=1)


# 5. Pré-processamento com ColumnTransformer (após a divisão treino/teste)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# 6. Pipeline do Modelo
model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', RandomForestRegressor(random_state=42))])

# 7. Treinar o Modelo
model.fit(X_train, y_train)


# 8. Avaliar o Modelo
y_pred = model.predict(X_test)

# Calcular a matriz de confusão
cm = confusion_matrix(y_test, y_pred, labels=['Baixa', 'Média', 'Alta'])

# Imprimir a matriz de confusão
print("Matriz de Confusão:")
print(cm)

ValueError: could not convert string to float: 'Média'

In [None]:
# Criar DataFrames com as previsões e os nomes dos jogos para o conjunto de teste
test_comparison = pd.DataFrame({'name': X_test_names, 'Real': y_test, 'Previsto': y_pred})
test_comparison = pd.merge(test_comparison, X_test, on=X_test.index).drop(columns=['key_0']).reset_index(drop=True) # Usar .index como chave


y_train_pred = model.predict(X_train)
# Criar DataFrames com as previsões e os nomes dos jogos para o conjunto de treino
train_comparison = pd.DataFrame({'name': X_train_names, 'Real': y_train, 'Previsto': y_train_pred})
train_comparison = pd.merge(train_comparison, X_train, on=X_train.index).drop(columns=['key_0']).reset_index(drop=True)  # Usar .index como chave



rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared: {r2}")

RMSE: 1177379.5072550725
R-squared: 0.9973243302364824

In [None]:
print("\nDados de Treino (Amostra):")
print(train_comparison.sample(5))

In [None]:
print("\nDados de Teste (Amostra):")
print(test_comparison.sample(5))