In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 1. Carregar o Dataset
try:
    df = pd.read_csv("Steam_2024_bestRevenue_1500.csv")  # Nome correto do arquivo
except FileNotFoundError:
    print("Arquivo não encontrado. Certifique-se de que 'Steam_2024_bestRevenue_1500.csv' está no mesmo diretório.")
    exit()



# 2. Limpeza e Pré-processamento

# Converter 'releaseDate' para datetime e extrair o ano
df['releaseDate'] = pd.to_datetime(df['releaseDate'], errors='coerce')
df['Release Year'] = df['releaseDate'].dt.year

# Converter publisherClass para string
df['publisherClass'] = df['publisherClass'].astype(str)

# Selecionar colunas relevantes e criar/transformar features
df = df[['name', 'revenue', 'price', 'copiesSold', 'avgPlaytime', 'reviewScore', 'publisherClass','Release Year']] # 'steamId' pode ser útil como ID, mas não como feature
df.rename(columns={'revenue': 'Revenue'}, inplace=True) # Padronizar nome da coluna alvo


# 3. Tratar valores faltantes (imputação com a mediana para numéricas, mais frequente para categóricas)

numerical_features = ['price', 'copiesSold', 'avgPlaytime', 'reviewScore', 'Release Year']
categorical_features = ['publisherClass']

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])


# 4. Dividir em Treino e Teste (antes do pré-processamento final)
X = df.drop('Revenue', axis=1)
y = df['Revenue']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Armazenar os nomes dos jogos ANTES do pré-processamento
X_train_names = X_train['name']
X_test_names = X_test['name']

# Remover a coluna 'name' do X_train e X_test para o treinamento do modelo
X_train = X_train.drop('name', axis=1)
X_test = X_test.drop('name', axis=1)


# 5. Pré-processamento com ColumnTransformer (após a divisão treino/teste)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# 6. Pipeline do Modelo
model = Pipeline(steps=[('preprocessor', preprocessor),
                           ('regressor', RandomForestRegressor(random_state=42))])

# 7. Treinar o Modelo
model.fit(X_train, y_train)


# 8. Avaliar o Modelo
y_pred = model.predict(X_test)

# Criar DataFrames com as previsões e os nomes dos jogos para o conjunto de teste
test_comparison = pd.DataFrame({'name': X_test_names, 'Real': y_test, 'Previsto': y_pred})
test_comparison = pd.merge(test_comparison, X_test, on=X_test.index).drop(columns=['key_0']).reset_index(drop=True) # Usar .index como chave


y_train_pred = model.predict(X_train)
# Criar DataFrames com as previsões e os nomes dos jogos para o conjunto de treino
train_comparison = pd.DataFrame({'name': X_train_names, 'Real': y_train, 'Previsto': y_train_pred})
train_comparison = pd.merge(train_comparison, X_train, on=X_train.index).drop(columns=['key_0']).reset_index(drop=True)  # Usar .index como chave



rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared: {r2}")

RMSE: 1177379.5072550725
R-squared: 0.9973243302364824


RMSE: 1177379.5072550725
R-squared: 0.9973243302364824

In [2]:
print("\nDados de Treino (Amostra):")
print(train_comparison.sample(5))


Dados de Treino (Amostra):
                                 name      Real   Previsto  price  copiesSold  \
875                       New Star GP  286736.0  314823.34  29.99       16009   
111                  Old School Rally  105556.0   93887.36   9.99       12741   
475                           Abathor   31842.0   31445.81  14.99        2593   
1001                        CONSCRIPT  309785.0  311599.36  19.99       17794   
565   BROKE PROTOCOL: Online City RPG  183531.0  392326.55   9.99       98931   

      avgPlaytime  reviewScore publisherClass  Release Year  
875      8.869371            0          Indie        2024.0  
111      3.332885           93          Indie           NaN  
475      5.040102           91          Indie           NaN  
1001     8.943198           95             AA           NaN  
565      9.725359           75          Indie           NaN  


In [3]:
print("\nDados de Teste (Amostra):")
print(test_comparison.sample(5))


Dados de Teste (Amostra):
                                   name          Real      Previsto  price  \
151                    Gym Simulator 24  8.843300e+05  7.846235e+05  10.99   
296        Cats Hidden Around the World  3.952700e+04  4.323314e+04   4.99   
101                        Sex Faculty🔞  4.666800e+04  5.761442e+04   9.99   
60                               ReRoad  5.544000e+04  4.518083e+04  14.99   
248  Yi Xian: The Cultivation Card Game  1.039161e+06  1.568522e+06   0.00   

     copiesSold  avgPlaytime  reviewScore publisherClass  Release Year  
151      109135     4.271517           90          Indie           NaN  
296       10740     2.280300           97          Indie        2024.0  
101        7182     1.886637           76          Indie        2024.0  
60         4185     5.110954           78          Indie           NaN  
248      286872    55.016630           75             AA           NaN  


In [4]:
# Solicitar o nome do jogo ao usuário
nome_jogo = "Hades II"

# Buscar o jogo no conjunto de treino
jogo_treino = train_comparison[train_comparison['name'] == nome_jogo]

# Buscar o jogo no conjunto de teste
jogo_teste = test_comparison[test_comparison['name'] == nome_jogo]

# Imprimir os resultados
if not jogo_treino.empty:
    print("\nJogo encontrado no conjunto de TREINO:")
    print(jogo_treino)
elif not jogo_teste.empty:
    print("\nJogo encontrado no conjunto de TESTE:")
    print(jogo_teste)
else:
    print("\nJogo não encontrado nos conjuntos de treino ou teste.")

SyntaxError: unterminated string literal (detected at line 2) (1584419061.py, line 2)