In [None]:
#!pip install -r Requirements.txt

In [1]:
# =================================================================
# 1. IMPORTA√á√ïES E CONFIGURA√á√ÉO (Executar Primeiro)
# =================================================================
import os
import pandas as pd
import kagglehub
from pymongo import MongoClient

# üìÇ CONFIGURA√á√ÉO CR√çTICA DE DISCO
# Aponta o cache de download para a pasta mapeada no Docker (seu HD f√≠sico).
# Isso evita o erro "No space left on device" da VM.
CACHE_DIR = '/home/jovyan/datasets/kaggle_cache'
os.environ['KAGGLEHUB_CACHE'] = CACHE_DIR

# üîå CONFIGURA√á√ÉO DO MONGODB
# Usa o nome do servi√ßo 'mongo_service' definido no docker-compose
MONGO_URI = "mongodb://root:mongo@mongo_service:27017/?authSource=admin"
DB_NAME = "SteamRecommendations"

print(f"‚öô Configura√ß√£o:")
print(f"   -> Cache Tempor√°rio: {CACHE_DIR}")
print(f"   -> Destino MongoDB: {MONGO_URI.split('@')[1]}") # Mostra apenas o host para confirmar

# =================================================================
# 2. FUN√á√ÉO DE INGEST√ÉO (CARGA EM LOTES)
# =================================================================

def ingest_file_to_mongo(file_path, collection_name):
    """L√™ CSV em peda√ßos e envia para o Mongo para economizar RAM."""
    client = MongoClient(MONGO_URI)
    db = client[DB_NAME]
    collection = db[collection_name]
    
    # Limpa dados antigos para evitar duplica√ß√£o se rodar 2x
    collection.drop()
    print(f"\nüîÑ Processando '{collection_name}'...")
    
    chunk_size = 10000 # Processa 10 mil linhas por vez
    total_inserted = 0
    
    try:
        # L√™ o arquivo CSV
        with pd.read_csv(file_path, chunksize=chunk_size, low_memory=False) as reader:
            for chunk in reader:
                # Converte para formato JSON (lista de dicion√°rios)
                data = chunk.to_dict('records')
                if data:
                    collection.insert_many(data)
                    total_inserted += len(data)
                    print(f"   -> Inseridos: {total_inserted} registros...", end='\r')
        
        print(f"\n‚úÖ Conclu√≠do: {total_inserted} documentos na cole√ß√£o '{collection_name}'.")
        
    except Exception as e:
        print(f"\n‚ùå Erro ao processar {collection_name}: {e}")
    finally:
        client.close()

# =================================================================
# 3. EXECU√á√ÉO DO PIPELINE
# =================================================================

def run_etl(): #def run_etl(custom_path: str, file_map: dict)
    print("‚¨á 1. Baixando dados do Kaggle (Isso pode levar alguns minutos)...")
    try:
        # O download vai para a pasta ./datasets do seu PC
        path = kagglehub.dataset_download("antonkozyriev/game-recommendations-on-steam") #kagglehub.dataset_download(custom_path) #
        print(f"üìÇ Dados baixados em: {path}")
    except Exception as e:
        print(f"‚ùå Erro no download: {e}")
        print("Dica: Verifique se a pasta ./datasets est√° mapeada corretamente no docker-compose.")
        return

    # Lista de arquivos para importar
    files_map = { 
        'games.csv': 'games',
        'users.csv': 'users',
        'recommendations.csv': 'recommendations'
    }
    #files_map = file_map
    print("\nüöÄ 2. Enviando para o MongoDB...")
    
    for csv_file, col_name in files_map.items():
        full_path = os.path.join(path, csv_file)
        if os.path.exists(full_path):
            ingest_file_to_mongo(full_path, col_name)
        else:
            print(f"‚ö† Arquivo {csv_file} n√£o encontrado.")

    # Valida√ß√£o Final
    print("\nüìä 3. Verifica√ß√£o Final do Banco de Dados:")
    client = MongoClient(MONGO_URI)
    db = client[DB_NAME]
    for col in db.list_collection_names():
        count = db[col].count_documents({})
        print(f"   üìÅ {col}: {count:,} documentos")
    client.close()



‚öô Configura√ß√£o:
   -> Cache Tempor√°rio: /home/jovyan/datasets/kaggle_cache
   -> Destino MongoDB: mongo_service:27017/?authSource=admin


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
run_etl() #run_etl("antonkozyriev/game-recommendations-on-steam", file_map = {'games.csv': 'games','users.csv': 'users','recommendations.csv': 'recommendations'})

‚¨á 1. Baixando dados do Kaggle (Isso pode levar alguns minutos)...
Download already complete (692315526 bytes).
Extracting files...
üìÇ Dados baixados em: /home/jovyan/datasets/kaggle_cache/datasets/antonkozyriev/game-recommendations-on-steam/versions/28

üöÄ 2. Enviando para o MongoDB...

üîÑ Processando 'games'...
   -> Inseridos: 50872 registros...
‚úÖ Conclu√≠do: 50872 documentos na cole√ß√£o 'games'.

üîÑ Processando 'users'...
   -> Inseridos: 14306064 registros...
‚úÖ Conclu√≠do: 14306064 documentos na cole√ß√£o 'users'.

üîÑ Processando 'recommendations'...
   -> Inseridos: 41154794 registros...
‚úÖ Conclu√≠do: 41154794 documentos na cole√ß√£o 'recommendations'.

üìä 3. Verifica√ß√£o Final do Banco de Dados:
   üìÅ games: 50,872 documentos
   üìÅ users: 14,306,064 documentos
   üìÅ recommendations: 41,154,794 documentos


In [None]:
import pandas as pd
path = "games.csv"
pd.read_csv(path, engine='python', low_memory=False)

In [None]:
# =================================================================
# 1. IMPORTA√á√ïES E CONFIGURA√á√ÉO (Executar Primeiro)
# =================================================================
import os
import pandas as pd
import kagglehub
from pymongo import MongoClient

# üìÇ CONFIGURA√á√ÉO CR√çTICA DE DISCO
# Aponta o cache de download para a pasta mapeada no Docker (seu HD f√≠sico).
# Isso evita o erro "No space left on device" da VM.
CACHE_DIR = '/home/jovyan/datasets/kaggle_cache'
os.environ['KAGGLEHUB_CACHE'] = CACHE_DIR

# üîå CONFIGURA√á√ÉO DO MONGODB
# Usa o nome do servi√ßo 'mongo_service' definido no docker-compose
MONGO_URI = "mongodb://root:mongo@mongo_service:27017/?authSource=admin"
DB_NAME = "backloggd_raw"

print(f"‚öô Configura√ß√£o:")
print(f"   -> Cache Tempor√°rio: {CACHE_DIR}")
print(f"   -> Destino MongoDB: {MONGO_URI.split('@')[1]}") # Mostra apenas o host para confirmar

# =================================================================
# 2. FUN√á√ÉO DE INGEST√ÉO (CARGA EM LOTES)
# =================================================================

def ingest_file_to_mongo(file_path, collection_name):
    """L√™ CSV em peda√ßos e envia para o Mongo para economizar RAM."""
    client = MongoClient(MONGO_URI)
    db = client[DB_NAME]
    collection = db[collection_name]
    
    # Limpa dados antigos para evitar duplica√ß√£o se rodar 2x
    collection.drop()
    print(f"\nüîÑ Processando '{collection_name}'...")
    
    chunk_size = 50000 # Processa 50 mil linhas por vez
    total_inserted = 0
    
    try:
        # L√™ o arquivo CSV
        with pd.read_csv(file_path, chunksize=chunk_size, low_memory=False) as reader:
            for chunk in reader:
                # Converte para formato JSON (lista de dicion√°rios)
                data = chunk.to_dict('records')
                
                if data:
                    collection.insert_many(data)
                    total_inserted += len(data)
                    print(f"   -> Inseridos: {total_inserted} registros...", end='\r')
        
        print(f"\n‚úÖ Conclu√≠do: {total_inserted} documentos na cole√ß√£o '{collection_name}'.")
        
    except Exception as e:
        print(f"\n‚ùå Erro ao processar {collection_name}: {e}")
    finally:
        client.close()

# =================================================================
# 3. EXECU√á√ÉO DO PIPELINE
# =================================================================

def run_etl():
    print("‚¨á 1. Baixando dados do Kaggle (Isso pode levar alguns minutos)...")
    try:
        # O download vai para a pasta ./datasets do seu PC
        path = kagglehub.dataset_download("gsimonx37/backloggd")
        print(f"üìÇ Dados baixados em: {path}")
    except Exception as e:
        print(f"‚ùå Erro no download: {e}")
        print("Dica: Verifique se a pasta ./datasets est√° mapeada corretamente no docker-compose.")
        return

    # Lista de arquivos para importar
    files_map = {
        'games.csv': 'games',
        'developers.csv': 'developers',
        'platforms.csv': 'platforms',
        'genres.csv': 'genres',
        'scores.csv': 'scores' # Arquivo grande
    }

    print("\nüöÄ 2. Enviando para o MongoDB...")
    
    for csv_file, col_name in files_map.items():
        full_path = os.path.join(path, csv_file)
        if os.path.exists(full_path):
            ingest_file_to_mongo(full_path, col_name)
        else:
            print(f"‚ö† Arquivo {csv_file} n√£o encontrado.")

    # Valida√ß√£o Final
    print("\nüìä 3. Verifica√ß√£o Final do Banco de Dados:")
    client = MongoClient(MONGO_URI)
    db = client[DB_NAME]
    for col in db.list_collection_names():
        count = db[col].count_documents({})
        print(f"   üìÅ {col}: {count:,} documentos")
    client.close()

# Roda o script
if _name_ == "_main_":
    run_etl()