# Pulizia "releases.csv"

In [1]:
import pandas as pd
import os

In [2]:
# Risali alla cartella "Solutions"
script_dir = os.getcwd()
solutions_dir = os.path.abspath(os.path.join(script_dir, ".."))

# Imposta "Data" come directory di lavoro
data_dir = os.path.join(solutions_dir, "Data")
os.chdir(data_dir)  # Cambia la directory di lavoro

# Ora puoi riferirti direttamente ai file dentro "Data"
file_path = os.path.join("main_data", "releases.csv")

# Costruisce il percorso relativo al file CSV pulito
clean_path = os.path.join(data_dir, "clean_data")

# Controlla che il file esista prima di caricarlo
if not os.path.exists(file_path):
    raise FileNotFoundError(f"Il file non esiste: {file_path}")

# Carica il CSV in un DataFrame
df = pd.read_csv(file_path)

In [3]:
# Sostituisce i valori nulli con "Unknown"
df['country'] = df['country'].fillna("Unknown")
df['date'] = df['date'].fillna("Unknown")
df['type'] = df['type'].fillna("Unknown")
df['rating'] = df['rating'].fillna("Unknown")

In [4]:
# Salva il file pulito
cleaned_csv_path = os.path.join(clean_path, "releases_cleaned.csv")
df.to_csv(cleaned_csv_path, index=False, encoding="utf-8")

# Caricamento file csv pulito nel database con MongoDB


In [5]:
from pymongo import MongoClient

In [6]:
# Configura MongoDB (modifica se necessario)
MONGO_URL = "mongodb://localhost:27017/"
DB_NAME = "ium_database"
COLLECTION_NAME = "releases_data"

# Connessione a MongoDB
client = MongoClient(MONGO_URL)
db = client[DB_NAME]
collection = db[COLLECTION_NAME]

# Carica il CSV con Pandas
df = pd.read_csv(cleaned_csv_path)

# Converte il DataFrame in JSON-like per MongoDB
data = df.to_dict(orient="records")

# Usa insert_many() per inserire tutto in un'unica operazione (molto più veloce)
collection.insert_many(data, ordered=False); #il ; non fa stampare l'output su jupyter