In [None]:
#---------------------------------------------- Creación DATAFRAMES ------------------------------------------------#

In [None]:
# Uso de biblioteca para la codificación de textos

In [9]:
pip install ftfy

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
#Paso 1: Leer Datos de MongoDB, Exportar a JSON y CSV

In [13]:
import pandas as pd
import os
from pymongo import MongoClient
import json
from bson import ObjectId

# Conexión a MongoDB
client = MongoClient('mongodb+srv://Safron:Safron1234@cluster0.vnngk.mongodb.net/', serverSelectionTimeoutMS=5000)
db = client['world_cup_data']

# Función para leer registros de MongoDB en fragmentos más pequeños
def read_mongo(collection_name, batch_size=5000):
    collection = db[collection_name]
    data = []
    skip = 0
    while True:
        batch = list(collection.find().skip(skip).limit(batch_size))
        if not batch:
            break
        data.extend(batch)
        skip += batch_size
    df = pd.DataFrame(data)
    return df

# Función para convertir ObjectId a cadena
def convert_objectid(x):
    if isinstance(x, ObjectId):
        return str(x)
    return x

# Listas para almacenar los dataframes
dataframes = []
collection_names = ['actions', 'events_World_Cup', 'features', 'games', 'player_games', 'playerank', 'players']

# Leer registros y combinar dataframes
for collection_name in collection_names:
    df_mongo = read_mongo(collection_name)
    
    # Convertir ObjectId a cadena
    df_mongo = df_mongo.applymap(convert_objectid)
    
    # Rellenar valores NaN con datos similares usando interpolación
    df_mongo = df_mongo.ffill().bfill()
    
    # Excluir registros con valores NaN
    df_mongo = df_mongo.dropna()
    
    # Agregar el dataframe a la lista
    dataframes.append(df_mongo)

# Combinar todos los dataframes en uno solo
final_combined_df = pd.concat(dataframes, ignore_index=True)

# Crear carpetas para almacenar los archivos si no existen
os.makedirs('df_json', exist_ok=True)
os.makedirs('df_csv', exist_ok=True)

# Exportar el dataframe combinado a formatos JSON y CSV
json_filename = os.path.join('df_json', "final_combined_dataframe.json")
with open(json_filename, 'w', encoding='utf-8') as f:
    json.dump(final_combined_df.to_dict(orient='records'), f, ensure_ascii=False, indent=4)

csv_filename = os.path.join('df_csv', "final_combined_dataframe.csv")
final_combined_df.to_csv(csv_filename, index=False, encoding='utf-8')

print(f"DataFrame combinado exportado a {json_filename} y {csv_filename}")


  df_mongo = df_mongo.applymap(convert_objectid)


DataFrame combinado exportado a df_json\final_combined_dataframe.json y df_csv\final_combined_dataframe.csv


In [None]:
# Paso 2: Leer los Archivos CSV y Convertirlos a JSON

In [14]:
# Lista de nombres de archivos CSV
csv_files = ["df_csv/final_combined_dataframe.csv"]

# Leer y convertir los archivos CSV a JSON
for csv_file in csv_files:
    if os.path.exists(csv_file):
        # Leer el archivo CSV
        df = pd.read_csv(csv_file, encoding='utf-8')
        
        # Exportar a JSON
        json_filename = os.path.join('df_json', "converted_from_csv_combined.json")
        with open(json_filename, 'w', encoding='utf-8') as f:
            json.dump(df.to_dict(orient='records'), f, ensure_ascii=False, indent=4)
        
        print(f"CSV combinado convertido a JSON y exportado a {json_filename}")
    else:
        print(f"El archivo {csv_file} no existe.")


  df = pd.read_csv(csv_file, encoding='utf-8')


CSV combinado convertido a JSON y exportado a df_json\converted_from_csv_combined.json


In [None]:
# Paso 3: Leer el Archivo JSON y Convertirlo a CSV

In [15]:
# Lista de nombres de archivos JSON combinados
combined_json_files = ["df_json/converted_from_csv_combined.json"]

# Leer y convertir el archivo JSON a CSV
for json_file in combined_json_files:
    if os.path.exists(json_file):
        # Leer el archivo JSON
        with open(json_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
            df = pd.DataFrame(data)
        
        # Exportar a CSV
        csv_filename = os.path.join('df_csv', "final_combined_from_json.csv")
        df.to_csv(csv_filename, index=False, encoding='utf-8')
        
        print(f"JSON combinado convertido a CSV y exportado a {csv_filename}")
    else:
        print(f"El archivo {json_file} no existe.")


JSON combinado convertido a CSV y exportado a df_csv\final_combined_from_json.csv


In [None]:
# Paso 4: Eliminar Archivos Anteriores y Dejar Solo el JSON y CSV Combinados

In [16]:
import glob

# Eliminar archivos JSON y CSV anteriores
json_files_to_delete = glob.glob('df_json/final_dataframe_*.json')
csv_files_to_delete = glob.glob('df_csv/final_dataframe_*.csv')

for file in json_files_to_delete + csv_files_to_delete:
    os.remove(file)
    print(f"Archivo eliminado: {file}")

# Dejar solo el JSON y CSV combinados
print("Archivos anteriores eliminados. Solo quedan el JSON y CSV combinados.")


Archivos anteriores eliminados. Solo quedan el JSON y CSV combinados.


In [None]:
# Paso 4: Mostrar los Primeros 10 Registros del Archivo JSON Combinado

In [17]:
# Lista de nombres de archivos JSON combinados
combined_json_files = ["df_json/converted_from_csv_combined.json"]

# Leer y mostrar los primeros 10 registros del archivo JSON combinado
for json_file in combined_json_files:
    if os.path.exists(json_file):
        # Leer el archivo JSON
        with open(json_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
            df = pd.DataFrame(data)
        
        # Mostrar los primeros 10 registros
        print("Primeros 10 registros del DataFrame combinado (JSON):")
        print(df.head(10))
        print("\n")
    else:
        print(f"El archivo {json_file} no existe.")


Primeros 10 registros del DataFrame combinado (JSON):
                        _id  Unnamed: 0    game_id  period_id  time_seconds  \
0  679b047032822233cc19e2ad     20000.0  2500026.0        2.0    381.385169   
1  679b047032822233cc19e2ae     20001.0  2500026.0        2.0    384.490390   
2  679b047032822233cc19e2af     20002.0  2500026.0        2.0    386.561951   
3  679b047032822233cc19e2b0     20003.0  2500026.0        2.0    386.759963   
4  679b047032822233cc19e2b1     20004.0  2500026.0        2.0    388.934157   
5  679b047032822233cc19e2b2     20005.0  2500026.0        2.0    392.057843   
6  679b047032822233cc19e2b3     20006.0  2500026.0        2.0    394.949059   
7  679b047032822233cc19e2b4     20007.0  2500026.0        2.0    398.314063   
8  679b047032822233cc19e2b5     20008.0  2500026.0        2.0    401.679067   
9  679b047032822233cc19e2b6     20009.0  2500026.0        2.0    404.461242   

   team_id  player_id  start_x  start_y  end_x  ...  lastName  currentTeamId