# Comparador de JSONs
Aquest notebook té com a objectiu fer un anàlisi profund dels diferents formats de JSON que les diferents màquines presenten. 
El notebook conté una classe que gestiona els JSONs a partir dels seus csv's originals, i els emmagatzema a un diccionari per a poder iterar i estudiar-lo fàcilment. 


In [1]:
import os
import pandas as pd
import json

In [None]:
class GestorJSONs:
    def __init__(self, carpeta_csv, columna_json):
        # Carpeta on es troben els fitxers CSV
        self.carpeta_csv = carpeta_csv
        # Nom de la columna que conté el JSON
        self.columna_json = columna_json
        # Diccionari per guardar els JSONs extrets
        self.jsons_per_fitxer = {}

    def carregar_jsons(self):
        # Iterem per tots els fitxers CSV de la carpeta
        for fitxer in os.listdir(self.carpeta_csv):
            if fitxer.endswith(".csv"):
                ruta_fitxer = os.path.join(self.carpeta_csv, fitxer)
                try:
                    # Llegim el CSV
                    df = pd.read_csv(ruta_fitxer, sep=";", encoding="utf-8")
                    # Extreiem el primer JSON de la columna indicada
                    if self.columna_json in df.columns and not df[self.columna_json].empty:
                        json_text = df[self.columna_json].iloc[0]
                        json_obj = json.loads(json_text)
                        # Guardem el JSON en el diccionari
                        self.jsons_per_fitxer[fitxer] = json_obj
                except Exception as e:
                    print(f"Error amb el fitxer {fitxer}: {e}")

    def mostrar_claus(self):
        # Mostrem les claus principals de cada JSON
        for fitxer, json_obj in self.jsons_per_fitxer.items():
            print(f"\nFitxer: {fitxer}")
            print(f"Claus principals: {list(json_obj.keys())}")

# Exemple d'ús
gestor = GestorJSONs(carpeta_csv="ruta/a/la/carpeta", columna_json="Missatge")
gestor.carregar_jsons()
gestor.mostrar_claus()

In [3]:
# open total.csv and split it into 2 csv files based on the 'Maquina' column
columns= [
    "ID", "MsgID", "FechaMensaje", "ReqID", "SgID", "Maquina", "SGVer",
    "ConexionTipoID", "MensajeTipoID", "Mensaje", "FechaModificacion", "UsuarioModificacion"
]
df = pd.read_csv("data/total.csv", sep=";", names =columns, header= None, encoding="utf-8")

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40319 entries, 0 to 40318
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   40319 non-null  int64 
 1   MsgID                40319 non-null  int64 
 2   FechaMensaje         40319 non-null  object
 3   ReqID                40319 non-null  int64 
 4   SgID                 40319 non-null  int64 
 5   Maquina              40319 non-null  object
 6   SGVer                40319 non-null  object
 7   ConexionTipoID       40319 non-null  int64 
 8   MensajeTipoID        40319 non-null  int64 
 9   Mensaje              40319 non-null  object
 10  FechaModificacion    40319 non-null  object
 11  UsuarioModificacion  40319 non-null  object
dtypes: int64(6), object(6)
memory usage: 3.7+ MB
