## 05_Creating a Dataframe using the latest JSON file and the most recent data

Autor: Carlos Wong <br/>
email: carlosawongca@gmail.com <br/>
Fecha: 2023_03_20 <br/>
Objetivo: Creación de dataframe usando el fichero json más reciente y los datos más recientes <br/>
Entrada: 'main_20230320_1636.json' <br/>
Salida: - <br/>
Propósito: Prueba diferentes componentes del proyecto Project Management_Data Analyst <br/>

In [1]:
# librerías estándar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import json
import os
import glob  # devuelve una lista de nombres de archivo que coinciden con un patrón

In [2]:
import warnings
warnings.filterwarnings("ignore")

## 01_Extracción de fichero json más reciente

In [3]:
# Especifica el directorio donde se encuentran los archivos json
dir_path = './jsons'

# Busca todos los archivos que empiezan con 'main' y terminan con '.json'
json_files = glob.glob(f'{dir_path}/main*.json')

# Si no se encontraron archivos json, muestra un mensaje y termina el programa
if not json_files:
    print('No se encontraron archivos de Json.')
    quit()

# Ordena la lista de archivos por fecha de modificación (la fecha más reciente al final)
latest_json = max(json_files, key=os.path.getmtime)

# Abrir el archivo json más reciente
with open(latest_json) as f:
    json_list1 = json.load(f)

In [4]:
json_list1

[{'Col0 - Ref1': {'value': 'Ref1', 'date_time': '2023-03-20 14:47'}},
 {'Col0 - Ref2': {'value': 'Ref2', 'date_time': '2023-03-20 14:47'}},
 {'Col1 - Ref1': {'value': 'Water', 'date_time': '2023-03-20 14:47'}},
 {'Col1 - Ref2': {'value': 'Fire', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref1': {'value': 'Jhon', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref2': {'value': 'Mike', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref2': {'value': 'Peter', 'date_time': '2023-03-20 15:19'}},
 {'Col1 - Ref2': {'value': 'Wind', 'date_time': '2023-03-20 16:18'}},
 {'Col2 - Ref2': {'value': 'Rose', 'date_time': '2023-03-20 16:18'}},
 {'Col1 - Ref1': {'value': 'Sun', 'date_time': '2023-03-20 17:15'}},
 {'Col2 - Ref1': {'value': 'Melissa', 'date_time': '2023-03-20 17:15'}}]

## 02_Conversión de datos nuevos en nuevo json_list2

In [5]:
# extracción de dataset con dos modificaciones: 
# Col2 - Ref2: 'Rose' 
# Col1 - Ref2: 'Wind'
data = pd.read_excel(r'.\df_base_5.xlsx')
data

Unnamed: 0,Col0,Col1,Col2
0,Ref1,Sun,Melissa
1,Ref2,Wind,Rose


In [6]:
# Función que convierte una entrada de tres elementos en un diccionario de un solo elemento que contiene el valor original, 
# la fecha y la hora.
def convert_to_json(col_name, row_name, value):
    now = datetime.now()
    date_time = now.strftime("%Y-%m-%d %H:%M")
    json_dict = {f"{col_name} - {row_name}": {"value": value, "date_time": date_time}}
    return json_dict

In [7]:
# convierte cada celda del DataFrame df en un diccionario en formato JSON y lo agrega a la lista json_list.
json_list2 = []
for col_name in data.columns:
    for index, row in data.iterrows():
        row_name = row['Col0']
        value = row[col_name]
        json_dict = convert_to_json(col_name, row_name, value)
        json_list2.append(json_dict)
json_list2      

[{'Col0 - Ref1': {'value': 'Ref1', 'date_time': '2023-03-20 21:52'}},
 {'Col0 - Ref2': {'value': 'Ref2', 'date_time': '2023-03-20 21:52'}},
 {'Col1 - Ref1': {'value': 'Sun', 'date_time': '2023-03-20 21:52'}},
 {'Col1 - Ref2': {'value': 'Wind', 'date_time': '2023-03-20 21:52'}},
 {'Col2 - Ref1': {'value': 'Melissa', 'date_time': '2023-03-20 21:52'}},
 {'Col2 - Ref2': {'value': 'Rose', 'date_time': '2023-03-20 21:52'}}]

## 03_Comparación json_list1 y json_list2

In [8]:
differences = []

for item in json_list2:
    for key, value in item.items():
        col_ref = key.split(' - ')[0] + ' - ' + value['value']
        # buscar solo en el valor, excluyendo la fecha
        ref_value = {'value': value['value']}
        if not any(d.get(key, {}).get('value') == value['value'] for d in json_list1):
            differences.append({key: value})           

In [9]:
differences

[]

## 03_Agrego las diferencias a la lista json original

In [10]:
json_list1.extend(differences)
json_list1

[{'Col0 - Ref1': {'value': 'Ref1', 'date_time': '2023-03-20 14:47'}},
 {'Col0 - Ref2': {'value': 'Ref2', 'date_time': '2023-03-20 14:47'}},
 {'Col1 - Ref1': {'value': 'Water', 'date_time': '2023-03-20 14:47'}},
 {'Col1 - Ref2': {'value': 'Fire', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref1': {'value': 'Jhon', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref2': {'value': 'Mike', 'date_time': '2023-03-20 14:47'}},
 {'Col2 - Ref2': {'value': 'Peter', 'date_time': '2023-03-20 15:19'}},
 {'Col1 - Ref2': {'value': 'Wind', 'date_time': '2023-03-20 16:18'}},
 {'Col2 - Ref2': {'value': 'Rose', 'date_time': '2023-03-20 16:18'}},
 {'Col1 - Ref1': {'value': 'Sun', 'date_time': '2023-03-20 17:15'}},
 {'Col2 - Ref1': {'value': 'Melissa', 'date_time': '2023-03-20 17:15'}}]

## 04_Guardo nuevo fichero json con fecha

In [11]:
with open(f".\jsons\main_{pd.datetime.now().strftime('%Y%m%d_%H%M')}.json", "w") as f:
    json.dump(json_list1, f)

## 05_Generación de Dataframe con los datos json más recientes

In [23]:
json_list2 = []
unique_combinations = {}

for item in json_list1:
    # obtener la clave y el valor del diccionario del elemento actual
    key = list(item.keys())[0]
    value = item[key]
    
    # separar la clave en Col y Ref
    col, ref = key.split(' - ')
    
    # verificar si la combinación Col - Ref ya está en el diccionario de combinaciones únicas
    if (col, ref) not in unique_combinations:
        # si no está en el diccionario, agregarlo y agregar el valor actual
        unique_combinations[(col, ref)] = value
    else:
        # si ya está en el diccionario, comparar las fechas y reemplazar si el valor actual es más reciente
        current_value = unique_combinations[(col, ref)]
        current_date = current_value['date_time']
        new_date = value['date_time']
        if new_date > current_date:
            unique_combinations[(col, ref)] = value

# convertir el diccionario de combinaciones únicas en una lista de diccionarios
for key, value in unique_combinations.items():
    col, ref = key
    json_list2.append({f"{col} - {ref}": value})

# imprimir el nuevo json_list
json_list2

[{'Col0 - Ref1': {'value': 'Ref1', 'date_time': '2023-03-20 14:47'}},
 {'Col0 - Ref2': {'value': 'Ref2', 'date_time': '2023-03-20 14:47'}},
 {'Col1 - Ref1': {'value': 'Sun', 'date_time': '2023-03-20 17:15'}},
 {'Col1 - Ref2': {'value': 'Wind', 'date_time': '2023-03-20 16:18'}},
 {'Col2 - Ref1': {'value': 'Melissa', 'date_time': '2023-03-20 17:15'}},
 {'Col2 - Ref2': {'value': 'Rose', 'date_time': '2023-03-20 16:18'}}]

In [24]:
# Crear un diccionario para cada fila del DataFrame
rows_dict = {}
for d in json_list2:
    for k, v in d.items():
        col_name, row_name = k.split(' - ')
        if row_name not in rows_dict:
            rows_dict[row_name] = {}
        rows_dict[row_name][col_name] = v['value']

# Crear el DataFrame a partir del diccionario
df = pd.DataFrame.from_dict(rows_dict, orient='index')

# establecer el índice
df = df.set_index([pd.Index([i for i in range(len(df))])])

df

Unnamed: 0,Col0,Col1,Col2
0,Ref1,Sun,Melissa
1,Ref2,Wind,Rose
