In [9]:
# C√≥digo mejorado para analizar d√≠as faltantes por mes y a√±o
import json
import os
import calendar
from datetime import datetime
import re

# Ruta al archivo JSON
json_path = "data/processed/datos_electricos_organizados.json"

# Lista de meses en espa√±ol (en orden)
MESES = ["enero", "febrero", "marzo", "abril", "mayo", "junio", 
         "julio", "agosto", "septiembre", "octubre", "noviembre", "diciembre"]

# Diccionario para convertir nombres de meses a n√∫meros
MES_A_NUMERO = {mes: i+1 for i, mes in enumerate(MESES)}

a=set()
def extraer_dia_de_fecha(fecha_str):
    """
    Extrae el d√≠a de una fecha en varios formatos posibles
    """
    if not fecha_str or not isinstance(fecha_str, str):
        return None

    # Limpiar la fecha antes de procesarla
    fecha_str = fecha_str.strip()
    a.add(fecha_str)
    # 1. Formato yyyy-mm-dd HH:MM:SS (con timestamp)
    if re.match(r"^\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2}$", fecha_str):
        return int(fecha_str.split("-")[2].split()[0])

    # 2. Formato dd/mm/yyyy o d/m/yyyy
    if re.match(r"^\d{1,2}/\d{1,2}/\d{4}$", fecha_str):
        return int(fecha_str.split("/")[0])

    # 3. Formato yyyy-mm-dd (sin timestamp)
    if re.match(r"^\d{4}-\d{2}-\d{2}$", fecha_str):
        return int(fecha_str.split("-")[2])

    # 4. Formato dd-mm-yyyy
    if re.match(r"^\d{1,2}-\d{1,2}-\d{4}$", fecha_str):
        return int(fecha_str.split("-")[0])

    # 5. Formato texto "DD de Mes de YYYY"
    match = re.match(
        r"^(\d{1,2})(?:\s+de)?\s+\w+(?:\s+de)?\s+\d{4}", fecha_str, re.IGNORECASE
    )
    if match:
        return int(match.group(1))


    return None


def analizar_datos_electricos():
    """Analiza el archivo JSON de datos el√©ctricos y muestra los meses y d√≠as faltantes"""
    try:
        with open(json_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        print("=" * 70)
        print(f"üìä AN√ÅLISIS DE DATOS EL√âCTRICOS ({json_path})")
        print("=" * 70)
        
        # Lista de a√±os disponibles
        a√±os_disponibles = sorted(data.keys())
        print(f"üìÖ A√±os disponibles: {', '.join(a√±os_disponibles)}\n")
        
        # Contadores globales
        total_meses_analizados = 0
        meses_con_articulos = 0
        meses_sin_articulos = 0
        meses_incompletos = 0
        dias_faltantes_totales = 0
        
        # Para cada a√±o, analizar meses
        for a√±o in a√±os_disponibles:
            print(f"\nüóìÔ∏è A√ëO {a√±o}:")
            
            # Obtener meses disponibles
            meses_disponibles = [m for m in MESES if m in data[a√±o]]
            
            # Verificar qu√© meses faltan
            meses_faltantes = [mes for mes in MESES if mes not in data[a√±o]]
            
            if meses_faltantes:
                print(f"  ‚ùå Meses faltantes: {', '.join(meses_faltantes)}")
            else:
                print("  ‚úÖ Todos los meses est√°n presentes")
            
            # Analizar d√≠as faltantes para cada mes presente
            for mes in meses_disponibles:
                total_meses_analizados += 1
                
                # Obtener n√∫mero de mes para c√°lculos de calendario
                num_mes = MES_A_NUMERO[mes]
                
                # Obtener art√≠culos del mes
                articulos = data[a√±o][mes]
                
                # Si no hay art√≠culos, marcar todo el mes como faltante
                if not articulos:
                    print(f"  üìÇ {mes.capitalize()}: No hay art√≠culos")
                    meses_sin_articulos += 1
                    continue
                
                meses_con_articulos += 1
                
                # Calcular d√≠as en el mes
                try:
                    a√±o_int = int(a√±o)
                    total_dias = calendar.monthrange(a√±o_int, num_mes)[1]
                    
                    # Extraer d√≠as de los art√≠culos disponibles
                    dias_disponibles = set()
                    articulos_sin_fecha = 0
                    formatos_no_reconocidos = set()
                    
                    for articulo in articulos:
                        if isinstance(articulo, dict) and "fecha" in articulo:
                            fecha_str = articulo["fecha"]
                            dia = extraer_dia_de_fecha(fecha_str)
                            
                            if dia is not None and 1 <= dia <= total_dias:
                                dias_disponibles.add(dia)
                            elif fecha_str:  # Si hay texto pero no se pudo extraer el d√≠a
                                formatos_no_reconocidos.add(fecha_str)
                        else:
                            articulos_sin_fecha += 1
                    
                    # Calcular d√≠as faltantes
                    dias_faltantes = sorted(set(range(1, total_dias + 1)) - dias_disponibles)
                    dias_faltantes_totales += len(dias_faltantes)
                    
                    # Mostrar resumen
                    if articulos_sin_fecha > 0:
                        print(f"  ‚ö†Ô∏è {mes.capitalize()}: {articulos_sin_fecha} art√≠culos sin fecha")
                    
                    if formatos_no_reconocidos:
                        print(f"  ‚ö†Ô∏è {mes.capitalize()}: Formatos de fecha no reconocidos: {', '.join(list(formatos_no_reconocidos)[:3])}" + 
                              (f" y {len(formatos_no_reconocidos) - 3} m√°s" if len(formatos_no_reconocidos) > 3 else ""))
                    
                    if dias_faltantes:
                        meses_incompletos += 1
                        if len(dias_faltantes) > total_dias - 3:  # Si faltan casi todos los d√≠as
                            print(f"  üìå {mes.capitalize()}: Faltan {len(dias_faltantes)} de {total_dias} d√≠as ({len(dias_disponibles)} disponibles)")
                        elif len(dias_faltantes) > 10:  # Si faltan muchos d√≠as
                            print(f"  üìå {mes.capitalize()}: Faltan {len(dias_faltantes)} d√≠as ({', '.join(map(str, dias_faltantes))}")
                        else:  # Si faltan pocos d√≠as
                            print(f"  üìå {mes.capitalize()}: Faltan los d√≠as {', '.join(map(str, dias_faltantes))}")
                    else:
                        print(f"  ‚úÖ {mes.capitalize()}: Completo - Todos los {total_dias} d√≠as tienen datos")
                        
                except ValueError:
                    print(f"  ‚ö†Ô∏è {mes.capitalize()}: Error al procesar (a√±o inv√°lido)")
        
        # Resumen general
        print("\n" + "=" * 70)
        print(f"üìã RESUMEN GLOBAL:")
        print(f"  ‚Ä¢ Total de meses analizados: {total_meses_analizados}")
        print(f"  ‚Ä¢ Meses con art√≠culos: {meses_con_articulos}")
        print(f"  ‚Ä¢ Meses sin art√≠culos: {meses_sin_articulos}")
        print(f"  ‚Ä¢ Meses con d√≠as faltantes: {meses_incompletos}")
        print(f"  ‚Ä¢ Total de d√≠as faltantes: {dias_faltantes_totales}")
        print("=" * 70)
        
    except FileNotFoundError:
        print(f"‚ùó Error: Archivo no encontrado en {json_path}")
    except json.JSONDecodeError:
        print("‚ùó Error: No se pudo decodificar el archivo JSON")
    except Exception as e:
        print(f"‚ùó Error inesperado: {str(e)}")
        import traceback
        traceback.print_exc()

# Ejecutar el an√°lisis
analizar_datos_electricos()

üìä AN√ÅLISIS DE DATOS EL√âCTRICOS (data/processed/datos_electricos_organizados.json)
üìÖ A√±os disponibles: 2022, 2023, 2024, 2025


üóìÔ∏è A√ëO 2022:
  ‚úÖ Todos los meses est√°n presentes
  üìÇ Enero: No hay art√≠culos
  üìÇ Febrero: No hay art√≠culos
  üìÇ Marzo: No hay art√≠culos
  üìÇ Abril: No hay art√≠culos
  üìÇ Mayo: No hay art√≠culos
  üìÇ Junio: No hay art√≠culos
  üìÇ Julio: No hay art√≠culos
  üìÇ Agosto: No hay art√≠culos
  üìÇ Septiembre: No hay art√≠culos
  üìÇ Octubre: No hay art√≠culos
  üìÇ Noviembre: No hay art√≠culos
  üìå Diciembre: Faltan 18 d√≠as (1, 4, 9, 10, 15, 16, 18, 19, 20, 21, 22, 24, 25, 26, 27, 28, 29, 31

üóìÔ∏è A√ëO 2023:
  ‚úÖ Todos los meses est√°n presentes
  üìå Enero: Faltan 13 d√≠as (1, 2, 3, 4, 7, 8, 12, 15, 19, 20, 21, 28, 29
  üìå Febrero: Faltan los d√≠as 1, 4, 5, 16
  üìå Marzo: Faltan 15 d√≠as (1, 4, 17, 18, 19, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30
  üìå Abril: Faltan los d√≠as 6, 9, 14, 17, 22, 23
  üìå Mayo: Falta

In [10]:
import pandas as pd
import calendar
from datetime import datetime
import re
f =set()
# Ruta al archivo CSV
csv_path = "data/raw/afectaciones_electricas_cubadebate_filter_2025.csv"

def mostrar_datos_por_a√±o_mes():
    try:
        # Leer el archivo CSV
        df = pd.read_csv(csv_path, encoding='utf-8')
        
        # Extraer fechas
        fechas_procesadas = []
        for index, row in df.iterrows():
            if 'Fecha' in row:
                fecha_str = row['Fecha']
                f.add(fecha_str)
                try:
                    if re.match(r'\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2}', fecha_str):
                        fecha = datetime.strptime(fecha_str, '%Y-%m-%d %H:%M:%S')
                        fechas_procesadas.append({
                            'dia': fecha.day,
                            'mes': fecha.month,
                            'a√±o': fecha.year,
                        })
                except (ValueError, TypeError):
                    pass
        
        # Convertir a DataFrame para facilitar el an√°lisis
        df_fechas = pd.DataFrame(fechas_procesadas)
        
        # Agrupar por a√±o y mes
        print("üìä DATOS DISPONIBLES EN EL CSV:")
        print("=" * 60)
        
        # Mapeo de n√∫mero de mes a nombre
        meses_nombres = {
            1: "Enero", 2: "Febrero", 3: "Marzo", 4: "Abril",
            5: "Mayo", 6: "Junio", 7: "Julio", 8: "Agosto",
            9: "Septiembre", 10: "Octubre", 11: "Noviembre", 12: "Diciembre"
        }
        
        # Obtener a√±os ordenados
        a√±os = sorted(df_fechas['a√±o'].unique())
        
        # Para cada a√±o
        for a√±o in a√±os:
            print(f"\nA√ëO: {a√±o}")
            
            # Filtrar por a√±o
            df_a√±o = df_fechas[df_fechas['a√±o'] == a√±o]
            
            # Obtener meses ordenados
            meses = sorted(df_a√±o['mes'].unique())
            
            # Para cada mes
            for mes in meses:
                mes_nombre = meses_nombres[mes]
                
                # Filtrar por mes
                df_mes = df_a√±o[df_a√±o['mes'] == mes]
                
                # Obtener d√≠as ordenados
                dias = sorted(df_mes['dia'].unique())
                
                # Mostrar los d√≠as disponibles
                print(f"  MES: {mes_nombre}")
                print(f"    ‚Ä¢ D√≠as con datos: {', '.join(map(str, dias))}")
                
        print("\n" + "=" * 60)
        
    except Exception as e:
        print(f"Error al procesar el CSV: {str(e)}")

# Ejecutar el an√°lisis
mostrar_datos_por_a√±o_mes()

üìä DATOS DISPONIBLES EN EL CSV:

A√ëO: 2022
  MES: Diciembre
    ‚Ä¢ D√≠as con datos: 2, 3, 5, 6, 7, 8, 11, 12, 13, 14, 17, 23, 30

A√ëO: 2023
  MES: Enero
    ‚Ä¢ D√≠as con datos: 5, 6, 9, 10, 11, 12, 13, 14, 16, 17, 18, 22, 23, 24, 25, 26, 27, 30, 31
  MES: Febrero
    ‚Ä¢ D√≠as con datos: 2, 3, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28
  MES: Marzo
    ‚Ä¢ D√≠as con datos: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 25, 31
  MES: Abril
    ‚Ä¢ D√≠as con datos: 1, 2, 3, 4, 5, 7, 8, 10, 11, 12, 13, 15, 16, 18, 19, 20, 21, 24, 25, 26, 27, 28, 29, 30
  MES: Mayo
    ‚Ä¢ D√≠as con datos: 1, 2, 3, 4, 6, 7, 8, 9, 10, 11, 12, 15, 18, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
  MES: Junio
    ‚Ä¢ D√≠as con datos: 1, 2, 3, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 19, 20, 21, 22, 23, 24, 25, 26, 29
  MES: Julio
    ‚Ä¢ D√≠as con datos: 3, 6, 13, 19, 20, 21, 30
  MES: Agosto
    ‚Ä¢ D√≠as con datos: 2, 3, 7, 9, 10, 11, 13, 14, 15, 16, 1

In [21]:

print(f-a)

{'2023-01-12 09:03:00', '2024-04-26 11:34:00', '2023-07-06 09:56:00', '2024-06-25 08:40:00', '2025-02-11 21:47:00', '2023-03-04 08:48:00'}
