In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import re

class ConjuntoDeDatos():
    
    def __init__(self,files):



        #Lista de archivos de mi conjunto de datos
        self.files = files
        self.multiple = None

        #Clases para trabajar con dos conjuntos de datos
       # if self.multiple is not None:


        def extraer_fecha(ruta_archivo):
                          
             # Patrón de expresión regular para buscar fechas en el nombre del archivo
            patron_fecha = re.compile(r'\d{4}-\d{2}-\d{2}')

            # Buscar la fecha en la ruta del archivo
            match = patron_fecha.search(ruta_archivo)

            # Verificar si se encontró la fecha
            if match:
                return match.group()
            else:
                return None

        # Extraer fechas de cada ruta de archivo
        fechas_extraidas = [extraer_fecha(ruta) for ruta in files]

        # Filtrar las fechas nulas (donde no se encontró ninguna fecha)
        fechas_validas = list(filter(None, fechas_extraidas))

        try:
            #Dataframe que contiene las fechas de cada archivo en formato YYYY-MM-DD
            self.fechas_reales = pd.DataFrame({'Fecha': pd.to_datetime(fechas_validas)})
            self.var = True
        except:
            print('No es posible leer los datos. Revise si se ingresaron correctamente')
            self.var = False

    def extrae_inicio(self,formato=None):
        inicio = self.fechas_reales['Fecha'].min()
        if formato is None:
            return inicio
        elif formato=='YYYY-MM-DD':
            return inicio.strftime('%Y-%m-%d')
        else:
            return 'Formato no disponible'
    
    def extrae_final(self,formato=None):
        final = self.fechas_reales['Fecha'].max()
        if formato is None:
            return final
        elif formato=='YYYY-MM-DD':
            return final.strftime('%Y-%m-%d')
        else:
            return 'Formato no disponible'
        
    def resumen(self,formato=None,outpath=None):
                 
        fechas_teoricas = pd.date_range(start=self.fechas_reales['Fecha'].min(), end=self.fechas_reales['Fecha'].max())
        fechas_faltantes = set(fechas_teoricas) - set(self.fechas_reales['Fecha'])
        cantidad_faltantes  = len(fechas_faltantes)


        resu = pd.DataFrame({'Desde':[self.extrae_inicio(formato='YYYY-MM-DD')],
                            'Hasta':[self.extrae_final(formato='YYYY-MM-DD')],
                            'Dias Faltantes':[cantidad_faltantes]})
        
        if formato is None and outpath is None:
            return resu
        elif formato is None and outpath is not None:
            resu.to_csv(outpath,index=False)
            return 'Archivo exportado'
        elif formato=='Grafico':
                 
            # Colorear el encabezado
            header_color = 'lightblue'

            # Crear una figura sin ejes
            fig, ax = plt.subplots(figsize=(6, 1))
            ax.axis('off')  # Ocultar ejes

            # Crear una tabla con el encabezado coloreado y valores del DataFrame
            tabla = ax.table(cellText=resu.values, colLabels=resu.columns, loc='center', cellLoc='center', colColours=[header_color]*len(resu.columns), cellColours=[['white']*len(resu.columns) for _ in range(len(resu))])

            # Ajustar el diseño de la tabla
            tabla.auto_set_font_size(False)
            tabla.set_fontsize(10)
            tabla.scale(1.2, 1.2)
            if outpath is None:
                plt.show()
            elif outpath is not None:
                plt.savefig(outpath, bbox_inches='tight', pad_inches=0.5, dpi=300)  # Ajusta el valor de dpi según tus necesidades
                return 'Imagen exportada'
            else:
                return 'Error'



    def faltantes(self,formato=None,outpath=None):
        
        if self.var:

            #Utilizo extrae el inicio y final




               
            fechas_teoricas = pd.date_range(start=self.fechas_reales['Fecha'].min(), end=self.fechas_reales['Fecha'].max())
            fechas_faltantes = set(fechas_teoricas) - set(self.fechas_reales['Fecha'])
            fechas_fantantes_ordenadas_crono = sorted(fechas_faltantes)

            df = pd.DataFrame({'Datos faltantes': fechas_fantantes_ordenadas_crono})
            df['Datos faltantes'] = pd.to_datetime(df['Datos faltantes']).dt.strftime('%Y-%m-%d')
        
            if formato is None and outpath is None:
                return df
            
            elif formato=='Grafico' and outpath is None:
                # Colorear el encabezado
                header_color = 'lightblue'

                # Crear una figura sin ejes
                fig, ax = plt.subplots(figsize=(6, 1))
                ax.axis('off')  # Ocultar ejes

                # Crear una tabla con el encabezado coloreado y valores del DataFrame
                tabla = ax.table(cellText=df.values, colLabels=df.columns, loc='center', cellLoc='center', colColours=[header_color]*len(df.columns), cellColours=[['white']*len(df.columns) for _ in range(len(df))])

                # Ajustar el diseño de la tabla
                tabla.auto_set_font_size(False)
                tabla.set_fontsize(10)
                tabla.scale(1.2, 1.2)
                plt.show()          

            elif formato=='Grafico' and outpath is not None:
                
                header_color = 'lightblue'

                # Crear una figura sin ejes
                fig, ax = plt.subplots(figsize=(6, 1))
                ax.axis('off')  # Ocultar ejes
            
                # Crear una tabla con el encabezado coloreado y valores del DataFrame
                tabla = ax.table(cellText=df.values, colLabels=df.columns, loc='center', cellLoc='center', colColours=[header_color]*len(df.columns), cellColours=[['white']*len(df.columns) for _ in range(len(df))])

                # Ajustar el diseño de la tabla
                tabla.auto_set_font_size(False)
                tabla.set_fontsize(10)
                tabla.scale(1.2, 1.2)
                plt.savefig(outpath, bbox_inches='tight', pad_inches=0.5, dpi=300)  # Ajusta el valor de dpi según tus necesidades
            #elif:

            
            else:
                return 'Formato incorrecto' 
            


    

In [8]:
#probemos
import glob
lista_path = glob.glob('/home/fernando.huaranca/datosmunin/GFS_24hs'+'/*.npz')
lista_gsmap = glob.glob('/home/fernando.huaranca/datosmunin/Gsmap_24hs'+'/*.npz')


In [12]:
gsmap = ConjuntoDeDatos(lista_path)
gsmap.faltantes()#,outpath='/home/fernando.huaranca/datosmunin2/Thesis_Neuronal_Network/work/Datos_Sudamerica/salidas/faltantes_gfs.png')

Unnamed: 0,Datos faltantes
