## Instalar librerias

In [1]:
%%capture
!pip install luigi pyyaml netCDF4 h5netcdf scipy boto3 s3fs numpy tqdm

In [2]:
%%capture
!pip install dask[complete] zarr xarray[io]

In [3]:
%%capture
!pip install --upgrade s3fs

In [4]:
%%capture
!pip install "xarray[complete]"==2023.8.0 s3fs --user

In [5]:
%%capture
!pip install --upgrade dask

## Cargar librerias

In [1]:
import xarray as xr
import pandas as pd
import numpy as np
import s3fs
import os
import re
from collections import defaultdict
import zarr
from numcodecs import blosc
from glob import glob
import dask
from dask import delayed, compute
from tqdm import tqdm
from dask.distributed import Client
from dask.diagnostics import ProgressBar
from datetime import datetime

## Funciones

In [2]:
def kelvin_a_celsius(temp_k):
    return xr.where(np.isnan(temp_k), temp_k, temp_k - 273.15)

def extraer_fecha_y_tipo(nombre_archivo):
    match = re.search(r'Temperature-Air-2m-(Max|Mean|Min)-24h.*_(\d{8})_', nombre_archivo)
    if match:
        tipo, fecha = match.groups()
        return fecha, tipo
    return '00000000', ''

In [3]:
#dataframe de archivos

def archivos_mes(directorio):
    archivos = [f for f in os.listdir(directorio) if f.endswith('.nc')]
    data = []

    for archivo in archivos:
        fecha, tipo = extraer_fecha_y_tipo(archivo)
        if fecha != '00000000':
            data.append({
                'año': int(fecha[:4]),
                'mes': int(fecha[4:6]),
                'fecha': pd.to_datetime(fecha, format='%Y%m%d'),
                'tipo': tipo,
                'path': os.path.join(directorio, archivo)
            })

    df = pd.DataFrame(data)
    df.sort_values(by=['fecha', 'tipo'], inplace=True)
    df['tipo'] = pd.Categorical(df['tipo'], categories=['Max', 'Mean', 'Min'], ordered=True)
    df.sort_values(by=['fecha', 'tipo'], inplace=True)
    df.reset_index(drop=True, inplace=True)
    
    return df

### Función ejecución mes

In [4]:
def consolidate_nc(df_mes, año, mes):
    start_date = pd.Timestamp(f"{año}-{mes:02d}-01")
    end_date = start_date + pd.offsets.MonthEnd(0)
    datasets = xr.open_mfdataset(df_mes['path'].tolist())
    # Convertir de Kelvin a Celsius
    for var_name in datasets.data_vars:
        datasets[var_name] = kelvin_a_celsius(datasets[var_name])
        datasets[var_name].attrs['units'] = 'C'
    return datasets

In [5]:
def append_zarr(año, mes, df_mes, bucket_salida, ruta_salida_s3):
    datasets = consolidate_nc(df_mes, año, mes)
    s3 = s3fs.S3FileSystem(anon=False)
    zarr_store = s3fs.S3Map(root=f's3://{bucket_salida}/{ruta_salida_s3}', s3=s3)

    # Configurar compresión y encoding
    blosc.set_nthreads(8)
    compressor = zarr.Blosc(cname='lz4', clevel=1, shuffle=False)
    encoding = {vname: {'compressor': compressor, 'chunks': (1, 1801, 3600)} for vname in datasets.data_vars}
    with tqdm(total=100, desc=f"Procesando {año}-{mes:02d}") as pbar:
        try:
            datasets.to_zarr(zarr_store, mode='a', append_dim='time', consolidated=True)
        except ValueError as e:
            # Si el archivo no existe, crear un nuevo archivo
            print(f"Error al abrir el archivo en modo append: {e}. Creando archivo nuevo.")
            datasets.to_zarr(zarr_store, mode='w', consolidated=True, encoding=encoding)
        pbar.update(100)
    print(f"Datos del mes {año}-{mes:02d} procesados y guardados en S3")

### Función para ejecutar un rango de fechas

In [6]:
def procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3):
    # Convertir fechas de entrada a objetos datetime
    fecha_inicio = pd.to_datetime(fecha_inicio)
    fecha_fin = pd.to_datetime(fecha_fin)
    
    # Crear dataframe de todos los archivos a procesar
    df = archivos_mes(directorio)
    
    # Listar todos los meses en el rango de fechas
    rango_meses = pd.date_range(start=fecha_inicio, end=fecha_fin, freq='MS')
    
    # Iterar sobre cada mes en el rango de meses a procesar
    for mes_actual in rango_meses:
        año = mes_actual.year
        mes = mes_actual.month

        # Filtrar archivos para el mes
        df_mes = df[(df['año'] == año) & (df['mes'] == mes)]
        append_zarr(año, mes, df_mes, bucket_salida, ruta_salida_s3)
        print(f"Ejecutado mes: {año}/{mes}")

In [10]:
# Versión 2 dataframe en un rango de fechas

def archivos_mes(directorio, fecha_inicio=None, fecha_fin=None):
    archivos = [f for f in os.listdir(directorio) if f.endswith('.nc')]
    data = []

    for archivo in archivos:
        fecha, tipo = extraer_fecha_y_tipo(archivo)
        if fecha != '00000000':
            data.append({
                'año': int(fecha[:4]),
                'mes': int(fecha[4:6]),
                'fecha': pd.to_datetime(fecha, format='%Y%m%d'),
                'tipo': tipo,
                'path': os.path.join(directorio, archivo)
            })

    df = pd.DataFrame(data)
    df.sort_values(by=['fecha', 'tipo'], inplace=True)
    df['tipo'] = pd.Categorical(df['tipo'], categories=['Max', 'Mean', 'Min'], ordered=True)
    df.sort_values(by=['fecha', 'tipo'], inplace=True)
    df.reset_index(drop=True, inplace=True)
    
    # Filtrar el DataFrame por el rango de fechas si se proporcionan
    if fecha_inicio and fecha_fin:
        df = df[(df['fecha'] >= pd.to_datetime(fecha_inicio)) & (df['fecha'] <= pd.to_datetime(fecha_fin))]

    return df

In [11]:
# Versión 2 dataframe reducido

def procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3):
    # Convertir fechas de entrada a objetos datetime
    fecha_inicio = pd.to_datetime(fecha_inicio)
    fecha_fin = pd.to_datetime(fecha_fin)
    
    # Crear dataframe de todos los archivos a procesar
    df = archivos_mes(directorio, fecha_inicio, fecha_fin)
    
    # Listar todos los meses en el rango de fechas
    rango_meses = pd.date_range(start=fecha_inicio, end=fecha_fin, freq='MS')
    
    # Iterar sobre cada mes en el rango de meses a procesar
    for mes_actual in rango_meses:
        año = mes_actual.year
        mes = mes_actual.month

        # Filtrar archivos para el mes
        df_mes = df[(df['año'] == año) & (df['mes'] == mes)]
        append_zarr(año, mes, df_mes, bucket_salida, ruta_salida_s3)
        print(f"Ejecutado mes: {año}/{mes}")

### Ejecución rango de fechas

In [None]:
# Rango 2, 5 años
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '2000-01-01'
fecha_fin = '2004-12-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

#procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

In [None]:
# Rango 3, 5 años
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '2005-01-01'
fecha_fin = '2009-12-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

In [None]:
# Rango 4, 5 años
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '2010-01-01'
fecha_fin = '2014-12-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

In [None]:
# Rango 5, 5 años
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '2015-01-01'
fecha_fin = '2019-12-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

In [None]:
# Rango 6, 4 años y 6 meses
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '2020-01-01'
fecha_fin = '2024-07-09'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

In [12]:
# Rango 1, 20 años
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '1980-01-01'
fecha_fin = '1999-12-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'

#procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)

Procesando 1992-01: 100%|██████████| 100/100 [00:21<00:00,  4.56it/s]


Datos del mes 1992-01 procesados y guardados en S3
Ejecutado mes: 1992/1


Procesando 1992-02: 100%|██████████| 100/100 [00:20<00:00,  4.87it/s]


Datos del mes 1992-02 procesados y guardados en S3
Ejecutado mes: 1992/2


Procesando 1992-03: 100%|██████████| 100/100 [00:19<00:00,  5.01it/s]


Datos del mes 1992-03 procesados y guardados en S3
Ejecutado mes: 1992/3


Procesando 1992-04: 100%|██████████| 100/100 [00:20<00:00,  4.90it/s]


Datos del mes 1992-04 procesados y guardados en S3
Ejecutado mes: 1992/4


Procesando 1992-05: 100%|██████████| 100/100 [00:20<00:00,  4.93it/s]


Datos del mes 1992-05 procesados y guardados en S3
Ejecutado mes: 1992/5


Procesando 1992-06: 100%|██████████| 100/100 [00:20<00:00,  4.99it/s]


Datos del mes 1992-06 procesados y guardados en S3
Ejecutado mes: 1992/6


Procesando 1992-07: 100%|██████████| 100/100 [00:20<00:00,  4.97it/s]


Datos del mes 1992-07 procesados y guardados en S3
Ejecutado mes: 1992/7


Procesando 1992-08: 100%|██████████| 100/100 [00:20<00:00,  4.98it/s]


Datos del mes 1992-08 procesados y guardados en S3
Ejecutado mes: 1992/8


Procesando 1992-09: 100%|██████████| 100/100 [00:20<00:00,  4.89it/s]


Datos del mes 1992-09 procesados y guardados en S3
Ejecutado mes: 1992/9


Procesando 1992-10: 100%|██████████| 100/100 [00:20<00:00,  4.94it/s]


Datos del mes 1992-10 procesados y guardados en S3
Ejecutado mes: 1992/10


Procesando 1992-11: 100%|██████████| 100/100 [00:20<00:00,  4.93it/s]


Datos del mes 1992-11 procesados y guardados en S3
Ejecutado mes: 1992/11


Procesando 1992-12: 100%|██████████| 100/100 [00:20<00:00,  4.91it/s]


Datos del mes 1992-12 procesados y guardados en S3
Ejecutado mes: 1992/12


Procesando 1993-01: 100%|██████████| 100/100 [00:22<00:00,  4.54it/s]


Datos del mes 1993-01 procesados y guardados en S3
Ejecutado mes: 1993/1


Procesando 1993-02: 100%|██████████| 100/100 [00:19<00:00,  5.00it/s]


Datos del mes 1993-02 procesados y guardados en S3
Ejecutado mes: 1993/2


Procesando 1993-03: 100%|██████████| 100/100 [00:21<00:00,  4.69it/s]


Datos del mes 1993-03 procesados y guardados en S3
Ejecutado mes: 1993/3


Procesando 1993-04: 100%|██████████| 100/100 [00:19<00:00,  5.21it/s]


Datos del mes 1993-04 procesados y guardados en S3
Ejecutado mes: 1993/4


Procesando 1993-05: 100%|██████████| 100/100 [00:22<00:00,  4.48it/s]


Datos del mes 1993-05 procesados y guardados en S3
Ejecutado mes: 1993/5


Procesando 1993-06: 100%|██████████| 100/100 [00:23<00:00,  4.35it/s]


Datos del mes 1993-06 procesados y guardados en S3
Ejecutado mes: 1993/6


Procesando 1993-07: 100%|██████████| 100/100 [00:22<00:00,  4.44it/s]


Datos del mes 1993-07 procesados y guardados en S3
Ejecutado mes: 1993/7


Procesando 1993-08: 100%|██████████| 100/100 [00:25<00:00,  3.95it/s]


Datos del mes 1993-08 procesados y guardados en S3
Ejecutado mes: 1993/8


Procesando 1993-09: 100%|██████████| 100/100 [00:21<00:00,  4.65it/s]


Datos del mes 1993-09 procesados y guardados en S3
Ejecutado mes: 1993/9


Procesando 1993-10: 100%|██████████| 100/100 [00:22<00:00,  4.50it/s]


Datos del mes 1993-10 procesados y guardados en S3
Ejecutado mes: 1993/10


Procesando 1993-11: 100%|██████████| 100/100 [00:21<00:00,  4.58it/s]


Datos del mes 1993-11 procesados y guardados en S3
Ejecutado mes: 1993/11


Procesando 1993-12: 100%|██████████| 100/100 [00:23<00:00,  4.25it/s]


Datos del mes 1993-12 procesados y guardados en S3
Ejecutado mes: 1993/12


Procesando 1994-01: 100%|██████████| 100/100 [00:23<00:00,  4.31it/s]


Datos del mes 1994-01 procesados y guardados en S3
Ejecutado mes: 1994/1


Procesando 1994-02: 100%|██████████| 100/100 [00:24<00:00,  4.10it/s]


Datos del mes 1994-02 procesados y guardados en S3
Ejecutado mes: 1994/2


Procesando 1994-03: 100%|██████████| 100/100 [00:23<00:00,  4.28it/s]


Datos del mes 1994-03 procesados y guardados en S3
Ejecutado mes: 1994/3


Procesando 1994-04: 100%|██████████| 100/100 [00:22<00:00,  4.51it/s]


Datos del mes 1994-04 procesados y guardados en S3
Ejecutado mes: 1994/4


Procesando 1994-05: 100%|██████████| 100/100 [00:22<00:00,  4.44it/s]


Datos del mes 1994-05 procesados y guardados en S3
Ejecutado mes: 1994/5


Procesando 1994-06: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1994-06 procesados y guardados en S3
Ejecutado mes: 1994/6


Procesando 1994-07: 100%|██████████| 100/100 [00:23<00:00,  4.32it/s]


Datos del mes 1994-07 procesados y guardados en S3
Ejecutado mes: 1994/7


Procesando 1994-08: 100%|██████████| 100/100 [00:23<00:00,  4.22it/s]


Datos del mes 1994-08 procesados y guardados en S3
Ejecutado mes: 1994/8


Procesando 1994-09: 100%|██████████| 100/100 [00:21<00:00,  4.63it/s]


Datos del mes 1994-09 procesados y guardados en S3
Ejecutado mes: 1994/9


Procesando 1994-10: 100%|██████████| 100/100 [00:22<00:00,  4.39it/s]


Datos del mes 1994-10 procesados y guardados en S3
Ejecutado mes: 1994/10


Procesando 1994-11: 100%|██████████| 100/100 [00:22<00:00,  4.36it/s]


Datos del mes 1994-11 procesados y guardados en S3
Ejecutado mes: 1994/11


Procesando 1994-12: 100%|██████████| 100/100 [00:24<00:00,  4.08it/s]


Datos del mes 1994-12 procesados y guardados en S3
Ejecutado mes: 1994/12


Procesando 1995-01: 100%|██████████| 100/100 [00:24<00:00,  4.10it/s]


Datos del mes 1995-01 procesados y guardados en S3
Ejecutado mes: 1995/1


Procesando 1995-02: 100%|██████████| 100/100 [00:21<00:00,  4.65it/s]


Datos del mes 1995-02 procesados y guardados en S3
Ejecutado mes: 1995/2


Procesando 1995-03: 100%|██████████| 100/100 [00:24<00:00,  4.11it/s]


Datos del mes 1995-03 procesados y guardados en S3
Ejecutado mes: 1995/3


Procesando 1995-04: 100%|██████████| 100/100 [00:22<00:00,  4.41it/s]


Datos del mes 1995-04 procesados y guardados en S3
Ejecutado mes: 1995/4


Procesando 1995-05: 100%|██████████| 100/100 [00:22<00:00,  4.35it/s]


Datos del mes 1995-05 procesados y guardados en S3
Ejecutado mes: 1995/5


Procesando 1995-06: 100%|██████████| 100/100 [00:27<00:00,  3.64it/s]


Datos del mes 1995-06 procesados y guardados en S3
Ejecutado mes: 1995/6


Procesando 1995-07: 100%|██████████| 100/100 [00:23<00:00,  4.18it/s]


Datos del mes 1995-07 procesados y guardados en S3
Ejecutado mes: 1995/7


Procesando 1995-08: 100%|██████████| 100/100 [00:23<00:00,  4.19it/s]


Datos del mes 1995-08 procesados y guardados en S3
Ejecutado mes: 1995/8


Procesando 1995-09: 100%|██████████| 100/100 [00:22<00:00,  4.38it/s]


Datos del mes 1995-09 procesados y guardados en S3
Ejecutado mes: 1995/9


Procesando 1995-10: 100%|██████████| 100/100 [00:22<00:00,  4.39it/s]


Datos del mes 1995-10 procesados y guardados en S3
Ejecutado mes: 1995/10


Procesando 1995-11: 100%|██████████| 100/100 [00:24<00:00,  4.15it/s]


Datos del mes 1995-11 procesados y guardados en S3
Ejecutado mes: 1995/11


Procesando 1995-12: 100%|██████████| 100/100 [00:23<00:00,  4.25it/s]


Datos del mes 1995-12 procesados y guardados en S3
Ejecutado mes: 1995/12


Procesando 1996-01: 100%|██████████| 100/100 [00:23<00:00,  4.31it/s]


Datos del mes 1996-01 procesados y guardados en S3
Ejecutado mes: 1996/1


Procesando 1996-02: 100%|██████████| 100/100 [00:22<00:00,  4.41it/s]


Datos del mes 1996-02 procesados y guardados en S3
Ejecutado mes: 1996/2


Procesando 1996-03: 100%|██████████| 100/100 [00:23<00:00,  4.27it/s]


Datos del mes 1996-03 procesados y guardados en S3
Ejecutado mes: 1996/3


Procesando 1996-04: 100%|██████████| 100/100 [00:22<00:00,  4.35it/s]


Datos del mes 1996-04 procesados y guardados en S3
Ejecutado mes: 1996/4


Procesando 1996-05: 100%|██████████| 100/100 [00:22<00:00,  4.42it/s]


Datos del mes 1996-05 procesados y guardados en S3
Ejecutado mes: 1996/5


Procesando 1996-06: 100%|██████████| 100/100 [00:21<00:00,  4.73it/s]


Datos del mes 1996-06 procesados y guardados en S3
Ejecutado mes: 1996/6


Procesando 1996-07: 100%|██████████| 100/100 [00:21<00:00,  4.58it/s]


Datos del mes 1996-07 procesados y guardados en S3
Ejecutado mes: 1996/7


Procesando 1996-08: 100%|██████████| 100/100 [00:22<00:00,  4.52it/s]


Datos del mes 1996-08 procesados y guardados en S3
Ejecutado mes: 1996/8


Procesando 1996-09: 100%|██████████| 100/100 [00:21<00:00,  4.66it/s]


Datos del mes 1996-09 procesados y guardados en S3
Ejecutado mes: 1996/9


Procesando 1996-10: 100%|██████████| 100/100 [00:21<00:00,  4.64it/s]


Datos del mes 1996-10 procesados y guardados en S3
Ejecutado mes: 1996/10


Procesando 1996-11: 100%|██████████| 100/100 [00:22<00:00,  4.50it/s]


Datos del mes 1996-11 procesados y guardados en S3
Ejecutado mes: 1996/11


Procesando 1996-12: 100%|██████████| 100/100 [00:22<00:00,  4.46it/s]


Datos del mes 1996-12 procesados y guardados en S3
Ejecutado mes: 1996/12


Procesando 1997-01: 100%|██████████| 100/100 [00:22<00:00,  4.36it/s]


Datos del mes 1997-01 procesados y guardados en S3
Ejecutado mes: 1997/1


Procesando 1997-02: 100%|██████████| 100/100 [00:22<00:00,  4.50it/s]


Datos del mes 1997-02 procesados y guardados en S3
Ejecutado mes: 1997/2


Procesando 1997-03: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1997-03 procesados y guardados en S3
Ejecutado mes: 1997/3


Procesando 1997-04: 100%|██████████| 100/100 [00:21<00:00,  4.69it/s]


Datos del mes 1997-04 procesados y guardados en S3
Ejecutado mes: 1997/4


Procesando 1997-05: 100%|██████████| 100/100 [00:22<00:00,  4.37it/s]


Datos del mes 1997-05 procesados y guardados en S3
Ejecutado mes: 1997/5


Procesando 1997-06: 100%|██████████| 100/100 [00:21<00:00,  4.59it/s]


Datos del mes 1997-06 procesados y guardados en S3
Ejecutado mes: 1997/6


Procesando 1997-07: 100%|██████████| 100/100 [00:21<00:00,  4.62it/s]


Datos del mes 1997-07 procesados y guardados en S3
Ejecutado mes: 1997/7


Procesando 1997-08: 100%|██████████| 100/100 [00:22<00:00,  4.50it/s]


Datos del mes 1997-08 procesados y guardados en S3
Ejecutado mes: 1997/8


Procesando 1997-09: 100%|██████████| 100/100 [00:22<00:00,  4.52it/s]


Datos del mes 1997-09 procesados y guardados en S3
Ejecutado mes: 1997/9


Procesando 1997-10: 100%|██████████| 100/100 [00:22<00:00,  4.49it/s]


Datos del mes 1997-10 procesados y guardados en S3
Ejecutado mes: 1997/10


Procesando 1997-11: 100%|██████████| 100/100 [00:22<00:00,  4.53it/s]


Datos del mes 1997-11 procesados y guardados en S3
Ejecutado mes: 1997/11


Procesando 1997-12: 100%|██████████| 100/100 [00:21<00:00,  4.59it/s]


Datos del mes 1997-12 procesados y guardados en S3
Ejecutado mes: 1997/12


Procesando 1998-01: 100%|██████████| 100/100 [00:22<00:00,  4.36it/s]


Datos del mes 1998-01 procesados y guardados en S3
Ejecutado mes: 1998/1


Procesando 1998-02: 100%|██████████| 100/100 [00:20<00:00,  4.87it/s]


Datos del mes 1998-02 procesados y guardados en S3
Ejecutado mes: 1998/2


Procesando 1998-03: 100%|██████████| 100/100 [00:22<00:00,  4.50it/s]


Datos del mes 1998-03 procesados y guardados en S3
Ejecutado mes: 1998/3


Procesando 1998-04: 100%|██████████| 100/100 [00:21<00:00,  4.71it/s]


Datos del mes 1998-04 procesados y guardados en S3
Ejecutado mes: 1998/4


Procesando 1998-05: 100%|██████████| 100/100 [00:22<00:00,  4.45it/s]


Datos del mes 1998-05 procesados y guardados en S3
Ejecutado mes: 1998/5


Procesando 1998-06: 100%|██████████| 100/100 [00:22<00:00,  4.52it/s]


Datos del mes 1998-06 procesados y guardados en S3
Ejecutado mes: 1998/6


Procesando 1998-07: 100%|██████████| 100/100 [00:22<00:00,  4.54it/s]


Datos del mes 1998-07 procesados y guardados en S3
Ejecutado mes: 1998/7


Procesando 1998-08: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1998-08 procesados y guardados en S3
Ejecutado mes: 1998/8


Procesando 1998-09: 100%|██████████| 100/100 [00:21<00:00,  4.56it/s]


Datos del mes 1998-09 procesados y guardados en S3
Ejecutado mes: 1998/9


Procesando 1998-10: 100%|██████████| 100/100 [00:25<00:00,  3.96it/s]


Datos del mes 1998-10 procesados y guardados en S3
Ejecutado mes: 1998/10


Procesando 1998-11: 100%|██████████| 100/100 [00:21<00:00,  4.59it/s]


Datos del mes 1998-11 procesados y guardados en S3
Ejecutado mes: 1998/11


Procesando 1998-12: 100%|██████████| 100/100 [00:21<00:00,  4.55it/s]


Datos del mes 1998-12 procesados y guardados en S3
Ejecutado mes: 1998/12


Procesando 1999-01: 100%|██████████| 100/100 [00:21<00:00,  4.59it/s]


Datos del mes 1999-01 procesados y guardados en S3
Ejecutado mes: 1999/1


Procesando 1999-02: 100%|██████████| 100/100 [00:20<00:00,  4.78it/s]


Datos del mes 1999-02 procesados y guardados en S3
Ejecutado mes: 1999/2


Procesando 1999-03: 100%|██████████| 100/100 [00:23<00:00,  4.29it/s]


Datos del mes 1999-03 procesados y guardados en S3
Ejecutado mes: 1999/3


Procesando 1999-04: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1999-04 procesados y guardados en S3
Ejecutado mes: 1999/4


Procesando 1999-05: 100%|██████████| 100/100 [00:22<00:00,  4.39it/s]


Datos del mes 1999-05 procesados y guardados en S3
Ejecutado mes: 1999/5


Procesando 1999-06: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1999-06 procesados y guardados en S3
Ejecutado mes: 1999/6


Procesando 1999-07: 100%|██████████| 100/100 [00:22<00:00,  4.47it/s]


Datos del mes 1999-07 procesados y guardados en S3
Ejecutado mes: 1999/7


Procesando 1999-08: 100%|██████████| 100/100 [00:22<00:00,  4.49it/s]


Datos del mes 1999-08 procesados y guardados en S3
Ejecutado mes: 1999/8


Procesando 1999-09: 100%|██████████| 100/100 [00:21<00:00,  4.62it/s]


Datos del mes 1999-09 procesados y guardados en S3
Ejecutado mes: 1999/9


Procesando 1999-10: 100%|██████████| 100/100 [00:22<00:00,  4.35it/s]


Datos del mes 1999-10 procesados y guardados en S3
Ejecutado mes: 1999/10


Procesando 1999-11: 100%|██████████| 100/100 [00:23<00:00,  4.17it/s]


Datos del mes 1999-11 procesados y guardados en S3
Ejecutado mes: 1999/11


Procesando 1999-12: 100%|██████████| 100/100 [00:24<00:00,  4.02it/s]

Datos del mes 1999-12 procesados y guardados en S3
Ejecutado mes: 1999/12





## Validar zarr

In [19]:
# Conexión a S3
s3 = s3fs.S3FileSystem(anon=False)
# Ubicación del archivo Zarr en S3
bucket_name = 'climate-action-datalake'
zarr_path1 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'
s3_url_1 = f's3://{bucket_name}/{zarr_path1}'
# Abrir el archivo Zarr
ds1 = xr.open_zarr(s3fs.S3Map(s3_url_1, s3=s3))
ds1

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray
"Array Chunk Bytes 392.78 GiB 24.73 MiB Shape (16262, 1801, 3600) (1, 1801, 3600) Dask graph 16262 chunks in 2 graph layers Data type float32 numpy.ndarray",3600  1801  16262,

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray
"Array Chunk Bytes 392.78 GiB 24.73 MiB Shape (16262, 1801, 3600) (1, 1801, 3600) Dask graph 16262 chunks in 2 graph layers Data type float32 numpy.ndarray",3600  1801  16262,

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray
"Array Chunk Bytes 392.78 GiB 24.73 MiB Shape (16262, 1801, 3600) (1, 1801, 3600) Dask graph 16262 chunks in 2 graph layers Data type float32 numpy.ndarray",3600  1801  16262,

Unnamed: 0,Array,Chunk
Bytes,392.78 GiB,24.73 MiB
Shape,"(16262, 1801, 3600)","(1, 1801, 3600)"
Dask graph,16262 chunks in 2 graph layers,16262 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray


### Dask

In [None]:
def procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3):
    # Convertir fechas de entrada a objetos datetime
    fecha_inicio = pd.to_datetime(fecha_inicio)
    fecha_fin = pd.to_datetime(fecha_fin)
    # Crear dataframe de todos los archivos a procesar
    df = archivos_mes(directorio)
    # Listar todos los meses en el rango de fechas
    rango_meses = pd.date_range(start=fecha_inicio, end=fecha_fin, freq='MS')
    # Crear lista de tareas vacia
    tareas = []
    # Iterar sobre cada mes en el rango de meses a procesar
    for mes_actual in rango_meses:
        año = mes_actual.year
        mes = mes_actual.month

        # Filtrar archivos para el mes
        df_mes = df[(df['año'] == año) & (df['mes'] == mes)]
        
        if not df_mes.empty:
            # Procesar mes
            tarea = dask.delayed(procesar_mes)(df_mes, año, mes, bucket_salida, ruta_salida_s3)
            tareas.append(tarea)
        else:
            print(f"No se encontraron archivos para el mes: {mes}")

    # Iniciar un cliente Dask
    client = dask.distributed.Client(memory_limit='4GB', n_workers=4)

    # Ejecutar todas las tareas en paralelo
    with dask.diagnostics.ProgressBar():
        results = dask.compute(*tareas, scheduler='threads')  # Puedes elegir el scheduler apropiado

    # Cerrar el cliente Dask
    client.close()

    return results

## Ejecución

In [None]:
# Uso de la función
directorio = '/home/ec2-user/SageMaker/datalake/data/agera/temperature/landing'
fecha_inicio = '1980-06-01'
fecha_fin = '1980-07-31'
bucket_salida = 'climate-action-datalake'
ruta_salida_s3 = 'zone=raw/source=agera5-v1-1/variable=temperature.zarr'
#procesar_rango_meses(fecha_inicio, fecha_fin, directorio, bucket_salida, ruta_salida_s3)