# ¿Como descargar datos desde la base usando python?

Existen tres subconjuntos de datos dentro de la base y aca vamos a aprender a descargar cada uno de ellos.
Además en python existen 2 librerias que permiten hacer una conexión para descargar los datos que vamos a revisar acá </br>
La primera es la librería **s3fs**: https://pypi.org/project/s3fs/ </br>
La segunda es la libreria **botocore**: https://pypi.org/project/botocore/ </br>

Comenzamos importando la primera librería, cargando los datos para la conexión y comenzamos a escribir el link al archivo, tal como se muestra en este [link](https://fmcarrasco.github.io/documentation_crc_sas/SISSA_database/2Estructura_de_datos/):</br>

En el primer caso, vamos a descargar un dato de **ERA5**

In [9]:
import s3fs

# Datos necesarios para la descarga
BUCKET_NAME = 'sissa-forecast-database'
modelo = 'ERA5'
variable = 'tmax'
year = '2010'
narchivo = year + '.nc'
PATH0 =  modelo + '/' + variable + '/'
# Comenzamos la conexión anonima (No necesita cuenta en AWS)
fs = s3fs.S3FileSystem(anon=True)
file = 's3://' + BUCKET_NAME + '/' + PATH0 + narchivo
print(file)



s3://sissa-forecast-database/ERA5/tmax/2010.nc


In [10]:

# Intentamos la descarga con try/except en caso algun error
# En este caso, el archivo se descarga en la carpeta donde se encuentra el script o notebook: './'
# Se puede setear también dicha carpeta en el nombre del archivo de descarga
try:
    fs.download(file, './s3fs_'+ narchivo)
except Exception as e:
    raise Exception(f"Failed to read file {file} from S3 due to this error:\n`{str(e)}`")


Usando la misma librería, ahora vamos a descargar un dato de **GEFSv12** corregido, para una fecha en particular.<\br>

Hay que recordar, que los datos de **GEFSv12** historicos solo existen para los días miercoles de cada semana.
En este caso, vamos a descargar para el *miercoles 31 de marzo de 2010* y solo vamos a descargar el *miembro 3* del ensamble

In [13]:
# Datos necesarios para la descarga
BUCKET_NAME = 'sissa-forecast-database'
tforecast = 'subseasonal'
modelo = 'GEFSv12_corr'
variable = 'tmax'
year = '2010'
ymd = '20100331'
nens = 'p03'
narchivo = variable + '_' + ymd + '_' + nens + '.nc'
PATH1 = tforecast + '/' + modelo + '/' + variable + '/' + year + '/' + ymd + '/'
# Comenzamos la conexión anonima (No necesita cuenta en AWS)
fs = s3fs.S3FileSystem(anon=True)
file = 's3://' + BUCKET_NAME + '/' + PATH1 + narchivo
print(file)

s3://sissa-forecast-database/subseasonal/GEFSv12_corr/rain/2010/20100331/rain_20100331_p03.nc


In [14]:
# Intentamos la descarga con try/except en caso algun error
# En este caso, el archivo se descarga en la carpeta donde se encuentra el script o notebook: './'
# Se puede setear también dicha carpeta en el nombre del archivo de descarga
try:
    fs.download(file, './s3fs_'+ narchivo)
except Exception as e:
    raise Exception(f"Failed to read file {file} from S3 due to this error:\n`{str(e)}`")


Ahora, vamos a utilizar la segunda librería con la cual se puede trabajar los datos de la base. En ambos casos, no es necesario tener una cuenta en AWS dado que la base se encuentra bajo un programa de datos abiertos de AWS, pero igual en los comentarios, se deja establecido como sería conectarse en caso de tener credenciales en la nube de Amazon.

In [15]:
import boto3
import botocore
from botocore import UNSIGNED
from botocore.client import Config

# Con credenciales
#s3 = boto3.resource('s3')
# Sin credenciales
s3 = boto3.resource("s3", config=Config(signature_version=UNSIGNED))

In [17]:
# Descargamos primero el dato ERA5 y seguimos usando las variables definidas más arriba
print(PATH0)
try:
    s3.Bucket(BUCKET_NAME).download_file(PATH0 + narchivo, './boto3_' + narchivo)
except botocore.exceptions.ClientError as e:
    if e.response['Error']['Code'] == "404":
        print("The object does not exist.")
    else:
        raise


ERA5/tmax/
The object does not exist.
