# Buckets s3
## Servicios para almacenamiento de documentos

## Recursos

```{note}

- Archivo CSV:  [Homicidios_transito_ponal.csv](https://www.datos.gov.co/Seguridad-y-Defensa/Homicidios-accidente-de-tr-nsito-Polic-a-Nacional/ha6j-pa2r)
- Página web de prueba : [Descargar](webpage/pagina.zip)

```

## Introducción

Amazon Web Services (AWS) es una plataforma de servicios en la nube que ofrece una variedad de infraestructuras como servicio (IaaS), plataforma como servicio (PaaS) y software como servicio (SaaS). Ofrece servicios en diversas áreas de la computación en la nube, incluyendo almacenamiento de datos, cómputo, networking, base de datos, análisis de datos, aprendizaje automático, IoT, seguridad y mucho más.

**Uno de los servicios más utilizados y esenciales de AWS es el Simple Storage Service (S3)**. AWS S3 es un servicio de almacenamiento de objetos diseñado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar: sitios web, aplicaciones móviles, aplicaciones corporativas y datos de sensores o dispositivos IoT. Es una solución ideal para respaldar y restaurar datos, archivar, y mucho más debido a su durabilidad, seguridad y escalabilidad.

**S3 funciona en torno al concepto de "buckets" y "objetos"**. Un bucket es un contenedor de almacenamiento para los objetos, que son fundamentalmente los archivos que subes a S3. Cada objeto consta de datos, un identificador clave (nombre) y metadatos.

**Un concepto interesante y útil cuando se habla de almacenamiento en la nube y big data es el "datalake"**. Un datalake es un sistema o repositorio de almacenamiento que almacena grandes cantidades de datos en su formato nativo, generalmente en objetos de tipo archivo y a veces en esquemas semi-estructurados o no estructurados.

S3 puede ser utilizado como un datalake porque permite el almacenamiento masivo y escalable de datos en varios formatos, incluyendo CSV, JSON, Parquet, imágenes, videos, etc. Además, S3 permite la integración con otras herramientas de análisis de datos de AWS como Athena, Redshift, Quicksight y EMR para proporcionar capacidades de procesamiento y análisis de big data en los datos almacenados en el datalake.

**Un datalake en S3 permite almacenar todos los datos en un solo lugar, independientemente del volumen y la variedad de los datos, lo que facilita el acceso y análisis de datos a lo largo del tiempo, ya que los datos no necesitan ser transformados ni cargados en un sistema separado para su análisis**. La capacidad de almacenar grandes cantidades de datos y el potencial para realizar análisis sofisticados hacen de S3 una opción popular para los datalakes.

## Objetivo

Esta guía presenta la librería boto3, una de las principales opciones **para interactuar con algunos de los servicios de Amazon Web Services**.

Lo primero que debemos hacer es crear un servicio de S3 en AWS y configurar las credenciales de acceso. Ingrese a la consola de AWS y busque el servicio S3

![AWS_S3.png](imagenes/AWS_S3.png)

Seleccione la opción Create Bucket

![AWS_CreateBucket.png](imagenes/AWS_CreateBucket.png)

Siga las instrucciones del sistema de AWS para los servicios de S3, asigne un nombre al bucket

![AWS_S3_instrucciones.png](imagenes/AWS_S3_instrucciones.png)

En general puede configurar el bucket con las opciones por defecto que se presentan, en este caso solo vamos a realizar una modificación, en la sección de acceso público, eliminando el bloqueo para permitir que el acceso al bucket sea libre.

![AWS_S3_publicaccess.png](imagenes/AWS_S3_publicaccess.png)

Posteriormente debemos configurar las credenciales de acceso a AWS. Para realizar este proceso, ingrese a las opciones de IAM (Manejo de Identidades)

![AWS_IAMService.png](imagenes/AWS_IAMService.png)

Dentro de los servicios de Manejo de Identidad (IAM), seleccione Users >> Create User.

![alt text](imagenes/AWSCreateuser.png)

Siga las instrucciones de la consola de administración:
- Asigne un nombre
- Si no cuenta con un grupo de usuarios, seleccione la opción **Create Group**
- En la creación del grupo, asigne un nombre y escoja Amazon S3 Full Access en los permisos


![AWSS3_IAMPermissions.png](imagenes/AWSS3_IAMPermissions.png)


```{admonition} Importante

Si esta desarrollando esta guía con la cuenta de AWS Academy es posible que la creación de cuentas de usuario esté restringida. Siga los siguientes pasos para determinar sus credenciales de acceso.

```


Seleccione en el Academy Learner Lab la ocpicón **AWS Details** y junto al texto AWS CLI el boton **Show**.


![alt text](imagenes/awsacademycredentials.png)

In [7]:
aws_access_key_id="ASIA4LJBLNESNJQDNBFY"
aws_secret_access_key="f4jPT3baFrUWyEQPAth+KeZHOKsxinERaoyaf0cT"
aws_session_token="IQoJb3JpZ2luX2VjEMv//////////wEaCXVzLXdlc3QtMiJHMEUCIQDsBMDRny6nNume3LblABz+0apnZQKTC/dAY/1MlxLIPAIgLDfriziMHgeBsfLizB7ahd/aDjWg1iH3k6AwAW0dnm4qrwII5P//////////ARAAGgw4NDg4NjI4NjU3MDAiDH8JJ/ShOlevbIkyMiqDAt5VYrcXh8mmYnut4tbE62QMOBXkgKpH7Ggh1lQXQo94dnJMLLztj9bJmc3d/fchU0q2RKqUxG+XcYnGz6AxG7Lu2YRlMgvsVy2D0seCmVRvWW9AB8uk79nktJDAD5slEc7ZhAcKCQpJTKSTdGcWFm3l7BJSw32cfIG+6kfiQb9CxGJsB80KMd6uQYsfuj+rXIEaXfErbntGb65HgAICvNPTESaNfXVd+8gxFF8kleKv7acZcgtJsJU432hNsyNR25OHnKVKlAXPqHpog9jukNbunBd0bWDfZ10Ml/pBXjHnCoEg54vEoZsWg3R8L38frAkYjRp5s4x6WwID+UzpEIlCek8w4sTktgY6nQHTp04nLuz+FHbTbDEnhT6AhPG/yShvCFhIlzIpH0j/Dm+FXUV6yiZQZlA69qSdbpKmlVEBPrleqJfJa2emS/qdwSkae4fqXg7Dhjk+aSDfdVPkx/00E9mKSdI1bpvBBrLLRo2rZut09zbpH4aXzlSJAzYnWTYSdCNb7OLnxLuDs/hHWJ6SkWMOJRweoHJ8u7qee7oazKXPi+2s9VdG"

En esta guía se manejan variables directamente definidas en el código, sin embargo en un entorno de producción es recomendable realizar a través de archivos en ubicaciones específicas como `~/.aws/credentials` y  `~/.aws/config`

In [4]:
aws_access_key_id="access_key"
aws_secret_access_key="secretkey"
aws_session_token= "token"
region= 'us-east-1'
bucket_name = 'unisabanabucket'


Asegúrese de instalar la librería mediante `conda install -c conda-forge boto3` ó  `pip install boto3` en su entorno de Conda. 

In [8]:
import logging
import boto3
from botocore.exceptions import ClientError
import os

## Definición de funciones

Para realizar la conexión a nuestro Bucket, vamos a definir algunas funciones que permitiran la conexion mediante la librería Boto3.

Inicialmente realizaremos una prueba de conexión al repositorio de documentación para conocer los permisos con que cuenta al llave de acceso.

In [10]:
s3 = boto3.client(
    's3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token,)
result = s3.get_bucket_acl(Bucket=bucket_name)
result

{'ResponseMetadata': {'RequestId': 'TH9JTH5A29KG8GRK',
  'HostId': 'wAL/3DBgkdcGaVfL0550pCrPmQ61NhFbuyY4Fjrp1VkcZGQk/SsFrqU6ByvUkOCExkpFVYzVtR4=',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'wAL/3DBgkdcGaVfL0550pCrPmQ61NhFbuyY4Fjrp1VkcZGQk/SsFrqU6ByvUkOCExkpFVYzVtR4=',
   'x-amz-request-id': 'TH9JTH5A29KG8GRK',
   'date': 'Thu, 05 Sep 2024 03:54:55 GMT',
   'content-type': 'application/xml',
   'transfer-encoding': 'chunked',
   'server': 'AmazonS3'},
  'RetryAttempts': 0},
 'Owner': {'DisplayName': 'awslabsc0w6177903t1693244912',
  'ID': '2d50fd782e0c47fd661472368b4324152ef82a4eb92b6067372e17196e87ede6'},
 'Grants': [{'Grantee': {'DisplayName': 'awslabsc0w6177903t1693244912',
    'ID': '2d50fd782e0c47fd661472368b4324152ef82a4eb92b6067372e17196e87ede6',
    'Type': 'CanonicalUser'},
   'Permission': 'FULL_CONTROL'}]}

Función para subir un archivo al Bucket

In [11]:
def upload_file_to_s3(filename, bucket, object_name=None):
    if object_name is None:
        object_name = filename

    s3_client = boto3.client('s3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token,)
    try:
        response = s3_client.upload_file(filename, bucket, object_name)
    except ClientError as e:
        logging.error(e)
        return False
    return True

Función para descargar un archivo

In [12]:
# Descargar un archivo
def download_file_from_s3(filename, bucket, object_name=None):
    if object_name is None:
        object_name = filename

    s3_client = boto3.client('s3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token)
    try:
        s3_client.download_file(bucket, object_name, filename)
    except ClientError as e:
        logging.error(e)
        return False
    return True


```{admonition} Ejericio

Desarrolle un código que devuelva el listado de los archivos disponibles en el bucket

```

In [13]:
# Ejercicio Individual
# Esta función contiene una etiqueta remove-input para no publicarla en las guías

def list_objects_in_bucket(bucket, limit):
    s3_client = boto3.client('s3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token)
    paginator = s3_client.get_paginator('list_objects_v2')
    count = 0
    for page in paginator.paginate(Bucket=bucket):
        for object in page['Contents']:
            if count == limit:
                return
            print(f'Object: {object["Key"]}, Last modified: {object["LastModified"]}')
            count += 1



## Prueba de funciones

Ahora vamos a probar algunas de las funciones definidas previamente

```{note}

Puede descargar el archivo de prueba en el enlace [Homicidios_transito_ponal.csv](https://www.datos.gov.co/Seguridad-y-Defensa/Homicidios-accidente-de-tr-nsito-Polic-a-Nacional/ha6j-pa2r)

```

In [14]:
# Subir el archivo 'homicidios_transito_ponal.csv' en el directorio actual y un bucket llamado 'my-bucket'
upload_file_to_s3('homicidios_transito_ponal.csv', bucket_name)

True

## Ejercicio
Defina una función que liste todos los objetos disponibles en el bucket

In [15]:
# Listar todos los objetos en 'my-bucket'
list_objects_in_bucket(bucket_name,5)

Object: homicidios_transito_ponal.csv, Last modified: 2024-09-05 03:59:28+00:00


In [16]:
# Descargar el archivo 'homicidios_transito_ponal.csv' del bucket 'BUCKET_NAME'
# Realice los cambios en nombre del archivo csv y del bucket de acuerdo a lo que definió en el proceso de configuración
download_file_from_s3('homicidios_transito_ponal.csv', bucket_name)

True

In [17]:
import os
import boto3
from botocore.exceptions import NoCredentialsError

def upload_folder_to_s3(bucket_name, folder_path):
    s3 = boto3.client('s3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token)

    for subdir, dirs, files in os.walk(folder_path):
        for file in files:
            full_path = os.path.join(subdir, file)
            with open(full_path, 'rb') as data:
                try:
                    s3.upload_fileobj(data, bucket_name, full_path[len(folder_path):])
                    print(f'Archivo {file} subido con éxito')
                except NoCredentialsError:
                    print("Las credenciales no están disponibles")


Normalmente no subimos o descargamos un solo archivo, ahora vamos a probar subiendo una carpeta completa.

Este ejemplo no crea una subcarpeta dentro del bucket, analice como realizaría el proceso para que al subir el folder, el contenido quede almacenado en un directorio específico dentro del bucket.

In [18]:
import boto3
import os

def upload_folder_to_s3(bucket_name, directory_name):
    s3 = boto3.resource('s3', 
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    aws_session_token=aws_session_token)

    # Iterar a través de todos los archivos en la carpeta (y subcarpetas)
    for root, dirs, files in os.walk(directory_name):
        for filename in files:

            # Construir la ruta completa del archivo
            local_path = os.path.join(root, filename)

            # Construir la ruta completa del archivo en el bucket S3
            # Nota: esto asume que 'directory_name' es una carpeta en el directorio actual.
            # Si 'directory_name' es en realidad una ruta completa, entonces puedes cambiar la siguiente línea a:
            # s3_path = os.path.relpath(local_path)
            s3_path = os.path.relpath(local_path, directory_name)

            try:
                s3.meta.client.upload_file(Filename=local_path, Bucket=bucket_name, Key=s3_path)
                print(f"Archivo {filename} subido a S3 con éxito")
            except Exception as e:
                print(f"No se pudo subir el archivo {filename} a S3: {e}")


In [19]:

upload_folder_to_s3(bucket_name, 'webpage')


Archivo pagina.zip subido a S3 con éxito
Archivo index.html subido a S3 con éxito


## Otros opciones de Boto3

## Defina las credenciales de acceso de un usuario que cuente con permisos para lectura en el servicio EC2

In [None]:
import boto3

# Crea una sesión en la región que deseas consultar
session = boto3.Session(
    aws_access_key_id='TU_ACCESS_KEY',
    aws_secret_access_key='TU_SECRET_KEY',
    region_name='us-east-1'  # Cambia a la región que necesites
)


In [None]:

# Conectarse al servicio EC2
ec2 = session.client('ec2')

# Obtener una lista de todas las instancias disponibles
response = ec2.describe_instances()

# Procesar la respuesta y mostrar información de las instancias
for reservation in response['Reservations']:
    for instance in reservation['Instances']:
        print(f"Instance ID: {instance['InstanceId']}")
        print(f"State: {instance['State']['Name']}")
        print(f"Instance Type: {instance['InstanceType']}")
        print(f"Public IP: {instance.get('PublicIpAddress', 'No Public IP')}")
        print(f"Launch Time: {instance['LaunchTime']}")
        print("-" * 20)


## Conclusiones

A través  de este notebook, hemos revisado las opciones de AWS y su servicio S3 para almacenar archivos de cualquier tipo.

Este proceso se realizó mediante la librería boto3 que no solo tiene métodos para interactuar con el servicio S3, para conocer algunas funcionalidades adicionales de esta librería, puede consultar la información disponible en [AWS](https://aws.amazon.com/es/sdk-for-python/)