<br/>

<img src="https://uploads-ssl.webflow.com/614b1fe22fa8b90ef41aeffe/6265cb48f9496b1cefc9ab75_logotipo-mbit-39.png" width="200px" align="right" CLASS="TextWrap" style="background-color:#2a3f3f;">

<h1><font color="#2a3f3f" size=5>Introducción a boto3</font></h1>

<br/>
<div style="text-align: right">
<font color="#2a3f3f" size=3>Adrián Sánchez - adrian.sanchez@mbitschool.com</font><br>
<font color="#2a3f3f" size=3>Cloud Computing</font><br>
</div>


En esta libreta vamos a interactuar con AWS mediante el SDK de python llamado **boto3**. En el siguiente enlace tenemos la documentación ofical de esta librería:

https://boto3.amazonaws.com/v1/documentation/api/latest/index.html

Para ello es importante tener instalado el paquete `boto3`, para instalarlo:

```
sudo pip3 install boto3
```

Para poder utilizar `boto3` tenemos que importarlo. Con esta librería podemos acceder a todos los servicios de AWS que tenemos disponibles y podremos usarlo de forma programática, es decir, podremos realizar cualquier tipo de acción que haríamos en la consola pero con código.

In [13]:
import boto3
import pandas as pd
import json 

Para poder conectarnos a nuestra cuenta de AWS tenemos que coger las **credenciales** que se nos facilitan cuando iniciamos nuestra cuenta (`Start Lab`). Una vez inicializada nuestra cuenta, en la pestaña `AWS Details` podremos encontrar la credenciales que necesitamos. Copialas en las siguientes variables:

Para concectarnos con nuestra cuenta tendemos que definir una `Session` utilizando las credenciales que nos proporcionan, además de establecer la región a la que nos queremos concectar. Por defecto, cuando estemos utilizando **_AWS Academy_ solo podremos utilizar la región de _Northern Virginia_** que tiene este código `us-east-1`.

In [14]:
with open('boto3keys.json') as json_file:
    boto3keys = json.load(json_file)

In [15]:
session = boto3.session.Session(**boto3keys)

In [16]:
session

Session(region_name='us-east-1')

In [17]:
# session = boto3.session.Session(
#  region_name="us-east-1",
#  aws_access_key_id=aws_access_key_id,
#  aws_secret_access_key=aws_secret_access_key,
#  aws_session_token=aws_session_token
# )

Para elegir el servicio que queremos utilizar, simplemente tenemos que definir un **cliente** del servicio que queremos usar. Por ejemplo, si queremos utilizas `S3` tendremos que crear un cliente de la siguiente forma:

In [18]:
s3 = session.client('s3')

Una vez tenemos un cliente de un servicio, podemos hacer cualqueir tipo de acción con él. Para ver todo lo que podemos hacer con un cliente de `S3` pudes entrar en [aquí](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html). Vamos a listar todos los _buckets_ que tenemos en nuestra cuenta:

In [19]:
response = s3.list_buckets()

response

{'ResponseMetadata': {'RequestId': 'ZXRSKPARG6D66759',
  'HostId': 'dmtCK3LkvnwvlndoaXtAS1++RaD3C3xPOowv36FKcVn6KFRu3Fq6+nonR946w0cIlnPhRN3V5rU=',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'dmtCK3LkvnwvlndoaXtAS1++RaD3C3xPOowv36FKcVn6KFRu3Fq6+nonR946w0cIlnPhRN3V5rU=',
   'x-amz-request-id': 'ZXRSKPARG6D66759',
   'date': 'Sun, 28 Jan 2024 11:48:12 GMT',
   'content-type': 'application/xml',
   'transfer-encoding': 'chunked',
   'server': 'AmazonS3'},
  'RetryAttempts': 0},
 'Buckets': [{'Name': 'trendai-bucket-01',
   'CreationDate': datetime.datetime(2024, 1, 25, 16, 20, 26, tzinfo=tzutc())}],
 'Owner': {'DisplayName': 'awslabsc0w6897514t1702370627',
  'ID': '8d7aa38d5be39d4d7b8c6c3ea53b7aa47b130bfec29ac260aaf9e2f7f983880d'}}

Como podéis observar, el resultado que obtenemos tiene más metadatos e información ya que lo que hacemos son peticiones _http_ cada vez que hacemos alguna acción de un servicio.

In [20]:
response['Buckets']

[{'Name': 'trendai-bucket-01',
  'CreationDate': datetime.datetime(2024, 1, 25, 16, 20, 26, tzinfo=tzutc())}]

Coge el _bucket_ que hemos creado y guardalo en la siguiente variables: 

In [21]:
BUCKET_NAME = 'test-mde-mbit'

In [22]:
for bucket in response['Buckets']:
    BUCKET_NAME = bucket["Name"]

In [23]:
s3.list_objects(Bucket=BUCKET_NAME)

{'ResponseMetadata': {'RequestId': 'V3Y8CQHTM0GF3SQH',
  'HostId': 'CYe+AvSQWTM6EsT3idNXTLRLGg+ee47xdr70M8UFuqvaN9GU8axBwLh7B8Cvi6BrtcVB8z5Ucms=',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'CYe+AvSQWTM6EsT3idNXTLRLGg+ee47xdr70M8UFuqvaN9GU8axBwLh7B8Cvi6BrtcVB8z5Ucms=',
   'x-amz-request-id': 'V3Y8CQHTM0GF3SQH',
   'date': 'Sun, 28 Jan 2024 11:48:44 GMT',
   'x-amz-bucket-region': 'us-east-1',
   'content-type': 'application/xml',
   'transfer-encoding': 'chunked',
   'server': 'AmazonS3'},
  'RetryAttempts': 0},
 'IsTruncated': False,
 'Marker': '',
 'Contents': [{'Key': 'test_df.csv',
   'LastModified': datetime.datetime(2024, 1, 25, 16, 25, 18, tzinfo=tzutc()),
   'ETag': '"d02d750e0703858f83a64d3e339262fc"',
   'Size': 16,
   'StorageClass': 'STANDARD',
   'Owner': {'DisplayName': 'awslabsc0w6897514t1702370627',
    'ID': '8d7aa38d5be39d4d7b8c6c3ea53b7aa47b130bfec29ac260aaf9e2f7f983880d'}}],
 'Name': 'trendai-bucket-01',
 'Prefix': '',
 'MaxKeys': 1000,
 'EncodingType'

## Interactuando con datos en s3

Al igual que podemos listar _buckets_ y objetos que tengamos, S3 puede ser directamente una herramienta muy valiosa para un data scientist a la hora de almacenar datos experimentales de manera persistente.

Podemos utilizar `boto3` para descargar ficheros desde S3 y cargarlos en librerías de python de analítica como `pandas`.

Vamos a descargarnos el fichero `logo.jpeg`. Para descargarnos cualquier tipo de fichero o dato necesitaremos 2 parámetros:

- _Bucket_: nombre del bucket donde se encuentran los datos.
- _Key_: nombre/ruta donde se encuentran los ficheros en el bucket.

In [25]:
# s3.download_file(Bucket=BUCKET_NAME, Key='logo.jpeg', Filename='/tmp/logo-cloud.jpeg')

In [26]:
!ls /tmp/

FirstBootAfterUpdate
FirstBootCleanupHandled
[32mSublime Merge.c0309bad0e89a2a7fa8e8665e86ed26a.b20fb16dfa6d178d8ae1cc90b5888899.sock[m[m
[34mcom.apple.launchd.4xhJQMzFrO[m[m
[32mmysql.sock[m[m
mysql.sock.lock
[32mmysqlx.sock[m[m
mysqlx.sock.lock
[34mpowerlog[m[m
[34mtmp-mount-WEXfhQ[m[m


De esta forma hemos descargado ficheros desde S3, también podemos descargar los ficheros directamente en un buffer (_object_) temporal:

In [27]:
obj = s3.get_object(Bucket=BUCKET_NAME, Key='logo.jpeg')

NoSuchKey: An error occurred (NoSuchKey) when calling the GetObject operation: The specified key does not exist.

In [None]:
obj

En la respuesta tenemos un campo `Body` donde está el contenido de nuestro fichero. Para poder acceder a él debemos hacerlo de la siguiente forma:

In [16]:
obj['Body']

NameError: name 'obj' is not defined

In [28]:
with open('/tmp/logo-s3.jpeg', 'wb') as f:
    f.write(obj['Body'].read())

NameError: name 'obj' is not defined

In [29]:
!ls /tmp

[35m/tmp[m[m


In [None]:
obj['Body'].read()

In [26]:
# create a test df with some data

df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6]})


# change df name 

df.name = 'test_df'

In [31]:
# iupload df to s3

s3.put_object(Bucket=BUCKET_NAME, Key='test_df.csv', Body=df.to_csv(index=False))

{'ResponseMetadata': {'RequestId': '8ZESN24SZ3VKPDHS',
  'HostId': 'NzvU9S/Xr2B32ptJU1FN+2o8miulphfnFZRlNTv7uobkM/7fGRpjrs6JZUaqh9fLMxMOnIfug/NsmooxtOsx1w==',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amz-id-2': 'NzvU9S/Xr2B32ptJU1FN+2o8miulphfnFZRlNTv7uobkM/7fGRpjrs6JZUaqh9fLMxMOnIfug/NsmooxtOsx1w==',
   'x-amz-request-id': '8ZESN24SZ3VKPDHS',
   'date': 'Thu, 25 Jan 2024 16:25:18 GMT',
   'x-amz-server-side-encryption': 'AES256',
   'etag': '"d02d750e0703858f83a64d3e339262fc"',
   'server': 'AmazonS3',
   'content-length': '0'},
  'RetryAttempts': 0},
 'ETag': '"d02d750e0703858f83a64d3e339262fc"',
 'ServerSideEncryption': 'AES256'}

In [32]:
# s3.upload_file(Bucket=BUCKET_NAME, Key='logo-s3.jpeg', Filename='/tmp/logo-cloud.jpeg')