# Extracción de datos desde almacenamiento en la nube

## Google Cloud Storage

Detalles de consumo en Cloud Storage	

- 5 GB mes de almacenamiento regional (solo en regiones de EE.UU.)
- 5,000 operaciones de clase A por mes
- 50,000 operaciones de clase B por mes
- Salida de red de 1 GB por mes desde Norteamérica hacia todas las regiones de destino (excepto China y Australia)

El nivel gratuito solo está disponible en las regiones **us-east1**, **us-west1** y **us-central1**. Los cálculos de uso se combinan en esas regiones.

Documentacion

https://cloud.google.com/python/docs/reference/storage/latest

## Librerias

In [None]:
import pandas as pd
from google.cloud import storage
import gcsfs
import os
import polars as pl

~~~bash
pip install google-cloud-storage
~~~

In [1]:
client = storage.Client.from_service_account_json('secretos/credentials.json')
for bucket in client.list_buckets():
    print(bucket.name)

data-hist-cf
reportes-powerbi


In [2]:
for blob in client.get_bucket('data-hist-cf').list_blobs():
    print(blob.name)

DMS_data_gen (1).csv
DMS_data_gen (2).csv
DMS_data_gen (3).csv
DMS_data_gen (4).csv
DMS_data_gen (5).csv
DMS_data_gen (6).csv
DMS_data_gen.csv
dlt/
dlt/delta-table-mkt
dlt/deltamkt.parquet


In [3]:
csv = client.get_bucket('data-hist-cf').get_blob('DMS_data_gen.csv')
csv.download_as_text()

'Order_ID,Order_Date,Ship_Date,Ship_Mode,Country_Region,City,State_Province,Postal_Code,Customer_Name,Product_Name,Quantity,Discount\n593493,2018-02-25,18,First Class,United States,Newark,New Jersey,07195,Ken Black,Case Logic 2.4GHz Wireless Keyboard,65,0.69\n245840,2018-07-29,3,Second Class,United States,Peoria,Arizona,85383,Craig Leslie,DAX Value U-Channel Document Frames,2,0.47\n418194,2018-07-16,26,Second Class,Canada,Fermont,Québec,J1E,David Wiener,End Table,14,0.26\n520755,2018-06-24,19,First Class,Canada,Princeville,Québec,J1J,Rick Hansen,Colored Envelopes,52,0.07\n254624,2018-07-17,13,Second Class,United States,Denton,Texas,76205,Tom Stivers,Acme Kleen Earth Office Shears,48,0.54\n948270,2018-07-31,10,Second Class,Mexico,Las Flores,Tamaulipas,87395,Phillina Ober,Avery 49,28,0.63\n922829,2018-02-17,23,Standard Class,Canada,Stonewall,Manitoba,H9J,Tim Brockman,19w x 6d x 43h,28,0.32\n335157,2018-05-10,12,Standard Class,Mexico,Buenavista,Oaxaca,71730,Henry MacAllister,Eldon Shelf S

In [4]:
csv.download_to_filename('source/DMS_data_gen2.csv')

In [None]:
pd.read_csv('source/DMS_data_gen2.csv').head()

Unnamed: 0,Order_ID,Order_Date,Ship_Date,Ship_Mode,Country_Region,City,State_Province,Postal_Code,Customer_Name,Product_Name,Quantity,Discount
0,593493,2018-02-25,18,First Class,United States,Newark,New Jersey,07195,Ken Black,Case Logic 2.4GHz Wireless Keyboard,65,0.69
1,245840,2018-07-29,3,Second Class,United States,Peoria,Arizona,85383,Craig Leslie,DAX Value U-Channel Document Frames,2,0.47
2,418194,2018-07-16,26,Second Class,Canada,Fermont,Québec,J1E,David Wiener,End Table,14,0.26
3,520755,2018-06-24,19,First Class,Canada,Princeville,Québec,J1J,Rick Hansen,Colored Envelopes,52,0.07
4,254624,2018-07-17,13,Second Class,United States,Denton,Texas,76205,Tom Stivers,Acme Kleen Earth Office Shears,48,0.54


### Lectura de datos desde Google Cloud Storage utilizando gcsfs y pandas

~~~bash
pip install gcsfs
~~~

![bucket](../Images/bucket.png)

In [7]:
cv_path = 'gs://data-hist-cf/DMS_data_gen.csv'
pd.read_csv(
    cv_path,
    storage_options={'token':'secretos/credentials.json'}
).head()

Unnamed: 0,Order_ID,Order_Date,Ship_Date,Ship_Mode,Country_Region,City,State_Province,Postal_Code,Customer_Name,Product_Name,Quantity,Discount
0,593493,2018-02-25,18,First Class,United States,Newark,New Jersey,07195,Ken Black,Case Logic 2.4GHz Wireless Keyboard,65,0.69
1,245840,2018-07-29,3,Second Class,United States,Peoria,Arizona,85383,Craig Leslie,DAX Value U-Channel Document Frames,2,0.47
2,418194,2018-07-16,26,Second Class,Canada,Fermont,Québec,J1E,David Wiener,End Table,14,0.26
3,520755,2018-06-24,19,First Class,Canada,Princeville,Québec,J1J,Rick Hansen,Colored Envelopes,52,0.07
4,254624,2018-07-17,13,Second Class,United States,Denton,Texas,76205,Tom Stivers,Acme Kleen Earth Office Shears,48,0.54


## Amazon S3

In [None]:
import pandas as pd

# Credenciales de AWS (ejemplo)
aws_credentials = {
    "key": "TU_CLAVE_DE_ACCESO_AWS",
    "secret": "TU_CLAVE_SECRETA_AWS",
    "token": "TU_TOKEN_DE_SESIÓN_AWS"  # Opcional, necesario en algunos casos
}

# Leer un archivo CSV desde S3
df = pd.read_csv("s3://nombre-de-tu-bucket/ruta/al/archivo.csv", storage_options=aws_credentials)

# Procesar el DataFrame como de costumbre
print(df.head())

## Documentación de la función `storage_options` en `pd.read_csv` para consumir archivos de almacenamiento en la nube

**Descripción**

El parámetro `storage_options` en la función `pd.read_csv` de Pandas permite especificar opciones de configuración adicionales para leer archivos CSV directamente desde servicios de almacenamiento en la nube como Amazon S3 o Google Cloud Storage. Esto elimina la necesidad de descargar manualmente los archivos a tu máquina local antes de procesarlos con Pandas.

**Uso**

```python
import pandas as pd

# Credenciales de AWS (ejemplo)
aws_credentials = {
    "key": "TU_CLAVE_DE_ACCESO_AWS",
    "secret": "TU_CLAVE_SECRETA_AWS",
    "token": "TU_TOKEN_DE_SESIÓN_AWS"  # Opcional, necesario en algunos casos
}

# Leer un archivo CSV desde S3
df = pd.read_csv("s3://nombre-de-tu-bucket/ruta/al/archivo.csv", storage_options=aws_credentials)

# Procesar el DataFrame como de costumbre
print(df.head()) 
```

**Parámetros**

* `storage_options`: Un diccionario que contiene las opciones de configuración específicas del servicio de almacenamiento en la nube que estás utilizando. Las claves y valores exactos dependerán del servicio.

**Ejemplos de configuración**

* **Amazon S3**

```python
aws_credentials = {
    "key": "TU_CLAVE_DE_ACCESO_AWS",
    "secret": "TU_CLAVE_SECRETA_AWS",
    "token": "TU_TOKEN_DE_SESIÓN_AWS"  # Opcional
}
```

* **Google Cloud Storage**

```python
gcs_credentials = {
    "project_id": "TU_ID_DE_PROYECTO_GCP",
    "token": "ruta/a/tu/archivo/de/credenciales.json" 
}
```

**Notas importantes**

* **Dependencias:** Asegúrate de tener instaladas las bibliotecas necesarias para interactuar con el servicio de almacenamiento en la nube que estás utilizando (por ejemplo, `boto3` para S3, `google-cloud-storage` para Google Cloud Storage).
* **Formato del archivo:** El archivo CSV en la nube debe seguir el formato estándar que Pandas espera.
* **Autenticación:** Proporciona las credenciales de autenticación adecuadas en el diccionario `storage_options`.
* **Rendimiento:** Leer archivos directamente desde la nube puede ser más lento que leerlos localmente, especialmente para archivos muy grandes. Considera descargar archivos grandes localmente si el rendimiento es crítico.

**Ventajas**

* **Acceso directo a datos en la nube:** No es necesario descargar archivos manualmente.
* **Flujo de trabajo simplificado:** Integración directa con Pandas para análisis de datos.
* **Escalabilidad:** Capacidad para manejar grandes conjuntos de datos almacenados en la nube.

**Limitaciones**

* **Dependencia de bibliotecas externas:** Necesitas instalar y configurar las bibliotecas adecuadas para cada servicio de almacenamiento.
* **Posible impacto en el rendimiento:** La lectura de archivos desde la nube puede ser más lenta que la lectura local.


# Polars

In [None]:
credentials = 'secretos/credentials.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = credentials

fs = gcsfs.GCSFileSystem()
source = 'gs://data-hist-cf/DMS_data_gen.csv'
pl.read_csv(
    source,
    storage_options={'fs': fs}
).head()

  pl.read_csv(


Order_ID,Order_Date,Ship_Date,Ship_Mode,Country_Region,City,State_Province,Postal_Code,Customer_Name,Product_Name,Quantity,Discount
i64,str,i64,str,str,str,str,str,str,str,i64,f64
593493,"""2018-02-25""",18,"""First Class""","""United States""","""Newark""","""New Jersey""","""07195""","""Ken Black""","""Case Logic 2.4GHz Wireless Key…",65,0.69
245840,"""2018-07-29""",3,"""Second Class""","""United States""","""Peoria""","""Arizona""","""85383""","""Craig Leslie""","""DAX Value U-Channel Document F…",2,0.47
418194,"""2018-07-16""",26,"""Second Class""","""Canada""","""Fermont""","""Québec""","""J1E""","""David Wiener""","""End Table""",14,0.26
520755,"""2018-06-24""",19,"""First Class""","""Canada""","""Princeville""","""Québec""","""J1J""","""Rick Hansen""","""Colored Envelopes""",52,0.07
254624,"""2018-07-17""",13,"""Second Class""","""United States""","""Denton""","""Texas""","""76205""","""Tom Stivers""","""Acme Kleen Earth Office Shears""",48,0.54
