# Unitat 9. Introducció a data lakes i data warehouse.

Aquests dos conceptes fan referència a arquitectures on s'emmagatzemen dades amb l'objectiu de facilitar la integració de dades de diferents serveis d'una organització a llarg plaç. Aquest tipus d'arquitectures impliquem que al darrera hi ha un projecte de governanza de les dades. La presència d'aquestes entitats s'acompanya d'una guia de bones pràctiques per a la recopilació, integració i organització de dades que ha de ser entesa per els departaments d'una organització.<br/>

Naturalment, està format per clusters d'equip de diferent naturaleza i composició, a més inclou un grup heterogeni de programari que centralitcen les dades des d'una perspectiva d'explotació oferim punts d'entrada per als usuaris on puguin consultar  dades de intereses.

En aquestes arquitectures hi ha processos operacionals com còpies de seguretat, xifrat i encriptació, autenticació i accés, eines per a l'execució distribuïda de dades, etc. 

Atès que són conceptes propis de l'enginyeria i perfils molt especialitzats com el d'arquitecte de cloud o de dades, **en aquest capítol ens centrarem  a adquirir nocions bàsiques de tots dos conceptes i entendre els avantatges que aquests sistemes aporten a una organització i veurem con funciona des de el punt de vista d'un usuari**

## Nocions

Quan una organització es subdivideix en departaments, grups i projectes, cadascun genera i depèn d’uns dades específiques. Una visió holística de les dades sol ser complicada si no hi ha una clara governança de les dades. En aquesta es defineix què registrar, com registrar-ho, durant quant de temps, i una de les qüestions importants és on, entre altres factors.

##### Aquest "on" és un *data lake* i/o un *warehouse*.

#### La metàfora
Un llac (*lake*) o un dipòsit (*warehouse*) no són més que metàfores relacionades amb el cicle de l’aigua i el flux de dades. Les dades són com l’aigua; moltes circulen dins l’organització sense que sigui necessari guardar-les. No obstant això, en certes situacions és convenient registrar i mantenir algunes, i per això es forma un llac on queda aquesta acumulació de dades/aigua.

- En un llac (*lake*) l’aigua s’emmagatzema en cru, és a dir, no es fan processos de neteja o tractament.

- En un dipòsit o tanc (*warehouse*), l’aigua és tractada, és a dir, es realitzen processos ETL (extracció, transformació, càrrega).

Segons el context, ambdós termes poden acabar confonent-se. Avui dia, certes eines pensades per donar suport a funcions *lake* ofereixen mecanismes per fer transformacions.


![ETL](datalakes/ETL.jpg "ETL")

A nivell pràctic, els grans proveïdors de *Cloud* com Google, AWS (Amazon), Azure (Microsoft), Alibaba, entre d’altres, ofereixen serveis específics que faciliten la integració i una perspectiva centralitzada de les dades. Aquesta centralització es refereix al coneixement de la seva existència, els seus metadades, i el seu oferiment a altres usuaris dins de l’organització.

A la figura veiem el panell de creació de *Lakes* dins de Google Cloud (aquest servei dins del seu entorn es diu `Dataplex`), on es poden apreciar funcions d’administració, seguretat, processos operacionals, gestió d’atributs, perfils de verificació de les dades i avaluació de les mateixes, entre altres.
![Google Lake](datalakes/googlelake.png  "Google Lake")

A AWS també trobem el mateix servei, com `AWS Lake Foundation`, on s'integren processos ETL.  
![AWS Lake](datalakes/AWS.webp  "AWS Lake")


Existeixen **alternatives obertes i gratuïtes** per crear llacs de dades. La més coneguda és [Apache Hudi](https://hudi.apache.org/), dins de l'ecosistema d'[Apache](https://www.apache.org/). Aquesta fundació acull la major part de projectes de codi obert relacionats amb la web, incloent-hi les principals bases de dades i models de computació, com Apache Spark (similar al que implementa Google), que ofereix analítica sobre grans volums de dades.

![Apache Hudi](datalakes/ApacheHudi.png  "Apache Hudi")


Esperam que, després d’aquests breus comentaris i exemples, s'entengui que la configuració i la posada en marxa d'un llac de dades requereix perfils especialitzats en Administració de Sistemes, Arquitectura Cloud o Arquitectura de Dades.

A més, estan dissenyats per al processament de grans quantitats de dades en molt poc temps. Per això, es necessiten llibreries especialitzades en computació paral·lela o distribuïda. És a dir, no és habitual utilitzar Jupyter Notebooks o eines similars com Google Colab per executar scripts de Pandas en un llac de dades. En aquests casos, hem de recórrer a llibreries com Spark i paradigmes de programació de "divideix i venceràs" (MapReduce).

Per fer-nos una idea, imaginau que hem de traduir tota una biblioteca de documents. Una sola persona trigarà molt de temps, però si tenim 100 persones, trigarem gairebé 100 vegades menys (tot i que no és proporcional, ja que cal considerar el temps que implica organitzar aquestes persones i repartir la feina). En aquest sistema, cada persona podria, al seu torn, distribuir tasques de traducció de cada capítol d'un llibre. Imaginau com de ràpid seria si som capaços de dividir el problema d'aquesta manera. Això sí, necessitam una infraestructura capaç de repartir les feines entre treballadors, coordinar-los i gestionar els resultats de tots ells.


## Aportacions: què aporta un data lake?

Què us volem transmetre i ensenyar amb aquesta unitat?

Tingueu en compte que, a més de la infraestructura, darrere d'un llac de dades hi ha una evolució en l'organització dels mateixos. Una política de transparència i coherència on tots els perfils d'una organització se’n beneficien.

Us plantegem dos escenaris! Segur que us hi heu trobat alguna vegada...

Nota: Font de les imatges: Referències [5] *The Analytics Setup Guidebook: How to build scalable analytics & BI stacks in the modern cloud era.* Huy Nguyen, Ha Pham, Cedric Chin. Holistics, 2020.

#### Primer escenari

Un usuari que vol conèixer un indicador (KPI) de l'organització (per exemple, vendes totals, sol·licitants d'una ajuda, projectes subvencionats per fons FEDER, etc.) ha de demanar a l'analista quins indicadors estan associats. L'analista, al seu torn, ha de preguntar a l'enginyer, que sap on estan emmagatzemats, perquè generi alguna cosa (un fitxer, unes taules, etc.) amb tota aquesta informació. Un cop generada la informació, l'analista l'analitza i proporciona una resposta. Aquest cicle es pot repetir fins que l'usuari estigui satisfet amb la proposta. A més, és un procés força estàtic, ja que depèn de l'actualització que hi hagi darrere de les dades.<br/>
![Primer cas](datalakes/cerocaso.png  "Primer cas")


- Quin paper heu jugat en aquest flux?

#### Segon escenari

Amb l'avenç tecnològic i l'adquisició de certes competències, molts usuaris ja són capaços d'accedir a fonts de dades determinades (serveis de portals de dades obertes, certs repositoris, els seus propis registres, etc.), on alguns departaments publiquen dades prèviament sol·licitades. Aquests usuaris poden processar, analitzar i interpretar els seus propis KPIs. Fantàstic! Tanmateix, no sempre coneixen les particularitats d'algunes dades (captació, actualització, tipologia, semàntica, etc.), cosa que pot conduir a anàlisis incoherents amb les dades d'entrada.<br/>
![Segon cas](datalakes/primercaso.png  "Segon cas")

- Amb aquests cursos esperem que arribeu a realitzar les vostres pròpies anàlisis sense dependre de tercers.


#### El cas desitjable

Cal ser sincers i reconèixer les competències professionals de cadascun de nosaltres: és l'analista de dades (o els analistes) qui ha de modelar les dades perquè siguin ofertes coherentment als usuaris de l'organització que les vulguin explotar. Permeteu-nos la metàfora: les dades en brut són meravelloses, però necessiten una mica de cocció per part d'un analista. Processos com la transformació de la periodicitat, el tractament de valors desconeguts o la normalització haurien de ser realitzats pel coneixedor de les dades, l'analista. El bolcatge d'aquestes dades en un Lake o Warehouse proporciona un mecanisme d'accés i càrrega per als altres usuaris.

Fixeu-vos que PowerBI té una entrada de dades anomenada Lake.

![Tercer cas](datalakes/segundocaso.png  "Tercer cas")

- Aleshores, com accedeixo a un datalake?

### Accés

Presentem dos escenaris per accedir a un lake (o warehouse) des de Python i Power BI.




#### Des de PowerBI

Quan creeu un nou informe o afegiu un nou origen de dades, teniu l'opció de seleccionar altres fonts i us apareixerà una finestra com la següent.

Entre totes les opcions, trobareu algunes relacionades amb "Lakes".

![Load lake](datalakes/powerbi-lakes.png "Load lake")

Teniu en compte que PowerBi és una eina de Microsoft, per tant, té una millor connexió amb les seves eines.
Per exemple, amb [OneLake](https://learn.microsoft.com/es-es/fabric/onelake/onelake-overview):<br/>

![One lake](datalakes/powerbi-onelake.png  "One lake")

Si teniu configurat aquest servei directament us surtira el contigut que teniu alla penjat:

![One lake contingut](datalakes/powerbi-onelake2.png  "One lake contingut")<br/>
Només teniu que agafar la font de dades i ja esta! Ràpid i senzill

També està molt be integrat amb Azure. I només cal ficar la URL:<br/>
![Azure lake](datalakes/powerbi-azurelake.png  "Azure lake")

#### Des de Python

Nota: Penseu que està pensat per a sistemes distribuïts, amb serveis d'autenticació i llibreries més específiques que gestionen informació i distribució de càrregues de treball.

Per accedir a un fitxer al nostre sistema, especifiquem la seva ruta (path), per exemple:

```python
df = pd.read_csv("data_samples/WHO.csv")
df = pd.read_csv("c:/Usuaris/Isaac/data_samples/WHO.csv")
```

Disposem d'un sol sistema operatiu, un disc i, per tant, és senzill especificar la ruta.

També podem especificar-ho com una URL:
```python
df = pd.read_csv("http://exploredata.org/ftp/WHO.csv")
```

En entorns Lake, sol ser una mica més complex, ja que aquest fitxer estarà distribuït entre diferents equips (per qüestions de rèpliques), i caldrà especificar credencials de seguretat, etc. Adjuntam un exemple amb Python per accedir a un [Lake a Google](https://cloud.google.com/python/docs/reference/dataplex/latest).

```python
from google.cloud import storage
from google.cloud import dataplex_v1
import os
# initialize the common variables
dataplex_dict= {
    "project": "{PROJECT_ID}", 
    "region": "none",
    "gcs_bucket_name":"{SOURCE_BUCKET}",
    "zone_type": "RAW",
    "zone_location_type": "SINGLE_REGION",
    "zone_id": "{ZONE_ID}",
    "asset_type":"STORAGE_BUCKET",
    "asset_id":"{ASSET_ID}",
    "asset_name":"projects/{PROJECT_ID}/buckets/{SOURCE_BUCKET}",
    "bq_dataset":"none"
}
# authenticate using service account key
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'key.json'
# obtain the bucket that we will attach to the zone
storage_client = storage.Client()
bucket = storage_client.get_bucket(dataplex_dict["gcs_bucket_name"])
# update the dict's location. This will be used to create a lake if doesn't exists
dataplex_dict["region"] = bucket.location.lower()
# Create a dataplex client
dataplex_client = dataplex_v1.DataplexServiceClient()
```

Quan tenim el client, podem llegir informació o amb el propi bucket

```python
...
import pandas as pd
import gcsfs

fs = gcsfs.GCSFileSystem(project="{PROJECT_ID}")
with fs.open('"{SOURCE_BUCKET}"/path.csv') as f:
    df = pd.read_csv(f)
```    


### Conclusions

- **Els datalakes i els data warehouses** són conceptes relacionats amb nous serveis dissenyats per facilitar, consolidar i emmagatzemar dades de manera centralitzada per a l'accés del personal d'una organització.
- **Requereixen un pla de governança** i la implicació dels principals actors, com ara analistes de dades i enginyers de sistemes i de bases de dades.
- **Necessiten una infraestructura** que ofereixi aquest servei d'ingesta i els serveis operacionals (còpies de seguretat, xifrat, autenticació, etc.).
- **El consum d'informació mitjançant un llenguatge de programació** no és senzill i no està dissenyat per a entorns interactius com Jupyter.

Hi ha un parell de lllibres que són molt interesants. Cobreixen aquest paradigme des de diferents perfills

### Referències:

- 1. Designing Data-Intensive Appliations. Martin Kleppmann. OReally 2017<br/>
- 2. The Enterprise Big Data Lake: Delivering the Promise of Big Data and Data Science. Alex Gorelik. O'Really. 2019<br/>
- 3. Data Lake for Enterprises. Tomcy John, Pankaj Misra. Packt. 2017<br/>
- 4. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling 3rd Edition. Ralph Kimball, Margy Ross. Wiley. 2013<br/>
- 5. The Analytics Setup Guidebook How to build scalable analytics & BI stacks in the modern cloud era. Huy Nguyen, Ha Pham, Cedric Chin. Holistics, 2020<br/>


[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Authors: [Isaac Lera](https://personal.uib.cat/isaac.lera), [Miquel Miró](https://personal.uib.cat/miquel.miro) and [Biel Moyà](https://personal.uib.cat/gabriel.moya)<br/>
Institution: Universitat de les Illes Balears (UIB) <br/>