![](../imagenes/header-genai.png)

# Hands-On LAB 01 - Importando los datos

Entrenamiento Hands-on en la plataforma de Databricks con foco en las funcionalidades de IA Generativa.
</br></br>

## Objetivos del Ejercicio

El objetivo de este laboratorio es importar los datos que serán utilizados en los próximos ejercicios.




## Preparación

Para ejecutar los ejercicios, necesitamos conectar este notebook a un clúster/cómputo.

Simplemente siga los pasos a continuación:
1. En la esquina superior derecha, haga clic en **Connect**
2. Seleccione el clúster: **Serverless**

![](../imagenes/serverless.png)

## Ejercicio 01 - Creación de la base de datos

Primero, vamos crear una base de datos (o esquema; estos nombres se usan como sinónimos). Esta funcionará como un contenedor para guardar los datos que utilizaremos durante los ejercicios.



In [0]:
%sql
CREATE SCHEMA IF NOT EXISTS `academia`.`ia`;

CREATE VOLUME IF NOT EXISTS `academia`.`ia`.`archivos`;

In [0]:
catalog = "academia"
schema = "ia"
volume = "archivos"

path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
path_table = catalog + "." + schema


## Ejercicio 02.A - Importando los archivos por código

Ahora necesitamos cargar los datos que usaremos en los próximos laboratorios.

Este conjunto consiste básicamente en tres tablas:
- **Opiniones:** contenido de las opiniones
- **Clientes:** datos y consumo de los clientes
- **Produtos:** datos y descripciones de los productos

Seguid los pasos a continuación para cargar **todas las tablas**: 

Cargando la tabla con información de **Opiniones**:

In [0]:
download_url = "https://raw.githubusercontent.com/aestaire/databricks-genai-lab/refs/heads/main/datos/opiniones.csv"
file_name = "opiniones.csv"
table_name = "opiniones"

# Copy the CSV file from the URL to the volume
dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")

In [0]:
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

Cargando la tabla con información de **Clientes**:

In [0]:
download_url = "https://raw.githubusercontent.com/aestaire/databricks-genai-lab/refs/heads/main/datos/clientes.csv"
file_name = "clientes.csv"
table_name = "clientes"

# Copy the CSV file from the URL to the volume
dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")


In [0]:
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

Cargando la tabla con información de **Productos**:

In [0]:
download_url = "https://raw.githubusercontent.com/aestaire/databricks-genai-lab/refs/heads/main/datos/productos.csv"
file_name = "productos.csv"
table_name = "productos"

# Copy the CSV file from the URL to the volume
dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")

In [0]:
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

**IMPORTANTE: Realiza el siguiente ejercicio 02.B únicamente si experimentaste algún problema al cargar los datos. Si todo funcionó correctamente, puedes continuar directamente con el siguiente laboratorio!**

## Ejercicio 02.B - Importando los archivos manualmente al volúmen y después creando las tablas delta por código

Ahora necesitamos cargar los datos que usaremos en los próximos laboratorios.

Este conjunto consiste básicamente en tres tablas:
- **Opiniones:** contenido de las opiniones
- **Clientes:** datos y consumo de los clientes
- **Produtos:** datos y descripciones de los productos

Seguid los pasos a continuación para cargar **todas las tablas**: 

1. En el repositorio de GitHub, en la carpeta ../datos, haz clic en el nombre de cada archivo de datos (csv) y luego haz clic en el botón de descarga del archivo, como se muestra en la figura a continuación:

![](../imagenes/descargar-archivos.png)

2. En el menú de Unity Catalog de Databricks, busca el catálogo academia.ia y dentro del volúmen "archivos", haz clic en **Upload to this volumen**, como se muestra en la imagen y añade los 3 archivos csv que hemos descargado.

![](../imagenes/subir-archivos.png)

3. Una vez tenemos los archivos en el volúmen vamos a guardarlos como tablas delta:

In [0]:
file_name = "opiniones.csv"
table_name = "opiniones"
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

In [0]:
file_name = "clientes.csv"
table_name = "clientes"
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

In [0]:
file_name = "productos.csv"
table_name = "productos"
df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",",
  encoding="UTF-8")
display(df)

df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

###¡Ya tenemos todos los datos cargados! ¡Comencemos a crear nuestro primer agente!

[Lab 02 - Creando un Agente]($./Lab 02 - Creando un Agente)