## 1. DataFrames

### ¿Qué es un DataFrame?

Un DataFrame es una estructura de datos tabular con un esquema definido, similar a una tabla en una base de datos relacional. Está optimizado para el procesamiento distribuido y es una de las abstracciones más utilizadas en Spark para trabajar con datos estructurados, pero no tiene un tipo fuerte en las filas (por ejemplo, las filas son objetos genéricos de tipo Row)

**Características principales:**  

- **Estructura tabular:** Organiza los datos en filas y columnas.
  

- **Esquema:** Define el tipo de datos de cada columna (por ejemplo, entero, cadena, fecha).
  

- **Optimización:** Utiliza el optimizador Catalyst y el motor de ejecución Tungsten para mejorar el rendimiento.
  

- **Interoperabilidad:** Puede crearse a partir de múltiples fuentes de datos (CSV, JSON, Parquet, etc.).

**Similitudes con tablas SQL:**  

- Los DataFrames son conceptualmente equivalentes a las tablas en SQL.

- Permiten ejecutar consultas SQL directamente sobre ellos.

- Ejemplo: SELECT * FROM df WHERE columna > 10.

#### **Creación de DataFrames:**

Los DataFrames pueden crearse a partir de diversas fuentes de datos:

**1. Desde un archivo CSV:**

In [None]:
val df = spark.read
  .option("header", "true")
  .csv("ruta/al/archivo.csv")

**2. Desde un archivo JSON:**

In [None]:
val df = spark.read.json("ruta/al/archivo.json")

In [5]:
val spark = SparkSession.builder().appName("CargaJSON").getOrCreate()

val df = spark.read.json("datos_bebidas_conserje.json")


spark = org.apache.spark.sql.SparkSession@2bf7ca64
df = [Bebida_descripcion: string, Bebida_img: string ... 2 more fields]


[Bebida_descripcion: string, Bebida_img: string ... 2 more fields]

In [6]:
df.printSchema()
df.show(5)

root
 |-- Bebida_descripcion: string (nullable = true)
 |-- Bebida_img: string (nullable = true)
 |-- Bebida_name: string (nullable = true)
 |-- _Id: long (nullable = true)

+--------------------+------------------+------------+---+
|  Bebida_descripcion|        Bebida_img| Bebida_name|_Id|
+--------------------+------------------+------------+---+
|Bebida tradiciona...|[URL de la imagen]|     Sangría|201|
|Agua mineral natu...|[URL de la imagen]|Agua Mineral|202|
|       Cerveza local|[URL de la imagen]|     Cerveza|203|
|Vino tinto de la ...|[URL de la imagen]|  Vino Tinto|204|
|Té verde aromátic...|[URL de la imagen]|    Té Verde|205|
+--------------------+------------------+------------+---+
only showing top 5 rows



**3. Desde un archivo Parquet:**

In [None]:
val df = spark.read.parquet("ruta/al/archivo.parquet")

**4. Desde una colección de Scala:**

In [8]:
val datos = Seq(("Alice", 34), ("Bob", 45), ("Cathy", 29))
val df = spark.createDataFrame(datos).toDF("Nombre", "Edad")

datos = List((Alice,34), (Bob,45), (Cathy,29))
df = [Nombre: string, Edad: int]


[Nombre: string, Edad: int]

#### **Operaciones comunes con DataFrames:**

- **Filtrado:**

In [9]:
val dfFiltrado = df.filter("Edad > 30")

dfFiltrado = [Nombre: string, Edad: int]


[Nombre: string, Edad: int]

- **Selección de columnas:**

In [None]:
val nombres = df.select("Nombre")

- **Agregaciones:**

In [None]:
val promedioEdad = df.agg(avg("Edad"))

## 2. Datasets

### ¿Qué es un Dataset?

Un Dataset es una extensión de los DataFrames que proporciona tipado estático en tiempo de compilación. Combina las ventajas de los DataFrames (optimización y esquema) con la seguridad de tipos de los RDD. Tienen un tipo de datos fuerte (es decir, tiene un tipo definido por una case class o tipo específico).

#### Ventajas de los Datasets:

- **Tipado estático**: Permite detectar errores en tiempo de compilación.  

- **Interoperabilidad**: Puede trabajar con objetos de Scala/Java de manera segura.  

- **Optimización**: Al igual que los DataFrames, utiliza el optimizador Catalyst.  


#### Creación de Dataset

Los Datasets se crean a partir de DataFrames o colecciones de objetos.  

**1. Desde un DataFrame:**
e:

In [None]:
case class Persona(Nombre: String, Edad: Int)
val ds = df.as[Persona]  // Convertir DataFrame a Dataset

#### El método .as:
- se utiliza para convertir un DataFrame a un Dataset en Spark.

- Esto es posible porque Dataset en Spark es una abstracción que combina las características de un DataFrame (estructurado, con esquema) con las de un RDD (tipado y fuerte control de tipos).

**2. Desde una colección de Scala:**

In [None]:
val datos = Seq(Persona("Alice", 34), Persona("Bob", 45))
val ds = spark.createDataset(datos)

#### Operaciones comunes con Datasets:
- **Filtrado**o:

In [None]:
val dsFiltrado = ds.filter(_.Edad > 30)

- **Transformaciones**:

In [None]:
val nombres = ds.map(_.Nombre)

## 3. Conversión entre DataFrames y Datasets

**De DataFrame a Dataset**:  
Para convertir un DataFrame a un Dataset, se necesita definir un tipo de dato (case class en Scala).

In [None]:
case class Persona(Nombre: String, Edad: Int)
val ds = df.as[Persona]  // DataFrame -> Dataset

**De Dataset a DataFrame**:  
Un Dataset puede convertirse fácilmente en un DataFrame.

In [None]:
val df = ds.toDF()  // Dataset -> DataFrame

**Ejemplo Práctico:**

In [None]:
// Crear un DataFrame desde un archivo CSV
val df = spark.read
  .option("header", "true")
  .csv("ruta/al/archivo.csv")

// Convertir DataFrame a Dataset
case class Persona(Nombre: String, Edad: Int)
val ds = df.as[Persona]

// Filtrar el Dataset
val dsFiltrado = ds.filter(_.Edad > 30)

// Convertir Dataset a DataFrame
val dfFiltrado = dsFiltrado.toDF()

// Mostrar resultados
dfFiltrado.show()