# SCALA TIPS
## PALABRAS CLAVE

| **Palabra clave** | **Descripción**                                                                                                                                                     | **Ejemplo**                                                                                                                                                                  |
|-------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `val`             | Define un valor **inmutable**. Una vez asignado, no puede cambiarse.                                                                                                 | `val x = 10`<br> `x = 20`  // Error: reassignment to val                                                                                                                   |
| `var`             | Define una **variable mutable**. Se puede reasignar durante la ejecución.                                                                                           | `var y = 5`<br> `y = 10`  // Válido                                                                                                                                         |
| `def`             | Define una **función**. Puede tener parámetros y un tipo de retorno.                                                                                               | `def suma(a: Int, b: Int): Int = a + b`<br> `println(suma(5, 10))`  // Imprime 15                                                                                        |
| `object`          | Define un **singleton**. Solo se puede crear una instancia de un `object`. Útil para métodos y valores estáticos.                                                    | `object MiSingleton { def imprimir() = println("Hola!") }`<br> `MiSingleton.imprimir()`  // Imprime "Hola!"                                                              |
| `class`           | Define una **clase**. Puede tener constructores, métodos y campos (val/var).                                                                                         | `class Persona(val nombre: String, var edad: Int)`<br> `val p = new Persona("Juan", 30)`<br> `println(p.nombre)`  // Imprime "Juan"                                       |
| `trait`           | Define un **trait**. Similar a una interfaz en otros lenguajes, pero puede contener implementaciones.                                                                 | `trait Saluda { def saludar() = println("Hola!") }`<br> `class Persona extends Saluda`<br> `val p = new Persona`<br> `p.saludar()`  // Imprime "Hola!"                       |
| `type`            | Define un **alias de tipo**. Puede hacer que el código sea más legible y reutilizable.                                                                               | `type StringList = List[String]`<br> `val nombres: StringList = List("Ana", "Luis")`                                                                                     |
| `for`             | Define un **bucle for**. Se utiliza para iterar sobre colecciones y puede incluir comprensiones o guardas.                                                           | `val numeros = List(1, 2, 3)`<br> `for (n <- numeros) { println(n) }`  // Imprime 1, 2, 3                                                                              |
| `if`              | Define una **estructura condicional**. Puede ser usada para tomar decisiones en el flujo de ejecución.                                                               | `val a = 5`<br> `if (a > 3) println("Mayor que 3")`  // Imprime "Mayor que 3"                                                                                             |
| `match`           | Define una estructura de **patrones de coincidencia**. Es como un `switch` en otros lenguajes, pero más poderoso.                                                      | `val x = 5`<br> `x match { case 5 => println("Cinco") case _ => println("Otro número") }`  // Imprime "Cinco"                                                            |
| `try`/`catch`     | Define una **estructura de manejo de excepciones**. Se utiliza para capturar errores durante la ejecución.                                                            | `try { val result = 10 / 0 } catch { case e: ArithmeticException => println("Error: " + e.getMessage) }`  // Imprime "Error: / by zero"                                 |



# TIPO DE RETORNO EN FUNCIONES EN SCALA Y PYTHON

| **Tipo en Python**      | **Descripción**                                         | **Equivalente en PySpark** | **Equivalente en Scala**        |
|-------------------------|---------------------------------------------------------|----------------------------|---------------------------------|
| `int`                   | Número entero                                           | `IntegerType()`             | `IntegerType`                   |
| `float`                 | Número decimal de precisión simple                      | `FloatType()`               | `FloatType`                     |
| `double`                | Número decimal de precisión doble                       | `DoubleType()`              | `DoubleType`                    |
| `str`                   | Cadena de caracteres                                    | `StringType()`              | `StringType`                    |
| `bool`                  | Valor booleano (True o False)                           | `BooleanType()`             | `BooleanType`                   |
| `list`                  | Lista (array en PySpark)                                | `ArrayType()`               | `ArrayType`                     |
| `dict`                  | Diccionario (mapa de clave-valor)                       | `MapType()`                 | `MapType`                       |
| `datetime`              | Fecha y hora                                            | `TimestampType()`           | `TimestampType`                 |
| `date`                  | Fecha (sin hora)                                        | `DateType()`                | `DateType`                      |
| `bytes`                 | Secuencia de bytes (binarios)                           | `BinaryType()`              | `BinaryType`                    |
| `None`                  | Tipo nulo (equivalente a `null`)                        | `NullType()`                | `NullType`                      |
| `object`                | Objeto genérico, puede ser cualquier tipo               | `ObjectType()`              | `ObjectType`                    |
| `void`                  | Método sin valor de retorno (equivalente a `Unit`)      | No aplica (usualmente retorna `None`) | `Unit`                        |




# Tipos de Datos en Scala con Spark

| **Tipo de Scala**       | **Descripción**                                                                                                                                                       | **Relación con Spark**                                                                                                                                                            | **Ejemplo**                                                                                                                   | **¿Disponible en PySpark?** |
|-------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------|-----------------------------|
| `Int`, `Long`, `Double`  | Tipos de datos numéricos. `Int` para enteros, `Long` para números grandes y `Double` para números decimales.                                                         | Estos tipos se usan para representar datos numéricos en un DataFrame de Spark, por ejemplo, en columnas numéricas.                                                                | `val df = spark.read.csv("file.csv").toDF("id", "age")`<br> `df.filter($"age" > 30)`                                          | Sí                          |
| `String`                | Tipo de dato para cadenas de texto.                                                                                                                                   | Es uno de los tipos más comunes para columnas de texto en Spark. Usado para nombres, descripciones, etc.                                                                        | `val df = spark.read.csv("file.csv").toDF("name", "address")`                                                                 | Sí                          |
| `Boolean`               | Tipo para valores lógicos: `true` o `false`.                                                                                                                           | Usado en columnas que contienen valores booleanos, típicamente para indicar estado o categoría (verdadero/falso).                                                                | `val df = spark.read.csv("file.csv").toDF("id", "is_active")`<br> `df.filter($"is_active" === true)`                         | Sí                          |
| `Array[T]`              | Una colección de elementos del tipo `T`.                                                                                                                                 | Usado en Spark para representar columnas con datos de tipo array, como listas o colecciones.                                                                                    | `val df = spark.read.json("file.json")`<br> `df.select($"languages")`                                                           | Sí                          |
| `Map[K, V]`             | Estructura de datos que almacena pares clave-valor.                                                                                                                   | Usado en Spark para trabajar con datos estructurados, como JSON o para almacenar valores asociados con claves en una columna.                                                   | `val df = spark.read.json("file.json")`<br> `df.select($"metadata")`                                                           | No                          |
| `Date`, `Timestamp`      | `Date` representa fechas, `Timestamp` fechas con hora.                                                                                                               | Usado para representar datos temporales, muy común en análisis de series de tiempo, logs o eventos.                                                                              | `val df = spark.read.csv("file.csv").toDF("event_date")`<br> `df.filter($"event_date" > "2023-01-01")`                        | Sí                          |
| `StructType`, `StructField` | `StructType` es un tipo que representa un esquema estructurado, y `StructField` define cada campo dentro del esquema.                                                | Se utiliza para definir el esquema de un DataFrame de Spark, proporcionando un formato estructurado para los datos.                                                             | `val schema = StructType(Array(StructField("name", StringType, true), StructField("age", IntegerType, true)))`                | Sí                          |
| `Row`                   | Representa una fila de un DataFrame o un RDD en Spark.                                                                                                               | Cada elemento de un `DataFrame` o `RDD` de Spark se representa como una fila de tipo `Row`.                                                                                     | `val df = spark.read.csv("file.csv")`<br> `df.collect().foreach(row => println(row))`                                         | Sí                          |
| `RDD[T]`                | Tipo de datos distribuido en Spark. `RDD` representa un conjunto de datos distribuido, genérico para cualquier tipo `T`.                                               | Es el tipo de datos básico de Spark antes de que DataFrames fueran introducidos, pero aún es muy utilizado.                                                                     | `val rdd = spark.textFile("file.txt")`<br> `rdd.map(line => line.split(" "))`                                                  | Sí                          |
| `DataFrame`             | Es una representación tabular de datos distribuidos. Los DataFrames son una abstracción de los RDDs que permiten trabajar con datos de forma estructurada.              | `DataFrame` es uno de los tipos más comunes en Spark, que facilita trabajar con datos estructurados y permite usar SQL o funciones de transformación de Spark.                      | `val df = spark.read.csv("file.csv")`<br> `df.show()`                                                                         | Sí                          |
| `Dataset[T]`            | Un `Dataset` es un tipo más general y fuerte que un `DataFrame` en Spark. Al ser un tipo parametrizado, proporciona seguridad en cuanto a tipos de datos.              | `Dataset` es similar a `DataFrame`, pero está más estrechamente vinculado con el sistema de tipos de Scala, proporcionando mayor control de tipo.                                | `val dataset = df.as[Person]`<br> `dataset.show()`                                                                            | No                          |
| `NullType`              | Representa un tipo que no contiene ningún valor.                                                                                                                     | `NullType` se usa en Spark para representar valores nulos o vacíos en las columnas de un `DataFrame`.                                                                             | `val df = spark.read.csv("file.csv").toDF("column1")`<br> `df.filter($"column1".isNull)`                                       | Sí                          |

### Explicación de Tipos de Datos y su Uso en Spark

1. **Tipos de Datos Básicos (Scala)**: Los tipos primitivos como `Int`, `Long`, `Double`, `String`, `Boolean` son muy utilizados en los `DataFrames` de Spark. Puedes cargar datos de archivos CSV, JSON, Parquet y otros en estos tipos de columnas.

2. **Estructuras Avanzadas**: Los tipos como `Array` y `Map` son útiles cuando trabajas con datos más complejos, como listas de elementos o pares clave-valor, que son comunes en formatos como JSON.

3. **Tipos Temporales**: `Date` y `Timestamp` son muy comunes para trabajar con series de tiempo o eventos con fechas y horas.

4. **Esquemas**: En Spark, cuando trabajas con `DataFrames`, puedes definir un esquema con `StructType` y `StructField` para asegurarte de que los datos se cargan de acuerdo con una estructura específica.

5. **RDD vs DataFrame vs Dataset**:
   - `RDD` es el tipo fundamental en Spark. Aunque sigue siendo útil en ciertos casos, generalmente se recomienda usar `DataFrame` y `Dataset` para aprovechar optimizaciones como Catalyst y Tungsten.
   - `DataFrame` es la abstracción más común, especialmente cuando trabajas con datos tabulares.
   - `Dataset` proporciona un tipo más fuerte que `DataFrame`, lo que te da mayor control sobre los tipos de datos, ideal para trabajar con funciones más específicas de Scala.

### Ejemplo de Uso en Spark

```scala
// Definimos un esquema explícito para un DataFrame
val schema = StructType(Array(
  StructField("id", IntegerType, true),
  StructField("name", StringType, true),
  StructField("age", IntegerType, true)
))

// Cargar datos con un esquema explícito
val df = spark.read.schema(schema).csv("/path/to/file.csv")
df.show()

// Trabajar con un Dataset fuerte en tipos
case class Person(id: Int, name: String, age: Int)
val dataset = df.as[Person]
dataset.filter($"age" > 30).show()


# Uso de widgets para definir variables en notebooks de Databricks

In [0]:
# Definir los widgets en el notebook
# Definir widgets para recuperar las URLs y el directorio de guardado
URL_BASE = 'https://raw.githubusercontent.com/JorgeCardona/data-collection-json-csv-sql/refs/heads/main/csv/wine'
dbutils.widgets.text("redWineUrl", f"{URL_BASE}/winequality-red.csv")
dbutils.widgets.text("whiteWineUrl", f"{URL_BASE}/winequality-white.csv")
dbutils.widgets.text("saveDirectory", "/FileStore/tables/")

- ## VER VALORES DE VARIABLES EN PYTHON

In [0]:
# URLs de los archivos CSV
# Recuperar los valores de los widgets
redWineUrl = dbutils.widgets.get("redWineUrl")
whiteWineUrl = dbutils.widgets.get("whiteWineUrl")

# Directorio donde se guardarán los archivos
saveDirectory = dbutils.widgets.get("saveDirectory")

print(f"URL del vino tinto: {redWineUrl}")
print(f"URL del vino blanco: {whiteWineUrl}")
print(f"Directorio de almacenamiento: {saveDirectory}")


URL del vino tinto: https://raw.githubusercontent.com/JorgeCardona/data-collection-json-csv-sql/refs/heads/main/csv/wine/winequality-red.csv
URL del vino blanco: https://raw.githubusercontent.com/JorgeCardona/data-collection-json-csv-sql/refs/heads/main/csv/wine/winequality-white.csv
Directorio de almacenamiento: /FileStore/tables/


- ## VER VALORES DE VARIABLES EN SCALA

In [0]:
%scala
// URLs de los archivos CSV
// Recuperar los valores de los widgets
val redWineUrl = dbutils.widgets.get("redWineUrl")
val whiteWineUrl = dbutils.widgets.get("whiteWineUrl")

// Directorio donde se guardarán los archivos
val saveDirectory = dbutils.widgets.get("saveDirectory")

// Imprimir los valores recuperados
println(s"URL del vino tinto: $redWineUrl")
println(s"URL del vino blanco: $whiteWineUrl")
println(s"Directorio de almacenamiento: $saveDirectory")

## LISTA LOS ARCHIVOS ALMACENADOS EN EL DIRECTORIO FileStore/tables/

In [0]:
%scala

def listFilesInDirectory(directoryPath: String): Unit = {
  // Listar los archivos dentro del directorio especificado
  val files = dbutils.fs.ls(directoryPath)
  
  // Mostrar los archivos encontrados
  if (files.isEmpty) {
    println(s"No se encontraron archivos en el directorio $directoryPath.\n")
  } else {
    println(s"Archivos en el directorio $directoryPath:\n")
    files.foreach(file => println(s"- ${file.path}"))
    println()  // Salto de línea después de listar los archivos
  }
}

// Llamada a la función para listar archivos en '/FileStore/tables/'
println("Listando archivos en '/FileStore/tables/':")
listFilesInDirectory("/FileStore/tables/")

## ELIMINA TODOS LOS ARCHIVOS EN EL DIRECTORIO FileStore/tables/

In [0]:
%scala
def deleteAllFilesInDirectory(directoryPath: String): Unit = {
  // Listar todos los archivos en el directorio
  val files = dbutils.fs.ls(directoryPath)

  if (files.isEmpty) {
    println(s"No hay archivos para eliminar en el directorio $directoryPath.\n")
  } else {
    // Eliminar cada archivo encontrado
    println(s"Eliminando archivos en el directorio $directoryPath...\n")
    files.foreach { file =>
      dbutils.fs.rm(file.path, recurse = true)
      println(s"Archivo eliminado: ${file.path}")
    }
    println(s"\nTodos los archivos en el directorio $directoryPath han sido eliminados.\n")
  }
}

// Llamada a la función para eliminar todos los archivos en '/FileStore/tables/'
deleteAllFilesInDirectory("/FileStore/tables/")

// Llamada a la función para listar archivos nuevamente
println("Listando archivos después de la eliminación en '/FileStore/tables/':")
listFilesInDirectory("/FileStore/tables/")

# Descargar los archivos en Databricks:


In [0]:
%scala
import scala.io.Source
import java.io.FileWriter
import java.net.URL

// URLs de los archivos CSV
// Recuperar los valores de los widgets
val redWineUrl = dbutils.widgets.get("redWineUrl")
val whiteWineUrl = dbutils.widgets.get("whiteWineUrl")

// Directorio donde se guardarán los archivos
val saveDirectory = dbutils.widgets.get("saveDirectory")

// Función para descargar y guardar los archivos en Databricks utilizando dbutils.fs.put
def downloadFile(url: String, savePath: String): Unit = {
  try {
    // Descargar el contenido del archivo
    val content = Source.fromURL(new URL(url)).mkString

    // Usar dbutils.fs.put para guardar el contenido en DBFS
    dbutils.fs.put(savePath, content, overwrite = true)

    println(s"Archivo guardado en $savePath")
  } catch {
    case e: Exception => println(s"Error al descargar el archivo desde $url: ${e.getMessage}")
  }
}

// Descargar y guardar los archivos de vino tinto y vino blanco
downloadFile(redWineUrl, saveDirectory + "winequality-red.csv")
downloadFile(whiteWineUrl, saveDirectory + "winequality-white.csv")

// Verificar si los archivos se han descargado correctamente
dbutils.fs.ls(saveDirectory).foreach(file => println(file.path))


# LEER LOS ARCHIVOS DESCARGADOS COMO SPARK DATAFRAMES

In [0]:
# Definir widgets para File locations Y types
dbutils.widgets.text("redWineFileLocation", "/FileStore/tables/winequality-red.csv")
dbutils.widgets.text("whiteWineFileLocation", "/FileStore/tables/winequality-white.csv")
dbutils.widgets.text("fileType", "csv")

# Definir widgets para las nuevas opciones de CSV
dbutils.widgets.text("inferSchema", "true")
dbutils.widgets.text("firstRowIsHeader", "true")
dbutils.widgets.text("delimiter", ",")

## PYTHON

In [0]:
# File locations and types
red_wine_file_location = "/FileStore/tables/winequality-red.csv"
white_wine_file_location = "/FileStore/tables/winequality-white.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# Cargar archivo CSV de vino tinto
red_wine_df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(red_wine_file_location)

# Cargar archivo CSV de vino blanco
white_wine_df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(white_wine_file_location)

# Mostrar los primeros 5 registros de cada DataFrame
display(red_wine_df.limit(5))
display(white_wine_df.limit(5))

# Mostrar los nombres de las columnas (encabezados)
print("Encabezados de Vino Tinto:")
print(red_wine_df.columns)

print("\nEncabezados de Vino Blanco:")
print(white_wine_df.columns)

fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


Encabezados de Vino Tinto:
['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality']

Encabezados de Vino Blanco:
['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality']


## SCALA

In [0]:
%scala
// Ubicaciones de los archivos
// Recuperar los valores de los widgets
val redWineFileLocation = dbutils.widgets.get("redWineFileLocation")
val whiteWineFileLocation = dbutils.widgets.get("whiteWineFileLocation")
val fileType = dbutils.widgets.get("fileType")

// Opciones de CSV
// Recuperar los valores de los widgets
val inferSchema = dbutils.widgets.get("inferSchema")
val firstRowIsHeader = dbutils.widgets.get("firstRowIsHeader")
val delimiter = dbutils.widgets.get("delimiter")

// Cargar el archivo CSV de vino tinto
val redWineDF = spark.read.format(fileType)
  .option("inferSchema", inferSchema)
  .option("header", firstRowIsHeader)  // Se considera que la primera línea es el encabezado
  .option("sep", delimiter)
  .load(redWineFileLocation)

// Cargar el archivo CSV de vino blanco
val whiteWineDF = spark.read.format(fileType)
  .option("inferSchema", inferSchema)
  .option("header", firstRowIsHeader)  // Se considera que la primera línea es el encabezado
  .option("sep", delimiter)
  .load(whiteWineFileLocation)

// Mostrar los primeros 5 registros de cada DataFrame con encabezado incluido
display(redWineDF.limit(5))  // Usar display para una vista interactiva más bonita
display(whiteWineDF.limit(5))  // Usar display para una vista interactiva más bonita

fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [0]:
%scala

// Ver los nombres de las columnas (encabezados)
println("Encabezados de Vino Tinto:")
redWineDF.columns.foreach(println)

println("\nEncabezados de Vino Blanco:")
whiteWineDF.columns.foreach(println)

## CREAR TABLAS EN LA BASE DE DATOS EN EL CATALOG USANDO LOS .csv
## USANDO SQL

In [0]:
# Define los widgets con valores predeterminados para leer en SQL
dbutils.widgets.text("tableName", "red_wine", "Table Name")
dbutils.widgets.text("redWineFileLocation", "/FileStore/tables/winequality-red.csv", "Red Wine File Location")

In [0]:
%sql
-- Usar las variables de los widgets en una consulta SQL
DROP TABLE IF EXISTS ${tableName};

CREATE TABLE ${tableName}
USING csv
OPTIONS (
  path '${redWineFileLocation}',
  header "true",
  inferSchema "true"
);


In [0]:
%sql
SELECT COUNT(*)
FROM ${tableName}

count(1)
1599


# USANDO SPARK SQL

## PYTHON

In [0]:
# Definir el nombre de la tabla
table_name = "white_vine_python"
csv_file_path = dbutils.widgets.get("redWineFileLocation")

# elimina la tabla (si existe) usando los datos del archivo CSV
spark.sql(f"DROP TABLE IF EXISTS {table_name}")

query_create_table = f"""
    CREATE TABLE {table_name}
    USING csv
    OPTIONS (
      path "{csv_file_path}",
      header "true",
      inferSchema "true"
    )
"""

# crea la tabla usando los datos del archivo CSV
spark.sql(query_create_table)

# Realizar un SELECT para obtener los primeros 5 registros
query_select_table = f"""
    SELECT *
    FROM {table_name}
    ORDER BY 7 DESC
    LIMIT 5
    OFFSET 10
"""
# Realizar un SELECT para obtener los primeros 5 registros
df_white_vine = spark.sql(query_select_table)

# Mostrar los resultados
display(df_white_vine.limit(10))

fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
8.9,0.62,0.19,3.9,0.17,51.0,148.0,0.9986,3.17,0.93,9.2,5
6.7,0.42,0.27,8.6,0.068,24.0,148.0,0.9948,3.16,0.57,11.3,6
9.6,0.88,0.28,2.4,0.086,30.0,147.0,0.9979,3.24,0.53,9.4,5
7.7,0.54,0.26,1.9,0.089,23.0,147.0,0.99636,3.26,0.59,9.7,5
7.7,0.54,0.26,1.9,0.089,23.0,147.0,0.99636,3.26,0.59,9.7,5


## SCALA

In [0]:
%scala
// Definir el nombre de la tabla y la ruta del archivo CSV
val table_name = "white_scala"
val csv_file_path = dbutils.widgets.get("redWineFileLocation")

// Eliminar la tabla si existe
spark.sql(s"DROP TABLE IF EXISTS $table_name")

// Crear la tabla usando los datos del archivo CSV
val query_create_table = s"""
  CREATE TABLE $table_name
  USING csv
  OPTIONS (
    path "$csv_file_path",
    header "true",
    inferSchema "true"
  )
"""

spark.sql(query_create_table)

// Realizar un SELECT para obtener los primeros 5 registros con OFFSET 10
val query_select_table = s"""
  SELECT *
  FROM $table_name
  ORDER BY 7 DESC
  LIMIT 5
  OFFSET 10
"""

// Realizar el SELECT y almacenar los resultados en un DataFrame
val df_white_vine = spark.sql(query_select_table)

// Mostrar el resultado
display(df_white_vine)

fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
8.9,0.62,0.19,3.9,0.17,51.0,148.0,0.9986,3.17,0.93,9.2,5
6.7,0.42,0.27,8.6,0.068,24.0,148.0,0.9948,3.16,0.57,11.3,6
9.6,0.88,0.28,2.4,0.086,30.0,147.0,0.9979,3.24,0.53,9.4,5
7.7,0.54,0.26,1.9,0.089,23.0,147.0,0.99636,3.26,0.59,9.7,5
7.7,0.54,0.26,1.9,0.089,23.0,147.0,0.99636,3.26,0.59,9.7,5
