# El Quijote en Scala

En este ejercicio, leeremos un fichero.txt con la novela del Quijote, extraeremos información de ella (número de líneas) y probaremos las distintas sobrecargas del método `show`, así como otros métodos similares (`head, take, first`)

Empezamos, como siempre, importando las librerías necesarias y construyendo el SparkSession. Además, especificamos la ruta del fichero .txt.

In [12]:
import org.apache.spark.sql.SparkSession

val spark = SparkSession
            .builder
            .appName("QuijoteCount")
            .getOrCreate()

val quijoteFile = "el_quijote.txt"

import org.apache.spark.sql.SparkSession
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@7ccc2fda
quijoteFile: String = el_quijote.txt


Leemos el fichero de texto como un Dataset y lo persistimos en memoria, ya que ejecutaremos todas las acciones sobre él.

In [2]:
val quijoteDs = spark.read.text(quijoteFile)
quijoteDs.persist()

quijoteDs: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [value: string]


## Mostrar los datos
### count()
Cuenta el número de filas del Dataset.

In [3]:
quijoteDs.count()

res0: Long = 2186


### show()
Muestra las 20 primeras filas del Dataset. Trunca las filas a 20 caracteres como máximo.

In [4]:
quijoteDs.show()

+--------------------+
|               value|
+--------------------+
|DON QUIJOTE DE LA...|
|Miguel de Cervant...|
|                    |
|       PRIMERA PARTE|
|CAPI?TULO 1: Que ...|
|En un lugar de la...|
|Tuvo muchas veces...|
|En resolucio?n, e...|
|historia ma?s cie...|
|Deci?a e?l, que e...|
|En efecto, remata...|
|Imagina?base el p...|
|linaje y patria, ...|
|Limpias, pues, su...|
|Capi?tulo 2: Que ...|
|Hechas, pues, est...|
|Estos pensamiento...|
|Con estos iba ens...|
|Autores hay que d...|
|muertos de hambre...|
+--------------------+
only showing top 20 rows



### show(int n)
Mostramos las *n* primeras filas del Dataset truncadas a 20 caracteres por fila.

In [5]:
quijoteDs.show(5)

+--------------------+
|               value|
+--------------------+
|DON QUIJOTE DE LA...|
|Miguel de Cervant...|
|                    |
|       PRIMERA PARTE|
|CAPI?TULO 1: Que ...|
+--------------------+
only showing top 5 rows



### show(int n, boolean truncate)
Muestra las *n* primeras filas del Dataset. Además, si se le asigna el valor false a *truncate*, las muestra sin truncar.

In [6]:
quijoteDs.show(5, false)

+----------------------------------------------------------------------------------------------+
|value                                                                                         |
+----------------------------------------------------------------------------------------------+
|DON QUIJOTE DE LA MANCHA                                                                      |
|Miguel de Cervantes Saavedra                                                                  |
|                                                                                              |
|PRIMERA PARTE                                                                                 |
|CAPI?TULO 1: Que trata de la condicio?n y ejercicio del famoso hidalgo D. Quijote de la Mancha|
+----------------------------------------------------------------------------------------------+
only showing top 5 rows



> **Nota:** El método show() también se puede ejecutar usando solo el parámetro *truncate*, pero como las líneas de este archivo son muy grandes, el kernel se queda congelado y no ejecuta más comandos.

### head()
Devuelve la primera fila del Dataset como una instancia de spark.sql.Row.

In [7]:
quijoteDs.head()

res4: org.apache.spark.sql.Row = [DON QUIJOTE DE LA MANCHA]


### head(int n)
Devuelve un Array de spark.sql.Row con las *n* primeras filas del Dataset.

In [8]:
quijoteDs.head(5)

res5: Array[org.apache.spark.sql.Row] = Array([DON QUIJOTE DE LA MANCHA], [Miguel de Cervantes Saavedra], [], [PRIMERA PARTE], [CAPI?TULO 1: Que trata de la condicio?n y ejercicio del famoso hidalgo D. Quijote de la Mancha])


### take(int n)
Devuelve un Array de spark.sql.Row con las primeras *n* filas del Dataset.

In [9]:
quijoteDs.take(5)

res6: Array[org.apache.spark.sql.Row] = Array([DON QUIJOTE DE LA MANCHA], [Miguel de Cervantes Saavedra], [], [PRIMERA PARTE], [CAPI?TULO 1: Que trata de la condicio?n y ejercicio del famoso hidalgo D. Quijote de la Mancha])


### first()
Devuelve una instancia de spark.sql.Row con la primera fila del Dataset.

In [10]:
quijoteDs.first()

res7: org.apache.spark.sql.Row = [DON QUIJOTE DE LA MANCHA]


#### Diferencias entre head(), take() y first()

Los tres métodos recogen las filas del principio del DataFrame y las devuelven en forma de Row. Sin embargo, presentan las siguientes diferencias:
- **first()**: devuelve la primera fila del DF. No hay que especificarle parámetros.
- **take(int n)**: siempre hay que especificarle el número de filas a tomar, no tiene valor por defecto. Además, mueve los datos al proceso del driver, por lo que puede generar *crasheos* si se especifica un valor de *n* muy alto.
- **head(int n = 1)**: puede especificarse el número de filas a tomar, si no, toma solo la primera (equivalente a *first()*). Al igual que *take()*, mueve los datos al driver, por lo que no se debe usar para valores de *n* muy altos.

En resumen, *head()* sin parámetro actúa como *first()*, y si se le especifica el número de filas, actúa como *take()*.

---
Para finalizar, cerramos la SparkSession.

In [11]:
spark.stop()