# El Quijote en Python

En este ejercicio, leeremos un fichero.txt con la novela del Quijote, extraeremos información de ella (número de líneas) y probaremos las distintas sobrecargas del método `show`, así como otros métodos similares (`head, take, first`)

Empezamos, como siempre, importando las librerías necesarias y construyendo el SparkSession. Además, especificamos la ruta del fichero .txt.

In [1]:
from pyspark.sql import SparkSession

spark = (SparkSession
        .builder
        .appName("PythonElQuijote")
        .getOrCreate())

quijote_file = "el_quijote.txt"

Leemos el fichero de texto como un Dataframe y lo persistimos en memoria, ya que ejecutaremos todas las acciones sobre él.

In [2]:
quijote_df = (spark.read.text(quijote_file))
quijote_df.persist()

DataFrame[value: string]

## Mostrar los datos
### count()
Cuenta el número de filas del DataFrame.

In [3]:
quijote_df.count()

2186

### show(n = 20, truncate = True, vertical = False)
Por defecto, muestra las 20 primeras filas truncadas a 20 caracteres por fila y en forma de tabla horizontal (un campo al lado del otro).

In [4]:
quijote_df.show()

+--------------------+
|               value|
+--------------------+
|DON QUIJOTE DE LA...|
|Miguel de Cervant...|
|                    |
|       PRIMERA PARTE|
|CAPÍTULO 1: Que ...|
|En un lugar de la...|
|Tuvo muchas veces...|
|En resolución, e...|
|historia más cie...|
|Decía él, que e...|
|En efecto, remata...|
|Imaginábase el p...|
|linaje y patria, ...|
|Limpias, pues, su...|
|Capítulo 2: Que ...|
|Hechas, pues, est...|
|Estos pensamiento...|
|Con estos iba ens...|
|Autores hay que d...|
|muertos de hambre...|
+--------------------+
only showing top 20 rows



#### Parámetros
- **n**: determina el número de filas a mostrar, por defecto vale 20.

In [5]:
quijote_df.show(5)

+--------------------+
|               value|
+--------------------+
|DON QUIJOTE DE LA...|
|Miguel de Cervant...|
|                    |
|       PRIMERA PARTE|
|CAPÍTULO 1: Que ...|
+--------------------+
only showing top 5 rows



- **truncate**: determina si se deben truncar o no las filas a 20 caracteres por fila. Por defecto, su valor es True.

In [6]:
quijote_df.show(truncate=False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

- **vertical**: determina si se deben mostrar los datos de manera vertical, es decir, una fila por columna. Su valor por defecto es False.

In [7]:
quijote_df.show(vertical=True)

-RECORD 0---------------------
 value | DON QUIJOTE DE LA... 
-RECORD 1---------------------
 value | Miguel de Cervant... 
-RECORD 2---------------------
 value |                      
-RECORD 3---------------------
 value | PRIMERA PARTE        
-RECORD 4---------------------
 value | CAPÍTULO 1: Que ... 
-RECORD 5---------------------
 value | En un lugar de la... 
-RECORD 6---------------------
 value | Tuvo muchas veces... 
-RECORD 7---------------------
 value | En resolución, e... 
-RECORD 8---------------------
 value | historia más cie... 
-RECORD 9---------------------
 value | Decía él, que e... 
-RECORD 10--------------------
 value | En efecto, remata... 
-RECORD 11--------------------
 value | Imaginábase el p... 
-RECORD 12--------------------
 value | linaje y patria, ... 
-RECORD 13--------------------
 value | Limpias, pues, su... 
-RECORD 14--------------------
 value | Capítulo 2: Que ... 
-RECORD 15--------------------
 value | Hechas, pues, est... 
-RECORD 

Podemos combinar todos estos parámetros o especificar solo los que requiramos:

In [8]:
quijote_df.show(2, vertical=True)

-RECORD 0---------------------
 value | DON QUIJOTE DE LA... 
-RECORD 1---------------------
 value | Miguel de Cervant... 
only showing top 2 rows



In [9]:
quijote_df.show(truncate=False, n=2)

+----------------------------+
|value                       |
+----------------------------+
|DON QUIJOTE DE LA MANCHA    |
|Miguel de Cervantes Saavedra|
+----------------------------+
only showing top 2 rows



### head()
Devuelve la primera fila del Dataframe como una instancia de Row.

In [10]:
quijote_df.head()

Row(value='DON QUIJOTE DE LA MANCHA')

### head(n)
Devuelve un Array de Row con las *n* primeras filas del Dataframe.

In [11]:
quijote_df.head(5)

[Row(value='DON QUIJOTE DE LA MANCHA'),
 Row(value='Miguel de Cervantes Saavedra'),
 Row(value=''),
 Row(value='PRIMERA PARTE'),
 Row(value='CAPÍTULO 1: Que trata de la condición y ejercicio del famoso hidalgo D. Quijote de la Mancha')]

### take(n)
Devuelve un Array de Row con las primeras *n* filas del Dataframe.

In [12]:
quijote_df.take(5)

[Row(value='DON QUIJOTE DE LA MANCHA'),
 Row(value='Miguel de Cervantes Saavedra'),
 Row(value=''),
 Row(value='PRIMERA PARTE'),
 Row(value='CAPÍTULO 1: Que trata de la condición y ejercicio del famoso hidalgo D. Quijote de la Mancha')]

### first()
Devuelve una instancia de Row con la primera fila del Dataframe.

In [13]:
quijote_df.first()

Row(value='DON QUIJOTE DE LA MANCHA')

#### Diferencias entre head(), take() y first()

Los tres métodos recogen las filas del principio del DataFrame y las devuelven en forma de Row. Sin embargo, presentan las siguientes diferencias:
- **first()**: devuelve la primera fila del DF. No hay que especificarle parámetros.
- **take(int n)**: siempre hay que especificarle el número de filas a tomar, no tiene valor por defecto. Además, mueve los datos al proceso del driver, por lo que puede generar *crasheos* si se especifica un valor de *n* muy alto.
- **head(int n = 1)**: puede especificarse el número de filas a tomar, si no, toma solo la primera (equivalente a *first()*). Al igual que *take()*, mueve los datos al driver, por lo que no se debe usar para valores de *n* muy altos.

En resumen, *head()* sin parámetro actúa como *first()*, y si se le especifica el número de filas, actúa como *take()*.

---
Para finalizar, cerramos la SparkSession.

In [14]:
spark.stop()