# Extracción de datos directamente desde archivos con Spark SQL

En este cuaderno, aprenderás a extraer datos directamente desde archivos utilizando Spark SQL en Databricks.

Varios formatos de archivo admiten esta opción, pero es especialmente útil para formatos de datos que se describen a sí mismos (como Parquet y JSON).

### Objetivos de aprendizaje

Al final de esta lección, deberías ser capaz de:

* Utilizar Spark SQL para consultar directamente archivos de datos.
* Superponer vistas y CTEs para facilitar la referencia a archivos de datos.
* Aprovechar los métodos text y binaryFile para revisar el contenido crudo de los archivos.



In [None]:
%pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.0.tar.gz (316.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.0-py2.py3-none-any.whl size=317425345 sha256=3279430a9ee1f55fcf3f691265847ba3d9ef0e54cd7d6642db9b3b684c572b98
  Stored in directory: /root/.cache/pip/wheels/41/4e/10/c2cf2467f71c678cfc8a6b9ac9241e5e44a01940da8fbb17fc
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.0


In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkContext

spark = SparkSession.builder.master('local[*]').appName('query-files').getOrCreate()
sc = SparkContext.getOrCreate()

### Consulta de un fichero

Para consultar los datos contenidos en un solo archivo, ejecuta la consulta con el siguiente patrón:

<strong><code>SELECT * FROM formato_de_archivo.`/ruta/al/archivo`</code></strong>

Ten en cuenta especialmente el uso de las comillas invertidas (no comillas simples) alrededor de la ruta.

In [None]:
spark.sql('SELECT * FROM json.`/content/sample_data/anscombe.json`').show()

+------+----+-----+---------------+
|Series|   X|    Y|_corrupt_record|
+------+----+-----+---------------+
|  NULL|NULL| NULL|              [|
|     I|10.0| 8.04|           NULL|
|     I| 8.0| 6.95|           NULL|
|     I|13.0| 7.58|           NULL|
|     I| 9.0| 8.81|           NULL|
|     I|11.0| 8.33|           NULL|
|     I|14.0| 9.96|           NULL|
|     I| 6.0| 7.24|           NULL|
|     I| 4.0| 4.26|           NULL|
|     I|12.0|10.84|           NULL|
|     I| 7.0| 4.81|           NULL|
|     I| 5.0| 5.68|           NULL|
|    II|10.0| 9.14|           NULL|
|    II| 8.0| 8.14|           NULL|
|    II|13.0| 8.74|           NULL|
|    II| 9.0| 8.77|           NULL|
|    II|11.0| 9.26|           NULL|
|    II|14.0|  8.1|           NULL|
|    II| 6.0| 6.13|           NULL|
|    II| 4.0|  3.1|           NULL|
+------+----+-----+---------------+
only showing top 20 rows



### Extraer archivos de texto como cadenas sin procesar

Al trabajar con archivos basados en texto (que incluyen formatos como JSON, CSV, TSV y TXT), puedes utilizar el formato **text** para cargar cada línea del archivo como una fila con una columna de cadena llamada **value**. Esto puede ser útil cuando las fuentes de datos son propensas a corrupción y se utilizarán funciones personalizadas de análisis de texto para extraer valores de campos de texto.

In [None]:
spark.sql('SELECT * FROM text.`/content/sample_data/anscombe.json`').show()

+--------------------+
|               value|
+--------------------+
|                   [|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|  {"Series":"I", ...|
|                    |
|  {"Series":"II",...|
|  {"Series":"II",...|
|  {"Series":"II",...|
|  {"Series":"II",...|
|  {"Series":"II",...|
|  {"Series":"II",...|
|  {"Series":"II",...|
+--------------------+
only showing top 20 rows

