# Explore and analyze data in Synapse with Spark SQL - Simple data analysis by using simple data

## Understanding serverless Apache Spark pools

A serverless Spark pool lets you use Apache Spark without managing clusters. When you start using a pool, a Spark session is created if needed. The pool controls how many Spark resources will be used by that session and how long the session will last before it automatically pauses. You pay for spark resources used during that session and not for the pool itself.

## Create a dataframe

Create a simple Spark DataFrame (3 rows x 3 colums) object to manipulate and run the cell (check whether the Spark pool you created is selected).
> **Note:** If the Apache Spark pool instance isn't already running, it is automatically started. You can see the Apache Spark pool instance status below the cell you are running and also on the status panel at the bottom of the notebook. Depending on the size of pool, starting should take 2-5 minutes. Once the code has finished running, information below the cell displays showing how long it took to run and its execution. In the output cell, you see the output.

Next, this code creates a Spark table, a CSV, and a Parquet file all with copies of the dataframe. 

> [**Lectura recomendada**](https://datos.gob.es/es/blog/por-que-deberias-de-usar-ficheros-parquet-si-procesas-muchos-datos) "Apache Parquet o simplemente Parquet es un tipo de fichero que contiene datos (de tipo tabla) en su interior, de forma similar a a un fichero tipo CSV pero no es un fichero en texto plano (se representa de forma binaria), lo que significa que no lo podemos abrir y examinar con un simple editor de texto. El formato parquet es un tipo de formato orientado-a-columnas (column-oriented file format), a diferencia de formatos orientados-a-filas (row-oriented) como CSV, TSV o AVRO.  

> En un fichero CSV (recordamos, orientado a filas) cada registro es una fila. En Parquet, sin embargo, es cada columna la que se almacena de forma independiente. La diferencia más extrema la notamos cuándo, en un fichero de tipo CSV, queremos leer solamente una columna. A pesar de que solo queremos acceder a la información de una columna, por el tipo de formato, tenemos irremediablemente que leer todas las filas de la tabla. Cuando usamos formato Parquet, cada columna es accesible de forma independiente al resto. Como los datos en cada columna se espera que sean homogéneos (del mismo tipo), el formato parquet abre un sin fin de posibilidades a la hora de codificar, comprimir y optimizar el almacenamiento de los datos. De lo contrario, si lo que queremos es almacenar datos con el objetivo de leer muchas filas completas muy a menudo, el formato parquet nos penalizará en esas lecturas y no seremos eficientes ya que estamos utilizando orientación a columnas para leer filas.

> Otra característica de Parquet es que es un formato de datos autodescriptivo que integra el esquema o la estructura dentro de los datos en sí. Es decir, propiedades (o metadatos) de los datos como el tipo (si es un número entero, un real o una cadena de texto), el número de valores, el tipo de compresión (los datos se pueden comprimir para ahorrar espacio), etc. están incluidas en el propio fichero junto con los datos como tal. "

If you use the storage explorer, it's possible to see the impact of the two different ways of writing a file used above. When no file system is specified then the default is used, in this case default>user>trusted-service-user>lab4data. The data is saved to the location of the specified file system.

Notice in both the "csv" and "parquet" formats, write operations creates a directory with many partitioned files.

## Run Spark SQL statements
Next, the code lists the tables on the pool. The query retrieves the top 10 rows from a system table that comes with all Azure Synapse Apache Spark pools by default.

> **Note:** When you use a Notebook with your Azure Synapse Apache Spark pool, you get a preset **sqlContext** that you can use to run queries using Spark SQL. **%%sql** tells the notebook to use the preset sqlContext to run the query. 

Run another query to see the data in demo_df

It is possible to get the same experience of running SQL but without having to switch languages. You can do this by replacing the SQL cell above with this PySpark cell, the output experience is the same because the display command is used:

## Save the notebook and end the Spark session

Now that you’ve finished working with the data, you can publish the notebook with a meaningful name and end the Spark session.

- In the notebook menu bar, use the Properites icon to view the notebook settings.
- Set the Name of the notebook and then close the settings pane.
- Below the notebook menu (right corner), select Stop session icon to end the Spark session.

## Clean up resources
In this exercise, you’ve learned how to use Spark to work with data in Azure Synapse.

If you’ve finished exploring your lakehouse, you can delete the workspace you created for this exercise.