# Spark SQL
---

* Es una interface (módulo) que permite usar Spark con datos estructurados, es decir, con datos datos que tienen un esquema
* Permite el uso del lenguaje SQL para realizar tareas de selección, filtrado, agrupación y joins
* Es posible cargar datos de diferentes formatos: JSON, Hive, Parquet, ODBC, JDBC, etc.
* Permite una fácil integración entre SQL y Python/Scala/Java

## DataFrames

* Trabaja con una abstracción de las RDD, los DataFrames
* Es una RDD con esquema, es decir, tuplas de datos con nombres y tipo de datoa de cada campo
* Son distribuidos
* Se crean mediante el sqlContext

# Pyspark SQL
---

In [11]:
import os
os.environ['JAVA_HOME'] = '/Library/Java/JavaVirtualMachines/openjdk-17.jdk/Contents/Home'

In [12]:
from pyspark.sql import SparkSession

In [13]:
from IPython.core.display import HTML

In [14]:
display(HTML("<style>pre { white-space: pre !important; }</style>"))

In [15]:
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [16]:
causas = spark.read.format('csv').option('header', 'true').option('inferSchema', 'true').load('causas.csv')

In [17]:
causas.printSchema()

root
 |-- provincia_id: integer (nullable = true)
 |-- provincia_nombre: string (nullable = true)
 |-- causa_id: string (nullable = true)
 |-- caso_id_ministerio_publico: string (nullable = true)
 |-- circunscripcion_id: string (nullable = true)
 |-- circunscripcion_descripcion: string (nullable = true)
 |-- unidad_id: string (nullable = true)
 |-- unidad_descripcion: string (nullable = true)
 |-- caso_fecha_inicio: date (nullable = true)
 |-- causa_fecha_hecho: string (nullable = true)
 |-- delito_codigo: string (nullable = true)
 |-- delito_descripcion: string (nullable = true)
 |-- delito_tentativa: string (nullable = true)
 |-- delito_estadistico: string (nullable = true)
 |-- fecha_envio: date (nullable = true)



In [18]:
causas.show(10) # default: 20 filas

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       2017-02-03|       2016-12-03|         1008|  

In [19]:
causas.take(5)

[Row(provincia_id=2, provincia_nombre='Ciudad Autónoma de Buenos Aires', causa_id='436677', caso_id_ministerio_publico='MPF 135432', circunscripcion_id='CABA', circunscripcion_descripcion='CABA', unidad_id='965', unidad_descripcion='JUZGADO 18', caso_fecha_inicio=datetime.date(2017, 2, 3), causa_fecha_hecho='2016-12-03', delito_codigo='1008', delito_descripcion='Amenazas', delito_tentativa='NO', delito_estadistico='Amenazas', fecha_envio=datetime.date(2018, 11, 5)),
 Row(provincia_id=2, provincia_nombre='Ciudad Autónoma de Buenos Aires', causa_id='437280', caso_id_ministerio_publico='MPF 136364', circunscripcion_id='CABA', circunscripcion_descripcion='CABA', unidad_id='966', unidad_descripcion='JUZGADO 11', caso_fecha_inicio=datetime.date(2017, 2, 13), causa_fecha_hecho='2016-12-03', delito_codigo='1008', delito_descripcion='Amenazas', delito_tentativa='NO', delito_estadistico='Amenazas', fecha_envio=datetime.date(2018, 11, 5)),
 Row(provincia_id=2, provincia_nombre='Ciudad Autónoma de

In [36]:
causas.describe().show()

+-------+-----------------+----------------+-----------------+--------------------------+------------------+---------------------------+------------------+--------------------+-----------------+------------------+--------------------+----------------+--------------------+
|summary|     provincia_id|provincia_nombre|         causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|         unidad_id|  unidad_descripcion|causa_fecha_hecho|     delito_codigo|  delito_descripcion|delito_tentativa|  delito_estadistico|
+-------+-----------------+----------------+-----------------+--------------------------+------------------+---------------------------+------------------+--------------------+-----------------+------------------+--------------------+----------------+--------------------+
|  count|             1000|            1000|             1000|                       862|              1000|                       1000|              1000|                 707|     

In [21]:
causas.describe(['provincia_id']).show()

+-------+-----------------+
|summary|     provincia_id|
+-------+-----------------+
|  count|             1000|
|   mean|             36.4|
| stddev|29.29071432973162|
|    min|                2|
|    max|               94|
+-------+-----------------+



In [22]:
causas.describe(['provincia_id', 'circunscripcion_id']).show()

+-------+-----------------+------------------+
|summary|     provincia_id|circunscripcion_id|
+-------+-----------------+------------------+
|  count|             1000|              1000|
|   mean|             36.4|2.8703271028037385|
| stddev|29.29071432973162|  1.85264353830226|
|    min|                2|                 1|
|    max|               94|              CABA|
+-------+-----------------+------------------+



In [23]:
causas.createOrReplaceTempView('causas')

In [24]:
spark.sql('SELECT * FROM causas').show(5)

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       2017-02-03|       2016-12-03|         1008|  

In [25]:
spark.sql("SELECT delito_descripcion FROM causas WHERE unidad_descripcion LIKE '%18%'").show(truncate=False)

+-------------------------+
|delito_descripcion       |
+-------------------------+
|Amenazas                 |
|Amenazas - CP (p/ L 2303)|
+-------------------------+



In [26]:
causas.select('*').show(5)

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       2017-02-03|       2016-12-03|         1008|  

In [27]:
causas.select('provincia_nombre', 'causa_id').orderBy(causas.provincia_nombre.asc()).show(5)

+----------------+---------+
|provincia_nombre| causa_id|
+----------------+---------+
|          Chubut|265/13555|
|          Chubut|265/13559|
|          Chubut|265/13556|
|          Chubut|265/13556|
|          Chubut|265/13557|
+----------------+---------+
only showing top 5 rows


In [28]:
causas.filter(causas.delito_descripcion.like('%Amenazas%')).show(5)

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       2017-02-03|       2016-12-03|         1008|  

In [29]:
causas.select('*').where(causas.delito_descripcion.like('%Amenazas%')).show(5)

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       2017-02-03|       2016-12-03|         1008|  

In [30]:
causas2 = causas.withColumn('nueva_columna', causas.delito_descripcion.endswith('as'))

In [31]:
causas2.show(5)

+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+-------------+
|provincia_id|    provincia_nombre|causa_id|caso_id_ministerio_publico|circunscripcion_id|circunscripcion_descripcion|unidad_id|unidad_descripcion|caso_fecha_inicio|causa_fecha_hecho|delito_codigo|  delito_descripcion|delito_tentativa|delito_estadistico|fecha_envio|nueva_columna|
+------------+--------------------+--------+--------------------------+------------------+---------------------------+---------+------------------+-----------------+-----------------+-------------+--------------------+----------------+------------------+-----------+-------------+
|           2|Ciudad Autónoma d...|  436677|                MPF 135432|              CABA|                       CABA|      965|        JUZGADO 18|       201

In [32]:
from pyspark.sql.functions import col

In [33]:
consulta = causas.select('*').where(col('delito_descripcion') == 'Amenazas')

In [35]:
consulta.write.save('salida_prueba', format = 'json')