<h1>Procesamiento de Datos a Gran Escala</h1>

<p><strong>Objetivo: </strong> El objetivo de este cuaderno es crear un dataframe de Spark y utilizar código SQL en un notebook de Python:</p>

<h3>Cargar los datos</h3>
Para este ejercicio se va a utilizar un conjunto de datos ejemplo de los que provee Databricks. Se cargan los datos de tipo CSV y se infiere el esquema de los datos:

In [0]:
# Use the Spark CSV datasource with options specifying:
#  - First line of file is a header
#  - Automatically infer the schema of the data
data = spark.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true") 

Para visualizar los datos que se han cargado se utiliza el comando <b>display</b>:

In [0]:
display(data)

2014 rank,City,State,State Code,2014 Population estimate,2015 median sales price
101,Birmingham,Alabama,AL,212247.0,162.9
125,Huntsville,Alabama,AL,188226.0,157.7
122,Mobile,Alabama,AL,194675.0,122.5
114,Montgomery,Alabama,AL,200481.0,129.0
64,Anchorage[19],Alaska,AK,301010.0,
78,Chandler,Arizona,AZ,254276.0,
86,Gilbert[20],Arizona,AZ,239277.0,
88,Glendale,Arizona,AZ,237517.0,
38,Mesa,Arizona,AZ,464704.0,
148,Peoria,Arizona,AZ,166934.0,


El comando <b>createOrReplaceTempView</b> crea una nueva vista temporal usando un SparkDataFrame en la sesión de Spark. Si ya existe una vista temporal con el mismo nombre, la reemplaza. U la vista se elimina cuando terminamos el cluster, es una vista temporal. Permite realizar consultas SQL sobre los datos. Se pueden crear una vista de toda el dataframe o de una parte:

In [0]:
data.createOrReplaceTempView("data_geo")

Ahora se puedes ejecutar consultar SQL sobre la vista <b>data_geo</b> igual que si fuera una tabla. Para ejecutar código SQL en un cuaderno Python se debe poner el comando <b>%sql</b> para indicar que se va a ejecutar otro tipo de código dentro del notebook. En la consulta se puede ver los precios medios por cada estado para el año 2015 y se puede visualizar como un mapa:

In [0]:
%sql
select `State Code`, `2015 median sales price` from data_geo

State Code,2015 median sales price
AL,162.9
AL,157.7
AL,122.5
AL,129.0
AK,
AZ,
AZ,
AZ,
AZ,
AZ,


En esta otra consulta se pueden observar las top 10 ciudades con los precios medios más altos para 2015 y la población estimada en 2014:

In [0]:
%sql
select City, `2014 Population estimate`/1000 as `2014 Population Estimate (1000s)`, `2015 median sales price` as `2015 Median Sales Price (1000s)` from data_geo order by `2015 median sales price` desc limit 10;

City,2014 Population Estimate (1000s),2015 Median Sales Price (1000s)
San Jose,1015.785,900.0
San Francisco[10],852.469,748.3
Honolulu[2],350.399,699.3
Anaheim,346.997,685.7
San Diego,1381.069,510.3
Boulder,105.112,442.2
Los Angeles,3928.864,434.7
New York[6],8491.079,388.6
Boston,655.884,374.6
Washington[13],658.893,367.8


En esta conuslta se muestra un histograma de los precios medios de las ventas para 2015:

In [0]:
%sql
select `State Code`, `2015 median sales price` from data_geo order by `2015 median sales price` desc;

State Code,2015 median sales price
CA,900.0
CA,748.3
HI,699.3
CA,685.7
CA,510.3
CO,442.2
CA,434.7
NY,388.6
MA,374.6
DC,367.8
