### Caso Práctico: Datos Poblacionales

### Listar Archivos y Carpetas en DBFS

En este ejemplo, utilizamos el comando `dbutils.fs.ls()` para listar los archivos y carpetas dentro de una ruta específica en el **Databricks File System (DBFS)**. El comando permite explorar el sistema de archivos de Databricks desde un notebook, lo que facilita el acceso a los datos almacenados en el entorno de ejecución

In [0]:
dbutils.fs.ls('/databricks-datasets/samples/')

Out[1]: [FileInfo(path='dbfs:/databricks-datasets/samples/adam/', name='adam/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/data/', name='data/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/docs/', name='docs/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/lending_club/', name='lending_club/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/newsgroups/', name='newsgroups/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/people/', name='people/', size=0, modificationTime=0),
 FileInfo(path='dbfs:/databricks-datasets/samples/population-vs-price/', name='population-vs-price/', size=0, modificationTime=0)]

### Cargar y Preprocesar Datos

En este bloque de código, cargamos un archivo CSV desde DBFS y realizamos algunos pasos de preprocesamiento:
- 1. Lectura del archivo csv
```pyspark
data = spark.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true") 
```
- 2. Cachear los Datos
```pyspark
data.cache()
```
- 3 Eliminar los Nulos
```pyspark
data = data.dropna()
```


In [0]:
data = spark.read.csv("/databricks-datasets/samples/population-vs-price/data_geo.csv", header="true", inferSchema="true") 
data.cache()  # Cache data for faster reuse
data = data.dropna() # drop rows with missing values

In [0]:
data.take(10)

Out[3]: [Row(2014 rank=101, City='Birmingham', State='Alabama', State Code='AL', 2014 Population estimate=212247, 2015 median sales price=162.9),
 Row(2014 rank=125, City='Huntsville', State='Alabama', State Code='AL', 2014 Population estimate=188226, 2015 median sales price=157.7),
 Row(2014 rank=122, City='Mobile', State='Alabama', State Code='AL', 2014 Population estimate=194675, 2015 median sales price=122.5),
 Row(2014 rank=114, City='Montgomery', State='Alabama', State Code='AL', 2014 Population estimate=200481, 2015 median sales price=129.0),
 Row(2014 rank=6, City='Phoenix', State='Arizona', State Code='AZ', 2014 Population estimate=1537058, 2015 median sales price=206.1),
 Row(2014 rank=33, City='Tucson', State='Arizona', State Code='AZ', 2014 Population estimate=527972, 2015 median sales price=178.1),
 Row(2014 rank=119, City='Little Rock', State='Arkansas', State Code='AR', 2014 Population estimate=197706, 2015 median sales price=131.8),
 Row(2014 rank=56, City='Anaheim', St

### Mostrar Datos con `display`

El método `display` se utiliza para visualizar de manera interactiva el contenido de un DataFrame en un notebook de Databricks. A diferencia de `show()`, `display` permite explorar los datos con características interactivas como la paginación y la ordenación de columnas.

```python
display(data)
```
Este comando muestra el DataFrame `data` en una tabla interactiva, facilitando la exploración de los datos cargados o procesados.

In [0]:
display(data)

2014 rank,City,State,State Code,2014 Population estimate,2015 median sales price
101,Birmingham,Alabama,AL,212247,162.9
125,Huntsville,Alabama,AL,188226,157.7
122,Mobile,Alabama,AL,194675,122.5
114,Montgomery,Alabama,AL,200481,129.0
6,Phoenix,Arizona,AZ,1537058,206.1
33,Tucson,Arizona,AZ,527972,178.1
119,Little Rock,Arkansas,AR,197706,131.8
56,Anaheim,California,CA,346997,685.7
2,Los Angeles,California,CA,3928864,434.7
59,Riverside,California,CA,319504,281.0


### Crear una Vista Temporal con `createOrReplaceTempView`

El método `createOrReplaceTempView` crea o reemplaza una vista temporal en Spark, lo que permite ejecutar consultas SQL sobre un DataFrame. Esta vista es válida solo durante la sesión actual, facilitando el trabajo con SQL directamente sobre los datos cargados o procesados en un DataFrame.

In [0]:
data.createOrReplaceTempView("data_geo")

## Consulta SQL

### Consulta SQL: Obtener Precio Medio de Venta en 2015 por Estado

Esta consulta SQL obtiene el **precio medio de venta en 2015** para cada estado. Los resultados devuelven el código del estado junto con el precio de venta medio correspondiente al año 2015.

1. **Selección de Columnas**:
   - **`State Code`**: El código del estado.
   - **`2015 median sales price`**: El precio de venta medio en 2015 para cada estado.

Esta consulta es útil para obtener una visión general de los precios de venta medios en 2015 para cada estado, lo cual puede ser útil para análisis de tendencias en el mercado inmobiliario a nivel estatal.

In [0]:
%sql
select `State Code`, `2015 median sales price` 
from data_geo

State Code,2015 median sales price
AL,162.9
AL,157.7
AL,122.5
AL,129.0
AZ,206.1
AZ,178.1
AR,131.8
CA,685.7
CA,434.7
CA,281.0


### Consulta SQL: Obtener las 10 Principales Ciudades por Precio de Venta Medio en 2015 y Estimación de Población de 2014

Esta consulta SQL obtiene las **10 ciudades principales** con los precios de venta medianos más altos en 2015 y la estimación de población de 2014 (ajustada en miles). Los resultados se ordenan por el precio de venta en 2015 en orden descendente, permitiendo identificar las ciudades con los precios más altos.

1. **Selección de Columnas**:
   - **`City`**: El nombre de la ciudad.
   - **`2014 Population estimate/1000 as '2014 Population Estimate (1000s)'`**: La estimación de la población de 2014, convertida a miles para simplificar la visualización.
   - **`2015 median sales price as '2015 Median Sales Price (1000s)'`**: El precio de venta medio de 2015, también ajustado en miles para facilitar el análisis.

2. **Ordenación y Limitación**:
   - Los resultados se ordenan en orden **descendente** según el precio medio de venta de 2015, y se limita a los **10 primeros** registros.

Esta consulta es útil para identificar las ciudades con los precios más altos en 2015, junto con su población estimada en miles, lo que facilita la comparación entre las ciudades más caras.

In [0]:
%sql
select City, `2014 Population estimate`/1000 as `2014 Population Estimate (1000s)`, `2015 median sales price` as `2015 Median Sales Price (1000s)` 
from data_geo 
order by `2015 median sales price` desc limit 10;

City,2014 Population Estimate (1000s),2015 Median Sales Price (1000s)
San Jose,1015.785,900.0
San Francisco[10],852.469,748.3
Honolulu[2],350.399,699.3
Anaheim,346.997,685.7
San Diego,1381.069,510.3
Boulder,105.112,442.2
Los Angeles,3928.864,434.7
New York[6],8491.079,388.6
Boston,655.884,374.6
Washington[13],658.893,367.8


### Consulta SQL: Obtener Estimación de Población 2014 por Ciudad en el Estado de Washington (WA)

Esta consulta SQL obtiene la **estimación de población de 2014** para cada ciudad en el estado de Washington (`State Code = 'WA'`). La consulta filtra los datos específicamente para el estado de Washington y devuelve las ciudades junto con su población estimada en 2014.

1. **Selección de Columnas**:
   - **`City`**: El nombre de la ciudad.
   - **`2014 Population estimate`**: La estimación de la población para cada ciudad en el año 2014.

2. **Filtrado por Estado**:
   - Se aplica un filtro para obtener solo las ciudades del estado de Washington, usando la cláusula `WHERE` para seleccionar donde el código del estado es `'WA'` 'Washington'.

In [0]:
%sql
select City, `2014 Population estimate` 
from data_geo 
where `State Code` = 'WA';

City,2014 Population estimate
Seattle,668342
Spokane,212052


### Consulta SQL: Precios de Venta Medios por Estado en 2015 para Boxplot

Esta consulta SQL obtiene el **precio de venta medio en 2015** para cada estado, ordenando los resultados de mayor a menor. El objetivo de esta consulta es preparar los datos para la creación de un **boxplot**, que es útil para visualizar la distribución de los precios de venta en diferentes estados, así como identificar posibles valores atípicos.

1. **Selección de Columnas**:
   - **`State Code`**: El código del estado.
   - **`2015 median sales price`**: El precio de venta medio en 2015, que será utilizado para la creación del boxplot.

2. **Ordenación**:
   Los resultados se ordenan en orden **descendente** según el precio de venta medio. Este orden no afecta el boxplot directamente, pero facilita la visualización previa de los datos.


In [0]:
%sql
select `State Code`, `2015 median sales price` 
from data_geo 
order by `2015 median sales price` desc;

State Code,2015 median sales price
CA,900.0
CA,748.3
HI,699.3
CA,685.7
CA,510.3
CO,442.2
CA,434.7
NY,388.6
MA,374.6
DC,367.8


Databricks visualization. Run in Databricks to view.

### Consulta SQL: Obtener los Precios de Venta Medios por Estado en 2015

Esta consulta SQL obtiene el **precio de venta medio en 2015** para cada estado, ordenando los resultados de mayor a menor según el valor del precio medio. La consulta realiza lo siguiente:

1. **Selección de Columnas**:
   - **`State Code`**: El código del estado.
   - **`2015 median sales price`**: El precio de venta medio en 2015.

2. **Ordenación**:
   Los resultados se ordenan en orden **descendente** (`desc`) según el precio de venta medio, lo que permite ver primero los estados con los precios más altos.

In [0]:
%sql
select `State Code`, `2015 median sales price` 
from data_geo 
order by `2015 median sales price` desc;

State Code,2015 median sales price
CA,900.0
CA,748.3
HI,699.3
CA,685.7
CA,510.3
CO,442.2
CA,434.7
NY,388.6
MA,374.6
DC,367.8


### Ciudades con Precio de Venta Medio en 2015 >= $300,000

Este análisis muestra las ciudades cuyo precio de venta medio en 2015 fue igual o superior a $300,000. Este umbral nos permite identificar áreas donde los precios de la vivienda eran relativamente altos en comparación con otras regiones, lo que puede ser útil para estudios de mercado o análisis de tendencias inmobiliarias.

In [0]:
%sql
select `City`, `State Code`, `2015 median sales price` 
from data_geo 
where `2015 median sales price` >= 300 limit 20;

City,State Code,2015 median sales price
Anaheim,CA,685.7
Los Angeles,CA,434.7
San Diego,CA,510.3
San Francisco[10],CA,748.3
San Jose,CA,900.0
Boulder,CO,442.2
Denver[12],CO,338.1
Bridgeport,CT,342.7
Washington[13],DC,367.8
Honolulu[2],HI,699.3


### Consulta SQL: Categorizar Estados según Precio Medio de Venta en 2015

Esta consulta SQL categoriza los estados en función del precio de venta medio en 2015, utilizando un umbral de $300,000. La consulta realiza lo siguiente:

1. **Selección de Columnas**:
   - **`State Code`**: El código del estado.
   - **`Category`**: Se crea una nueva columna que categoriza los estados en dos grupos:
     - **`>=300K`**: Si el precio medio de venta en 2015 es mayor o igual a $300,000.
     - **`< 300K`**: Si el precio medio de venta en 2015 es inferior a $300,000.
   - **`2015 median sales price`**: El precio de venta medio en 2015.

2. **Condición**:
   Utiliza una cláusula `CASE` para asignar la categoría de cada estado según su precio medio de venta.

3. **Ordenación**:
   Los resultados se ordenan en orden descendente según el precio de venta medio de 2015 (`2015 median sales price`), de modo que los estados con los precios más altos aparezcan primero.


In [0]:
%sql
select `State Code`, 
  case when `2015 median sales price` >= 300 then '>=300K' 
    when `2015 median sales price` < 300 then '< 300K' 
    end as `Category`, `2015 median sales price` 
from data_geo 
order by `2015 median sales price` desc;

State Code,Category,2015 median sales price
CA,>=300K,900.0
CA,>=300K,748.3
HI,>=300K,699.3
CA,>=300K,685.7
CA,>=300K,510.3
CO,>=300K,442.2
CA,>=300K,434.7
NY,>=300K,388.6
MA,>=300K,374.6
DC,>=300K,367.8
