# Ejercicios del libro y apuntes

## Funciones definidas por el usuario

### Spark SQL UDFs
Estamos creando una función de calcula el cubo de números reales

In [0]:
from pyspark.sql.types import LongType
# Create cubed function
def cubed(s):
    return s * s * s
# Register UDF
spark.udf.register("cubed", cubed, LongType())
# Generate temporary view
spark.range(1, 9).createOrReplaceTempView("udf_test")

In [0]:
spark.sql("SELECT id, cubed(id) AS id_cubed FROM udf_test").show()

+---+--------+
| id|id_cubed|
+---+--------+
|  1|       1|
|  2|       8|
|  3|      27|
|  4|      64|
|  5|     125|
|  6|     216|
|  7|     343|
|  8|     512|
+---+--------+



## Consultas con Spark SQL Shell, Beeline y Tableau

### Utilizando la Spark SQL Shell

#### Crear una tabla

Como la tabla se creó en el Script de Scala, no me deja volverla a crear, pero tampoco si hago un DROP. Me sale el siguiente error: 

```Error in SQL statement: AnalysisException: Cannot create table ('`spark_catalog`.`default`.`people`'). The associated location ('dbfs:/user/hive/warehouse/people') is not empty but it's not a Delta table```

Borro todos los contenidos que hay en el directorio people y vuelvo a crear la tabla.

In [0]:
%fs
ls 'dbfs:/user/hive/warehouse/people'

path,name,size,modificationTime
dbfs:/user/hive/warehouse/people/_delta_log/,_delta_log/,0,0
dbfs:/user/hive/warehouse/people/part-00000-01f800be-449c-4b96-a107-e79c7308511d-c000.snappy.parquet,part-00000-01f800be-449c-4b96-a107-e79c7308511d-c000.snappy.parquet,797,1651244304000
dbfs:/user/hive/warehouse/people/part-00000-16c64ecd-7e59-457f-be57-c6a419e198d3-c000.snappy.parquet,part-00000-16c64ecd-7e59-457f-be57-c6a419e198d3-c000.snappy.parquet,840,1651244314000
dbfs:/user/hive/warehouse/people/part-00000-3539df44-c5e6-4028-8f5c-b071dd7d5600-c000.snappy.parquet,part-00000-3539df44-c5e6-4028-8f5c-b071dd7d5600-c000.snappy.parquet,812,1651244309000
dbfs:/user/hive/warehouse/people/part-00000-75d0a0d9-e32d-46e2-ac35-415262cf3892-c000.snappy.parquet,part-00000-75d0a0d9-e32d-46e2-ac35-415262cf3892-c000.snappy.parquet,840,1651247614000
dbfs:/user/hive/warehouse/people/part-00000-d298d78a-fa72-4399-b020-8cd0f1bac7a7-c000.snappy.parquet,part-00000-d298d78a-fa72-4399-b020-8cd0f1bac7a7-c000.snappy.parquet,797,1651247603000
dbfs:/user/hive/warehouse/people/part-00000-f7bd4a40-5977-48f6-a138-3c2ad991df64-c000.snappy.parquet,part-00000-f7bd4a40-5977-48f6-a138-3c2ad991df64-c000.snappy.parquet,812,1651247609000


In [0]:
%fs
rm -r 'dbfs:/user/hive/warehouse/people'

In [0]:
%fs
ls 'dbfs:/user/hive/warehouse/people'

In [0]:
%sql
CREATE TABLE people (name STRING, age int);

In [0]:
%sql
INSERT INTO people VALUES ("Michael", NULL);
INSERT INTO people VALUES ("Andy", 30);
INSERT INTO people VALUES ("Samantha", 19);

num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql 
show tables

database,tableName,isTemporary
default,people,False
,udf_test,True


In [0]:
%sql
select * from people

name,age
Samantha,19.0
Samantha,19.0
Andy,30.0
Andy,30.0
Michael,
Michael,


### Trabajando con Beeline
Es una herramienta para ejecutar consultas de HiveQL. Es Hive, pero para versiones superiores de Spark.

**Para trabajar con Beerline hay que hacerlo desde Clouder ejecutando el comando ```Beerline```**. Luego hay que conectarse al servidor Thrift. Para ello, se ejecuta el siguiente comando dentro de Beerline ```!connect jdbc:hive2://localhost:10000```, se introduce mi correo como usuario y 'blanck' como contraseña.

Creamos la tabla people y ejecutamos consultas del mismo modo que se hace en Hive.

**Trabajando con Beerline y el servidor Thrift desde una consola**

Para inicializar Beerline: ```./bin/beeline```

Para conectar con Thrift: ```!connect jdbc:hive2://localhost:10000```

### Trabajando con Tableau
Mediante tableau también nos podemos conectar al servidir Thrift. Para ello habrá que inicualizar el servidor con ```./sbin/start-thriftserver.sh``` y si aún no ha iniciado el driver de Spark, ejecutar ```/sbin/start-all.sh```. Luego conectamos con el servidir mediante Tableau como indican las páginas 148-149 y podremos acceder a las tablas creadas mediante Beerline o Hive. Por último, habrá que detener el servidor Thrift con ```./sbin/stop-thriftserver.sh```.

## Fuentes de datos externas
Se verá cómo conectar Spark SQL para trabajar con bases de datos externas como bases de datos JDBC y SQL.

### Bases de datos JDBC y SQL
Spark incluye una API que permite leer datos de otras bases de datos mediante JDBC. Esto simplifica las consultas debido a que las devuelve en forma de DataFrame. 

Para inicializar la Driver de JDBC se ejecuta el siguiente comando ```./bin/spark-shell --driver-class-path $database.jar --jars $database.jar```

#### La importancia de particionar
Cuando hay grandes volúmenes de datos siempre particionar ralentiza los tiempos de ejecución. Es adecuado hacer un número de particiones proporcional al número de nodos. Habrá que especificar el límite inferior y el superior de los valores de la columna de partición, que es como un id.

### PostgreSQL

Cómo cargar y guardar una base de datos PostgreSQL.

In [0]:
# In Python
# Read Option 1: Loading data from a JDBC source using load method
jdbcDF1 = (spark
 .read
 .format("jdbc")
 .option("url", "jdbc:postgresql://[DBSERVER]")
 .option("dbtable", "[SCHEMA].[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .load())
# Read Option 2: Loading data from a JDBC source using jdbc method
jdbcDF2 = (spark
 .read
 .jdbc("jdbc:postgresql://[DBSERVER]", "[SCHEMA].[TABLENAME]",
 properties={"user": "[USERNAME]", "password": "[PASSWORD]"}))
# Write Option 1: Saving data to a JDBC source using save method
(jdbcDF1
 .write
 .format("jdbc")
 .option("url", "jdbc:postgresql://[DBSERVER]")
 .option("dbtable", "[SCHEMA].[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .save())
# Write Option 2: Saving data to a JDBC source using jdbc method
(jdbcDF2
 .write
 .jdbc("jdbc:postgresql:[DBSERVER]", "[SCHEMA].[TABLENAME]",
 properties={"user": "[USERNAME]", "password": "[PASSWORD]"}))

### MySQL

In [0]:
# In Python
# Loading data from a JDBC source using load 
jdbcDF = (spark
 .read
 .format("jdbc")
 .option("url", "jdbc:mysql://[DBSERVER]:3306/[DATABASE]")
 .option("driver", "com.mysql.jdbc.Driver")
 .option("dbtable", "[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .load())
# Saving data to a JDBC source using save 
(jdbcDF
 .write
 .format("jdbc")
 .option("url", "jdbc:mysql://[DBSERVER]:3306/[DATABASE]")
 .option("driver", "com.mysql.jdbc.Driver")
 .option("dbtable", "[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .save())

### Azure Cosmos DB

In [0]:
# In Python
# Loading data from Azure Cosmos DB
# Read configuration
query = "SELECT c.colA, c.coln FROM c WHERE c.origin = 'SEA'"
readConfig = {
 "Endpoint" : "https://[ACCOUNT].documents.azure.com:443/",
 "Masterkey" : "[MASTER KEY]",
 "Database" : "[DATABASE]",
 "preferredRegions" : "Central US;East US2",
 "Collection" : "[COLLECTION]",
 "SamplingRatio" : "1.0",
 "schema_samplesize" : "1000",
 "query_pagesize" : "2147483647",
 "query_custom" : query
}
# Connect via azure-cosmosdb-spark to create Spark DataFrame
df = (spark
 .read
 .format("com.microsoft.azure.cosmosdb.spark")
 .options(**readConfig)
 .load())
# Count the number of flights
df.count()
# Saving data to Azure Cosmos DB
# Write configuration
writeConfig = {
"Endpoint" : "https://[ACCOUNT].documents.azure.com:443/",
"Masterkey" : "[MASTER KEY]",
"Database" : "[DATABASE]",
"Collection" : "[COLLECTION]",
"Upsert" : "true"
}
# Upsert the DataFrame to Azure Cosmos DB
(df.write
 .format("com.microsoft.azure.cosmosdb.spark")
 .options(**writeConfig)
 .save())


### MS SQL Server

In [0]:
# In Python
# Configure jdbcUrl
jdbcUrl = "jdbc:sqlserver://[DBSERVER]:1433;database=[DATABASE]"
# Loading data from a JDBC source
jdbcDF = (spark
 .read
 .format("jdbc")
 .option("url", jdbcUrl)
 .option("dbtable", "[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .load())
# Saving data to a JDBC source
(jdbcDF
 .write
 .format("jdbc")
 .option("url", jdbcUrl)
 .option("dbtable", "[TABLENAME]")
 .option("user", "[USERNAME]")
 .option("password", "[PASSWORD]")
 .save())

### Otras fuentes de datos externas
Estas son otro tipo de fuentes de datos muy populares a las que Apache Spark no se puede conectar:
- Apache Cassandra
- Snowflake
- MongoDB

## Funciones de orden superior en DataFrames y Spark SQL
Hay dos soluciones para abordar la lectura o la manupulación de datos complejos:
- Dividir en filas individulaes, ejecutar la consulta y volver a juntar 
- Crear una función definida por el usuario

### Opción 1: Explotar y recopilar

In [0]:
%sql
SELECT id, collect_list(value + 1) AS values
FROM (SELECT id, EXPLODE(values) AS value
 FROM table) x
GROUP BY id

Mientras que ```collect_list()``` devuelve una lista de objetos con duplicados, la instrucción GROUP BY requiere operaciones aleatorias, lo que significa que el orden de la matriz recopilada no es necesariamente el mismo que el de la matriz original.

### Opción 2: Función definida por el usuario

In [0]:
spark.sql("SELECT id, plusOneInt(values) AS values FROM table").show()

### Funciones integradas para tipos de datos complejos
En lugar de utilizar estas técnicas más costosas, es posible utilizar algunas de las funciones integradas para tipos de datos complejos.

# PONER TABLAS páginas 163-165

### Funciones de orden superior
Además de las funciones integradas mencionadas anteriormente, existen funciones de orden superior que toman funciones lambda anónimas como argumentos.

In [0]:
%sql
transform(values, value -> lambda expression)

La función transform() toma una matriz (valores) y una función anónima (expresión lambda) como entrada. La función crea de forma transparente una nueva matriz aplicando la función anónima a cada elemento y luego asignando el resultado a la matriz de salida.

In [0]:
from pyspark.sql.types import *
schema = StructType([StructField("celsius", ArrayType(IntegerType()))])
t_list = [[35, 36, 32, 30, 40, 42, 38]], [[31, 32, 34, 55, 56]]
t_c = spark.createDataFrame(t_list, schema)
t_c.createOrReplaceTempView("tC")
# Show the DataFrame
t_c.show()

**Funciones de orden superior que se pueden ejecutar con la base de datos anterior**

- transform()

```transform(array<T>, function<T, U>): array<U>```

La función transform() produce una matriz al aplicar una función a cada elemento de la matriz de entrada (similar a una función map()):

In [0]:
spark.sql("""
SELECT celsius, 
 transform(celsius, t -> ((t * 9) div 5) + 32) as fahrenheit 
 FROM tC
""").show()

- filter()

```filter(array<T>, function<T, Boolean>): array<T>```

La función filter() produce una matriz que consta solo de los elementos de la matriz de entrada para los que una función booleana es verdadera.

In [0]:
spark.sql("""
SELECT celsius, 
 filter(celsius, t -> t > 38) as high 
 FROM tC
""").show()

- exists()

```exists(array<T>, function<T, V, Boolean>): Boolean```

La función existe() devuelve verdadero si la función booleana se cumple para cualquier elemento en la matriz de entrada.

In [0]:
spark.sql("""
SELECT celsius, 
 exists(celsius, t -> t = 38) as threshold
 FROM tC
""").show()

- reduce()

```reduce(array<T>, B, function<B, T, B>, function<B, R>)```

La función reduce () reduce los elementos de la matriz a un solo valor

In [0]:
spark.sql("""
SELECT celsius, 
 reduce(
 celsius, 
 0, 
 (t, acc) -> t + acc, 
 acc -> (acc div size(celsius) * 9 div 5) + 32
 ) as avgFahrenheit 
 FROM tC
""").show()

## Operaciones comunes en DataFrames y Spark SQL

- Funciones agregadas
- Funciones de colección
- Funciones de fecha y hora
- Funciones no agregadas
- Funciones matemáticas
- Funciones de clasificación
- Funciones agregadas
- Funciones de cadena
- Funciones UDF
- Funciones de ventana

In [0]:
from pyspark.sql.functions import expr
tripdelaysFilePath = "/databricks-datasets/learning-spark-v2/flights/departuredelays.csv"
airportsnaFilePath = "/databricks-datasets/learning-spark-v2/flights/airport-codes-na.txt"
# Obtain airports data set
airportsna = (spark.read
 .format("csv")
 .options(header="true", inferSchema="true", sep="\t")
 .load(airportsnaFilePath))
airportsna.createOrReplaceTempView("airports_na")
# Obtain departure delays data set
departureDelays = (spark.read
 .format("csv")
 .options(header="true")
 .load(tripdelaysFilePath))
departureDelays = (departureDelays
 .withColumn("delay", expr("CAST(delay as INT) as delay"))
 .withColumn("distance", expr("CAST(distance as INT) as distance")))
departureDelays.createOrReplaceTempView("departureDelays")
# Create temporary small table
foo = (departureDelays
 .filter(expr("""origin == 'SEA' and destination == 'SFO' and 
 date like '01010%' and delay > 0""")))
foo.createOrReplaceTempView("foo")

In [0]:
spark.sql("SELECT * FROM airports_na LIMIT 10").show()

+-----------+-----+-------+----+
|       City|State|Country|IATA|
+-----------+-----+-------+----+
| Abbotsford|   BC| Canada| YXX|
|   Aberdeen|   SD|    USA| ABR|
|    Abilene|   TX|    USA| ABI|
|      Akron|   OH|    USA| CAK|
|    Alamosa|   CO|    USA| ALS|
|     Albany|   GA|    USA| ABY|
|     Albany|   NY|    USA| ALB|
|Albuquerque|   NM|    USA| ABQ|
| Alexandria|   LA|    USA| AEX|
|  Allentown|   PA|    USA| ABE|
+-----------+-----+-------+----+



In [0]:
spark.sql("SELECT * FROM departureDelays LIMIT 10").show()

+--------+-----+--------+------+-----------+
|    date|delay|distance|origin|destination|
+--------+-----+--------+------+-----------+
|01011245|    6|     602|   ABE|        ATL|
|01020600|   -8|     369|   ABE|        DTW|
|01021245|   -2|     602|   ABE|        ATL|
|01020605|   -4|     602|   ABE|        ATL|
|01031245|   -4|     602|   ABE|        ATL|
|01030605|    0|     602|   ABE|        ATL|
|01041243|   10|     602|   ABE|        ATL|
|01040605|   28|     602|   ABE|        ATL|
|01051245|   88|     602|   ABE|        ATL|
|01050605|    9|     602|   ABE|        ATL|
+--------+-----+--------+------+-----------+



In [0]:
spark.sql("SELECT * FROM foo").show()

+--------+-----+--------+------+-----------+
|    date|delay|distance|origin|destination|
+--------+-----+--------+------+-----------+
|01010710|   31|     590|   SEA|        SFO|
|01010955|  104|     590|   SEA|        SFO|
|01010730|    5|     590|   SEA|        SFO|
+--------+-----+--------+------+-----------+



### Unions

In [0]:
bar = departureDelays.union(foo)
bar.createOrReplaceTempView("bar")
# Show the union (filtering for SEA and SFO in a specific time range)
bar.filter(expr("""origin == 'SEA' AND destination == 'SFO'
AND date LIKE '01010%' AND delay > 0""")).show()

+--------+-----+--------+------+-----------+
|    date|delay|distance|origin|destination|
+--------+-----+--------+------+-----------+
|01010710|   31|     590|   SEA|        SFO|
|01010955|  104|     590|   SEA|        SFO|
|01010730|    5|     590|   SEA|        SFO|
|01010710|   31|     590|   SEA|        SFO|
|01010955|  104|     590|   SEA|        SFO|
|01010730|    5|     590|   SEA|        SFO|
+--------+-----+--------+------+-----------+



### Joins

In [0]:
foo.join(
 airportsna,
 airportsna.IATA == foo.origin
).select("City", "State", "date", "delay", "distance", "destination").show()

+-------+-----+--------+-----+--------+-----------+
|   City|State|    date|delay|distance|destination|
+-------+-----+--------+-----+--------+-----------+
|Seattle|   WA|01010710|   31|     590|        SFO|
|Seattle|   WA|01010955|  104|     590|        SFO|
|Seattle|   WA|01010730|    5|     590|        SFO|
+-------+-----+--------+-----+--------+-----------+



### Windowing
Una función de ventana usa valores de las filas en una ventana (un rango de filas de entrada) para el marco de datos de los aeropuertos:
devuelve un conjunto de valores, normalmente en forma de otra fila. Con funciones de ventana, es posible operar en un grupo de filas y aún devolver un valor único para cada fila de entrada. Una de ellas es ```dense_rank()```.

## TABLA página 173

In [0]:
%sql 
DROP TABLE IF EXISTS departureDelaysWindow;

In [0]:
%sql 
CREATE TABLE departureDelaysWindow AS
SELECT origin, destination, SUM(delay) AS TotalDelays
 FROM departureDelays
WHERE origin IN ('SEA', 'SFO', 'JFK')
 AND destination IN ('SEA', 'SFO', 'JFK', 'DEN', 'ORD', 'LAX', 'ATL')
GROUP BY origin, destination;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT * FROM departureDelaysWindow

origin,destination,TotalDelays
JFK,ORD,5608
JFK,SFO,35619
JFK,DEN,4315
JFK,ATL,12141
JFK,SEA,7856
JFK,LAX,35755
SEA,LAX,9359
SFO,ORD,27412
SFO,DEN,18688
SFO,SEA,17080


Si queremos ordenar los resultados

In [0]:
%sql
SELECT origin, destination, SUM(TotalDelays) AS TotalDelays
FROM departureDelaysWindow
WHERE origin = '[ORIGIN]'
GROUP BY origin, destination
ORDER BY SUM(TotalDelays) DESC
LIMIT 3

Pero es mejor si se utiliza una window function

In [0]:
spark.sql("""
SELECT origin, destination, TotalDelays, rank 
 FROM ( 
 SELECT origin, destination, TotalDelays, dense_rank() 
 OVER (PARTITION BY origin ORDER BY TotalDelays DESC) as rank 
 FROM departureDelaysWindow
 ) t 
 WHERE rank <= 3
""").show()

+------+-----------+-----------+----+
|origin|destination|TotalDelays|rank|
+------+-----------+-----------+----+
|   JFK|        LAX|      35755|   1|
|   JFK|        SFO|      35619|   2|
|   JFK|        ATL|      12141|   3|
|   SEA|        SFO|      22293|   1|
|   SEA|        DEN|      13645|   2|
|   SEA|        ORD|      10041|   3|
|   SFO|        LAX|      40798|   1|
|   SFO|        ORD|      27412|   2|
|   SFO|        JFK|      24100|   3|
+------+-----------+-----------+----+



Con el uso de la función de ventana ```dense_rank()```, podemos determinar rápidamente que los destinos con los perores retrasos son:

- Seattle (SEA): San Francisco (SFO), Denver (DEN), and Chicago (ORD)
- San Francisco (SFO): Los Angeles (LAX), Chicago (ORD), and New York (JFK)
- New York (JFK): Los Angeles (LAX), San Francisco (SFO), and Atlanta (ATL)

### Modificaciones
Otra operación común es realizar modificaciones al DataFrame. Los DataFrames en sí mismos son inmutables, pero se pueden modificar a través de operaciones que crean nuevos DataFrames.

In [0]:
foo.show()

+--------+-----+--------+------+-----------+
|    date|delay|distance|origin|destination|
+--------+-----+--------+------+-----------+
|01010710|   31|     590|   SEA|        SFO|
|01010955|  104|     590|   SEA|        SFO|
|01010730|    5|     590|   SEA|        SFO|
+--------+-----+--------+------+-----------+



#### Añadiendo nuevas columnas

In [0]:
from pyspark.sql.functions import expr
foo2 = (foo.withColumn(
 "status",
 expr("CASE WHEN delay <= 10 THEN 'On-time' ELSE 'Delayed' END")
 ))

In [0]:
foo2.show()

+--------+-----+--------+------+-----------+-------+
|    date|delay|distance|origin|destination| status|
+--------+-----+--------+------+-----------+-------+
|01010710|   31|     590|   SEA|        SFO|Delayed|
|01010955|  104|     590|   SEA|        SFO|Delayed|
|01010730|    5|     590|   SEA|        SFO|On-time|
+--------+-----+--------+------+-----------+-------+



#### Eliminando columnas

In [0]:
foo3 = foo2.drop("delay")
foo3.show()s

+--------+--------+------+-----------+-------+
|    date|distance|origin|destination| status|
+--------+--------+------+-----------+-------+
|01010710|     590|   SEA|        SFO|Delayed|
|01010955|     590|   SEA|        SFO|Delayed|
|01010730|     590|   SEA|        SFO|On-time|
+--------+--------+------+-----------+-------+



#### Renombrando columnas

In [0]:
foo4 = foo3.withColumnRenamed("status", "flight_status")
foo4.show()

+--------+--------+------+-----------+-------------+
|    date|distance|origin|destination|flight_status|
+--------+--------+------+-----------+-------------+
|01010710|     590|   SEA|        SFO|      Delayed|
|01010955|     590|   SEA|        SFO|      Delayed|
|01010730|     590|   SEA|        SFO|      On-time|
+--------+--------+------+-----------+-------------+



#### Pivoting
Consiste en intercambiar las columnas por las filas.

In [0]:
%sql
SELECT destination, CAST(SUBSTRING(date, 0, 2) AS int) AS month, delay
 FROM departureDelays
WHERE origin = 'SEA'

destination,month,delay
ORD,1,92
JFK,1,-7
DFW,1,-5
MIA,1,-3
DFW,1,-3
DFW,1,1
ORD,1,-10
DFW,1,-6
DFW,1,-2
ORD,1,-3


# Ejercicio 2
**Pros y contras de utilizar UDFs**

# Ejercicio 3
Instalar MySQL, descargar driver y cargar datos de BBDD de empleados 

i. Cargar con spark datos de empleados y departamentos

ii. Mediante Joins mostrar toda la información de los empleados además 
de su título y salario.

iii. Diferencia entre Rank y dense_rank (operaciones de ventana) 

iv. Utilizando operaciones de ventana obtener el salario, posición (cargo) 
y departamento actual de cada empleado, es decir, el último o más 
reciente

Para instalar MySQL he de entrar en el hipervínculo que hay en el apartado del libro, instalar el ejecutable y ejecutarlo. Sigo los pasos sin tener en cuenta el checking. Luego, para abrir la aplicación he de hacerlo con el Workbench.

**i. Cargar con spark datos de empleados y departamentos**

En MySQL, en la parte de *Administration* exporto los datos (los datos me los ha dado Mario) copiando el path de los mismos en la parte de *Export to Self-Contained File*.

Para visualizar las tablas, hay que ir a la parte de *Schemas*, al lado de *Administration* justo abajo de *PERFORMANCE*.

**ii. Mediante Joins mostrar toda la información de los empleados además de su título y salario.**

Para poder hacer consultas he de seleccionar una base de datos. En este caso en employees. Para ello, me sitúo en ella, click derecho y *Set as default schema*. Luego arriba a la izquierda abro una query.

In [0]:
%sql
select tab3.*, tab4.suma_salario
from (select tab2.*, t.title
from (select tab1.*, d.dept_name
from (select e.*, de.dept_no
from employees e
left join dept_emp de
on e.emp_no = de.emp_no) as tab1
left join departments d
on tab1.dept_no = d.dept_no ) as tab2
left join titles t
on t.emp_no = tab2.emp_no) as tab3
left join (select s.emp_no, sum(s.salary) as suma_salario
from salaries s
group by s.emp_no) as tab4
on tab3.emp_no = tab4.emp_no

In [0]:
%sql
-- Con filas ordenadas
select tab3.emp_no, tab3.first_name, tab3.last_name, tab3.gender, tab3.birth_date, tab3.title, tab3.dept_name, tab4.suma_salario
from (select tab2.*, t.title
from (select tab1.*, d.dept_name
from (select e.*, de.dept_no
from employees e
left join dept_emp de
on e.emp_no = de.emp_no) as tab1
left join departments d
on tab1.dept_no = d.dept_no ) as tab2
left join titles t
on t.emp_no = tab2.emp_no) as tab3
left join (select s.emp_no, sum(s.salary) as suma_salario
from salaries s
group by s.emp_no) as tab4
on tab3.emp_no = tab4.emp_no

**iii. Diferencia entre Rank y dense_rank (operaciones de ventana)**

La función **RANK()** se utiliza para otorgar un rango o categoría única a cada registro en función de un valor específico, por ejemplo, salario, cantidad de pedido, etc.

Si dos registros tienen el mismo valor, la función RANK( ) asignará el mismo rango a ambos registros omitiendo el siguiente rango. Esto significa que si hay dos valores idénticos en el rango 2, asignará el mismo rango 2 a ambos registros y luego saltará el rango 3 y asignará el rango 4 al siguiente registro.

La función **DENSE_ RANK()** es idéntica a la función RANK() excepto que no omite ningún rango. Esto significa que si se encuentran dos registros idénticos, DENSE_ RANK () asignará el mismo rango a ambos registros pero no lo omitirá y luego posteriormente omitirá el siguiente rango.

En **RANK()** se va saltanto puestos. Si hay dos que tienen el valor más alto, el ranking será 1,1,3. Mientras que **DENSE_RANK()** no se salta puestos. Si hay dos que tienen el valor más alto, el ranking será 1,1,2.

Para saber cómo funcionan las funciones y ver ejemplos: https://www.sqlshack.com/es/como-usar-las-funciones-de-windows-en-sql-server/

Si lo aplicamos al ejemplo anterior, podemos ordenar a los empledos en función del salario

**RANK()**

In [0]:
%sql
select tab3.emp_no, tab3.first_name, tab3.last_name, tab3.gender, 
tab3.birth_date, tab3.title, tab3.dept_name, tab4.suma_salario,
RANK() OVER(ORDER BY tab4.suma_salario DESC) as ranking
from (select tab2.*, t.title
from (select tab1.*, d.dept_name
from (select e.*, de.dept_no
from employees e
left join dept_emp de
on e.emp_no = de.emp_no) as tab1
left join departments d
on tab1.dept_no = d.dept_no ) as tab2
left join titles t
on t.emp_no = tab2.emp_no) as tab3
left join (select s.emp_no, sum(s.salary) as suma_salario
from salaries s
group by s.emp_no) as tab4
on tab3.emp_no = tab4.emp_no

**DENSE_RANK()**

In [0]:
%sql
select tab3.emp_no, tab3.first_name, tab3.last_name, tab3.gender, 
tab3.birth_date, tab3.title, tab3.dept_name, tab4.suma_salario,
DENSE_RANK() OVER(ORDER BY tab4.suma_salario DESC) as ranking
from (select tab2.*, t.title
from (select tab1.*, d.dept_name
from (select e.*, de.dept_no
from employees e
left join dept_emp de
on e.emp_no = de.emp_no) as tab1
left join departments d
on tab1.dept_no = d.dept_no ) as tab2
left join titles t
on t.emp_no = tab2.emp_no) as tab3
left join (select s.emp_no, sum(s.salary) as suma_salario
from salaries s
group by s.emp_no) as tab4
on tab3.emp_no = tab4.emp_no

**iv. Utilizando operaciones de ventana obtener el salario, posición (cargo) y departamento actual de cada empleado, es decir, el último o más reciente**

Esto ya se ha obtenido en el caso anterior ya que obtener una fila por cada salario era demasiado costoso. Por ello, se hizo un group by y una suma del salario obtenido a lo largo de los años. No se ha calculado el salario medio porque considero que si alguien empezó algo más bajo en la empresa y ahora tiene un cargo superior podría tener una suma de salario más alta y por tanto una posisión superior que alguien que siempre ha tenido el mismo salario, sin embargo, esos valores bajos del salario pueden afectar a la media y hacer que tenga una posición inferior en el ranking que el segundo.

**Todo esto se puede ejecutar en la terminal