#### Hasta este punto tenemos nuestras tablas procesadas (movies, ratings y tags) de forma correcta. El cliente nos ha solicitado apoyar al departamento de Marketing a realizar algunas consultas y a generar una única tabla y realizar algunos ajustes a la tabla final antes de poder almacenarla.

##### Nota: Para poder trabajar con este notebook es necesario haber terminado el ejercicio de la sesión 05

In [None]:
%%HTML <style>pre { white-space: pre !important; }</style>

In [None]:
// NO MODIFICAR CONTENIDO DE ESTA CELDA
import org.apache.spark.sql.{SparkSession, DataFrame, Column, Row}
import org.apache.spark.sql.{functions => f}
import org.apache.spark.sql.{types => t}

def difference(l1: Seq[String], l2: Seq[String]): Seq[Column] =
    l1.diff(l2).map(colName => f.col(colName))

def readTmpDf(dfSeq: Seq[String]): Map[String, DataFrame] =
    dfSeq.map(table_name => (table_name, spark.read.parquet("../../resources/data/tmp/parquet/" + table_name))).toMap

def writeTmpDf(dfSeq: Seq[(DataFrame, String)]): Unit = 
    dfSeq.foreach{case (df: DataFrame, name: String) => df.write.mode("overwrite").parquet("../../resources/data/tmp/parquet/" + name)}

def schema_to_ddl(df: DataFrame): String = df.schema.toDDL.replace(" NOT NULL", "")

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA

// Creación de sesión de Spark
val spark = SparkSession.builder
    .master("local[*]")
    .appName("ejercicio_6")
    .getOrCreate()

spark.conf.set("spark.sql.session.timeZone", "GMT-6")
spark.conf.set("spark.sql.repl.eagerEval.enabled", true)

// Carga de tablas requeridas
val RootPath = "../../resources/data/tmp/parquet/"
val namesList = Seq("05/movies", "05/ratings", "05/tags_p2")
val dfMap = readTmpDf(namesList)

val moviesDf = dfMap("05/movies")
val ratingsDf = dfMap("05/ratings")
val tagsDf = dfMap("05/tags_p2")

moviesDf.show(1, false)
ratingsDf.show(1)
tagsDf.show(1)

#### En la siguiente imagen se muestra una representación a traves del diagrama de Venn sobre cada tabla (moviesDf, ratingsDf y tagsDf) la cual fue contruida por el departamento de Marketing, el problema es que no saben la cantidad de datos de cada conjunto.
##### El cliente nos han solicitado obtener la cantidad de registros de cada conjunto de datos representado por las siguientes letras:
- ##### A: Registros de moviesDf que no tiene filas coincidentes con las tablas ratingsDf y tagsDf
- ##### B: Registros de ratingsDf que no tiene filas coincidentes con las tablas moviesDf y tagsDf
- ##### C: Registros de tagsDf que no tiene filas coincidentes con las tablas moviesDf y ratingsDf
- ##### D: Registros de moviesDf y ratingsDf que no tiene filas coincidentes con la tabla tagsDf
- ##### E: Registros de moviesDf y tagsDf que no tiene filas coincidentes con la tabla ratingsDf
- ##### F: Registros de ratingsDf y tagsDf que no tiene filas coincidentes con la tabla moviesDf
- ##### G: Registros que contiene datos coincidentes en las tablas moviesDf, ratingsDf y tagsDf
-  Una tabla tiene registros coincidentes con otra cuando comparten el mismo valor en la columna "movie_id"

![title](../../resources/img/Tablas_conjuntos.png)

#### Actividad 1:
##### TO DO ->    Obtener los conjuntos de datos listados en el diagrama de Venn con operaciones de tipo join, con la finalidad de ahorrar recursos el cliente nos ha solicitado que en la salida de cada transformación el dataframe resultante contenga únicamente la columna "movie_id" (basta con utilizar únicante una trasnsformación select al inicio de las operaciones join y utilizar únicamente joins del tipo **left_semi y left_anti**).
- ##### Los dataframes resultantes se almacenarán en las siguientes variables:
    - ##### A_df -> Conjunto A
    - ##### B_df -> Conjunto B
    - ##### C_df -> Conjunto C
    - ##### D_df -> Conjunto D
    - ##### E_df -> Conjunto E
    - ##### F_df -> Conjunto F
    - ##### G_df -> Conjunto G

In [None]:
// TU CODIGO VA EN ESTA CELDA:

// Conjunto A:
val Adf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto B:
val Bdf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto C:
val Cdf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto D:
val Ddf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto E:
val Edf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto F:
val Fdf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto G:
val Gdf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
Bdf.show(1)
"""
Ejemplo de salida de cada dataframe (desde A hasta G):
+--------+
|movie_id|
+--------+
|  179995|
+--------+
only showing top 1 row
"""

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA

assert(Adf.count() == 0)
assert(Bdf.count() == 4270)
assert(Cdf.count() == 539)
assert(Ddf.count() == 28815)
assert(Edf.count() == 2759)
assert(Fdf.count() == 2251)
assert(Gdf.count() == 47903)

assert(Adf.columns.size == 1)
assert(Bdf.columns.size == 1)
assert(Cdf.columns.size == 1)
assert(Ddf.columns.size == 1)
assert(Edf.columns.size == 1)
assert(Fdf.columns.size == 1)
assert(Gdf.columns.size == 1)

assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))
assert(Adf.columns.toSeq.contains("movie_id"))

#### Actividad 2:
##### TO DO ->    Algunos administradores de base de datos no comprenden el uso de los joins de tipo left_semi y left_anti, por lo tanto el cliente ha solicitado que tambien se realicen las transformaciones con cualquiera de los siguientes tipos de join: **left, right, inner, outer**. Podrías utilizar la transformación filter/where en algunos casos.
##### No existe alguna reestricción de qué columnas contiene el dataframe de salida.
- ##### Los dataframes resultantes se almacenarán en las siguientes variables:
    - ##### A_df -> Conjunto A
    - ##### B_df -> Conjunto B
    - ##### C_df -> Conjunto C
    - ##### D_df -> Conjunto D
    - ##### E_df -> Conjunto E
    - ##### F_df -> Conjunto F
    - ##### G_df -> Conjunto G

In [None]:
// TU CODIGO VA EN ESTA CELDA:

// Conjunto A:
val A_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto B:
val B_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto C:
val C_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto D:
val D_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto E:
val E_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto F:
val F_df = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

// Conjunto G:
val G_df = // aplicar transformaciones join a moviesDf, ratingsDf y tag

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA

assert(A_df.count() == 0)
assert(B_df.count() == 4270)
assert(C_df.count() == 539)
assert(D_df.count() == 28815)
assert(E_df.count() == 2759)
assert(F_df.count() == 2251)
assert(G_df.count() == 47903)

#### Actividad 3:
##### TO DO ->    Con operaciones join genera un dataframe que contenga la union de todos los conjuntos (desde el A hasta el G) sin repetir registros. No utilices las transformaciones de union.

In [None]:
// TU CODIGO VA EN ESTA CELDA:

val universeDf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
universeDf.show(1)
"""
Ejemplo de salida:
+--------+--------------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
|movie_id|               title|              genres|year|avg_rating|stddev_rating|count_rating|    min_time_rating|           tag_count|       min_time_tag|
+--------+--------------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
|  100062|My Way (Mai Wei) ...|[Action, Drama, War]|2011|      3.63|         0.83|          64|2014-03-11 21:23:33|[{PRESS-GANGED, 1...|2018-05-26 16:40:54|
+--------+--------------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
only showing top 1 row
"""

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
val data = Seq(Row("100062",
                   "My Way (Mai Wei) (2011)",
                   Seq("Action", "Drama", "War"),
                   2011,
                   3.63,
                   0.83,
                   64L,
                   "2014-03-11 21:23:33.0",
                   Seq(Row("FATE",1L),
                       Row("PRESS-GANGED",1L),
                       Row("WAR",1L),
                       Row("WORLD WAR II",1L)),
                   "2018-05-26 16:40:54.0"))
val schema = t.StructType(Seq(
    t.StructField("movie_id", t.StringType),
    t.StructField("title", t.StringType),
    t.StructField("genres", t.ArrayType(t.StringType)),
    t.StructField("year", t.IntegerType),
    t.StructField("avg_rating", t.DoubleType),
    t.StructField("stddev_rating", t.DoubleType),
    t.StructField("count_rating", t.LongType),
    t.StructField("min_time_rating", t.StringType),
    t.StructField("tag_count", t.ArrayType(t.StructType(Seq(
        t.StructField("tag", t.StringType),
        t.StructField("count", t.LongType)
    )))),
    t.StructField("min_time_tag", t.StringType)
    ))
val testDf = spark.createDataFrame(spark.sparkContext.parallelize(data), schema)
    .withColumn("min_time_rating", f.col("min_time_rating").cast(t.TimestampType))
    .withColumn("min_time_tag", f.col("min_time_tag").cast(t.TimestampType))

val expectedColumns = Seq("movie_id", "title", "genres", "year",
                          "avg_rating", "stddev_rating", "count_rating",
                          "min_time_rating", "tag_count", "min_time_tag")

assert(universeDf.count() == 86537)
assert(universeDf.columns.diff(expectedColumns).size + expectedColumns.diff(universeDf.columns).size == 0)
assert(universeDf
    .select(expectedColumns.map(f.col):_*)
    .filter(f.col("movie_id") === "100062")
    .except(testDf).count() == 0)

#### Actividad 4:
##### TO DO ->    La estructura del dataframe final de acuerdo al análisis realizado por marketing es el dado por la union del conjunto de datos: A, D, E y G. Realiza este proceso y almacena el dataframe resultante en la variable "finalDf"
##### 

In [None]:
// TU CODIGO VA EN ESTA CELDA:

val finalDf = // aplicar transformaciones join a moviesDf, ratingsDf y tagsDf

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
finalDf.show(1)
"""
Ejemplo de salida:
+--------+----------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
|movie_id|           title|              genres|year|avg_rating|stddev_rating|count_rating|    min_time_rating|           tag_count|       min_time_tag|
+--------+----------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
|       1|Toy Story (1995)|[Adventure, Anima...|1995|      3.89|         0.93|       76813|1996-01-28 18:00:00|[{TIME TRAVEL, 11...|2006-01-12 19:19:35|
+--------+----------------+--------------------+----+----------+-------------+------------+-------------------+--------------------+-------------------+
only showing top 1 row
"""

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA

import java.sql.Timestamp

val data = Seq(Row("100062",
                   "My Way (Mai Wei) (2011)",
                   Seq("Action", "Drama", "War"),
                   2011,
                   3.63,
                   0.83,
                   64L,
                   "2014-03-11 21:23:33.0",
                   Seq(Row("FATE",1L),
                       Row("PRESS-GANGED",1L),
                       Row("WAR",1L),
                       Row("WORLD WAR II",1L)),
                   "2018-05-26 16:40:54.0"))
val schema = t.StructType(Seq(
    t.StructField("movie_id", t.StringType),
    t.StructField("title", t.StringType),
    t.StructField("genres", t.ArrayType(t.StringType)),
    t.StructField("year", t.IntegerType),
    t.StructField("avg_rating", t.DoubleType),
    t.StructField("stddev_rating", t.DoubleType),
    t.StructField("count_rating", t.LongType),
    t.StructField("min_time_rating", t.StringType),
    t.StructField("tag_count", t.ArrayType(t.StructType(Seq(
        t.StructField("tag", t.StringType),
        t.StructField("count", t.LongType)
    )))),
    t.StructField("min_time_tag", t.StringType)
    ))
val testDf = spark.createDataFrame(spark.sparkContext.parallelize(data), schema)
    .withColumn("min_time_rating", f.col("min_time_rating").cast(t.TimestampType))
    .withColumn("min_time_tag", f.col("min_time_tag").cast(t.TimestampType))

assert(finalDf.count() == 79477)
assert(finalDf.columns.diff(expectedColumns).size + expectedColumns.diff(finalDf.columns).size == 0)
assert(finalDf
    .select(expectedColumns.map(f.col):_*)
    .filter(f.col("movie_id") === "100062")
    .except(testDf).count() == 0)

#### Actividad 5:
##### TO DO ->    El cliente nos ha solicitado llenar los valores "null" de la columna "year", para esto nos ha pedido seguir la siguiente regla:
- ##### Si la columna "year" es null y si la columna "min_time_rating" es null colocar el año de la columna "min_time_tag".
- ##### Si la columna "year" es null y si la columna "min_time_tag" es null colocar el año de la columna "min_time_rating".
- ##### Si la columna "year" es null, y las columnas "min_time_rating" y "min_time_tag" son distintas de null colocar el año menor de las columnas "min_time_rating" y "min_time_tag", en caso de que el año en ambas columnas sea el mismo colocar dicho año.
- ##### En cualquier otro caso mantener el valor entero 1970
##### Adicional nos ha solicitado generar una columna llamada "year_type" con los siguientes valores:
- ##### Si la columna "year" venia con un valor distinto a null, asignar el valor "YO"
- ##### Si la columna "year" es null y si la columna "min_time_rating" es null colocar "YT"
- ##### Si la columna "year" es null y si la columna "min_time_tag" es null colocar "YR"
- ##### Si la columna "year" es null, y las columnas "min_time_rating" y "min_time_tag" son distintas de null:
    - ##### Si "min_time_rating" es menor a "min_time_tag" colocar "YR"
    - ##### Si "min_time_tag" es menor a "min_time_rating" colocar "YT"
    - ##### Si "min_time_tag" es igual a "min_time_rating" colocar "YRT"
- ##### En cualquier otro caso mantener "YU"
##### Al finalizar este proceso eliminar las columnas "min_time_rating" y "min_time_tag"
- Para resolver estos ejercicios podrías utilizar la función year -> https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.functions.year.html#pyspark.sql.functions.year
##### Este proceso se desarrollará en un método con la firma: def getLastMoviesDf(df: DataFrame): DataFrame
##### La estructura del dataframe de salida será:
* |-- movie_id: string
* |-- title: string
* |-- avg_rating: double
* |-- count_rating: long
* |-- stddev_rating: double
* |-- genres: array
* |--- |-- element: string
* |-- tag_count: array
* |--- |-- element: struct
* |--- |--- |tag: string
* |--- |--- |count: long
* |-- year: integer
* |-- year_type: string
##### NO UTILIZAR withColumn NI withColumnRenamed NI UDF

In [None]:
// TU CODIGO VA EN ESTA CELDA:

def getLastMoviesDf(df: DataFrame): DataFrame =
    df // transformaciones a finalDf

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA

val moviesDf = getLastMoviesDf(finalDf)
moviesDf.show(1)
"""
Ejemplo de salida esperada (el orden de la columnas podría ser distinto):
+--------+----------------+----------+------------+-------------+--------------------+--------------------+----+---------+
|movie_id|           title|avg_rating|count_rating|stddev_rating|              genres|           tag_count|year|year_type|
+--------+----------------+----------+------------+-------------+--------------------+--------------------+----+---------+
|       1|Toy Story (1995)|      3.89|       76813|         0.93|[Adventure, Anima...|[{1990S, 1}, {200...|1995|       YO|
+--------+----------------+----------+------------+-------------+--------------------+--------------------+----+---------+
only showing top 1 row
"""

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
val expectedRow = Row("179479",
                      "Samadhi Part 1: Maya, the Illusion of the Self",
                      4.19,
                      8,
                      0.75,
                      Seq("Documentary"),
                      Seq(Row("EASTERN PHILOSOPHY", 1),
                          Row("MEDITATION", 1),
                          Row("METAPHYSICAL", 1),
                          Row("NEW AGE", 1),
                          Row("SPIRITUAL", 1)),
                      2017,
                      "YT")

val expectedCountByYearType = Seq(Row("YO", 79235L),
                                  Row("YR", 159L),
                                  Row("YRT", 55L),
                                  Row("YT", 28L))

val expectedColumns = Seq("movie_id","title","avg_rating","count_rating","stddev_rating","genres","tag_count","year","year_type")

val expectedSchema = "movie_id STRING,title STRING,avg_rating DOUBLE,count_rating BIGINT,stddev_rating DOUBLE,genres ARRAY<STRING>,tag_count ARRAY<STRUCT<tag: STRING, count: BIGINT>>,year INT,year_type STRING"

assert(moviesDf.columns.diff(expectedColumns).size + expectedColumns.diff(moviesDf.columns).size == 0)
assert(moviesDf.filter(f.col("year").isNull).count() == 0)
assert(moviesDf
    .select(expectedColumns.map(f.col):_*)
    .filter(f.col("movie_id") === "179479")
    .collect()(0) == expectedRow)
assert(schema_to_ddl(moviesDf.select(expectedColumns.map(f.col):_*)) == expectedSchema)

moviesDf.groupBy(f.col("year_type")).count().orderBy(f.col("count").desc).collect()
    .zip(expectedCountByYearType)
    .foreach(tuple => {
        assert(tuple._1.getAs[String]("year_type") == tuple._2.getAs[String](0))
        assert(tuple._1.getAs[Long]("count") == tuple._2.getAs[Long](1))
    })

In [None]:
// NO MODIFICAR EL CONTENIDO DE ESTA CELDA
val dfs = Seq((moviesDf, "06/movies"))

writeTmpDf(dfs)