# Alumno: Hao, Qi Xu

# Vídeos que fueron tendencia en YouTube

### Disponible en Kaggle en:
https://www.kaggle.com/datasnaek/youtube-new


YouTube, el sitio web para compartir videos de fama mundial, mantiene una lista de los mejores videos de tendencias en la plataforma. Según la revista Variety, *Para determinar los videos más populares del año, YouTube utiliza una combinación de factores que incluyen la medición de las interacciones de los usuarios (número de visitas, compartidos, comentarios y me gusta). No son necesariamente los vídeos más vistos del año en general*. Los que se sitúan en la parte más alta de la lista de tendencias de YouTube suelen ser o bien vídeos musicales (como el famoso "Gagnam Style"), actuaciones de *celibrities* y / o reality shows, y vídeos virales variados de una persona aleatoria, cámara en mano.

Este conjunto de datos es un registro diario de los videos más populares de YouTube. Incluye varios meses de datos en vídeos de tendencias diarias de YouTube. Se incluyen datos para las regiones de EEUU, Reino Unido, Dinamarca, Canadá y Francia con hasta 200 videos de tendencias listados por día. Aquí solo usaremos los de EEUU, Canadá y Reino Unido. Los datos de cada país están en un archivo separado. Las variables incluyen el título del video, título del canal, tiempo de publicación, etiquetas, vistas, me gusta y no me gusta, descripción y recuento de comentarios. Se recopiló utilizando la API de YouTube.

### Variables y significado

Las variables utilizadas para describir cada vídeo son:

* video_id (string) ID único. Se ha asignado un video en la plataforma de YouTube. 
* trending_date (string) La fecha en que el video era tendencia 
* title (string) Título del vídeo
* channel_title (string) Título del canal de publicación en la categoría de plataforma
* category_id (string) El tipo de categoría del vídeo
* publish_time (string) La fecha de publicación del vídeo 
* tags (string) Etiquetas asociadas al vídeo, separadas por |
* views (entero) Número total de vistas en el vídeo.
* likes (entero) Número de Me gusta en el vídeo
* dislikes (entero) Número de No me gusta en el vídeo
* comment_count (entero) Un recuento total de comentarios en el video 
* comments_disabled (booleano) Si los comentarios estaban desactivados (true) o activados (false) en el video 
* ratings_disabled (booleano) Si la opción de dar me gusta o no al video está deshabilitada (true), en cuyo caso el número de  Me gusta y de No me gusta será 0. 
* video_error_or_removed (booleano) Si el video tiene algún error o se eliminó después de cargar el país
* description (string): Descripción textual

**Nombre completo del alumno:**  

# INSTRUCCIONES

En cada celda debes responder a la pregunta formulada, asegurándote de que el resultado queda guardado en la(s) variable(s) que por defecto vienen inicializadas a `None`. No se necesita usar variables intermedias, pero puedes hacerlo siempre que el resultado final del cálculo quede guardado exactamente en la variable que venía inicializada a None (debes reemplazar None por la secuencia de transformaciones necesarias, pero nunca cambiar el nombre de esa variable). 

**No olvides borrar la línea *raise NotImplementedError()* de cada celda cuando hayas completado la solución de esa celda y quieras probarla**.

Después de cada celda evaluable verás una celda con código. Ejecútala (no modifiques su código) y te dirá si tu solución es correcta o no. En caso de ser correcta, se ejecutará correctamente y no mostrará nada, pero si no lo es mostrará un error. Además de esas pruebas, se realizarán algunas más (ocultas) a la hora de puntuar el ejercicio, pero evaluar dicha celda es un indicador bastante fiable acerca de si realmente has implementado la solución correcta o no. Asegúrate de que, al menos, todas las celdas indican que el código es correcto antes de enviar el notebook terminado.

**Nunca se debe redondear ninguna cantidad si no lo pide explícitamente el enunciado**

### Cada solución debe escribirse obligatoriamente en la celda habilitada para ello. Cualquier celda adicional que se haya creado durante el desarrollo deberá ser eliminada.

Si necesitas crear celdas auxiliares durante el desarrollo, puedes hacerlo pero debes asegurarte de borrarlas antes de entregar el notebook.

### Sobre los datasets youtube_USvideos.csv, youtube_CAvideos, youtube_GBvideos.csv se pide:

**(1 punto)** Ejercicio 1

* Leer cada uno de estos ficheros en una variable, **sin intentar** que Spark infiera el tipo de dato de cada columna
* Puesto que existen columnas que contienen una coma enmedio del valor, en esos casos los valores vienen entre comillas dobles. Spark ya contempla esta posibilidad y puede leerlas adecuadamente **si al leer le indicamos las siguientes opciones adicionales** además de las que ya sueles usar: `.option("quote", "\"").option("escape", "\"")`.
* Asegúrate de que las **filas que no tienen el formato correcto sean descartadas**, indicando también la opción `mode` con el valor `DROPMALFORMED` como vimos en clase.
* Encadenadas con la operación de lectura `.csv()` de cada fichero, añadir para cada uno de los ficheros:
  - Una transformación para crear una nueva columna `pais` con una constante de tipo string (utiliza la función `F.lit("valor")`) indicando el país, que debe tomar como valores `"EEUU"`, `"CA"` y `"GB"` para EEUU, Canadá y Gran Bretaña respectivamente. Dicho valor será igual para todas las filas de cada uno de los tres DF, pero distinto de un DF a otro.
  * Una transformación que elimine la columna `description`, la cual contiene un texto que no analizaremos.
* Crear finalmente un nuevo DF `videosRawDF` en el que se hayan unido los tres DF anteriores. No debe ser cacheado todavía puesto que vamos a realizar operaciones de limpieza más adelante, y trabajaremos a partir de entonces con otro DF resultante.

In [0]:
import pyspark.sql.functions as F

# LÍNEA EVALUABLE, NO RENOMBRAR LAS VARIABLES
USvideosDF  = None
CAvideosDF  = None
videosRawDF = None

# YOUR CODE HERE
USvideosDF = (
    spark.read
         .option("header", "true")
         .option("mode", "DROPMALFORMED")
         .option("quote", "\"")
         .option("escape", "\"")
         .csv("abfss://datos@masterhaoqx001sta.dfs.core.windows.net/youtube_USvideos.csv")
         .withColumn("pais", F.lit("EEUU"))
         .drop(F.col("description"))
)

CAvideosDF = (
    spark.read
         .option("header", "true")
         .option("mode", "DROPMALFORMED")
         .option("quote", "\"")
         .option("escape", "\"")
         .csv("abfss://datos@masterhaoqx001sta.dfs.core.windows.net/youtube_CAvideos.csv")
         .withColumn("pais", F.lit("CA"))
         .drop(F.col("description"))
)

GBvideosDF = (
    spark.read
         .option("header", "true")
         .option("mode", "DROPMALFORMED")
         .option("quote", "\"")
         .option("escape", "\"")
         .csv("abfss://datos@masterhaoqx001sta.dfs.core.windows.net/youtube_GBvideos.csv")
         .withColumn("pais", F.lit("GB"))
         .drop(F.col("description"))
)

videosRawDF = (
    USvideosDF.union(CAvideosDF)
              .union(GBvideosDF)
)

In [0]:
from pyspark.sql.types import DoubleType
assert((videosRawDF.count() == 136992) | (videosRawDF.count() == 120750))
assert("description" not in videosRawDF.columns)
assert((videosRawDF.where("pais = 'EEUU'").count() == 48137) | (videosRawDF.where("pais = 'EEUU'").count() == 40953))
assert((videosRawDF.where("pais = 'CA'").count() == 45560) | (videosRawDF.where("pais = 'CA'").count() == 40881))
assert((videosRawDF.where("pais = 'GB'").count() == 43295) | (videosRawDF.where("pais = 'GB'").count() == 38916))

**(1 punto)** Ejercicio 2

* Las columnas `trending_date` y `publish_time` son en realidad de tipo fecha y de tipo timestamp (instante de tiempo), respectivamente, que Spark debería procesar como tales. Por otro lado, `likes`, `dislikes`, `comment_count` son de tipo entero, y `comments_disabled` es de tipo booleano. La columna `category_id` también lo es pero la utilizaremos más adelante para reemplazarla por sus verdaderas categorías, por lo que no vamos a modificarla ahora y la mantenemos como string. Partiendo de `vidosRawDF`, **reemplaza** cada una de estas columnas por su versión convertida al tipo de dato correcto en cada caso, utilizando `withColumn` con el mismo nombre de la columna existente. Para las columnas de tipo fecha y timestamp, el nuevo valor de la columna viene dado por el siguiente código:

        F.to_date("colName", "yy.dd.MM") # para fechas
        F.from_unixtime(F.unix_timestamp('colName', "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'")).cast("timestamp") # para timestamp

* Después de las conversiones, eliminar todas las filas que tengan algún valor nulo
* El DF resultante de todas estas operaciones debe quedar almacenado en la variable `videosDF`, **cacheado**.


In [0]:
videosRawDF.select("comments_disabled").groupBy("comments_disabled").count().show()

+--------------------+------+
|   comments_disabled| count|
+--------------------+------+
|               False|118847|
|                NULL| 16032|
|    sports and more.|   145|
|             Wiz Kid|     4|
|                True|  1899|
|            farfalle|    44|
|        Ramsha Akmal|     1|
|           Fida Daar|     3|
|Ramsha Akmal as L...|    10|
| but Carole’s bee...|     1|
|              London|     2|
|” she added.“She ...|     1|
|            or black|     3|
+--------------------+------+



In [0]:
# No olvides los imports que necesites...
from pyspark.sql.types import IntegerType, BooleanType

# LÍNEAS EVALUABLES, NO RENOMBRAR LAS VARIABLES
videosDF = None

# YOUR CODE HERE
videosDF = (
    videosRawDF.withColumn("trending_date", F.to_date(F.col("trending_date"), "yy.dd.MM"))
               .withColumn("publish_time", F.from_unixtime(F.unix_timestamp(F.col('publish_time'), "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'")).cast("timestamp"))
               .withColumn("likes", F.col("likes").cast(IntegerType()))
               .withColumn("dislikes", F.col("dislikes").cast(IntegerType()))
               .withColumn("comment_count", F.col("comment_count").cast(IntegerType()))
               .withColumn("comments_disabled", F.col("comments_disabled").cast(BooleanType()))
               .na.drop("any")
               .cache()
               
)

In [0]:
dtypes = dict(videosDF.dtypes)
assert((videosDF.count() == 120739) | (videosDF.count() == 120746))
assert(dtypes["publish_time"] == "timestamp")
assert(dtypes["trending_date"] == "date")
assert(dtypes["likes"] == "int")
assert(dtypes["dislikes"] == "int")
assert(dtypes["comment_count"] == "int")
assert(dtypes["comments_disabled"] == "boolean")
assert(videosDF.is_cached)

**(2 puntos)** Ejercicio 3

Partiendo de `videosDF`:

* Traduce la categoría a un string utilizando la equivalencia indicada en el diccionario de la celda siguiente. Para ello puedes usar directamente la función `videosDF.replace(to_replace=diccionario, subset=['category_id'])` **que se aplica al DF completo** y devuelve un DF completamente nuevo en el que ha realizado en las columnas especificadas en la lista `subset` los reemplazamientos que le hayamos indicado en el diccionario `to_replace`. Por tanto, esta función **no se utiliza en combinación con `withColumn`** sino que debe ir fuera de la secuencia de transformaciones encadenadas, por ejemplo al principio de todo, y su resultado debe almacenarse en la variable `replacedCategoryDF`.

A continuación, partiendo de `replacedCategoryDF`: 
* Añade una nueva columna llamada `dias_hasta_viral` que contenga el número de días que han pasado entre la fecha en que se publicó un vídeo y el instante en el que se hizo viral. Para ello, utiliza `withColumn` en combinación con la función `F.datediff("columnaFuturo", "columnaPasado")`
* Añade otra nueva columna llamada `diasemana` que contenga el día de la semana en el que se ha publicado cada vídeo. Puedes usar la función `F.dayofweek("colName")` en combinación con `withColumn`.
* Vamos a empezar a utilizar la columna `tags`, para lo que necesitamos hacerla "usable". Encadenaremos estas tres transformaciones:
  - El primer paso consiste en convertir todas las palabras en minúsculas, para que exista más coincidencia entre etiquetas y podamos ver que la misma aparece en varios vídeos. Puedes usar la función `F.lower(F.col("columnName"))` en combinación con `withColumn` sobre la columna original. Atención: la función `lower` no admite directament el nombre de columna sino un objeto columna.
  - El segundo paso será eliminar el carácter `"` que rodea a la mayoría de términos individuales, puesto que no lo necesitamos ya que el separador entre términos es `|`. Puedes usar la función `F.regexp_replace("columnName", "\"", "")` en combinación con `withColumn` sobre la salida del apartado anterior, o incluso simplemente envolver a `F.lower(...)` con `regexp_replace`: `F.regexp_replace(F.lower(...), "\"", "")`.
  - El tercer paso consiste en convertirla en una columna de tipo **vector** de palabras, dividiendo la cadena de texto por el separador `|` que debe ser escapado poniendo una barra `\` delante porque `|` se utiliza también en expresiones regulares. **Reemplaza** la columna `tags` por el resultado de aplicarle la función `F.split("colName", "\|")`. Dicha función debe ser utilizada dentro de `withColumn`.
* El resultado debe quedar guardado en la variable `videosExtraInfoDF`.

In [0]:
# LÍNEA EVALUABLE, NO RENOMBRAR VARIABLES
# imports......
diccionario = {
   "1": "Film & Animation",
   "2": "Autos & Vehicles",
   "10": "Music",
   "15": "Pets & Animals",
   "17": "Sports",
   "18": "Short Movies",
   "19": "Travel & Events",
   "20": "Gaming",
   "21": "Videoblogging",
   "22": "People & Blogs",
   "23": "Comedy",
   "24": "Entertainment",
   "25": "News & Politics",
   "26": "Howto & Style",
   "27": "Education",
   "28": "Science & Technology",
   "29": "Nonprofits & Activism",
   "30": "Movies",
   "31": "Anime/Animation",
   "32": "Action/Adventure",
   "33": "Classics",
   "34": "Comedy",
   "35": "Documentary",
   "36": "Drama",
   "37": "Family",
   "38": "Foreign",
   "39": "Horror",
   "40": "Sci-Fi/Fantasy",
   "41": "Thriller",
   "42": "Shorts",
   "43": "Shows",
   "44": "Trailers"
}

replacedCategoryDF = None
videosExtraInfoDF = None

# YOUR CODE HERE
replacedCategoryDF = videosDF.replace(
   to_replace=diccionario,
   subset=['category_id']
)

videosExtraInfoDF = (
   replacedCategoryDF.withColumn("dias_hasta_viral", F.date_diff(end="trending_date", start="publish_time"))
                     .withColumn("diasemana", F.dayofweek(col="publish_time"))
                     .withColumn("tags", F.regexp_replace(string=F.lower(F.col("tags")), pattern="\"", replacement=""))
                     .withColumn("tags", F.split(str="tags", pattern="\|"))
)

In [0]:
dtypesExtraInfo = dict(videosExtraInfoDF.dtypes)
assert(dtypesExtraInfo["category_id"] == "string")
assert(dtypesExtraInfo["tags"] == "array<string>")
assert(dtypesExtraInfo["diasemana"] == "int")
assert(dtypesExtraInfo["dias_hasta_viral"] == "int")
assert(videosExtraInfoDF.where("category_id = 'Education'").distinct().count() == 3103)
r = videosExtraInfoDF.select("video_id", "category_id", "diasemana", "tags").where("video_id == 'YVfyYrEmzgM'").head()
assert(r.category_id == "Education")
assert(r.diasemana == 2)
assert(("ted" in r.tags) & ("ted-ed" in r.tags) & ("ted education" in r.tags))

**(3 puntos)** Ejercicio 4

Partiendo de `videosExtraInfoDF`:

* Añadir una nueva columna `dias_viral_pais` que contenga el **número de días durante los cuales un vídeo ha sido tendencia en cada país**. El dataset original contiene en muchos casos varias filas para un mismo vídeo, incluso el mismo vídeo (mismo identificador) puede encontrarse en distintos países, variando en la columna relativa al día en que el vídeo es tendencia. Lo que se pide es que la nueva columna contenga, **para cada fila**, la **diferencia** en días entre la fecha **mínima y máxima** que ese vídeo ha sido tendencia **en ese país**. El valor en ambas columnas (mínima y máxima) se repetirá para todas las filas de cada vídeo y país, pero será distinto entre vídeos con distinto identificador y/o distinto país. Primero deben calcularse una columna para el mínimo y otra para el máximo por cada vídeo y país, **mediante agregaciones en una ventana (sin ordenar). No se debe utilizar la operación JOIN**. Una vez calculadas ambas columnas, la columna `dias_viral_pais` será el resultado de aplicarles la función `F.datediff` utilizada anteriormente, y tras ello, se deben eliminar las columnas de mínimo y máximo (si se hubieran llegado a crear) que ya no son necesarias.

* Tras esto, eliminar las filas duplicadas, atendiendo exclusivamente a las columnas `video_id` y `pais`, puesto que la información de qué días fue tendencia ya la habremos resumido en la columna `dias_viral_pais`, y no queremos que cada vídeo aparezca varias veces y pueda falsear los resúmenes que haremos justo después. 

* El resultado de estos dos apartados debe almacenarse en la variable `videosDiasViralDF`, que **debe ser cacheada** porque  usaremos este DF varias veces más adelante.

¿Son todas las categorías igual de viralizantes? ¿Además de la categoría, es distinto el comportamiento según el país?

A continuación, y partiendo de `videosDiasViralDF`:

* Calcular un nuevo DF llamado `diasViralCategoriaPaisDF` con tantas filas como **categorías** y con tantas columnas como **países** (es decir, 3 más la columna de categorías), que contenga en cada celda el número **medio** de días que un vídeo de cada categoría permanece siendo viral en ese país. PISTA: Utilizar la función **pivot**.

* Por último, calcular otro DF llamado `videosPorDiasemanaDF` con tantas filas como **categorías** y tantas columnas como **días de la semana**, de forma que cada celda contenga el **número de vídeos DISTINTOS** que se han publicado en esa categoría ese día de la semana. Por vídeos distintos se entiende que **no** debemos contar varias veces un mismo vídeo (mismo `video_id`) ni siquiera si se ha publicado en distinto país. Tras el cálculo, **renombrar las columnas** para que sus nombres sean "Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo" en lugar de los números enteros del 1 al 7 (atención a las tildes). PISTA: piensa bien la función de agregación necesaria, y la columna sobre la que debe aplicarse.

In [0]:
from pyspark.sql.window import Window

# LÍNEA EVALUABLE, NO RENOMBRAR VARIABLES
# import.....
ventanaVideoIdPais = None
videosDiasViralDF = None
diasViralCategoriaPaisDF = None

# YOUR CODE HERE
ventanaVideoIdPais = Window.partitionBy("video_id", "pais")

videosDiasViralDF = (
    videosExtraInfoDF.withColumn("min_trending", F.min("trending_date").over(ventanaVideoIdPais))
                     .withColumn("max_trending", F.max("trending_date").over(ventanaVideoIdPais))
                     .withColumn("dias_viral_pais", F.date_diff(end="max_trending", start="min_trending"))
                     .drop("min_trending", "max_trending")
                     .dropDuplicates(subset=["video_id", "pais"])
                     .cache()
)

diasViralCategoriaPaisDF = (
    videosDiasViralDF.groupBy("category_id")
                     .pivot("pais")
                     .agg(F.mean("dias_viral_pais"))
)

dict_dias = {
    "1" : "Lunes",
    "2" : "Martes",
    "3" : "Miércoles",
    "4" : "Jueves",
    "5" : "Viernes",
    "6" : "Sábado",
    "7" : "Domingo",
}

videosPorDiasemanaDF = (
    videosDiasViralDF.groupBy("category_id")
                     .pivot("diasemana")
                     .agg(F.countDistinct("video_id"))
                     .withColumnsRenamed(colsMap=dict_dias)
)

In [0]:
assert(videosDiasViralDF.is_cached)
assert(dict(videosDiasViralDF.dtypes)["dias_viral_pais"] == "int")
assert((videosDiasViralDF.count() == 34045) | (videosDiasViralDF.count() == 34050))
diasViralCategoriaPais = diasViralCategoriaPaisDF.sort("category_id").collect()
assert(diasViralCategoriaPais[0].category_id == "Autos & Vehicles")
assert(round(diasViralCategoriaPais[0].CA, 3) == 0.431)
assert(diasViralCategoriaPais[3].category_id == "Entertainment")
assert(round(diasViralCategoriaPais[3].CA, 3) == 0.637)
assert("Lunes" in videosPorDiasemanaDF.columns)
videosPorDiasemana = videosPorDiasemanaDF.sort("category_id").collect()
assert(videosPorDiasemana[0].Domingo == 18)
assert(videosPorDiasemana[2].category_id == "Education")
assert(videosPorDiasemana[2].Lunes == 108)
assert(videosPorDiasemana[2].Sábado == 82)
assert(videosDiasViralDF.where("video_id = 'f6Egj7ncOi8' and pais = 'CA'").head().dias_viral_pais == 0)
assert(videosDiasViralDF.where("video_id = 'f6Egj7ncOi8' and pais = 'GB'").head().dias_viral_pais == 15)
assert(videosDiasViralDF.where("video_id = 'f6Egj7ncOi8' and pais = 'EEUU'").head().dias_viral_pais == 6)
assert("Martes" in videosPorDiasemanaDF.columns)
assert("Miércoles" in videosPorDiasemanaDF.columns)
assert("Jueves" in videosPorDiasemanaDF.columns)
assert("Viernes" in videosPorDiasemanaDF.columns)
assert("Sábado" in videosPorDiasemanaDF.columns)
assert("Domingo" in videosPorDiasemanaDF.columns)

**(3 puntos)** Ejercicio 5

Partiendo de `videosDiasViralDF`, donde cada vídeo solo aparece una vez, añadir las siguientes columnas:

* Una columna entera `ocurrencias_music` con el **número de ocurrencias** de la cadena **"music"** como **subcadena de cualquiera de los tags**. No es necesario que el tag sea exactamente igual a "music" sino que lo contenga como subcadena (recordemos que el DF de partida ya tiene todos los tags pasados a minúscula). Para ello, implementa una **UDF** `subtag_music_UDF` que devuelva `IntegerType()` y que envuelva a una función convencional de python llamada `subcadena_en_vector(tags)`. Esta última debe recibir como argumento una lista de strings, y comprobar cuántos elementos del vector contienen como subcadena a la palabra "music". Prueba su funcionamiento con la lista de tags `["a life in music", "music for life", "bso", "hans zimmer"]` que debería devolver 2. Finalmente invoca a `subtag_music_UDF` dentro de `withColumn` sobre la columna `tags`.

* Una columna `ocurrencia_media` de números reales con el número **medio** de apariciones de la palabra "music" como subcadena de tags en los vídeos similares al de la fila actual, entendiendo similares como aquellos del **mismo país y la misma categoría**. No debe utilizarse JOIN sino funciones de ventana.

* Una nueva columna `diff_porcentaje` que indique, en tanto por ciento, en qué medida el número de aparticiones de "music" está por encima o por debajo de la media de los vídeos de su misma categoría y país. Debe calcularse mediante **operaciones aritméticas entre columnas**, sin usar la función `F.when`, como la diferencia entre el número de aparticiones en el vídeo actual menos las apariciones medias de su país y categoría, dividido entre este último y multiplicado por 100.

El resultado de todas estas transformaciones debe quedar almacenado en la variable `videosOcurrenciasMusicDF`.

In [0]:
from pyspark.sql.types import IntegerType

# LÍNEA EVALUABLE, NO RENOMBRAR VARIABLES
# imports necesarios..........
subtag_music = None

def subcadena_en_vector(tags):
    return (sum([1 for c in tags if "music" in c]))

subtag_music_UDF = None
ventanaCategoriaPais = None
videosOcurrenciasMusicDF = None

# YOUR CODE HERE
subtag_music_UDF = F.udf(subcadena_en_vector, IntegerType())
ventanaCategoriaPais = Window.partitionBy("category_id", "pais")

videosOcurrenciasMusicDF = (
    videosDiasViralDF.withColumn("ocurrencias_music", subtag_music_UDF(F.col("tags")))
                     .withColumn("ocurrencia_media", F.mean("ocurrencias_music").over(ventanaCategoriaPais))
                     .withColumn("diff_porcentaje", 100 * (F.col("ocurrencias_music") - F.col("ocurrencia_media")) / F.col("ocurrencia_media"))
)

In [0]:
assert(subcadena_en_vector(["a life in music", "music for life", "bso", "hans zimmer"]) == 2)
r = videosOcurrenciasMusicDF.where("video_id = 'uSVW0aJdn9o'").head()
assert(r.ocurrencias_music == 2)
assert(r.ocurrencia_media - 1.0172278778386845 < 0.0001)
assert(r.diff_porcentaje - 114.54046639231825 < 0.0001)