# Vídeos que fueron tendencia en YouTube

### Disponible en Kaggle en:
https://www.kaggle.com/datasnaek/youtube-new


YouTube, el sitio web para compartir videos de fama mundial, mantiene una lista de los mejores videos de tendencias en la plataforma. Según la revista Variety, *Para determinar los videos más populares del año, YouTube utiliza una combinación de factores que incluyen la medición de las interacciones de los usuarios (número de visitas, compartidos, comentarios y me gusta). No son necesariamente los vídeos más vistos del año en general*. Los que se sitúan en la parte más alta de la lista de tendencias de YouTube suelen ser o bien vídeos musicales (como el famoso "Gagnam Style"), actuaciones de *celibrities* y / o reality shows, y vídeos virales variados de una persona aleatoria, cámara en mano.

Este conjunto de datos es un registro diario de los videos más populares de YouTube. Incluye varios meses de datos en vídeos de tendencias diarias de YouTube. Se incluyen datos para las regiones de EEUU, Reino Unido, Dinamarca, Canadá y Francia con hasta 200 videos de tendencias listados por día. Aquí solo usaremos los de EEUU, Canadá y Reino Unido. Los datos de cada país están en un archivo separado. Las variables incluyen el título del video, título del canal, tiempo de publicación, etiquetas, vistas, me gusta y no me gusta, descripción y recuento de comentarios. Se recopiló utilizando la API de YouTube.

### Variables y significado

Las variables utilizadas para describir cada vídeo son:

* video_id (string) ID único. Se ha asignado un video en la plataforma de YouTube. 
* trending_date (string) La fecha en que el video era tendencia 
* title (string) Título del vídeo
* channel_title (string) Título del canal de publicación en la categoría de plataforma
* category_id (string) El tipo de categoría del vídeo
* publish_time (string) La fecha de publicación del vídeo 
* tags (string) Etiquetas asociadas al vídeo, separadas por |
* views (entero) Número total de vistas en el vídeo.
* likes (entero) Número de Me gusta en el vídeo
* dislikes (entero) Número de No me gusta en el vídeo
* comment_count (entero) Un recuento total de comentarios en el video 
* comments_disabled (booleano) Si los comentarios estaban desactivados (true) o activados (false) en el video 
* ratings_disabled (booleano) Si la opción de dar me gusta o no al video está deshabilitada (true), en cuyo caso el número de  Me gusta y de No me gusta será 0. 
* video_error_or_removed (booleano) Si el video tiene algún error o se eliminó después de cargar el país
* description (string): Descripción textual

In [1]:
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[1]") \
                    .appName('SparkByExamples.com') \
                    .getOrCreate()
spark.conf.set('spark.sql.repl.eagerEval.enabled', True)
spark.conf.set('spark.sql.repl.eagerEval.maxNumRows', 5)

In [2]:
spark

In [3]:
import pyspark.sql.functions as F
from pyspark.sql.types import StringType, IntegerType, FloatType, DoubleType, BooleanType, DateType, TimestampType


### 1. Leer los datos con Spark y unificar en un solo dataframe.
Se leen los datos sin inferir su tipo, teniendo en cuenta la coma que separa las columnas, descartamos las filas que no tengan el formato correcto. 
A continuación  usamos transformaciones para crear una nueva columna e identificar cada dataset por su país y eliminamos la columna descripción. Finalmente unimos los datasets en 1 solo dataframe.

In [4]:
# Aclaración: por defecto inferSchema es false, pero lo pongo explícitamente para que se vea.
# el tipo de dato de "pais" es por defecto StringType

USvideosDF = spark.read \
    .option("header", "true") \
    .option("inferSchema", "false") \
    .option("quote", "\"") \
    .option("escape", "\"") \
    .option("mode", "DROPMALFORMED") \
    .csv("./data/youtube_USvideos.csv") \
    .withColumn("pais", F.lit("EEUU")) \
    .drop("description")

CAvideosDF = spark.read \
    .option("header", "true") \
    .option("inferSchema", "false") \
    .option("quote", "\"") \
    .option("escape", "\"") \
    .option("mode", "DROPMALFORMED") \
    .csv("./data/youtube_CAvideos.csv") \
    .withColumn("pais", F.lit("CA")) \
    .drop("description")

GBvideosDF = spark.read \
    .option("header", "true") \
    .option("inferSchema", "false") \
    .option("quote", "\"") \
    .option("escape", "\"") \
    .option("mode", "DROPMALFORMED") \
    .csv("./data/youtube_GBvideos.csv") \
    .withColumn("pais", F.lit("GB")) \
    .drop("description")                  

#Se generan dudas al usar union o unionAll, pero entiendo que no hay problema con union ya que los dfs están diferenciados por país

videosRawDF = USvideosDF.union(CAvideosDF).union(GBvideosDF)


In [5]:
# Comprobaciones 
print(f"De Estados Unidos tenemos {USvideosDF.count()} registros")
print(f"De Canadá tenemos {CAvideosDF.count()} registros")
print(f"De Gran Bretaña tenemos {GBvideosDF.count()} registros")
print(f"En total contamos con {videosRawDF.count()} registros")

videosRawDF

De Estados Unidos tenemos 48137 registros
De Canadá tenemos 45560 registros
De Gran Bretaña tenemos 43295 registros
En total contamos con 136992 registros


video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,pais
2kyS6SvSYSE,17.14.11,WE WANT TO TALK A...,CaseyNeistat,22,2017-11-13T17:13:...,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.c...,False,False,False,EEUU
1ZAPwfrtAFY,17.14.11,The Trump Preside...,LastWeekTonight,24,2017-11-13T07:30:...,"""last week tonigh...",2418783,97185,6146,12703,https://i.ytimg.c...,False,False,False,EEUU
5qpjK5DgCt4,17.14.11,Racist Superman |...,Rudy Mancuso,23,2017-11-12T19:05:...,"""racist superman""...",3191434,146033,5339,8181,https://i.ytimg.c...,False,False,False,EEUU
puqaWrEC7tY,17.14.11,Nickelback Lyrics...,Good Mythical Mor...,24,2017-11-13T11:00:...,"""rhett and link""|...",343168,10172,666,2146,https://i.ytimg.c...,False,False,False,EEUU
d380meD0W0M,17.14.11,I Dare You: GOING...,nigahiga,24,2017-11-12T18:01:...,"""ryan""|""higa""|""hi...",2095731,132235,1989,17518,https://i.ytimg.c...,False,False,False,EEUU


In [6]:
videosRawDF.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: string (nullable = true)
 |-- dislikes: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- pais: string (nullable = false)



### 2. Castear las columnas a su tipo correcto y cachear
Utilizo un withColumn y seteo el tipo de dato correcto.
Defino el formato de la fecha que necesito antes de castear a TimStamp
Elimino nulos.
Finalmente cacheo porque es el dataframe con el que voy a trabajar reiteradamente.

In [7]:
videosDF = videosRawDF.withColumn("trending_date", F.to_date("trending_date", "yy.dd.MM")) \
                      .withColumn("publish_time", F.from_unixtime(F.unix_timestamp('publish_time', "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'")).cast("timestamp")) \
                      .withColumn("likes", F.col("likes").cast("integer")) \
                      .withColumn("dislikes", F.col("dislikes").cast("integer")) \
                      .withColumn("comment_count", F.col("comment_count").cast("integer")) \
                      .withColumn("comments_disabled", F.col("comments_disabled").cast("boolean")) \
                      .na.drop() \
                      .cache()  



In [8]:
videosDF

video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,pais
2kyS6SvSYSE,2017-11-14,WE WANT TO TALK A...,CaseyNeistat,22,2017-11-13 17:13:01,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.c...,False,False,False,EEUU
1ZAPwfrtAFY,2017-11-14,The Trump Preside...,LastWeekTonight,24,2017-11-13 07:30:00,"""last week tonigh...",2418783,97185,6146,12703,https://i.ytimg.c...,False,False,False,EEUU
5qpjK5DgCt4,2017-11-14,Racist Superman |...,Rudy Mancuso,23,2017-11-12 19:05:24,"""racist superman""...",3191434,146033,5339,8181,https://i.ytimg.c...,False,False,False,EEUU
puqaWrEC7tY,2017-11-14,Nickelback Lyrics...,Good Mythical Mor...,24,2017-11-13 11:00:04,"""rhett and link""|...",343168,10172,666,2146,https://i.ytimg.c...,False,False,False,EEUU
d380meD0W0M,2017-11-14,I Dare You: GOING...,nigahiga,24,2017-11-12 18:01:41,"""ryan""|""higa""|""hi...",2095731,132235,1989,17518,https://i.ytimg.c...,False,False,False,EEUU


In [9]:
# Comprobamos el Schema
videosDF.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: date (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: timestamp (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: integer (nullable = true)
 |-- dislikes: integer (nullable = true)
 |-- comment_count: integer (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: boolean (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- pais: string (nullable = false)



### 3. Reemplazo los id de la categoría con el nombre de la categoría. 
Una vez reemplazados los ids por el nombre de las categorías, procedo a crear nuevas columnas:
- dias_hasta_viral, es en número de días que pasaron desde la publicación hasta que se volvió viral el vídeo
- diasemana, utilizo una función para saber que día se volvió viral 

Finalmente modifico la columna tags, eliminando comillas y separando las etiquetas por el pipe.


In [10]:
diccionario = {
   "1": "Film & Animation",
   "2": "Autos & Vehicles",
   "10": "Music",
   "15": "Pets & Animals",
   "17": "Sports",
   "18": "Short Movies",
   "19": "Travel & Events",
   "20": "Gaming",
   "21": "Videoblogging",
   "22": "People & Blogs",
   "23": "Comedy",
   "24": "Entertainment",
   "25": "News & Politics",
   "26": "Howto & Style",
   "27": "Education",
   "28": "Science & Technology",
   "29": "Nonprofits & Activism",
   "30": "Movies",
   "31": "Anime/Animation",
   "32": "Action/Adventure",
   "33": "Classics",
   "34": "Comedy",
   "35": "Documentary",
   "36": "Drama",
   "37": "Family",
   "38": "Foreign",
   "39": "Horror",
   "40": "Sci-Fi/Fantasy",
   "41": "Thriller",
   "42": "Shorts",
   "43": "Shows",
   "44": "Trailers"
}


videosExtraInfoDF = videosDF.replace(to_replace=diccionario, subset=['category_id'])\
                                      .withColumn("dias_hasta_viral", F.datediff(F.col("trending_date"), F.col("publish_time"))) \
                                      .withColumn("diasemana", F.dayofweek(F.col("publish_time"))) \
                                      .withColumn("tags", F.regexp_replace(F.lower(F.col("tags")),  "\"", ""))\
                                      .withColumn("tags", F.split(F.col("tags"), "\|"))

In [11]:
videosExtraInfoDF

video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,pais,dias_hasta_viral,diasemana
2kyS6SvSYSE,2017-11-14,WE WANT TO TALK A...,CaseyNeistat,People & Blogs,2017-11-13 17:13:01,[shantell martin],748374,57527,2966,15954,https://i.ytimg.c...,False,False,False,EEUU,1,2
1ZAPwfrtAFY,2017-11-14,The Trump Preside...,LastWeekTonight,Entertainment,2017-11-13 07:30:00,[last week tonigh...,2418783,97185,6146,12703,https://i.ytimg.c...,False,False,False,EEUU,1,2
5qpjK5DgCt4,2017-11-14,Racist Superman |...,Rudy Mancuso,Comedy,2017-11-12 19:05:24,"[racist superman,...",3191434,146033,5339,8181,https://i.ytimg.c...,False,False,False,EEUU,2,1
puqaWrEC7tY,2017-11-14,Nickelback Lyrics...,Good Mythical Mor...,Entertainment,2017-11-13 11:00:04,"[rhett and link, ...",343168,10172,666,2146,https://i.ytimg.c...,False,False,False,EEUU,1,2
d380meD0W0M,2017-11-14,I Dare You: GOING...,nigahiga,Entertainment,2017-11-12 18:01:41,"[ryan, higa, higa...",2095731,132235,1989,17518,https://i.ytimg.c...,False,False,False,EEUU,2,1


### 4. Cálculo del número de días que ha sido viral cada vídeo en cada uno de los 3 países.
Primero creo una ventana que me permitirá agrupar datos por el país y el id del vídeo. A continuación creo 2 columnas para la fecha inicial y la fecha final en el que el vídeo fue viral teniendo en cuenta la agrupación antes dicha, con estas columnas y usando la función de datediff creo una nueva columna en la cual obtengo el número de días que el vídeo ha sido viral.
Elimino las columnas que no necesito, elimino duplicados que coinciden en id y país, Finalmente cacheo.


In [12]:
from pyspark.sql import Window 

ventanaVideoIdPais = Window.partitionBy("video_id", "pais")


videosDiasViralDF = videosExtraInfoDF.withColumn("min", F.min(F.col("trending_date")).over(ventanaVideoIdPais))\
                                     .withColumn("max", F.max(F.col("trending_date")).over(ventanaVideoIdPais))\
                                     .withColumn("dias_viral_pais", F.datediff(F.col("max"), F.col("min")))\
                                     .drop("min", "max")\
                                     .dropDuplicates(["video_id", "pais"])\
                                     .cache()


### 5. Un nuevo dataframe para observar las categorías virales dependiendo de los países y otro dependiendo de los días.

Partiendo del dataset anterior, hago una agrupación por la categoría que será como mi índice, pivoto por país para tener cada país en una columna y saco la media de los días que ha sido viral esa categoría en los diferentes países.

Para el DF con los días, agrupo también por categoría, pivoto por día de semana y calculo el número de vídeos que se hacen virales según cada día, finalmente específico la cebecera que quiero que tenga este dataframe, que será la lista con los días de la semana y la categoría

In [13]:
diasViralCategoriaPaisDF = videosDiasViralDF.groupBy("category_id")\
                                            .pivot("pais")\
                                            .avg("dias_viral_pais")

dias = ["category_id","Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo"]

videosPorDiasemanaDF = videosDiasViralDF.groupBy("category_id")\
                                      .pivot("diasemana")\
                                      .agg(F.countDistinct("video_id"))\
                                      .toDF(*dias)

In [14]:
videosDiasViralDF

video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,pais,dias_hasta_viral,diasemana,dias_viral_pais
-EjcrM2wFak,2018-05-14,Comment Awards v132,Comment Awards,Comedy,2018-05-13 22:17:12,"[comment, awards,...",157703,7731,153,1697,https://i.ytimg.c...,False,False,False,CA,1,1,1
-Kvh7mHD9aY,2018-06-12,REDDITS SCARIEST ...,Mini Ladd,Gaming,2018-06-11 00:34:16,"[mini ladd, minil...",468306,26899,223,4346,https://i.ytimg.c...,False,False,False,CA,1,2,0
-Ru31e1qOUI,2018-06-12,"Kapuso Mo, Jessic...",GMA Public Affairs,Entertainment,2018-06-11 08:12:39,"[gma, gma network...",613392,4520,946,2324,https://i.ytimg.c...,False,False,False,CA,1,2,0
-p-PToD2URA,2018-02-23,PAZ Mission,SpaceX,Science & Technology,2018-02-22 14:52:02,[[none]],1422146,35854,991,2240,https://i.ytimg.c...,False,False,False,EEUU,1,5,10
05hFEtwH05g,2017-12-11,Toronto Raptors v...,Rapid Highlights,Sports,2017-12-10 23:00:07,"[basketball, nba,...",52409,223,16,54,https://i.ytimg.c...,False,False,False,CA,1,1,1


In [15]:
diasViralCategoriaPaisDF

category_id,CA,EEUU,GB
Shows,0.1346153846153846,13.5,
Education,0.6864406779661016,5.864,12.783783783783784
Gaming,0.7551813471502591,7.524271844660194,9.86127167630058
Entertainment,0.6370029097963142,5.516368128474367,10.328288707799768
Travel & Events,0.9455445544554456,5.983333333333333,9.4


In [16]:
videosPorDiasemanaDF

category_id,Lunes,Martes,Miércoles,Jueves,Viernes,Sábado,Domingo
Shows,1,19,17,19,24,19,7
Education,108,147,123,76,130,82,97
Gaming,167,130,108,128,138,139,156
Entertainment,1054,1501,1468,1467,1411,1601,1229
Travel & Events,60,26,21,46,22,29,43


### 6. En el dataframe videosDiasViralDF  se cran nuevas columnas para saber la ocurrencia de la subcadena  "music" en la columna tags. 
Creamos una función que me devuelva cuantos elementos del vector en tags, contineen el string 'music'. Cogemos un vector de prueba para ver que funciona
Ahora bien tenemos que usar esta función con la UDF, para que nos permita aplicarla a nuestro dataframe. 

Se crea otra vez la ventana con la agrupación por categoría y país, y finalmente creamos el dataframe la columnas:
- ocurrencia_music: saber cuantas veces se repite el string 'music' en los tags
- ocurrencia_media: la media de apariciones de 'music' en la ventana de categoría y país
- diff_porcentaje: que indica en tanto por ciento, en qué medida el número de apariciones de "music" está por encima o por debajo de la media de los vídeos de su misma categoría y país, usamos una fórmula para calcular, 

In [17]:
subtag_music = ["a life in music", "music for life", "bso", "hans zimmer"]

def subcadena_en_vector(tags):
    return (sum([1 for c in tags if "music" in c]))

print(subcadena_en_vector(subtag_music))

subtag_music_UDF = F.udf(lambda x: subcadena_en_vector(x), IntegerType())

ventanaCategoriaPais =  Window.partitionBy("category_id", "pais")

videosOcurrenciasMusicDF = videosDiasViralDF.withColumn("ocurrencias_music", subtag_music_UDF(F.col("tags"))) \
                                            .withColumn("ocurrencia_media", F.avg(F.col("ocurrencias_music")).over(ventanaCategoriaPais))\
                                            .withColumn("diff_porcentaje", ((F.col("ocurrencias_music") - F.col("ocurrencia_media")) / F.col("ocurrencia_media")) * 100)




2


In [28]:
videosOcurrenciasMusicDF

video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,pais,dias_hasta_viral,diasemana,dias_viral_pais,ocurrencias_music,ocurrencia_media,diff_porcentaje
kchxDznl0Jk,2018-04-16,All-New KONA | Ex...,Hyundai Canada,Autos & Vehicles,2018-03-27 22:47:29,"[hyundai kona, al...",52978,200,89,16,https://i.ytimg.c...,False,False,False,CA,20,3,0,0,0.0040322580645161,-100.0
v58BZsH2oAQ,2018-03-17,Shulman's BIG Tur...,Adam LZ,Autos & Vehicles,2018-03-16 20:00:03,"[1jz, turbo, big,...",180903,7505,88,715,https://i.ytimg.c...,False,False,False,CA,1,6,0,0,0.0040322580645161,-100.0
yido7eBL-GI,2018-01-28,Drifting with Cle...,Adam LZ,Autos & Vehicles,2018-01-27 23:32:58,"[adam lz, cleetus...",166047,9420,66,1367,https://i.ytimg.c...,False,False,False,CA,1,7,0,0,0.0040322580645161,-100.0
LiHNJKSKCs4,2018-03-02,I Fixed My Cheap ...,Tavarish,Autos & Vehicles,2018-03-01 17:00:02,"[aston martin, me...",322803,14383,287,1894,https://i.ytimg.c...,False,False,False,CA,1,5,0,0,0.0040322580645161,-100.0
NW-ywwM-q9g,2017-11-29,Marty's DIY Mira ...,Mighty Car Mods,Autos & Vehicles,2017-11-27 23:47:12,"[mighty, car, mod...",452773,15293,188,1302,https://i.ytimg.c...,False,False,False,CA,2,2,0,0,0.0040322580645161,-100.0
