# Prueba técnica - Científico de datos
Realizado por: Andrés García Montoya
## Descripción
Acaba de ingresar como científico de datos a una compañía que combina tecnología con
analítica de datos para tomar mejores decisiones. Esta empresa está a punto de lanzar su marca
a los Estados Unidos, y tiene pensado hacer uso de una de las redes sociales de mayor impacto
en todo el mundo, YouTube.
La estrategia consiste en posicionar su propio canal de YouTube, donde sean capaces de
generar tráfico hacia la página web, y así aumentar la posibilidad de abrir negocios. Dentro de la
estrategia, está contemplado entender mejor el comportamiento de esta red social: cuáles son
los videos más populares, cuantos likes consiguen, cuantas visitas tienen, etc.
Esto permitiría en el futuro decidir si hacer uso de sponsors, y si es así, elegir a aquellos con
mayor potencial de retorno. Su misión, es analizar los datos disponibles que se tienen sobre las
interacciones en YouTube de los videos de mayor tendencia (no necesariamente de mayores
visitas) en Estados Unidos. En el siguiente enlace a Kaggle podrá encontrar el dataset. Procure
tomar los datos (en formato. JSON y .CSV) de los Estados Unidos, ya que es el mercado objetivo.
Para este reto tendrás que ser capaz de procesar información estructurada y semiestructurada,
de tal manera que puedas obtener información valiosa que ayude a tomar mejores decisiones.
A continuación, algunas preguntas que podrían ser interesantes responder:
- ¿Cuáles son las categorías de vídeos que reciben mayores vistas y Likes?
- ¿Es posible encontrar agrupaciones o clasificaciones de videos?
- ¿Cuál es la combinación de características o atributos más importantes que hacen de un
video tendencia?
- ¿La temporada o fecha en el que el video es publicado tiene alguna influencia?
- ¿Es posible predecir cuantos likes o visitas tendrá un video? Si es así, cree un modelo que lo
compruebe.
Tenga presente que estas preguntas son sólo la base del análisis que la compañía espera
recibir, pero existen muchas otras que podrían ser planteadas y de interés para la toma de
decisiones (ya sean de análisis descriptivo, o predictivo). Se espera que realices todo un
proceso de descubrimiento de información y obtención de conocimiento por medio de
alguna metodología de data mining que conozcas. Es importante que defina con claridad
cada una de las etapas y justifique las tareas realizadas. Es libre de escoger el modelo o
modelos que crea pertinentes para extraer el mayor conocimiento posible, ejemplo:
clustering, forecasting, regresión li

## Carga de datos

In [4]:
import pandas as pd
us_videos_df = pd.read_csv('USvideos.csv')
us_videos_df

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,2kyS6SvSYSE,17.14.11,WE WANT TO TALK ABOUT OUR MARRIAGE,CaseyNeistat,22,2017-11-13T17:13:01.000Z,SHANtell martin,748374,57527,2966,15954,https://i.ytimg.com/vi/2kyS6SvSYSE/default.jpg,False,False,False,SHANTELL'S CHANNEL - https://www.youtube.com/s...
1,1ZAPwfrtAFY,17.14.11,The Trump Presidency: Last Week Tonight with J...,LastWeekTonight,24,2017-11-13T07:30:00.000Z,"last week tonight trump presidency|""last week ...",2418783,97185,6146,12703,https://i.ytimg.com/vi/1ZAPwfrtAFY/default.jpg,False,False,False,"One year after the presidential election, John..."
2,5qpjK5DgCt4,17.14.11,"Racist Superman | Rudy Mancuso, King Bach & Le...",Rudy Mancuso,23,2017-11-12T19:05:24.000Z,"racist superman|""rudy""|""mancuso""|""king""|""bach""...",3191434,146033,5339,8181,https://i.ytimg.com/vi/5qpjK5DgCt4/default.jpg,False,False,False,WATCH MY PREVIOUS VIDEO ▶ \n\nSUBSCRIBE ► http...
3,puqaWrEC7tY,17.14.11,Nickelback Lyrics: Real or Fake?,Good Mythical Morning,24,2017-11-13T11:00:04.000Z,"rhett and link|""gmm""|""good mythical morning""|""...",343168,10172,666,2146,https://i.ytimg.com/vi/puqaWrEC7tY/default.jpg,False,False,False,Today we find out if Link is a Nickelback amat...
4,d380meD0W0M,17.14.11,I Dare You: GOING BALD!?,nigahiga,24,2017-11-12T18:01:41.000Z,"ryan|""higa""|""higatv""|""nigahiga""|""i dare you""|""...",2095731,132235,1989,17518,https://i.ytimg.com/vi/d380meD0W0M/default.jpg,False,False,False,I know it's been a while since we did this sho...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40944,BZt0qjTWNhw,18.14.06,The Cat Who Caught the Laser,AaronsAnimals,15,2018-05-18T13:00:04.000Z,"aarons animals|""aarons""|""animals""|""cat""|""cats""...",1685609,38160,1385,2657,https://i.ytimg.com/vi/BZt0qjTWNhw/default.jpg,False,False,False,The Cat Who Caught the Laser - Aaron's Animals
40945,1h7KV2sjUWY,18.14.06,True Facts : Ant Mutualism,zefrank1,22,2018-05-18T01:00:06.000Z,[none],1064798,60008,382,3936,https://i.ytimg.com/vi/1h7KV2sjUWY/default.jpg,False,False,False,
40946,D6Oy4LfoqsU,18.14.06,I GAVE SAFIYA NYGAARD A PERFECT HAIR MAKEOVER ...,Brad Mondo,24,2018-05-18T17:34:22.000Z,I gave safiya nygaard a perfect hair makeover ...,1066451,48068,1032,3992,https://i.ytimg.com/vi/D6Oy4LfoqsU/default.jpg,False,False,False,I had so much fun transforming Safiyas hair in...
40947,oV0zkMe1K8s,18.14.06,How Black Panther Should Have Ended,How It Should Have Ended,1,2018-05-17T17:00:04.000Z,"Black Panther|""HISHE""|""Marvel""|""Infinity War""|...",5660813,192957,2846,13088,https://i.ytimg.com/vi/oV0zkMe1K8s/default.jpg,False,False,False,How Black Panther Should Have EndedWatch More ...


In [5]:
us_category_df = pd.read_json('US_category_id.json')
us_category_df

Unnamed: 0,kind,etag,items
0,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
1,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
2,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
3,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
4,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
5,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
6,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
7,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
8,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."
9,youtube#videoCategoryListResponse,"""m2yskBQFythfE4irbTIeOgYYfBU/S730Ilt-Fi-emsQJv...","{'kind': 'youtube#videoCategory', 'etag': '""m2..."


# Reconocimiento de datos
### Descripción de los datos USvideos.csv
* video_id: Identificador único del video
* trending_date: Fecha en la que el video se volvió tendencia YY.DD.MM
* title: Título del video
* channel_title: Nombre del canal
* category_id: Categoría del video
* publish_time: Fecha de publicación del video YY-MM-DDTHH:MM:SS.MMMZ
* tags: Etiquetas del video, separadas por |
* views: Número de vistas
* likes: Número de likes
* dislikes: Número de dislikes
* comment_count: Número de comentarios
* thumbnail_link: Enlace a la miniatura del video
* comments_disabled: Indica si los comentarios están deshabilitados
* ratings_disabled: Indica si las calificaciones están deshabilitadas
* video_error_or_removed: Indica si el video fue eliminado o tiene errores
* description: Descripción del video
### Descripción de los datos US_category_id.json
* kind: Tipo de objeto
* etag: Etag del objeto
* items: Lista de categorías
    * kind: Tipo de objeto
    * etag: Etag del objeto
    * id: Identificador de la categoría
    * snippet: Detalles de la categoría
        * channel_id: Identificador del canal
        * title: Título de la categoría
        * assignable: Indica si la categoría es asignable