### OBTENCION DE DATOS API YOUTUBE

#### Importacion de librerias necesarias

In [None]:
import json
import pandas as pd

In [None]:
#Si es necesesario instalar primero la libreria
#!pip install google-api-python-client

#Se importa libreria de clienteGoogle
from googleapiclient.discovery import build

#### PARTE 1: adquirir una lista de id´s de canales de Youtube

El objetivo de esta seccion es obtener a traves de la API de Youtube(*https://developers.google.com/youtube/v3?hl=es-419*) una lista de id que correspondan a canales de Youtube que esten relacionados con diferentes temas.

In [2]:
#Se define el API Key
api_key = "AIzaSyDy8Zs8meCfP6mMO6NBofp0xrm9hDzHE48"

#Se instancia el "builder" de conexion
api_connection = build('youtube', 'v3', developerKey=api_key)

Se crea una lista de temas relacionados con la ciencia de datos, acto seguido se recorre la lista(**topics**) y por cada uno de sus elementos se realiza un request a la API que trae 50 resultados para cada uno de los temas y a cada respuesta se le extrae el ID para alojarlo en una lista especifica que se utilizara posteriormente.

In [3]:
#Se crea lista de temas de interes
topics = ["data science", "data analyst", "ciencia de datos", "analisis de datos", "machine learning",
           "deep learning", "estadistica descriptiva", "inferencia estadistica","python","pandas python"]

#Se crea lista para alojar resultados
id_list = []

#Ciclo for para recorrer los elementos de topic y tomar los datos de interes
for topic in topics:
    request = api_connection.search().list(part='snippet', type='channel', maxResults=50, q=topic)
    response = request.execute()

    if len(response['items']) > 0:
        for item in response['items']:
            id_list.append(item["id"]["channelId"])

In [4]:
print(f"La cantidad de id que se aquirieron es: {len(id_list)}\n")

La cantidad de id que se aquirieron es: 500



#### PARTE 2: obtencion de datos en base a lista de id

El objetivo de esta seccion es obtener informacion de los canales cuyos id se encuentran en la lista obtenida anteriormente (**id_list**). Para ello se recorre la lista de id y se realiza un request por cada id en la lista, obteniendo asi informacion de cada uno de los 500 canales que obtuvimos con anterioridad. Cada respuesta (dict) es guardada en la lista **data_channel_list**

In [5]:
#Se crea lista para alojar los datos resultantes
data_channel_list = []

#Ciclo for para recorrer cada elemento de la lista de Id i realizar una request por cada uno de los elementos
for id_channel in id_list:
    request = api_connection.channels().list(part=['id','statistics', 'contentDetails','snippet','status','brandingSettings'], id=id_channel)
    response = request.execute()
    if len(response['items']) > 0:
        for item in response['items']:
            data_channel_list.append(item)

In [6]:
#Cantidad de diccionarios alojados en la lista
print(f"La lista de canales tiene un total de {len(data_channel_list)} elementos")

La lista de canales tiene un total de 500 elementos


Como python hasta este momento viene trabajando con una lista de diccionarios, se imprime el resultado en formato **JSON** para tener una vista preliminar de los datos que se obtuvieron.

In [7]:
read_json = json.dumps(data_channel_list, indent=4, separators=(',',':'))
print(read_json)

[
    {
        "kind":"youtube#channel",
        "etag":"wpj5FVveCTkZ1znZ8CMGjr5phrk",
        "id":"UCEBpSZhI1X8WaP-kY_2LLcg",
        "snippet":{
            "title":"365 Data Science",
            "description":"At 365 Data Science we make #DataScience accessible to all by providing the highest quality online data science education. Our courses are designed to build up your skill set from beginner to job-ready, regardless of your current level, background education, and experience.\n\nOur data science program helps students and young professionals embark on a career as a data scientist. Demand for qualified data scientists is at an all-time high and traditional degrees are simply too expensive, time-consuming or rigid to meet the majority of needs. Our mission is to close that gap. \n\nWe provide high quality, affordable training to open new opportunities for students and professionals all over the world. \nWe constantly improve our program offering and the customer experience.\nWe

#### PARTE 3: extraccion de los datos de interes

Con el proposito de extraer los datos de interes de las request realizadas anteriormente, se crean dos clases para darle estructura a los datos. En primer lugar se crea la clase **YoutubeChannel** la cual en sus atributos aloja los datos de interes de la informacion obtenida. Por otra parte se crea la clase **ChannelBuilder** la cual tiene la responsabilidad de extraer los datos de interes y devolver una instancia de la clase **YoutubeChannel** con sus respectivos atributos seteados.

In [16]:
class YoutubeChannel():
    def __init__(self):
        self.id = None
        self.title = None
        self.description = None
        self.custom_url = None
        self.published_at = None
        self.country = None
        self.views = None
        self.subscribers = None        
        self.video_count = None
        self.hidden_suscr = None
        self.privacy = None
        self.key_words = None

 
class ChannelBuilder():
    def __init__(self, data : dict):
        self.data = data
        self.channel = YoutubeChannel()

    def build(self) -> YoutubeChannel:
        self.channel.id = self._get_id()
        self.channel.title = self._get_title()
        self.channel.description = self._get_description()
        self.channel.custom_url = self._get_customurl()
        self.channel.published_at = self._get_published_at()
        self.channel.country = self._get_country()
        self.channel.views = self._get_views()
        self.channel.subscribers = self._get_subscribers()  
        self.channel.video_count = self._get_video_count()
        self.channel.hidden_suscr = self._get_hidden_subs()
        self.channel.privacy = self._get_privacy()
        self.channel.key_words = self._get_keyWords()
        return self.channel

    def _get_id(self):
        return self.data.get('id', None)
    
    def _get_title(self):
        return self.data.get('snippet',{}).get('title', None)

    def _get_description(self):
        return self.data.get('snippet',{}).get('description', None)
    
    def _get_customurl(self):
        return self.data.get('snippet',{}).get('customUrl', None)
    
    def _get_published_at(self):
        return self.data.get('snippet',{}).get('publishedAt', None)

    def _get_country(self):
        return self.data.get('snippet',{}).get('country', None)
    
    def _get_views(self):
        return self.data.get('statistics', {}).get('viewCount', None)
    
    def _get_subscribers(self):
        return self.data.get('statistics', {}).get('subscriberCount', None)

    def _get_video_count(self):
        return self.data.get('statistics', {}).get('videoCount', None)

    def _get_hidden_subs(self):
        return self.data.get('statistics', {}).get('hiddenSubscriberCount', None)

    def _get_privacy(self):
            return self.data.get('status',{}).get('privacyStatus', None)

    def _get_keyWords(self):
        return self.data.get('brandingSettings',{}).get('channel',{}).get('keywords', None)

Aqui en primer lugar se crea la lista **channels** la cual alojará diccionarios que representan instancias de la clase **YoutubeChannel**, estos diccionarios representativos seran los que se guardaran en formato **JSON** posteriormente. <br>Seguidamente se recorre la lista **data_channel_list**, que fue obtenida en la seccion anterior, y por cada elemento de esta lista se crea una instancia de la clase **ChannelBuilder** la cual recibe por parametro el elemento actual del ciclo for, de esta manera mediante el metodo **.build()** se obtiene un objeto de tipo **YoutubeChannel** para ser guardado en **channels**.

In [9]:
#Se crea una lista para alojar las clases convertidas en diccionarios
channels = []

#Ciclo para recorrer cada diccionario en la lista y crear un objeto YouTubeChannel
for data in data_channel_list:
    builder = ChannelBuilder(data)
    channel = builder.build()
    channels.append(vars(channel))

Aqui se imprime la lista **channels** en formato **JSON** a fines de visualizar el resultado obtenido

In [10]:
#Se imprime la lista en formato JSON para visualizar los resultados
print(json.dumps(channels, indent=4, separators=(',',':')))

[
    {
        "id":"UCEBpSZhI1X8WaP-kY_2LLcg",
        "title":"365 Data Science",
        "description":"At 365 Data Science we make #DataScience accessible to all by providing the highest quality online data science education. Our courses are designed to build up your skill set from beginner to job-ready, regardless of your current level, background education, and experience.\n\nOur data science program helps students and young professionals embark on a career as a data scientist. Demand for qualified data scientists is at an all-time high and traditional degrees are simply too expensive, time-consuming or rigid to meet the majority of needs. Our mission is to close that gap. \n\nWe provide high quality, affordable training to open new opportunities for students and professionals all over the world. \nWe constantly improve our program offering and the customer experience.\nWe\u2019ve Helped More than 1 Million Student differentiate themselves by providing them with:\n\n\u2022 217+ 

Se guarda el resultado obtenido en formato **JSON** de manera **local**

In [11]:
#Guardado local del archivo JSON
with open('.\Json\YouTubeChannelsData.json', 'w') as file:
    json.dump(channels, file, indent=4, separators=(',',':'))

Utilizando **Pandas** se puede leer la lista de diccionarios (**channels**) para obtener un **Dataframe** y manipular los datos segun la necesidad.

In [12]:
#Se crea el dataframe leyendo la informacion del JSON
df = pd.DataFrame(channels)
df. head(3)

Unnamed: 0,id,title,description,custom_url,published_at,country,views,subscribers,video_count,hidden_suscr,privacy,key_words
0,UCEBpSZhI1X8WaP-kY_2LLcg,365 Data Science,At 365 Data Science we make #DataScience acces...,@365datascience,2017-08-07T15:17:05Z,BG,13723915,306000,223,False,public,"Data python ""data science"" ""data science for b..."
1,UCy45Wq2N_vLRcpoV0_vNoaA,Instituto Data Science Argentina,El Instituto es un campus exclusivo para la fo...,@institutodatascience,2019-10-05T14:57:55Z,AR,254762,7490,144,False,public,"""Big Data"" ""data science"" ""machine learning"" ""..."
2,UCpNdaZYUS4OiIIBXLnggbCw,DataScience ForBusiness,Data Science orientado a negocio. Aprende Data...,@datascienceforbusiness,2019-01-25T14:51:21Z,ES,1715322,59500,68,False,public,"""data science"" ""big data"" ""machine learning"" ""..."


Tambien se puede leer el archivo **JSON** creado anteriormente utilizando un **DataFrame** de **Pandas**

In [14]:
df = pd.read_json('.\Json\YouTubeChannelsData.json')
df.head(3)

Unnamed: 0,id,title,description,custom_url,published_at,country,views,subscribers,video_count,hidden_suscr,privacy,key_words
0,UCEBpSZhI1X8WaP-kY_2LLcg,365 Data Science,At 365 Data Science we make #DataScience acces...,@365datascience,2017-08-07 15:17:05+00:00,BG,13723915,306000,223,False,public,"Data python ""data science"" ""data science for b..."
1,UCy45Wq2N_vLRcpoV0_vNoaA,Instituto Data Science Argentina,El Instituto es un campus exclusivo para la fo...,@institutodatascience,2019-10-05 14:57:55+00:00,AR,254762,7490,144,False,public,"""Big Data"" ""data science"" ""machine learning"" ""..."
2,UCpNdaZYUS4OiIIBXLnggbCw,DataScience ForBusiness,Data Science orientado a negocio. Aprende Data...,@datascienceforbusiness,2019-01-25 14:51:21+00:00,ES,1715322,59500,68,False,public,"""data science"" ""big data"" ""machine learning"" ""..."
