# Web scraping YouTube 

* Alumna: Alexandra Moran Baygorrea

### 1. Crearse una cuenta en:
[Google Cloud Platform](https://console.cloud.google.com/)

### 2. Pasos para obtener Api Key:
- Crear un proyecto
- Ir a **Library**, elegir la API con nombre: **Youtube Data API v3** y darle click en habilitar (enable).
- Ir a **Credientals**, click en *+ CREATE CREDENTIALS* > *API key* y listo ya tienes tu clave. 

En este proyecto se extraeré detalles del canales de youtube como el nombre del canal, número total de suscriptores, vistas y videos publicados por el canal mediante la creación de una función. Luego compararé estos datos de los canales entre sí. Luego se cargará todos estos datos en un marco de datos de pandas para su analisis. También se producirá una visualización básica usando estos datos para que podamos comparar fácilmente los canales elegidos.
 
#### Documentos a usar:
[Documentación API de datos de Google YouTube](https://developers.google.com/youtube/v3)

In [1]:
#instalar los siguientes paquetes:
pip install --upgrade google-api-python-client

Collecting google-api-python-clientNote: you may need to restart the kernel to use updated packages.





  Downloading google_api_python_client-2.37.0-py2.py3-none-any.whl (8.1 MB)
Collecting httplib2<1dev,>=0.15.0
  Downloading httplib2-0.20.4-py3-none-any.whl (96 kB)
Collecting uritemplate<5,>=3.0.1
  Downloading uritemplate-4.1.1-py2.py3-none-any.whl (10 kB)
Collecting google-auth<3.0.0dev,>=1.16.0
  Downloading google_auth-2.6.0-py2.py3-none-any.whl (156 kB)
Collecting google-api-core<3.0.0dev,>=1.21.0
  Downloading google_api_core-2.5.0-py2.py3-none-any.whl (111 kB)
Collecting google-auth-httplib2>=0.1.0
  Downloading google_auth_httplib2-0.1.0-py2.py3-none-any.whl (9.3 kB)
Collecting googleapis-common-protos<2.0dev,>=1.52.0
  Downloading googleapis_common_protos-1.54.0-py2.py3-none-any.whl (207 kB)
Collecting protobuf>=3.12.0
  Downloading protobuf-3.19.4-cp39-cp39-win_amd64.whl (895 kB)
Collecting cachetools<6.0,>=2.0.0
  Downloading cachetools-5.0.0-py3-none-any.whl (9.1 kB)
Collecting rsa<5,>=3.1.4
  Downloading rsa-4.8-py3-none-any.whl (39 kB)
Collecting pyasn1-modules>=0.2.1
 




In [4]:
# Librerias que se van a usar:
from googleapiclient.discovery import build
import pandas as pd

## Función para obtener datos estadísticos de un canal

In [5]:
#Guardamos nuestra clave en api_key:
api_key = "AIzaSyB5qBiTCi15ye4lW_2c-W_c-pEaYp84Oi8" #propia
#Guardamos la identificación propia del canal a analizar:
canal_id="UCy5FUarBYUHFpPtYVuvzgcA" #Canal de Zayn Malik
#Para obtener el servicio de youtube: servidor/versión/clave
youtube=build("youtube","v3",developerKey=api_key)

In [23]:
#Creamos una función que extraiga las estadísticas del canal:
def info_canal(youtube, canal_id):
#Solicitamos una colección del canal mediante el parámetro part con los siguientes argumentos:
#snippet: información básica del canal, como título, descripción,imágenes en miniatura
#statistics: contiene estadísticas del canal.
    request = youtube.channels().list(
                part="snippet,statistics",
                id=canal_id)
    response=request.execute()
#Creamos un diccionario para guardar los datos de interés:
    data=dict(Nombre_canal=response["items"][0]["snippet"]["title"],
              Suscriptores=response["items"][0]["statistics"]['subscriberCount'],
              Views=response["items"][0]["statistics"]['viewCount'],
              Total_videos=response["items"][0]["statistics"]['videoCount'])
    
#Si ejecutamos la función return response en vez de return data tendremos toda la información de los tres parámetros pedidos.
    #return response 
#Pero ejecutamos return data ya que solo queremos los datos pedidos   
    return data

In [24]:
# Usando la función:
info_canal(youtube, canal_id)
#Obtenemos un diccionario, con los datos solicitados.

{'Nombre_canal': 'ZaynVEVO',
 'Suscriptores': '5950000',
 'Views': '4014292519',
 'Total_videos': '90'}

## Función para obtener datos estadísticos de varios canales a la vez
En este caso solo se modificará la función anterior:

In [9]:
#Guardamos las identificaiones de los canales a analizar:
canales_ids=["UCy5FUarBYUHFpPtYVuvzgcA", #Zayn Malik 
             "UCbOCbp5gXL8jigIBZLqMPrw", #Harry Styles 
             "UCZIrDb4j3_dJf3G9jROboZQ", #Liam Payne
             "UCR5BwOS3Gb4uQtxRYRUQ7ng", #Louis Tomlinson
             "UCPrwhIldj47n8JcqZ4Y_WFQ"] #Niall Horan


In [35]:
def info_canales(youtube, canales_ids):
    lista=[] #lista vacía para luego almacenar los datos
    request = youtube.channels().list(
                part="snippet,statistics,contentDetails",
                id=",".join(canales_ids))
    response=request.execute()
    #Para que recorra todas los canales_ids:
    for i in range(len(response["items"])):
        data=dict(Nombre_canal=response["items"][i]["snippet"]["title"],
                  Suscriptores=response["items"][i]["statistics"]['subscriberCount'],
                  Views=response["items"][i]["statistics"]['viewCount'],
                  Total_videos=response["items"][i]["statistics"]['videoCount'],
                  Playlist_id=response["items"][i]["contentDetails"]["relatedPlaylists"]["uploads"])
        #Se guarda el diccionario en una lista:
        lista.append(data)
    #return response
    return lista

In [36]:
#Se usa la función para extraer los datos de lista:
#info_canales(youtube, canales_ids)
channel_statistics=info_canales(youtube, canales_ids)
#Conversión a Data Frame
channel_data=pd.DataFrame(channel_statistics)
channel_data

Unnamed: 0,Nombre_canal,Suscriptores,Views,Total_videos,Playlist_id
0,HarryStylesVEVO,3110000,2984913552,38,UUbOCbp5gXL8jigIBZLqMPrw
1,ZaynVEVO,5950000,4014292519,90,UUy5FUarBYUHFpPtYVuvzgcA
2,LiamPayneVEVO,1540000,749153938,46,UUZIrDb4j3_dJf3G9jROboZQ
3,NiallHoranVEVO,2170000,739073905,59,UUPrwhIldj47n8JcqZ4Y_WFQ
4,LouisTomlinsonVEVO,1520000,669918017,21,UUR5BwOS3Gb4uQtxRYRUQ7ng


## Función para obtener la lista completa de videos 

In [12]:
#Como ejemplo se toma al canal "Zayn VEVO", si se quisiera de otro cantante del DataFrame, reeemplazar el nombre.
playlist=channel_data.loc[channel_data["Nombre_canal"]=="ZaynVEVO", "Playlist_id"].iloc[0]

In [76]:
def videos_id (youtube, Playlist_id):
    request=youtube.playlistItems().list(
                    part="contentDetails",
                    playlistId=playlist,
                    maxResults=50)
    response=request.execute()
  
    videos=[]
    for i in range(len(response["items"])):
        videos.append(response["items"][i]["contentDetails"]["videoId"])
        
#Nota:los resultados por página solo muestran 50 videos, por eso se hace la siguiente iteración, para capturar todos los videos.
# para eso se usa el parámetro "nextPageToken"     
    token_pagina=response.get("nextPageToken")
    mas_paginas=True
    
    while mas_paginas:
        if token_pagina is None:
            mas_paginas=False
        else:
            request=youtube.playlistItems().list(
                    part="contentDetails",
                    playlistId=playlist,
                    maxResults=50,
                    pageToken=token_pagina)
            response=request.execute()
            
            for i in range(len(response["items"])):
                videos.append(response["items"][i]["contentDetails"]["videoId"])
            
            token_pagina=response.get("nextPageToken")
    
    return videos
    #return len(videos)

In [78]:
#videos_id(youtube, canales_ids)
videos_id=videos_id(youtube, canales_ids)
print(videos_id)

['KPe0e5EEKSw', 'rtLB9wBwCXs', 'eF_kC8LxtLw', 'y3kTdkyb7vg', 'jQEjeVPTWe0', '8t7aJ571wik', 'wg3_S3BIyDQ', '7sKCGvLMxrU', 'ADw3m4UhYak', 'Hybr_oBNRQE', '5WX_vICMBu8', 'GWQlGKwmb5E', 'lMKxLeBaQbU', '_QzFnZ5oyTw', 'ski6cXdYH5o', 'QqPOneQgvwc', 't_dVQqvZeKM', 'daJgg8o0aNA', 'BiSXG8EgQOA', '75EYy4cI4_U', '-nA6j3a10X8', 'VSpgaN3wuag', 'NAo38Q9c4xA', '033499WBFTM', '5yj9ZbsYef8', 'r2zyYAClv1g', 'LPuCMuoveQ8', 'Y-djQx9GJ2E', '54wX7AvU0_8', 'C283J_HDZuk', 'jZlS32MMsBQ', '2y2Ctg3y3bk', '6zWpkFiYrrI', 'F7Xm8tdH7PY', '8i-l13ek_DQ', 'uYx01hHNtn4', 'EzyMnn4lBG8', 'PwNVRUJvMV0', '6tynVGicBQU', 'v2Fc9ud5T4k', 'ocqDWzJxu9U', 'ap1jann73iQ', 'DxX37fyx_58', 'FPuTzmhR-4o', 'eFsGA0GXB-8', 'EB32NhsQGJA', '9cmPcH38wjc', 'X6QVOtow798', 'XkZz8hodDn0', 'voG07pt-KYI', 'zF9Zl7sAzS0', 'mdeg4fX4RJ0', 'wkLDQJ7jvi8', 'FwOX2kfZyvI', 'ahQ3q9G8Oqk', 'go8_ZWFdYGs', 'lf7eQ2PksA8', '-HWAsjirC90', '-R61rLBsGhY', '85202y7i4_w', 'TFWTU00mq8k', 'YpJ5QMqHR_E', 'eEa5-G3H788', 'FLaAOHv3qCY', 'J-dv_DcDD_A', 'tt2k8PGm-TI', 'shHeDYCi

In [70]:
#Utilizando la función anterior para obtener la lista:
def detalles_video(youtube,videos_id):
    Total_videos=[]
    
    for i in range(0,len(videos_id),50):
        request=youtube.videos().list(
                part="snippet,statistics",
                id=",".join(videos_id[i:i+50]))
        response=request.execute()
        
        for video in response["items"]:
            video_stats=dict(Titulo=video["snippet"]["title"],
                             Public=video["snippet"]["publishedAt"],
                             Views=video["statistics"]["viewCount"],
                             Likes=video["statistics"]["likeCount"],
                             Comentarios=video["statistics"]["commentCount"])
            
            Total_videos.append(video_stats)
    
    return Total_videos

In [72]:
#Vemos los resulltados:
detalles_video(youtube,videos_id)

[{'Titulo': 'ZAYN - "River Road" (Comic 11)',
  'Public': '2021-03-11T17:00:17Z',
  'Views': '953156',
  'Likes': '62810',
  'Comentarios': '3836'},
 {'Titulo': 'ZAYN - "Tightrope" (Comic 10)',
  'Public': '2021-03-04T17:00:19Z',
  'Views': '530981',
  'Likes': '50278',
  'Comentarios': '3033'},
 {'Titulo': 'ZAYN - "Windowsill" feat. Devlin (Comic 9)',
  'Public': '2021-03-04T17:00:14Z',
  'Views': '181081',
  'Likes': '30499',
  'Comentarios': '1988'},
 {'Titulo': 'ZAYN - "Unf**kwitable" (Comic 8)',
  'Public': '2021-02-25T17:00:22Z',
  'Views': '258360',
  'Likes': '46713',
  'Comentarios': '3412'},
 {'Titulo': 'ZAYN - "Sweat" (Comic 7)',
  'Public': '2021-02-11T17:00:30Z',
  'Views': '371807',
  'Likes': '49006',
  'Comentarios': '3068'},
 {'Titulo': 'ZAYN - "When Love\'s Around" feat. Syd (Comic 6)',
  'Public': '2021-02-11T17:00:03Z',
  'Views': '225771',
  'Likes': '36657',
  'Comentarios': '2623'},
 {'Titulo': 'ZAYN - "Connexion" (Comic 5)',
  'Public': '2021-02-04T17:00:19Z',
 

In [61]:
#Le damos estructura de Data Frame:
Detalles_video=detalles_video(youtube,videos_id)
Datos_video=pd.DataFrame(Detalles_video)
Datos_video["Public"]=pd.to_datetime(Datos_video["Public"]).dt.date
Datos_video["Views"]=pd.to_numeric(Datos_video["Views"])
Datos_video["Likes"]=pd.to_numeric(Datos_video["Likes"])
Datos_video["Comentarios"]=pd.to_numeric(Datos_video["Comentarios"])
Datos_video

Unnamed: 0,Titulo,Public,Views,Likes,Comentarios
0,"ZAYN - ""River Road"" (Comic 11)",2021-03-11,953105,62809,3836
1,"ZAYN - ""Tightrope"" (Comic 10)",2021-03-04,530969,50278,3033
2,"ZAYN - ""Windowsill"" feat. Devlin (Comic 9)",2021-03-04,181079,30499,1988
3,"ZAYN - ""Unf**kwitable"" (Comic 8)",2021-02-25,258353,46713,3412
4,"ZAYN - ""Sweat"" (Comic 7)",2021-02-11,371803,49005,3068
...,...,...,...,...,...
85,ZAYN - LIKE I WOULD (Audio),2016-03-10,22573384,402812,23321
86,ZAYN - PILLOWTALK REMIX (Audio) ft. Lil Wayne,2016-02-26,5697187,172716,9050
87,ZAYN - iT's YoU (Audio),2016-02-26,13319497,332547,22399
88,ZAYN - PILLOWTALK (the living room session) [A...,2016-02-05,3759027,163852,7452


In [63]:
#Top 10 videos más vistos
top_videos=Datos_video.sort_values(by="Views",ascending=False).head(10)
top_videos

Unnamed: 0,Titulo,Public,Views,Likes,Comentarios
65,ZAYN - Dusk Till Dawn (Official Video) ft. Sia,2017-09-07,1809300298,12919032,386850
89,ZAYN - PILLOWTALK (Official Music Video),2016-01-29,1099530146,8161724,472577
64,ZAYN - Let Me (Official Video),2018-04-12,189336950,2939157,113991
70,"ZAYN, Taylor Swift - I Don’t Wanna Live Foreve...",2017-01-27,162145499,2046942,62201
49,ZAYN - Entertainer (Official Video),2018-05-23,85703682,1199008,48575
78,ZAYN - LIKE I WOULD,2016-05-10,80169986,1367589,45540
67,ZAYN - Still Got Time (Official Video) ft. PAR...,2017-04-21,69459134,975023,29358
83,ZAYN - BeFoUr,2016-03-25,58769325,982532,40351
82,ZAYN - iT's YoU,2016-03-28,52644528,866534,35424
22,ZAYN - Better (Official Video),2020-09-25,39839993,1676978,197944


In [80]:
#Top 10 videos con más Likes:
top_videos=Datos_video.sort_values(by="Likes",ascending=False).head(10)
top_videos

Unnamed: 0,Titulo,Public,Views,Likes,Comentarios
65,ZAYN - Dusk Till Dawn (Official Video) ft. Sia,2017-09-07,1809300298,12919032,386850
89,ZAYN - PILLOWTALK (Official Music Video),2016-01-29,1099530146,8161724,472577
64,ZAYN - Let Me (Official Video),2018-04-12,189336950,2939157,113991
70,"ZAYN, Taylor Swift - I Don’t Wanna Live Foreve...",2017-01-27,162145499,2046942,62201
22,ZAYN - Better (Official Video),2020-09-25,39839993,1676978,197944
21,ZAYN - Vibez (Official Video),2021-01-08,35874199,1390380,88888
78,ZAYN - LIKE I WOULD,2016-05-10,80169986,1367589,45540
49,ZAYN - Entertainer (Official Video),2018-05-23,85703682,1199008,48575
83,ZAYN - BeFoUr,2016-03-25,58769325,982532,40351
67,ZAYN - Still Got Time (Official Video) ft. PAR...,2017-04-21,69459134,975023,29358


In [79]:
#Top 10 videos más comentados:
top_videos=Datos_video.sort_values(by="Comentarios",ascending=False).head(10)
top_videos

Unnamed: 0,Titulo,Public,Views,Likes,Comentarios
89,ZAYN - PILLOWTALK (Official Music Video),2016-01-29,1099530146,8161724,472577
65,ZAYN - Dusk Till Dawn (Official Video) ft. Sia,2017-09-07,1809300298,12919032,386850
22,ZAYN - Better (Official Video),2020-09-25,39839993,1676978,197944
64,ZAYN - Let Me (Official Video),2018-04-12,189336950,2939157,113991
21,ZAYN - Vibez (Official Video),2021-01-08,35874199,1390380,88888
70,"ZAYN, Taylor Swift - I Don’t Wanna Live Foreve...",2017-01-27,162145499,2046942,62201
49,ZAYN - Entertainer (Official Video),2018-05-23,85703682,1199008,48575
78,ZAYN - LIKE I WOULD,2016-05-10,80169986,1367589,45540
83,ZAYN - BeFoUr,2016-03-25,58769325,982532,40351
82,ZAYN - iT's YoU,2016-03-28,52644528,866534,35424
