In [None]:
from googleapiclient.discovery import build
import pandas as pd
import matplotlib.pyplot as plt
import requests
import re

In [65]:
# Chave de API gerada
API_KEY = "AIzaSyAICGuaeGSkBuypH6q9DQB-NaW7MfrAwSU"

# URL da Playlist '2024 F1 Race Highlights'
playlist_url = "https://www.youtube.com/playlist?list=PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# ID da Playlist
playlist_id = "PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# Criando cliente da API
youtube = build('youtube', 'v3', developerKey=API_KEY)

### Função para converter o formato de exibição da Duração

In [None]:
# Função para converter o formato PT#H#M#S para HH:MM:SS

def converter_duracao(duration):

    # Se a duração for "Unknwn" ou invalidada, retorna 00:00:00
    if duration == "Unknwn" or not duration:
        return "00:00:00"

    match = re.match(r'PT(\d+H)?(\d+M)?(\d+S)?', duration)
    horas = 0
    minutos = 0
    segundos = 0

    if match:
        if match.group(1):
            horas = int(match.group(1)[:-1])  # Remove 'H' e converte para inteiro
        if match.group(2):
            minutos = int(match.group(2)[:-1])  # Remove 'M' e converte para inteiro
        if match.group(3):
            segundos = int(match.group(3)[:-1])  # Remove 'S' e converte para inteiro

    # Retorna em 00:00:00
    return f'{horas:02}:{minutos:02}:{segundos:02}'

In [None]:
# Função para capturar e formatar o título (remover "Race Highlights |")

def formatacao_titulo(titulo):

    # Separando o texto indesejado do texto que quero expor
    titulo_formatado = re.sub(r"^Race Highlights \| ", "", titulo)
    return titulo_formatado

### Função para captar os vídeos da playlist

In [None]:
# Função para captar os vídeos contidos na playlist
def get_playlist_videos(id_playlist):
    videos = []
    next_page_token = None

    while True:
        # Requisição para obter os vídeos contidos na playlist
        request = youtube.playlistItems().list(
            part = "snippet",
            playlistId = playlist_id,
            maxResults = 50,
            pageToken = next_page_token
        )

        response = request.execute()

        # Extraindo as informações dos respectivos vídeos
        for item in response['items']:
            video_id = item['snippet']['resourceId']['videoId']
            title = item['snippet']['title']
            publish_date = item['snippet']['publishedAt']

            # Estatísticas do vídeo
            video_details = youtube.videos().list(
                part = "statistics,contentDetails", 
                id = video_id
            ).execute()

            # Percorrendo os dados e informações de cada video
            for video in video_details['items']:
                views = int(video['statistics'].get('viewCount', 0))
                likes = int(video['statistics'].get('likeCount', 0))
                comments = int(video['statistics'].get('commentCount', 0))
                duration = video['contentDetails'].get('duration', "Unknwn")
                region_restriction = video['contentDetails'].get('regionRestriction', {}).get('blocked', [])

                # Adicionando informações à lista 'videos'
                videos.append({
                    'Título': formatacao_titulo(title),
                    'Visualizações': views,
                    'Likes': likes,
                    'Data de Publicação': publish_date,
                    'Comentários': comments,
                    'Duração': converter_duracao(duration),
                    'Regiões Restritas': region_restriction
                })

        # Verificação de ocorrência de mais de uma página na playlist
        next_page_token = response.get('nextPageToken')
        if not next_page_token:
            break
        
    # Retorna a lista de videos atualizada
    return videos


In [92]:
get_playlist_videos(playlist_id)

[{'Título': 'Race Highlights | 2024 Qatar Grand Prix',
  'Visualizações': 4991327,
  'Likes': 99014,
  'Data de Publicação': '2024-12-03T14:01:35Z',
  'Comentários': 4464,
  'Duração': '00:08:04',
  'Regiões Restritas': ['BY', 'RU']},
 {'Título': 'Race Highlights | 2024 Las Vegas Grand Prix',
  'Visualizações': 6418398,
  'Likes': 136727,
  'Data de Publicação': '2024-11-28T17:07:39Z',
  'Comentários': 4406,
  'Duração': '00:08:15',
  'Regiões Restritas': ['BY', 'RU']},
 {'Título': 'Race Highlights | 2024 Sao Paulo Grand Prix',
  'Visualizações': 7974499,
  'Likes': 154615,
  'Data de Publicação': '2024-11-04T14:19:44Z',
  'Comentários': 9873,
  'Duração': '00:08:10',
  'Regiões Restritas': ['BY', 'RU']},
 {'Título': 'Race Highlights | 2024 Mexico City Grand Prix',
  'Visualizações': 6425007,
  'Likes': 129619,
  'Data de Publicação': '2024-10-28T09:22:41Z',
  'Comentários': 5973,
  'Duração': '00:08:14',
  'Regiões Restritas': ['BY', 'RU']},
 {'Título': 'Race Highlights | 2024 United 

In [68]:
# Criação de um DataFrame no pandas para armazenar os dados

df = pd.DataFrame(get_playlist_videos(playlist_id))

In [None]:
df

Unnamed: 0,Título,Visualizações,Likes,Data de Publicação,Comentários,Duração,Regiões Restritas
2,Race Highlights | 2024 Sao Paulo Grand Prix,7974383,154613,2024-11-04T14:19:44Z,9873,00:08:10,"[BY, RU]"
10,Race Highlights | 2024 Hungarian Grand Prix,8866058,158785,2024-07-22T09:48:32Z,11688,00:08:10,"[BY, RU]"
11,Race Highlights | 2024 British Grand Prix,7479434,177030,2024-07-09T13:33:58Z,7833,00:08:06,"[BY, RU]"
15,Race Highlights | 2024 Monaco Grand Prix,8991152,168343,2024-05-26T16:13:00Z,6858,00:08:08,"[BY, RU]"
17,Race Highlights | 2024 Miami Grand Prix,7599006,181792,2024-05-10T10:51:13Z,6500,00:08:08,"[BY, RU]"
19,Race Highlights | 2024 Japanese Grand Prix,7169230,131501,2024-04-16T07:50:59Z,4766,00:08:02,"[BY, RU]"
20,Race Highlights | 2024 Australian Grand Prix,9655154,207715,2024-04-01T02:30:41Z,7097,00:08:15,"[BY, RU]"


In [69]:
# Nota: 'BY' = 'Bielorússia'; 'RU' = 'Rússia'
# Os países em questão estão com restrição para o vídeo possivelmente em virtude de questões diplomáticas e devido à Guerra Rússia x Ucrânia que acontece ainda no presente ano (2024)