In [1]:
from googleapiclient.discovery import build
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import requests
import re
import numpy as np

In [2]:
# Chave de API gerada
API_KEY = "AIzaSyAICGuaeGSkBuypH6q9DQB-NaW7MfrAwSU"

# URL da Playlist '2024 F1 Race Highlights'
playlist_url = "https://www.youtube.com/playlist?list=PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# ID da Playlist
playlist_id = "PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# Criando cliente da API
youtube = build('youtube', 'v3', developerKey=API_KEY)

### Função para converter o formato de exibição da Duração

In [None]:
# Função para converter o formato PT#H#M#S para HH:MM:SS

def converter_duracao(duracao):

    # Se a duração for "Unknwn" ou invalidada, retorna 00:00:00
    if duracao == "Unknwn" or not duracao:
        return "00:00:00"

    match = re.match(r'PT(\d+H)?(\d+M)?(\d+S)?', duracao)
    horas = 0
    minutos = 0
    segundos = 0

    if match:
        if match.group(1):
            horas = int(match.group(1)[:-1])  # Remove 'H' e converte para inteiro
        if match.group(2):
            minutos = int(match.group(2)[:-1])  # Remove 'M' e converte para inteiro
        if match.group(3):
            segundos = int(match.group(3)[:-1])  # Remove 'S' e converte para inteiro

    # Retorna em 00:00:00
    return f'{horas:02}:{minutos:02}:{segundos:02}'

### Função para Formatar o campo 'Título'

In [4]:
# Função para capturar e formatar o título (remover "Race Highlights |")

def formatacao_titulo(titulo):

    # Separando o texto indesejado do texto que quero expor
    titulo_formatado = re.sub(r"^Race Highlights \| ", "", titulo)
    return titulo_formatado

### Função para captar os vídeos da playlist

In [5]:
# Função para captar os vídeos contidos na playlist
def get_playlist_videos(id_playlist):
    videos = []
    next_page_token = None

    while True:
        # Requisição para obter os vídeos contidos na playlist
        request = youtube.playlistItems().list(
            part = "snippet",
            playlistId = playlist_id,
            maxResults = 50,
            pageToken = next_page_token
        )

        response = request.execute()

        # Extraindo as informações dos respectivos vídeos
        for item in response['items']:
            video_id = item['snippet']['resourceId']['videoId']
            title = item['snippet']['title']
            publish_date = item['snippet']['publishedAt']

            # Estatísticas do vídeo
            video_details = youtube.videos().list(
                part = "statistics,contentDetails", 
                id = video_id
            ).execute()

            # Percorrendo os dados e informações de cada video
            for video in video_details['items']:
                views = int(video['statistics'].get('viewCount', 0))
                likes = int(video['statistics'].get('likeCount', 0))
                comments = int(video['statistics'].get('commentCount', 0))
                duration = video['contentDetails'].get('duration', "Unknwn")
                region_restriction = video['contentDetails'].get('regionRestriction', {}).get('blocked', [])

                # Adicionando informações à lista 'videos'
                videos.append({
                    'Título': formatacao_titulo(title),
                    'Visualizações': views,
                    'Likes': likes,
                    'Data de Publicação': publish_date,
                    'Comentários': comments,
                    'Duração': converter_duracao(duration),
                    'Regiões Restritas': region_restriction
                })

        # Verificação de ocorrência de mais de uma página na playlist
        next_page_token = response.get('nextPageToken')
        if not next_page_token:
            break
        
    # Retorna a lista de videos atualizada
    return videos


In [None]:
# Criação de um DataFrame no pandas para armazenar os dados

df = pd.DataFrame(get_playlist_videos(playlist_id))

In [None]:
df

##### Nota: 'BY' = 'Bielorússia'; 'RU' = 'Rússia' -> Os países em questão estão com restrição para o vídeo possivelmente em virtude de questões diplomáticas e devido à Guerra Rússia x Ucrânia que acontece ainda no presente ano (2024)

#### Atribuição da coluna 'Taxa de Engajamento' para verificar o Engajamento obtido em cada vídeo

In [None]:
# Atribuindo coluna para Taxa de Engajamento 'Taxa Engajamento" de cada vídeo"

df['Taxa de Engajamento'] = (df['Likes'] + df['Comentários'])/df['Visualizações']*100
df['Taxa de Engajamento'] = df['Taxa de Engajamento'].round(2)

df

In [22]:
# Converter a coluna 'Data de Publicação' para datetime
df['Data de Publicação'] = pd.to_datetime(df['Data de Publicação'])

In [None]:
# Transferir as informações do DataFrame para um arquivo .csv
df.to_csv('dataframe.csv', index=False)