In [1]:
from googleapiclient.discovery import build
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import requests
import re
import numpy as np

In [2]:
# Chave de API gerada
API_KEY = "AIzaSyAICGuaeGSkBuypH6q9DQB-NaW7MfrAwSU"

# URL da Playlist '2024 F1 Race Highlights'
playlist_url = "https://www.youtube.com/playlist?list=PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# ID da Playlist
playlist_id = "PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# Criando cliente da API
youtube = build('youtube', 'v3', developerKey=API_KEY)

### Função para converter o formato de exibição da Duração

In [3]:
# Função para converter o formato PT#H#M#S para HH:MM:SS

def converter_duracao(duration):

    # Se a duração for "Unknwn" ou invalidada, retorna 00:00:00
    if duration == "Unknwn" or not duration:
        return "00:00:00"

    match = re.match(r'PT(\d+H)?(\d+M)?(\d+S)?', duration)
    horas = 0
    minutos = 0
    segundos = 0

    if match:
        if match.group(1):
            horas = int(match.group(1)[:-1])  # Remove 'H' e converte para inteiro
        if match.group(2):
            minutos = int(match.group(2)[:-1])  # Remove 'M' e converte para inteiro
        if match.group(3):
            segundos = int(match.group(3)[:-1])  # Remove 'S' e converte para inteiro

    # Retorna em 00:00:00
    return f'{horas:02}:{minutos:02}:{segundos:02}'

### Função para Formatar o campo 'Título'

In [4]:
# Função para capturar e formatar o título (remover "Race Highlights |")

def formatacao_titulo(titulo):

    # Separando o texto indesejado do texto que quero expor
    titulo_formatado = re.sub(r"^Race Highlights \| ", "", titulo)
    return titulo_formatado

### Função para captar os vídeos da playlist

In [5]:
# Função para captar os vídeos contidos na playlist
def get_playlist_videos(id_playlist):
    videos = []
    next_page_token = None

    while True:
        # Requisição para obter os vídeos contidos na playlist
        request = youtube.playlistItems().list(
            part = "snippet",
            playlistId = playlist_id,
            maxResults = 50,
            pageToken = next_page_token
        )

        response = request.execute()

        # Extraindo as informações dos respectivos vídeos
        for item in response['items']:
            video_id = item['snippet']['resourceId']['videoId']
            title = item['snippet']['title']
            publish_date = item['snippet']['publishedAt']

            # Estatísticas do vídeo
            video_details = youtube.videos().list(
                part = "statistics,contentDetails", 
                id = video_id
            ).execute()

            # Percorrendo os dados e informações de cada video
            for video in video_details['items']:
                views = int(video['statistics'].get('viewCount', 0))
                likes = int(video['statistics'].get('likeCount', 0))
                comments = int(video['statistics'].get('commentCount', 0))
                duration = video['contentDetails'].get('duration', "Unknwn")
                region_restriction = video['contentDetails'].get('regionRestriction', {}).get('blocked', [])

                # Adicionando informações à lista 'videos'
                videos.append({
                    'Título': formatacao_titulo(title),
                    'Visualizações': views,
                    'Likes': likes,
                    'Data de Publicação': publish_date,
                    'Comentários': comments,
                    'Duração': converter_duracao(duration),
                    'Regiões Restritas': region_restriction
                })

        # Verificação de ocorrência de mais de uma página na playlist
        next_page_token = response.get('nextPageToken')
        if not next_page_token:
            break
        
    # Retorna a lista de videos atualizada
    return videos


In [6]:
# Criação de um DataFrame no pandas para armazenar os dados

df = pd.DataFrame(get_playlist_videos(playlist_id))

In [7]:
df

Unnamed: 0,Título,Visualizações,Likes,Data de Publicação,Comentários,Duração,Regiões Restritas
0,2024 Abu Dhabi Grand Prix,829660,38746,2024-12-08T16:10:25Z,2170,00:08:10,"[BY, RU]"
1,2024 Qatar Grand Prix,5036414,99458,2024-12-03T14:01:35Z,4472,00:08:04,"[BY, RU]"
2,2024 Las Vegas Grand Prix,6433037,136880,2024-11-28T17:07:39Z,4408,00:08:15,"[BY, RU]"
3,2024 Sao Paulo Grand Prix,7981373,154697,2024-11-04T14:19:44Z,9872,00:08:10,"[BY, RU]"
4,2024 Mexico City Grand Prix,6429057,129644,2024-10-28T09:22:41Z,5973,00:08:14,"[BY, RU]"
5,2024 United States Grand Prix,5900090,116240,2024-10-25T00:31:26Z,7478,00:08:15,"[BY, RU]"
6,2024 Singapore Grand Prix,5649094,103867,2024-10-25T00:31:26Z,3199,00:07:57,"[BY, RU]"
7,2024 Azerbaijan Grand Prix,6882044,138679,2024-09-15T15:59:47Z,7501,00:08:11,"[BY, RU]"
8,2024 Italian Grand Prix,6667731,138484,2024-09-04T14:35:01Z,5479,00:08:15,"[BY, RU]"
9,2024 Dutch Grand Prix,5725978,113063,2024-08-25T19:49:01Z,3564,00:08:01,"[BY, RU]"


##### Nota: 'BY' = 'Bielorússia'; 'RU' = 'Rússia' -> Os países em questão estão com restrição para o vídeo possivelmente em virtude de questões diplomáticas e devido à Guerra Rússia x Ucrânia que acontece ainda no presente ano (2024)

#### Atribuição da coluna 'Taxa de Engajamento' para verificar o Engajamento obtido em cada vídeo

In [14]:
# Atribuindo coluna para Taxa de Engajamento 'Taxa Engajamento" de cada vídeo"

df['Taxa de Engajamento'] = (df['Likes'] + df['Comentários'])/df['Visualizações']*100
df['Taxa de Engajamento'] = df['Taxa de Engajamento'].round(2)

df

Unnamed: 0,Título,Visualizações,Likes,Data de Publicação,Comentários,Duração,Regiões Restritas,Taxa de Engajamento
0,2024 Abu Dhabi Grand Prix,829660,38746,2024-12-08 16:10:25+00:00,2170,00:08:10,"[BY, RU]",4.93
1,2024 Qatar Grand Prix,5036414,99458,2024-12-03 14:01:35+00:00,4472,00:08:04,"[BY, RU]",2.06
2,2024 Las Vegas Grand Prix,6433037,136880,2024-11-28 17:07:39+00:00,4408,00:08:15,"[BY, RU]",2.2
3,2024 Sao Paulo Grand Prix,7981373,154697,2024-11-04 14:19:44+00:00,9872,00:08:10,"[BY, RU]",2.06
4,2024 Mexico City Grand Prix,6429057,129644,2024-10-28 09:22:41+00:00,5973,00:08:14,"[BY, RU]",2.11
5,2024 United States Grand Prix,5900090,116240,2024-10-25 00:31:26+00:00,7478,00:08:15,"[BY, RU]",2.1
6,2024 Singapore Grand Prix,5649094,103867,2024-10-25 00:31:26+00:00,3199,00:07:57,"[BY, RU]",1.9
7,2024 Azerbaijan Grand Prix,6882044,138679,2024-09-15 15:59:47+00:00,7501,00:08:11,"[BY, RU]",2.12
8,2024 Italian Grand Prix,6667731,138484,2024-09-04 14:35:01+00:00,5479,00:08:15,"[BY, RU]",2.16
9,2024 Dutch Grand Prix,5725978,113063,2024-08-25 19:49:01+00:00,3564,00:08:01,"[BY, RU]",2.04


In [22]:
# Converter a coluna 'Data de Publicação' para datetime
df['Data de Publicação'] = pd.to_datetime(df['Data de Publicação'])

In [None]:
# Transferir as informações do DataFrame para um arquivo .csv
df.to_csv('dataframe.csv', index=False)