In [12]:
from googleapiclient.discovery import build
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import requests
import re
import numpy as np

In [13]:
# Chave de API gerada
API_KEY = "AIzaSyAICGuaeGSkBuypH6q9DQB-NaW7MfrAwSU"

# URL da Playlist '2024 F1 Race Highlights'
playlist_url = "https://www.youtube.com/playlist?list=PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# ID da Playlist
playlist_id = "PLfoNZDHitwjUv0pjTwlV1vzaE0r7UDVDR"

# Criando cliente da API
try:
    youtube = build('youtube', 'v3', developerKey=API_KEY)
except Exception as e:
    print(f"Erro ao criar cliente da API YouTube: {e}")
    youtube = None

### Função para converter o formato de exibição da Duração

In [14]:
# Função para converter o formato PT#H#M#S para HH:MM:SS

def converter_duracao(duracao):
    try:
        # Se a duração for "Unknwn" ou invalidada, retorna 00:00:00
        if duracao == "Unknwn" or not duracao:
            return "00:00:00"

        match = re.match(r'PT(\d+H)?(\d+M)?(\d+S)?', duracao)
        horas = 0
        minutos = 0
        segundos = 0

        if match:
            if match.group(1):
                horas = int(match.group(1)[:-1])  # Remove 'H' e converte para inteiro
            if match.group(2):
                minutos = int(match.group(2)[:-1])  # Remove 'M' e converte para inteiro
            if match.group(3):
                segundos = int(match.group(3)[:-1])  # Remove 'S' e converte para inteiro

        # Retorna em 00:00:00
        return f'{horas:02}:{minutos:02}:{segundos:02}'
    
    except Exception as e:
        print(f"Erro ao converter duração: {e}")
        return "00:00:00"

### Função para Formatar o campo 'Título'

In [15]:
# Função para capturar e formatar o título (remover "Race Highlights |")

def formatacao_titulo(titulo):
    try:
        # Separando o texto indesejado do texto que quero expor
        titulo_formatado = re.sub(r"^Race Highlights \| ", "", titulo)
        return titulo_formatado
    except Exception as e:
        print(f"Erro ao formatar o título: {e}")
        return titulo  # Retorna o título original em caso de erro

### Função para captar os vídeos da playlist

In [16]:
# Função para captar os vídeos contidos na playlist
def get_playlist_videos(id_playlist):
    videos = []
    next_page_token = None

    while True:
        try:
            # Requisição para obter os vídeos contidos na playlist
            request = youtube.playlistItems().list(
                part="snippet",
                playlistId=playlist_id,
                maxResults=50,
                pageToken=next_page_token
            )

            response = request.execute()

            # Extraindo as informações dos respectivos vídeos
            for item in response['items']:
                video_id = item['snippet']['resourceId']['videoId']
                title = item['snippet']['title']
                publish_date = item['snippet']['publishedAt']

                try:
                    # Estatísticas do vídeo
                    video_details = youtube.videos().list(
                        part="statistics,contentDetails", 
                        id=video_id
                    ).execute()

                    # Percorrendo os dados e informações de cada video
                    for video in video_details['items']:
                        views = int(video['statistics'].get('viewCount', 0))
                        likes = int(video['statistics'].get('likeCount', 0))
                        comments = int(video['statistics'].get('commentCount', 0))
                        duration = video['contentDetails'].get('duration', "Unknwn")
                        region_restriction = video['contentDetails'].get('regionRestriction', {}).get('blocked', [])

                        # Adicionando informações à lista 'videos'
                        videos.append({
                            'Título': formatacao_titulo(title),
                            'Visualizações': views,
                            'Likes': likes,
                            'Data de Publicação': publish_date,
                            'Comentários': comments,
                            'Duração': converter_duracao(duration),
                            'Regiões Restritas': region_restriction
                        })
                except Exception as e:
                    print(f"Erro ao obter detalhes do vídeo {video_id}: {e}")
                    continue  # Continua com o próximo vídeo

        except Exception as e:
            print(f"Erro ao obter vídeos da playlist {id_playlist}: {e}")
            break  # Encerra o loop em caso de Erros

        # Verificação de ocorrência de mais de uma página na playlist
        next_page_token = response.get('nextPageToken')
        if not next_page_token:
            break

    # Retorna a lista de videos atualizada
    return videos

In [17]:
# Criação de um DataFrame no pandas para armazenar os dados

df = pd.DataFrame(get_playlist_videos(playlist_id))

In [18]:
df

Unnamed: 0,Título,Visualizações,Likes,Data de Publicação,Comentários,Duração,Regiões Restritas
0,2024 Abu Dhabi Grand Prix,5499555,119061,2024-12-08T16:10:25Z,4546,00:08:10,"[BY, RU]"
1,2024 Qatar Grand Prix,5115591,100160,2024-12-03T14:01:35Z,4482,00:08:04,"[BY, RU]"
2,2024 Las Vegas Grand Prix,6492948,137511,2024-11-28T17:07:39Z,4411,00:08:15,"[BY, RU]"
3,2024 Sao Paulo Grand Prix,8028521,155201,2024-11-04T14:19:44Z,9877,00:08:10,"[BY, RU]"
4,2024 Mexico City Grand Prix,6454456,129869,2024-10-28T09:22:41Z,5970,00:08:14,"[BY, RU]"
5,2024 United States Grand Prix,5920626,116406,2024-10-25T00:31:26Z,7471,00:08:15,"[BY, RU]"
6,2024 Singapore Grand Prix,5666187,104005,2024-10-25T00:31:26Z,3201,00:07:57,"[BY, RU]"
7,2024 Azerbaijan Grand Prix,6907413,138917,2024-09-15T15:59:47Z,7516,00:08:11,"[BY, RU]"
8,2024 Italian Grand Prix,6694763,138764,2024-09-04T14:35:01Z,5480,00:08:15,"[BY, RU]"
9,2024 Dutch Grand Prix,5737084,113149,2024-08-25T19:49:01Z,3566,00:08:01,"[BY, RU]"


##### Nota: 'BY' = 'Bielorússia'; 'RU' = 'Rússia' -> Os países em questão estão com restrição para o vídeo possivelmente em virtude de questões diplomáticas e devido à Guerra Rússia x Ucrânia que acontece ainda no presente ano (2024)

#### Atribuição da coluna 'Taxa de Engajamento' para verificar o Engajamento obtido em cada vídeo

In [19]:
# Atribuindo coluna para Taxa de Engajamento 'Taxa Engajamento" de cada vídeo"

df['Taxa de Engajamento'] = (df['Likes'] + df['Comentários'])/df['Visualizações']*100
df['Taxa de Engajamento'] = df['Taxa de Engajamento'].round(2)

df

Unnamed: 0,Título,Visualizações,Likes,Data de Publicação,Comentários,Duração,Regiões Restritas,Taxa de Engajamento
0,2024 Abu Dhabi Grand Prix,5499555,119061,2024-12-08T16:10:25Z,4546,00:08:10,"[BY, RU]",2.25
1,2024 Qatar Grand Prix,5115591,100160,2024-12-03T14:01:35Z,4482,00:08:04,"[BY, RU]",2.05
2,2024 Las Vegas Grand Prix,6492948,137511,2024-11-28T17:07:39Z,4411,00:08:15,"[BY, RU]",2.19
3,2024 Sao Paulo Grand Prix,8028521,155201,2024-11-04T14:19:44Z,9877,00:08:10,"[BY, RU]",2.06
4,2024 Mexico City Grand Prix,6454456,129869,2024-10-28T09:22:41Z,5970,00:08:14,"[BY, RU]",2.1
5,2024 United States Grand Prix,5920626,116406,2024-10-25T00:31:26Z,7471,00:08:15,"[BY, RU]",2.09
6,2024 Singapore Grand Prix,5666187,104005,2024-10-25T00:31:26Z,3201,00:07:57,"[BY, RU]",1.89
7,2024 Azerbaijan Grand Prix,6907413,138917,2024-09-15T15:59:47Z,7516,00:08:11,"[BY, RU]",2.12
8,2024 Italian Grand Prix,6694763,138764,2024-09-04T14:35:01Z,5480,00:08:15,"[BY, RU]",2.15
9,2024 Dutch Grand Prix,5737084,113149,2024-08-25T19:49:01Z,3566,00:08:01,"[BY, RU]",2.03


In [20]:
# Converter a coluna 'Data de Publicação' para datetime
df['Data de Publicação'] = pd.to_datetime(df['Data de Publicação'])

In [21]:
# Transferir as informações do DataFrame para um arquivo .csv
try:
    df.to_csv('dataframe.csv', index=False)
except Exception as e:
    print(f"Erro ao salvar o DataFrame em CSV: {e}")