<a href="https://colab.research.google.com/github/FiSeveroo/coletor-youtube/blob/main/Coleta.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import googleapiclient.discovery
from datetime import datetime
import csv
import re  # Biblioteca para trabalhar com expressões regulares
import pytz  # Biblioteca para fusos horários

# Configurações
API_KEY = "AIzaSyA4v3EonkavZa5vH4nWK7Ji6tvYtnbAtzA"  # Sua chave de API
YOUTUBE_API_SERVICE_NAME = "youtube"
YOUTUBE_API_VERSION = "v3"

# Criar o serviço da API
youtube = googleapiclient.discovery.build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=API_KEY)

# Função para coletar vídeos populares
def coletar_videos_populares():
    request = youtube.videos().list(
        part="snippet,contentDetails,statistics",
        chart="mostPopular",
        regionCode="BR",
        maxResults=50
    )
    response = request.execute()
    return response["items"]

# Função para converter duração ISO 8601 para HH:MM:SS (sem usar isodate)
def formatar_duracao(duracao_iso):
    try:
        # Extrair horas, minutos e segundos usando expressão regular
        padrao = re.compile(r'PT(?:(\d+)H)?(?:(\d+)M)?(?:(\d+)S)?')
        match = padrao.match(duracao_iso)
        horas = int(match.group(1)) if match.group(1) else 0
        minutos = int(match.group(2)) if match.group(2) else 0
        segundos = int(match.group(3)) if match.group(3) else 0

        # Formatar a duração como HH:MM:SS
        return f"{horas:02}:{minutos:02}:{segundos:02}"
    except:
        return "00:00:00"

# Função para buscar o guideCategory do canal
def buscar_guide_category(channel_id):
    try:
        # Buscar informações do canal
        channel_request = youtube.channels().list(
            part="topicDetails",
            id=channel_id
        )
        channel_response = channel_request.execute()

        # Extrair guideCategory (categorias de tópicos)
        if "items" in channel_response and channel_response["items"]:
            topic_categories = channel_response["items"][0].get("topicDetails", {}).get("topicCategories", [])
            # Filtrar apenas as categorias do YouTube (começam com "https://en.wikipedia.org/wiki/")
            guide_categories = [cat.split("/")[-1] for cat in topic_categories if "wikipedia.org" in cat]
            return ", ".join(guide_categories) if guide_categories else "N/A"
        else:
            return "N/A"
    except Exception as e:
        print(f"Erro ao buscar guideCategory: {e}")
        return "N/A"

# Função para buscar o país do canal
def buscar_pais(channel_id):
    try:
        # Buscar informações do canal
        channel_request = youtube.channels().list(
            part="snippet",
            id=channel_id
        )
        channel_response = channel_request.execute()

        # Extrair o país do canal
        if "items" in channel_response and channel_response["items"]:
            country = channel_response["items"][0].get("snippet", {}).get("country", "N/A")
            return country
        else:
            return "N/A"
    except Exception as e:
        print(f"Erro ao buscar país: {e}")
        return "N/A"

# Função para processar os dados dos vídeos
def processar_dados(videos):
    dados_coletados = []

    for index, item in enumerate(videos):
        video_id = item["id"]
        snippet = item["snippet"]
        statistics = item["statistics"]
        content_details = item["contentDetails"]

        # Coletar dados diretamente da API
        data = {
            "Posicao na coleta": index + 1,
            "Gênero do vídeo": "",  # Deixar vazio
            "Tipo de produtor": "",  # Deixar vazio
            "Categoria do vídeo": snippet.get("categoryId", ""),  # Categoria do vídeo (categoryId)
            "guideCategory": buscar_guide_category(snippet.get("channelId", "")),  # guideCategory do canal
            "Taxa de engajamento": "",
            "Idioma": snippet.get("defaultAudioLanguage", snippet.get("defaultLanguage", "")),
            "Posicao Geral": index + 1,
            "Id do canal": snippet.get("channelId", ""),
            "Canal": snippet.get("channelTitle", ""),
            "Inscritos no canal": 0,  # Será preenchido posteriormente
            "Id do vídeo": video_id,
            "Data de publicação": snippet.get("publishedAt", ""),
            "Diferenca de horas entre postagem e coleta": "",
            "Título do vídeo": snippet.get("title", ""),
            "Descrição do vídeo": snippet.get("description", ""),
            "Tags do video": ", ".join(snippet.get("tags", [])),
            "Duração do vídeo": formatar_duracao(content_details.get("duration", "")),  # Formatar duração
            "Visualizações": statistics.get("viewCount", 0),
            "Gostei": statistics.get("likeCount", 0),
            "Comentários": statistics.get("commentCount", 0),
            "thumbnail_maxres": snippet.get("thumbnails", {}).get("maxres", {}).get("url", ""),
            "Pais": buscar_pais(snippet.get("channelId", "")),  # País do canal
        }

        # Calcular taxa de engajamento
        try:
            views = int(data["Visualizações"])
            likes = int(data["Gostei"])
            comments = int(data["Comentários"])
            data["Taxa de engajamento"] = f"{(likes + comments) / views * 100:.2f}%" if views > 0 else "0%"
        except (ValueError, TypeError):
            data["Taxa de engajamento"] = "0%"

        # Calcular diferença de horas entre postagem e coleta
        try:
            post_date = datetime.fromisoformat(data["Data de publicação"].replace("Z", ""))
            current_date = datetime.utcnow()
            diff_hours = (current_date - post_date).total_seconds() / 3600
            data["Diferenca de horas entre postagem e coleta"] = f"{diff_hours:.2f} horas"
        except (ValueError, TypeError):
            data["Diferenca de horas entre postagem e coleta"] = "0 horas"

        # Coletar inscritos do canal (requer chamada adicional)
        channel_request = youtube.channels().list(
            part="statistics",
            id=data["Id do canal"]
        )
        channel_response = channel_request.execute()
        if channel_response["items"]:
            data["Inscritos no canal"] = int(channel_response["items"][0]["statistics"].get("subscriberCount", 0))
        else:
            data["Inscritos no canal"] = 0

        # Adicionar os dados à lista
        dados_coletados.append(data)

    return dados_coletados

# Função para exportar os dados para CSV
def exportar_para_csv(dados):
    # Ajustar o formato da data e hora para o nome do arquivo
    tz = pytz.timezone('America/Sao_Paulo')
    hora_atual = datetime.now(tz)
    nome_arquivo = hora_atual.strftime("%Hh%Mm %d.%m.%Y") + ".csv"

    campos = [
        "Posicao na coleta", "Gênero do vídeo", "Tipo de produtor", "Categoria do vídeo", "guideCategory",
        "Taxa de engajamento", "Idioma", "Posicao Geral", "Id do canal", "Canal", "Inscritos no canal",
        "Id do vídeo", "Data de publicação", "Diferenca de horas entre postagem e coleta", "Título do vídeo",
        "Descrição do vídeo", "Tags do video", "Duração do vídeo", "Visualizações", "Gostei", "Comentários",
        "thumbnail_maxres", "Pais"
    ]
    with open(nome_arquivo, mode="w", newline="", encoding="utf-8") as arquivo_csv:
        escritor_csv = csv.DictWriter(arquivo_csv, fieldnames=campos)
        escritor_csv.writeheader()
        escritor_csv.writerows(dados)
    print(f"✅ Dados coletados e salvos em {nome_arquivo}")

# Função principal
def main():
    # Coletar vídeos populares
    videos = coletar_videos_populares()

    # Processar os dados dos vídeos
    dados_coletados = processar_dados(videos)

    # Exportar para CSV
    exportar_para_csv(dados_coletados)

# Executar o programa
if __name__ == "__main__":
    main()


✅ Dados coletados e salvos em 12h41m 05.03.2025.csv
