In [18]:
API_KEY = "AIzaSyALblMAiFuAClIy1rueNvvTRnfZMMdOklI"

In [19]:
import googleapiclient.discovery
import pandas as pd
import langdetect
import time


youtube = googleapiclient.discovery.build("youtube", "v3", developerKey=API_KEY)

# Mapeamento de temas com múltiplas palavras-chave
theme_queries = {
    "tecnologia": ["tecnologia", "inovação", "inteligência artificial", "gadgets", "computação"],
    "entretenimento": ["filmes", "séries", "música", "games", "streaming"],
    "política": ["política", "eleições", "congresso", "presidente", "governo"],
    "esportes": ["futebol", "basquete", "olimpíadas", "campeonato", "corrida"],
    "educação": ["matemática", "história", "ciência", "aprendizado", "escola"]
}

# Função para coletar IDs de vídeos com filtragem melhorada
def get_video_ids(query_list, max_results=20):
    video_data = []
    for query in query_list:
        request = youtube.search().list(
            q=query,
            part="id,snippet",
            type="video",
            maxResults=max_results
        )
        response = request.execute()
        for item in response.get("items", []):
            video_id = item["id"]["videoId"]
            title = item["snippet"]["title"]
            channel = item["snippet"]["channelTitle"]
            published_at = item["snippet"]["publishedAt"]

            # Tenta detectar o idioma do título (evita vídeos em espanhol, por exemplo)
            try:
                lang = langdetect.detect(title)
                if lang not in ["pt"]:  # Filtra apenas português e inglês
                    continue
            except langdetect.lang_detect_exception.LangDetectException:
                pass  # Caso a detecção falhe, deixa passar

            video_data.append([video_id, title, channel, published_at])
        time.sleep(1)  # Evita rate limit
    return video_data

# Função para coletar comentários de um vídeo
def get_comments(video_id, max_comments=500):
    comments = []
    request = youtube.commentThreads().list(
        part="snippet",
        videoId=video_id,
        maxResults=100
    )
    while request and len(comments) < max_comments:
        try:
            response = request.execute()
        except googleapiclient.errors.HttpError as e:
            error_message = str(e)
            if "commentsDisabled" in error_message:
                print(f"Comentários desativados para o vídeo {video_id}, pulando...")
                return []
            else:
                print(f"Erro ao buscar comentários de {video_id}: {error_message}")
                return []

        for item in response.get("items", []):
            snippet = item["snippet"]["topLevelComment"]["snippet"]
            author = snippet.get("authorDisplayName", "")
            published_at = snippet.get("publishedAt", "")
            like_count = snippet.get("likeCount", 0)
            replies_count = item["snippet"].get("totalReplyCount", 0)
            text_original = snippet.get("textOriginal", "")
            is_public = item["snippet"].get("isPublic", True)
            comments.append([video_id, author, published_at, like_count,replies_count, text_original, is_public])

        nextPageToken = response.get("nextPageToken")
        if nextPageToken:
            request = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=100,
                pageToken=nextPageToken
            )
        else:
            break
        time.sleep(1)
    return comments

# Coletar IDs de vídeos para cada tema
all_video_data = []
for theme, queries in theme_queries.items():
    print(f"Coletando vídeos para o tema: {theme}")
    videos = get_video_ids(queries, max_results=10)
    for video in videos:
        video.append(theme)  # Adiciona o tema ao registro
    all_video_data.extend(videos)

# Salvar os vídeos em CSV
df_videos = pd.DataFrame(all_video_data, columns=["video_id", "title", "channel", "published_at", "theme"])
df_videos.to_csv("video_ids.csv", index=False)
print(f"Salvo {len(df_videos)} IDs de vídeos em 'video_ids.csv'.")

# Coletar comentários
all_comments = []
for idx, row in df_videos.iterrows():
    video_id = row["video_id"]
    theme = row["theme"]
    print(f"Coletando comentários do vídeo {idx+1}/{len(df_videos)}: {video_id} (Tema: {theme})")
    comments = get_comments(video_id, max_comments=500)
    
    # Adiciona o tema aos comentários e só adiciona se não estiver vazio
    if comments:
        for comment in comments:
            comment.append(theme)
        all_comments.extend(comments)
    time.sleep(1)

# Salvar os comentários em CSV
df_comments = pd.DataFrame(all_comments, columns=["video_id", "author", "published_at", "like_count","replies_count", "text", "public", "theme"])
df_comments.to_csv("youtube_comments.csv", index=False)
print(f"Coleta finalizada! {len(df_comments)} comentários salvos em 'youtube_comments.csv'.")

Coletando vídeos para o tema: tecnologia
Coletando vídeos para o tema: entretenimento
Coletando vídeos para o tema: política
Coletando vídeos para o tema: esportes
Coletando vídeos para o tema: educação
Salvo 161 IDs de vídeos em 'video_ids.csv'.
Coletando comentários do vídeo 1/161: LiVlS9scKO0 (Tema: tecnologia)
Coletando comentários do vídeo 2/161: sTMwxgzc4jE (Tema: tecnologia)
Coletando comentários do vídeo 3/161: C5Ec_1uLSR8 (Tema: tecnologia)
Coletando comentários do vídeo 4/161: bydwBgc-SZM (Tema: tecnologia)
Coletando comentários do vídeo 5/161: BHh68tEPUgs (Tema: tecnologia)
Coletando comentários do vídeo 6/161: N6h4FIr3-Sk (Tema: tecnologia)
Coletando comentários do vídeo 7/161: rD3AIkASKvM (Tema: tecnologia)
Coletando comentários do vídeo 8/161: UGXkdfnQQ1g (Tema: tecnologia)
Coletando comentários do vídeo 9/161: Qxe07BWpkWk (Tema: tecnologia)
Coletando comentários do vídeo 10/161: 0H1QjD1fi6Q (Tema: tecnologia)
Coletando comentários do vídeo 11/161: cQujsCb9Ulc (Tema: tecn

In [20]:
df = pd.read_csv("youtube_comments.csv")

In [21]:
df.shape

(31866, 8)