In [18]:
API_KEY = "AIzaSyALblMAiFuAClIy1rueNvvTRnfZMMdOklI"

In [19]:
import googleapiclient.discovery
import pandas as pd
import langdetect
import time


youtube = googleapiclient.discovery.build("youtube", "v3", developerKey=API_KEY)

# Mapeamento de temas com m칰ltiplas palavras-chave
theme_queries = {
    "tecnologia": ["tecnologia", "inova칞칚o", "intelig칡ncia artificial", "gadgets", "computa칞칚o"],
    "entretenimento": ["filmes", "s칠ries", "m칰sica", "games", "streaming"],
    "pol칤tica": ["pol칤tica", "elei칞칫es", "congresso", "presidente", "governo"],
    "esportes": ["futebol", "basquete", "olimp칤adas", "campeonato", "corrida"],
    "educa칞칚o": ["matem치tica", "hist칩ria", "ci칡ncia", "aprendizado", "escola"]
}

# Fun칞칚o para coletar IDs de v칤deos com filtragem melhorada
def get_video_ids(query_list, max_results=20):
    video_data = []
    for query in query_list:
        request = youtube.search().list(
            q=query,
            part="id,snippet",
            type="video",
            maxResults=max_results
        )
        response = request.execute()
        for item in response.get("items", []):
            video_id = item["id"]["videoId"]
            title = item["snippet"]["title"]
            channel = item["snippet"]["channelTitle"]
            published_at = item["snippet"]["publishedAt"]

            # Tenta detectar o idioma do t칤tulo (evita v칤deos em espanhol, por exemplo)
            try:
                lang = langdetect.detect(title)
                if lang not in ["pt"]:  # Filtra apenas portugu칡s e ingl칡s
                    continue
            except langdetect.lang_detect_exception.LangDetectException:
                pass  # Caso a detec칞칚o falhe, deixa passar

            video_data.append([video_id, title, channel, published_at])
        time.sleep(1)  # Evita rate limit
    return video_data

# Fun칞칚o para coletar coment치rios de um v칤deo
def get_comments(video_id, max_comments=500):
    comments = []
    request = youtube.commentThreads().list(
        part="snippet",
        videoId=video_id,
        maxResults=100
    )
    while request and len(comments) < max_comments:
        try:
            response = request.execute()
        except googleapiclient.errors.HttpError as e:
            error_message = str(e)
            if "commentsDisabled" in error_message:
                print(f"Coment치rios desativados para o v칤deo {video_id}, pulando...")
                return []
            else:
                print(f"Erro ao buscar coment치rios de {video_id}: {error_message}")
                return []

        for item in response.get("items", []):
            snippet = item["snippet"]["topLevelComment"]["snippet"]
            author = snippet.get("authorDisplayName", "")
            published_at = snippet.get("publishedAt", "")
            like_count = snippet.get("likeCount", 0)
            replies_count = item["snippet"].get("totalReplyCount", 0)
            text_original = snippet.get("textOriginal", "")
            is_public = item["snippet"].get("isPublic", True)
            comments.append([video_id, author, published_at, like_count,replies_count, text_original, is_public])

        nextPageToken = response.get("nextPageToken")
        if nextPageToken:
            request = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                maxResults=100,
                pageToken=nextPageToken
            )
        else:
            break
        time.sleep(1)
    return comments

# Coletar IDs de v칤deos para cada tema
all_video_data = []
for theme, queries in theme_queries.items():
    print(f"Coletando v칤deos para o tema: {theme}")
    videos = get_video_ids(queries, max_results=10)
    for video in videos:
        video.append(theme)  # Adiciona o tema ao registro
    all_video_data.extend(videos)

# Salvar os v칤deos em CSV
df_videos = pd.DataFrame(all_video_data, columns=["video_id", "title", "channel", "published_at", "theme"])
df_videos.to_csv("video_ids.csv", index=False)
print(f"Salvo {len(df_videos)} IDs de v칤deos em 'video_ids.csv'.")

# Coletar coment치rios
all_comments = []
for idx, row in df_videos.iterrows():
    video_id = row["video_id"]
    theme = row["theme"]
    print(f"Coletando coment치rios do v칤deo {idx+1}/{len(df_videos)}: {video_id} (Tema: {theme})")
    comments = get_comments(video_id, max_comments=500)
    
    # Adiciona o tema aos coment치rios e s칩 adiciona se n칚o estiver vazio
    if comments:
        for comment in comments:
            comment.append(theme)
        all_comments.extend(comments)
    time.sleep(1)

# Salvar os coment치rios em CSV
df_comments = pd.DataFrame(all_comments, columns=["video_id", "author", "published_at", "like_count","replies_count", "text", "public", "theme"])
df_comments.to_csv("youtube_comments.csv", index=False)
print(f"Coleta finalizada! {len(df_comments)} coment치rios salvos em 'youtube_comments.csv'.")

Coletando v칤deos para o tema: tecnologia
Coletando v칤deos para o tema: entretenimento
Coletando v칤deos para o tema: pol칤tica
Coletando v칤deos para o tema: esportes
Coletando v칤deos para o tema: educa칞칚o
Salvo 161 IDs de v칤deos em 'video_ids.csv'.
Coletando coment치rios do v칤deo 1/161: LiVlS9scKO0 (Tema: tecnologia)
Coletando coment치rios do v칤deo 2/161: sTMwxgzc4jE (Tema: tecnologia)
Coletando coment치rios do v칤deo 3/161: C5Ec_1uLSR8 (Tema: tecnologia)
Coletando coment치rios do v칤deo 4/161: bydwBgc-SZM (Tema: tecnologia)
Coletando coment치rios do v칤deo 5/161: BHh68tEPUgs (Tema: tecnologia)
Coletando coment치rios do v칤deo 6/161: N6h4FIr3-Sk (Tema: tecnologia)
Coletando coment치rios do v칤deo 7/161: rD3AIkASKvM (Tema: tecnologia)
Coletando coment치rios do v칤deo 8/161: UGXkdfnQQ1g (Tema: tecnologia)
Coletando coment치rios do v칤deo 9/161: Qxe07BWpkWk (Tema: tecnologia)
Coletando coment치rios do v칤deo 10/161: 0H1QjD1fi6Q (Tema: tecnologia)
Coletando coment치rios do v칤deo 11/161: cQujsCb9Ulc (Tema: tecn

In [20]:
df = pd.read_csv("youtube_comments.csv")

In [22]:
df.head()

Unnamed: 0,video_id,author,published_at,like_count,replies_count,text,public,theme
0,LiVlS9scKO0,@clebersandrocleber9540,2025-04-03T14:59:41Z,0,0,"Retroceder algumas d칠cadas, a sociedade se to...",True,tecnologia
1,LiVlS9scKO0,@elianevasconcelos2347,2025-04-03T12:27:57Z,0,0,"Quem tiver informa칞칫es ganhar치 o mundo , cada ...",True,tecnologia
2,LiVlS9scKO0,@alexsandroflorencio1635,2025-04-03T10:29:40Z,0,0,s칩 fazer o msm com a china,True,tecnologia
3,LiVlS9scKO0,@volmirdebairos8325,2025-04-03T09:15:30Z,0,0,"tamb칠m poderia dizer que estes s칚o os "" sat칠li...",True,tecnologia
4,LiVlS9scKO0,@jefersonbatistadasilva3306,2025-04-03T04:16:59Z,1,0,Muito Interessante o v칤deo 游닟 游땶 游뱂 游닟.,True,tecnologia
