# *API*

In [None]:
import os
import pandas as pd
import time
import googleapiclient.discovery
from googleapiclient import errors

# Antes de usar, você precisa de uma developer key do YT
DEVELOPER_KEY = "AIzaSyC-IGrurz9MApvHsM6WQ1BTtmVX7rnV9Co"


# Configuração API
def api_builder():
    os.environ["OAUTHLIB_INSECURE_TRANSPORT"] = "1"
    api_service_name = "youtube"
    api_version = "v3"
    youtube = googleapiclient.discovery.build(
        api_service_name, api_version, developerKey=DEVELOPER_KEY)
    return youtube


def video_extractor(api):
    next_page_token = ''
    videos = []
    while True:
        request = api.videos().list(
            part="id",
            chart="mostPopular",
            regionCode="BR",
            pageToken=next_page_token
        )
        response = request.execute()

        for item in response["items"]:
            videos.append(item["id"])

        try:
            next_page_token = response["nextPageToken"]
        except KeyError:
            break
    return videos


def comments_extractor(api, videos, quantidade):
    next_page_token = ''  # Para começar pela primeira pagina, este token deve ser nulo
    comments = []  # dar append comentário por comentário (sem suas respostas)
    switch = True
    max_comments = quantidade
    for video_id in videos:
        # if aqui talvez
        # Dentro de um vídeo
        if not switch:
            break
        while True:
            request = api.commentThreads().list(
                part="snippet",
                order="time",
                pageToken=next_page_token,  # página dos comentários
                videoId=video_id
            )
            try:
                response = request.execute()
            except errors.HttpError:
                break

            for item in response['items']:
                if len(comments) < max_comments:
                    comments.append(item['snippet']['topLevelComment']['snippet']['textOriginal'])
                else:
                    switch = False
                    break

            if not switch:
                break

            # Quando terminar de adicionar os comentários da página inicial(20), a API deve pegar o
            # token da próxima página, até que não tenha mais token (ou seja, quando der erro)
            try:
                next_page_token = response['nextPageToken']
            except KeyError:
                break
    return comments


def main():
    quantidade = int(input("Digite a quantidade de videos que deseja extrair: \n"))
    start = time.time()
    api = api_builder()
    videos = video_extractor(api)
    comments = comments_extractor(api, videos, quantidade)

    print(f"{len(comments)} comentários")
    # Transforma a lista em DataFrame e disponibiliza o arquivo em csv
    df = pd.DataFrame(comments, columns=['Comentários'])
    df.to_csv("comentarios.csv", encoding='utf-8', index=False)

    end = time.time()
    exec_time = end - start
    print(f"Tempo de execução: {exec_time:.2f}s ")


if __name__ == "__main__":
    main()


# Tratamento

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import time

start = time.time()
# Importando o arquivo csv
df = pd.read_csv("/content/drive/MyDrive/Comentários_API/comentarios.csv", encoding='UTF-8')

# Criando uma nova coluna "lixo"
df["new"] = None

# Separando os conteúdos
for index, row in df.iterrows():
    comentarios = row['Comentários']
    # Substituindo os caracteres especiais
    comentarios = str(comentarios)

    comentarios = comentarios.replace('[a-zA-ZÀ-Úà-ú ]', '')
    # Verificando se é somente caracteres alfabéticos
    if comentarios.isalpha():
        df.at[index, 'Comentários'] = comentarios
    else:
        df.at[index, 'new'] = comentarios
        df.at[index, 'Comentários'] = None

# Exibindo o resultado
display(df)

end = time.time()
exec_time = end - start
print(f"Tempo de execução: {exec_time:.2f}s ")

Unnamed: 0,Comentários,new
0,,Eu nunca pensei que fosse dizer isso algum dia...
1,,ARITANA DE OXÓSSI 💚♥️🧚‍♀️🧚‍♂️
2,,Adson pai das meninas
3,,Corinthians minha paixão ❤️
4,,Mesmo que nós perdemos estaremos fortes todo m...
...,...,...
59262,,Melhor pessoa para fazer esses trabalhos tudoo...
59263,,"O problema da Joy não é a mala da ida, é a mal..."
59264,,Boa Joy💝 acertaram mto com a Joy! Alegria sempre🍀
59265,,Menina Joy ❤


Tempo de execução: 4.86s 


In [None]:
print(df['new'])
null_values = df['new'].isna().sum()
print(f'{null_values.sum()} valores nulos')

0                                   Adson pai das meninas
1                            Corinthians  minha paixão ❤️
2       Mesmo que nós perdemos estaremos fortes todo m...
3       Legal a transmissão. Mas, este jogo merecia tv...
4       o São Paulo não podia ter perdido esse jogo......
                              ...                        
9995                                              🥰😍🥰😍🥰🥰🥰
9996                              That was life changing.
9997                             You are sigma mr beest 🌍
9998                                              I cried
9999    FK MR BEAST FOR MAKING ME CRY. I THINK IMMA GO...
Name: new, Length: 10000, dtype: object
301 valores nulos


In [None]:
# Substituir caracteres especiais por espaços em branco
df['Comentários'] = df['Comentários'].str.replace('[a-zA-ZÀ-Úà-ú ]', '')
# Null em comentários vazios
df = df.dropna(subset=['Comentários'])
# Filtrar apenas as strings com caracteres do alfabeto
novodf = df[df['Comentários'].str.isalpha()]

null_values = novodf.isna().sum()
print(f'{null_values.sum()} valores nulos')

display(novodf)

15 valores nulos


  df['Comentários'] = df['Comentários'].str.replace('[a-zA-ZÀ-Úà-ú ]', '')


Unnamed: 0,Comentários,new
6113,ладно,
6694,ولله,
7133,Имба,
7181,احبك,
7301,Красавчик,
7527,лучший,
7712,Мегахарош,
7771,こんな神みたいな人がいるのか,
7906,Привет,
8180,Имммммбббааа,


# Sessão 2

In [None]:
# Substituir caracteres especiais por espaços em branco
df['Comentários'] = df['Comentários'].str.replace('[^a-zA-ZÀ-Úà-ú ]', '')
# Null em comentários vazios
df = df.dropna(subset=['Comentários'])
# Filtrar apenas as strings com caracteres do alfabeto
novodf = df[df['Comentários'].str.isalpha()]

null_values = novodf.isna().sum()
print(f'{null_values.sum()} valores nulos')

display(novodf)

0.0 valores nulos


  df['Comentários'] = df['Comentários'].str.replace('[^a-zA-ZÀ-Úà-ú ]', '')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Comentários'] = df['Comentários'].str.replace('[^a-zA-ZÀ-Úà-ú ]', '')


Unnamed: 0,Comentários,new


In [None]:
from zmq.constants import NULL
import pandas as pd
import numpy as np
import re

"""Arquivo importato e removido valores nulos"""

df = pd.read_csv("/content/drive/MyDrive/Comentários_API/comentarios.csv", encoding='UTF-8')
new_df = df.dropna()

new_df = new_df.assign(NovaColuna = 0)

print("*"*50)

new_df["Comentarios"] = new_df['Comentarios'].str.replace('[a-zA-ZÀ-Úà-ú ]', '')
NovaColuna = df.dropna()


new_df = new_df[new_df['Comentarios'].str.isalpha()]
display(new_df, NovaColuna)



**************************************************


  new_df["Comentarios"] = new_df['Comentarios'].str.replace('[a-zA-ZÀ-Úà-ú ]', '')


Unnamed: 0,Comentarios,NovaColuna
1,ستة,0
4,سبعة,0
18,찰떡궁합이네,0
19,مااقدراغيراسميواحسخلاصمااقدرانتظرليناسبوعين,0
65,المشكلةإنيقاعداسرتمبـيديمببرجولي,0
...,...,...
172787,𝙰𝚖𝚘𝚟𝚒𝚍𝚎𝚘𝚍𝚎𝚖𝚊𝚝𝚎𝚛𝚒𝚊𝚕𝚎𝚜𝚌𝚘𝚕𝚊𝚛,0
179574,ª,0
184808,ü,0
185950,ź,0


Unnamed: 0,Comentarios
0,Beautiful ❤️😍
1,ستة
2,. ...
3,This absolutely gonna be The one and only anth...
4,سبعة
...,...
196580,RAinbOWFriends
196581,Renbou friends
196582,#rainbowfriends
196583,RainbowFriends
