In [1]:
import pandas as pd
import pytchat
import json

In [2]:
def scrape_live(video_id, max_comments=500):
    """
    This function scrapes comments from YouTube lives.
    """
    # Calling the chat variable as the function of pytchat library
    chat = pytchat.create(video_id=video_id)

    #Empty list to collect comments 
    comments = []

    #counting comments 
    comment_count = 0

    # Loop to scrape comments 
    while chat.is_alive() and comment_count < max_comments:
        for c in chat.get().sync_items():
            comment = {
                "datetime": c.datetime,
                "authorname": c.author.name,
                "message": c.message
            }
            comments.append(comment)
            comment_count += 1

            #Print delected comment 
            print(f"{comment['datetime']} [{comment['authorname']}] - {comment['message']}")

            if comment_count >= max_comments:
                break

    #Converting empty list to df 
    df_comments = pd.DataFrame(comments, columns=["datetime", "authorname", "message"])

    return df_comments


## Scraping the first illegal live

In [3]:
# Exemplo de uso
video_id = "0n7SMHqWe3o"
max_comments = 500

df = scrape_live(video_id, max_comments)
print(df.head())


2024-07-04 16:02:02 [Maurício Pereira] - coloquei 40 tirei 70 tabom até 
2024-07-04 16:02:03 [Joaquim Dias] - acabei de me cadastrar 
2024-07-04 16:02:04 [Antenor Fontana] - muito boa essa plataforma 
2024-07-04 16:02:07 [Romeu Batista] - já tô subindo minha banca pra 500 
2024-07-04 16:02:08 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:02:08 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:02:12 [Márcio Yamada] - slc tô forrando aquijá me cadastrei e agora ? 
2024-07-04 16:02:14 [Jurandir Lourenço] - já me cadastrei e agora ? 
2024-07-04 16:02:15 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:02:17 [Fábio Figueiredo] - ganha pra dedel 
2024-07-04 16:02:18 [Sílvio Araújo] - ganhei 78 já 
2024-07-04 16:02:22 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:02:23 [Túlio Pedroso] - como pode tá pagando tanto assim 
2024-07-04 16:02:29 [Tomás Amaral] - Eu ganhei no ratinho 
2024-07

In [4]:
df

Unnamed: 0,datetime,authorname,message
0,2024-07-04 16:02:02,Maurício Pereira,coloquei 40 tirei 70 tabom até
1,2024-07-04 16:02:03,Joaquim Dias,acabei de me cadastrar
2,2024-07-04 16:02:04,Antenor Fontana,muito boa essa plataforma
3,2024-07-04 16:02:07,Romeu Batista,já tô subindo minha banca pra 500
4,2024-07-04 16:02:08,PLATAFORMA NOVA,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH
...,...,...,...
495,2024-07-04 16:17:10,Tomás Amaral,já me cadastrei e agora ?
496,2024-07-04 16:17:12,PLATAFORMA NOVA,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH
497,2024-07-04 16:17:12,Elísio Ferraz,método infalível
498,2024-07-04 16:17:12,Gilson Vargas,ganha pra dedel


In [5]:
df['authorname'].unique()

array(['Maurício Pereira', 'Joaquim Dias', 'Antenor Fontana',
       'Romeu Batista', 'PLATAFORMA NOVA', 'Márcio Yamada',
       'Jurandir Lourenço', 'Fábio Figueiredo', 'Sílvio Araújo',
       'Túlio Pedroso', 'Tomás Amaral', 'Émerson Belchior',
       'Julio Fonseca', 'Rodrigo Soares da Silva', 'Emanuel Ventura',
       'Elísio Ferraz', 'Jose Hinaldo', 'Vinicius Pinheiro',
       'Gilson Vargas', 'Slvtkzin', 'Deyvisson Fernandes',
       'Alfredo Vargas', 'Rhyan Ribeiro', 'Pink ponto com Jeans',
       'Viih Lima', 'Marina Lima'], dtype=object)

In [6]:
x = df.groupby(['message']).size().reset_index(name="Contagem")
x.sort_values('Contagem', ascending=False).head(20)

Unnamed: 0,message,Contagem
2,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH,123
67,muito boa essa plataforma,26
5,HACK DO TELEGRAM:https://bit.ly/4bQw1DH,23
32,como pode tá pagando tanto assim,13
37,esses dias ganhei 500 nessa plataforma,13
60,já me cadastrei e agora ?,12
86,tá funcionando ainda ?,11
88,tô ganhando desde ontem vamos ver,10
82,slc tô forrando aquijá me cadastrei e agora ?,10
48,ganhei 78 já,10


In [7]:
comentarios_contagem = df['message'].value_counts().reset_index()
comentarios_contagem.columns = ['message', 'count']

# Contar a quantidade de autores únicos para cada comentário
autores_por_comentario = df.groupby('message')['authorname'].nunique().reset_index()
autores_por_comentario.columns = ['message', 'unique_authors']

# Juntar as duas contagens em um único DataFrame
resultado = pd.merge(comentarios_contagem, autores_por_comentario, on='message')

resultado


Unnamed: 0,message,count,unique_authors
0,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH,123,1
1,muito boa essa plataforma,26,12
2,HACK DO TELEGRAM:https://bit.ly/4bQw1DH,23,1
3,como pode tá pagando tanto assim,13,8
4,esses dias ganhei 500 nessa plataforma,13,10
...,...,...,...
93,como pode gente,1,1
94,Ganhei 120 já SLC tá pagando muito,1,1
95,slc tô forrando aqui,1,1
96,ganhei 200 agora de pouco,1,1


In [8]:
df.to_csv('dados_comentarios_1.csv')
resultado.to_csv('resultado_comentarios_1.csv')

## Scraping again this illegal live

In [9]:
video_id = "0n7SMHqWe3o"
max_comments = 500

df_2 = scrape_live(video_id, max_comments)
print(df.head())


2024-07-04 16:17:15 [PLATAFORMA NOVA] - HACK DO TELEGRAM:https://bit.ly/4bQw1DH 
2024-07-04 16:17:18 [Émerson Belchior] - como pode tá pagando tanto assim 
2024-07-04 16:17:20 [Pink ponto com Jeans] - FAQUE
2024-07-04 16:17:22 [Joaquim Dias] - você é demais 
2024-07-04 16:17:23 [Maurício Pereira] - já dá pra fazer as compras 
2024-07-04 16:17:26 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:17:26 [Romeu Batista] - gratidão 
2024-07-04 16:17:28 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:17:28 [Antenor Fontana] - você é iluminado 
2024-07-04 16:17:31 [Jurandir Lourenço] - vou só usar essa plataforma agora 
2024-07-04 16:17:35 [Márcio Yamada] - slc forrei o mundo aqui 
2024-07-04 16:17:35 [PLATAFORMA NOVA] - CADASTRE-SE AQUI:https://bit.ly/4bQw1DH 
2024-07-04 16:17:38 [Fábio Figueiredo] - esses dias ganhei 500 nessa plataforma 
2024-07-04 16:17:38 [Sílvio Araújo] - entrei agora no grupo 
2024-07-04 16:17:40 [PLATAFORMA NOVA] - C

In [10]:
z = df_2.groupby(['message']).size().reset_index(name="Contagem")
z.sort_values('Contagem', ascending=False).head(20)




Unnamed: 0,message,Contagem
3,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH,117
8,HACK DO TELEGRAM:https://bit.ly/4bQw1DH,23
73,muito boa essa plataforma,20
39,esses dias ganhei 500 nessa plataforma,17
91,tá funcionando ainda ?,10
62,já dá pra fazer as compras,10
97,você é demais,10
83,slc forrei o mundo aqui,10
104,vou só usar essa plataforma agora,9
63,já me cadastrei e agora ?,9


In [11]:
comentarios_contagem = df['message'].value_counts().reset_index()
comentarios_contagem.columns = ['message', 'count']

# Contar a quantidade de autores únicos para cada comentário
autores_por_comentario = df.groupby('message')['authorname'].nunique().reset_index()
autores_por_comentario.columns = ['message', 'unique_authors']

# Juntar as duas contagens em um único DataFrame
resultado_2 = pd.merge(comentarios_contagem, autores_por_comentario, on='message')

resultado_2



Unnamed: 0,message,count,unique_authors
0,CADASTRE-SE AQUI:https://bit.ly/4bQw1DH,123,1
1,muito boa essa plataforma,26,12
2,HACK DO TELEGRAM:https://bit.ly/4bQw1DH,23,1
3,como pode tá pagando tanto assim,13,8
4,esses dias ganhei 500 nessa plataforma,13,10
...,...,...,...
93,como pode gente,1,1
94,Ganhei 120 já SLC tá pagando muito,1,1
95,slc tô forrando aqui,1,1
96,ganhei 200 agora de pouco,1,1


In [12]:
df_2.to_csv('dados_comentarios_2.csv')
resultado_2.to_csv('resultado_comentarios_2.csv')