# Visualizações

Este arquivo descreve e apresenta relações entre os dados coletados e previamente processados.

**Sobre a coleta**
* Baseada no Coletor produzido pelo Professor Carlos
* Os dados coletados devem possuir:
- Data de publicação dentro do período específicado (jul-out 2024)
- Os vídeos são resultados de queries geradas computacionalmente usando tópicos de interesse
- Os títulos dos vídeos devem conter pelo menos uma das keywords específicas

# Preparação do ambiente e variáveis

In [13]:
# Instalar o Kaleido se necessário (para exportação de imagens)
%pip install -q kaleido
%pip install -U kaleido
%pip install -U nbformat

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\vmart\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\vmart\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\vmart\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [14]:
import os
from PIL import Image
import plotly.graph_objects as go

# Função para encontrar o próximo número de imagem disponível
def get_next_image_number(directory_path, base_name="image"):
    """
    Retorna o próximo número disponível para a imagem.
    Ex: Se existem 'image1.png' e 'image2.png', retornará 3 para 'image3.png'.
    """
    existing_images = [f for f in os.listdir(directory_path) if f.startswith(base_name) and f.endswith('.png')]
    existing_numbers = [int(f[len(base_name):-4]) for f in existing_images if f[len(base_name):-4].isdigit()]
    next_number = max(existing_numbers, default=0) + 1  # Incrementa o maior número existente + 1
    return next_number

# Função para salvar o gráfico como imagem
def save_plot_as_image(fig, directory_path, base_name="image"):
    """
    Salva o gráfico como uma imagem PNG no diretório especificado, com proporção 16:9,
    e um nome baseado no número incrementado.
    """
    # Ajustando o layout para proporção 16:9
    fig.update_layout(
        width=1280,  # 16 unidades
        height=720   # 9 unidades
    )

    # Obtendo o próximo número de imagem
    next_image_number = get_next_image_number(directory_path, base_name)

    # Definindo o caminho completo com a extensão .png
    image_path = os.path.join(directory_path, f"{base_name}{next_image_number}.png")

    # Salvando a imagem
    fig.write_image(image_path)  # Agora passando o caminho completo com a extensão
    return image_path

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

def display_image(file_path):
    """
    Exibe a imagem salva em um arquivo no Colab no seu tamanho original.

    Parâmetros:
    - file_path: Caminho do arquivo de imagem a ser exibido.
    """
    # Carrega a imagem
    img = mpimg.imread(file_path)

    # Obtém as dimensões da imagem
    height, width, _ = img.shape

    # Ajusta o tamanho da figura para o tamanho da imagem
    plt.figure(figsize=(width / 50, height / 50))  # A escala 100 pode ser ajustada conforme necessário

    # Exibe a imagem
    plt.imshow(img)
    plt.axis('off')  # Opcional: Remove os eixos
    plt.show()

directory_path = f'data'

## Importação dos dados

Os dados são importados do banco de dados local. Futuramente, é interessante que eles já sejam inseridos logo na nuvem ou em algum servidor externo. Existem 3 tabelas: Comentários, que estão associados a um Vídeo, que pertence a um Canal.

In [15]:
import os
import pandas as pd
from config import result_index

with_processed_batches = False

execution = 'local'
# execution = 'cloud'

base_path = f"data" if execution == 'local' else 'cloud'

print(result_index)

2025_06_10


In [16]:
def read_batches_from_dir(directory):
    all_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.csv')]
    df_list = []

    # Lê cada arquivo e adiciona ao df_list, verificando se o arquivo não está vazio
    for file in all_files:
        # Verifica se o arquivo não está vazio antes de tentar ler
        if os.path.getsize(file) > 0:
            try:
                df = pd.read_csv(file)
                if df.empty:
                    print(f"Aviso: O arquivo {file} está vazio. Pulando.")
                    continue
                df_list.append(df)
            except pd.errors.EmptyDataError:
                print(f"Aviso: O arquivo {file} não contém dados válidos. Pulando.")
                continue
        else:
            print(f"Aviso: O arquivo {file} está vazio. Pulando.")

    if df_list:  # Verifica se existe pelo menos um DataFrame para concatenar
        final_df = pd.concat(df_list, ignore_index=True)
    else:
        final_df = pd.DataFrame()  # Retorna um DataFrame vazio se não houver dados

    # Imprime a quantidade de arquivos lidos para o diretório
    print(f"Lidos {len(df_list)} arquivos CSV da pasta {directory}")

    return final_df

def import_data(base_path):
    # Diretórios contendo os arquivos CSV de comentários, vídeos e canais
    channels_dir = os.path.join(base_path, f'channels_csv_batches')
    videos_dir = os.path.join(base_path, f'videos_csv_batches')
    comments_dir = os.path.join(base_path, f'comments_csv_batches')

    # Ler todos os arquivos CSV dos diretórios
    df_channels = read_batches_from_dir(channels_dir)
    df_comments = read_batches_from_dir(comments_dir)
    df_videos = read_batches_from_dir(videos_dir)

    return df_channels, df_videos, df_comments #, df_scrap_news

df_channels, df_videos, palestine_df_comments = import_data(base_path)

Lidos 1 arquivos CSV da pasta data\channels_csv_batches
Lidos 7 arquivos CSV da pasta data\comments_csv_batches
Lidos 1 arquivos CSV da pasta data\videos_csv_batches


In [17]:
df_videos = df_videos.drop_duplicates(subset=['video_id'])
df_channels = df_channels.drop_duplicates(subset=['channel_id'])

In [18]:
# Lista de DataFrames e títulos específicos de cada país
df = palestine_df_comments

In [19]:
n = 10

## Preparação de API do YouTube

Para coleta de dados referenciados, mas até então não coletados.

In [20]:
from googleapiclient.discovery import build

# Configurar a API do YouTube
api_key = "AIzaSyAfEuvmicFB8ErKtM2oCS8Dg6UBZblePLU"
youtube = build('youtube', 'v3', developerKey=api_key)

# Contagem de dados após pré-processamento

Exibe uma contagem geral dos dados coletados, como o número total de comentários, vídeos e usuários. Útil para obter uma visão inicial do tamanho do conjunto de dados.

Os seguintes filtros foram aplicados:
* Idioma
* Presença de Keywords (mantendo apenas termos que remetam diretamente à Israel e Palestina). Assim, termos como (Palestine, Israel, Intifada, IDF, Hamas, etc) permaneceram entre as keywords, então outros, como (Genocide, Military Operations, Border, etc) foram removidos.
* Lematização
* Tamanho dos comentários (> 25 caracteres)

In [21]:
import pandas as pd

def compare_dataframes(df2, columns):
    """
    Compara dois DataFrames com base na quantidade de valores nulos, não nulos e valores únicos nas colunas especificadas.

    Parâmetros:
    - df1, df2: DataFrames a serem comparados.
    - columns: Lista de colunas a serem analisadas.

    Retorna:
    - Um dicionário com DataFrames para o resumo comparativo das métricas no formato especificado.
    """
    # Listas para armazenar os resultados de nulos, não nulos e valores únicos
    non_null_data = []
    null_data = []
    unique_data = []

    # Itera sobre as colunas para calcular métricas
    for col in columns:
        # Cálculo dos valores não nulos
        non_null_row = {
            "Coluna": col,
            "Após Tratamento": df2[col].notna().sum(),
        }
        non_null_data.append(non_null_row)

        # Cálculo dos valores nulos
        null_row = {
            "Coluna": col,
            "Após Tratamento": df2[col].isna().sum(),
        }
        null_data.append(null_row)

        # Cálculo dos valores únicos
        unique_row = {
            "Coluna": col,
            "Após Tratamento": df2[col].nunique(),
        }
        unique_data.append(unique_row)

    # Converte as listas em DataFrames para os nulos, não nulos e valores únicos
    unique_df = pd.DataFrame(unique_data)

    # Retorna um dicionário com os DataFrames no formato desejado
    return {
        "Valores Únicos": unique_df
    }

# df1 e df2 são os seus DataFrames de entrada
columns = ['comment_id', 'author_channel_id', 'video_id', 'channel_id']
resultado_comparacao = compare_dataframes(palestine_df_comments, columns)

print("\n=== Valores Únicos ===")
resultado_comparacao["Valores Únicos"]


=== Valores Únicos ===


Unnamed: 0,Coluna,Após Tratamento
0,comment_id,62419
1,author_channel_id,31828
2,video_id,486
3,channel_id,10


# Relações por Dia

Gráficos que exibem a evolução diária da quantidade de comentários ao longo do tempo para cada país ou região.  A análise temporal pode ajudar a identificar reações a eventos específicos, mostrando picos de interação em datas próximas a acontecimentos relevantes no conflito. Isso é valioso para entender como o engajamento público se alinha aos eventos políticos e sociais (tais como ataques ou cessar-fogo).

In [22]:
import pandas as pd
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

def plot_daily_counts_combined(df, date_column='published_at', video_column='video_id'):
    """
    Plota a quantidade de entradas únicas por dia para múltiplos países em um único gráfico
    e imprime a contagem dos pontos por dia e a soma total.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - date_column: Nome da coluna de data no DataFrame (padrão: 'published_at')
    - video_column: Nome da coluna de video_id no DataFrame (padrão: 'video_id')
    - aggregation: Tipo de agregação: 'count' para contagem total ou 'nunique' para valores únicos
    """
    print(base_path)
    # Cria uma figura para adicionar todas as linhas
    fig = go.Figure()

    # Soma total de vídeos para verificar a consistência
    total_videos_count = 0

    # Converte a coluna de data para datetime e remove valores inválidos
    df[date_column] = pd.to_datetime(df[date_column], errors='coerce')
    df.dropna(subset=[date_column, video_column], inplace=True)

    # Remove duplicados de video_id, mantendo o mais antigo
    df = df.sort_values(by=[date_column]).drop_duplicates(subset=video_column, keep='first')

    # Agrupa os dados por dia e aplica a agregação
    grouped_data = df.groupby(df[date_column].dt.date)[video_column].count().reset_index()

    # Renomeia as colunas para padronização
    grouped_data.columns = ['published_at', 'count']

    # Soma total para o país atual
    country_total = grouped_data['count'].sum()
    total_videos_count += country_total

    # Imprime a contagem de pontos por dia para este país
    print(f"Contagem diária:")
    grouped_data
    print(f"Soma total: {country_total}\n")

    # Adiciona uma linha para cada país
    fig.add_trace(go.Scatter(
        x=grouped_data['published_at'],
        y=grouped_data['count'],
        mode='lines+markers',
        name='dados'
    ))

    # Imprime a soma total de vídeos únicos
    print(f"Soma total de vídeos únicos entre todos os países: {total_videos_count}")

    # Configurações do layout compartilhado
    # fig.update_layout(
    #     title=f'Quantidade de {video_column.capitalize()} por Dia de Publicação em Diferentes Contextos',
    #     xaxis_title='Dia de Publicação',
    #     yaxis_title=f'Quantidade de {video_column.capitalize()}',
    #     xaxis_tickformat="%Y-%m-%d"
    # )

    print("Gerou o gráfico...")

    # Exibe o gráfico
    # Salva o gráfico e exibe a imagem
    # image_path = save_plot_as_image(fig, base_path)
    # display_image(image_path)

    fig.show()

In [23]:
plot_daily_counts_combined(df, video_column='comment_id')

data
Contagem diária:
Soma total: 62419

Soma total de vídeos únicos entre todos os países: 62419
Gerou o gráfico...


### Vídeos por dia

In [24]:
plot_daily_counts_combined(df, video_column='video_id', aggregation='count')

TypeError: plot_daily_counts_combined() got an unexpected keyword argument 'aggregation'

### Relação Comentários x Comentaristas por dia

In [None]:
import pandas as pd
import plotly.graph_objects as go

def plot_multiple_metrics_per_day(df, date_column='published_at'):
    """
    Plota a quantidade de usuários únicos, comentários e vídeos por dia para múltiplos países em um único gráfico.
    Garante que vídeos duplicados sejam removidos mantendo apenas o mais antigo.

    Args:
    - df: Lista de dicionários, cada um contendo:
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - date_column: Nome da coluna de data no DataFrame (padrão: 'published_at')
    """
    # Cria uma figura para adicionar todas as linhas
    fig = go.Figure()

    # Soma total para validação
    total_comments = 0
    total_users = 0
    total_videos = 0


    # Converte a coluna de data para datetime e remove valores inválidos
    df[date_column] = pd.to_datetime(df[date_column], errors='coerce')
    df.dropna(subset=[date_column], inplace=True)

    # Remove duplicados de video_id mantendo o mais antigo
    df_videos = df.sort_values(by=[date_column]).drop_duplicates(subset='video_id', keep='first')

    # Agrupa os dados por dia para cada métrica
    # Contagem de comentários por dia
    comments_per_day = df.groupby(df[date_column].dt.date)['comment_id'].count().reset_index()
    comments_per_day.columns = ['published_at', 'count']
    total_comments += comments_per_day['count'].sum()

    # Contagem de vídeos únicos por dia
    videos_per_day = df_videos.groupby(df_videos[date_column].dt.date)['video_id'].count().reset_index()
    videos_per_day.columns = ['published_at', 'count']
    total_videos += videos_per_day['count'].sum()

    # Contagem de usuários únicos por dia
    users_per_day = df.groupby(df[date_column].dt.date)['author_channel_id'].nunique().reset_index()
    users_per_day.columns = ['published_at', 'count']
    total_users += users_per_day['count'].sum()

    # Adiciona uma linha para cada métrica do país no gráfico
    fig.add_trace(go.Scatter(
        x=comments_per_day['published_at'],
        y=comments_per_day['count'],
        mode='lines+markers',
        name=f"Comentários"
    ))

    fig.add_trace(go.Scatter(
        x=users_per_day['published_at'],
        y=users_per_day['count'],
        mode='lines+markers',
        name=f"Usuários"
    ))

    # Imprime as somas totais
    print(f"Soma total de comentários: {total_comments}")
    # print(f"Soma total de vídeos únicos: {total_videos}")
    print(f"Soma total de usuários únicos: {total_users}")

    # Configurações do layout compartilhado
    fig.update_layout(
        title='Quantidade de Comentários e Usuários Únicos por Dia de Publicação em Diferentes Contextos',
        xaxis_title='Dia de Publicação',
        yaxis_title='Quantidade',
        xaxis_tickformat="%Y-%m-%d"
    )

    # Salva o gráfico como uma imagem
    # image_path = save_plot_as_image(fig, directory_path)
    # display_image(image_path)

    # Exibe o gráfico
    fig.show()


# Chamada da função
plot_multiple_metrics_per_day(df)

Soma total de comentários: 62435
Soma total de usuários únicos: 46723


# Canais

## Quantidade de vídeos POR CANAL por intervalo

In [None]:
import pandas as pd
import plotly.graph_objects as go

def plot_videos_by_channel_count_by_bins(df,
                                 video_column='video_id',
                                 channel_column='channel_id',
                                 bin_size=10):
    """
    Plota a distribuição de vídeos agrupados por intervalos de quantidade de vídeos por canal.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - video_column: Nome da coluna de vídeo no DataFrame (padrão: 'video_id')
    - channel_column: Nome da coluna de canal no DataFrame (padrão: 'channel_id')
    - bin_size: Tamanho dos intervalos para agrupar a quantidade de vídeos por canal (padrão: 1)
    """
    # Cria a figura para o gráfico
    fig = go.Figure()

    title = 'dados'

    # Conta a quantidade de vídeos únicos por canal
    videos_per_channel = df.groupby(channel_column)[video_column].nunique()

    # Define os bins (intervalos)
    max_videos = videos_per_channel.max()
    bins = range(0, max_videos + bin_size, bin_size)
    labels = [f"{i}-{i+bin_size-1}" for i in bins[:-1]]

    # Agrupa os canais por intervalos de quantidade de vídeos
    binned = pd.cut(videos_per_channel, bins=bins, labels=labels, right=False)
    grouped = binned.value_counts().sort_index()

    # Filtra apenas os bins com mais de 0
    grouped = grouped[grouped > 0]

    # Plota os dados com os números acima de cada bin
    fig.add_trace(go.Bar(
        x=grouped.index,  # Intervalos de vídeos por canal
        y=grouped.values,  # Quantidade de canais
        name=title,
        text=grouped.values,  # Exibe o valor em cima de cada bin
        textposition='outside',  # Coloca o texto fora da barra
    ))

    # Configurações do layout
    fig.update_layout(
        title='Distribuição de Canais por Intervalos de Vídeos Únicos',
        xaxis_title='Intervalos de Vídeos por Canal',
        yaxis_title='Quantidade de Canais',
        barmode='group',
        xaxis=dict(type='category'),  # Mostra os intervalos como categorias
        yaxis=dict(tickformat=',')   # Formata os números no eixo Y
    )

    # Exibe o gráfico
    fig.show()

# Exemplo de uso
plot_videos_by_channel_count_by_bins(df)

## Top Canais com mais Vídeos

In [None]:
# Contar vídeos únicos por canal
video_counts = (
    palestine_df_comments[['video_id', 'channel_id']]
    .drop_duplicates()  # Remove duplicatas para contar apenas vídeos únicos
    .groupby('channel_id')
    .size()
    .reset_index(name='videos_count')
)

# Mesclar com as informações do df_channels
result = video_counts.merge(df_channels, on='channel_id')

# Ordenar pelos canais com mais vídeos
result = result.sort_values(by='videos_count', ascending=False)

# Selecionar as colunas desejadas
result = result[['channel_id', 'videos_count', 'title', 'description']]

# Exibir o resultado
result.head(n)

Unnamed: 0,channel_id,videos_count,title,description
1,UCAYoI16-UkXemcnhC-kTvDQ,176,Geração AntiOtário,💡| Rompendo Ilusões\n🧐| Entre o Engano e a Ver...
8,UCeL1a4rpEA8UG9IQIewPccg,77,RedCast [Oficial],O Podcast que MAIS CRESCE NO BRASIL!
5,UCRmNflJuD1TxLbRlDV08_7g,69,Consciência Masculina,Consciência masculina - Visão Realista dos Rel...
4,UCO9FRrBUwGdYopkMbGGKbpg,46,Red Pill Feminina,"""Bem-vindos ao Red Pill Feminina! Este é um e..."
6,UCUBeVY6Kn7ulBmUGynJqISw,39,Highlander o último redpill!,Highlander o último redpill! - Visão Realista ...
3,UCNiU1wZxK6YN-KuJP7QMpBQ,32,Miquéinha,🚨Canal dedicado a trazer a realidade sombria d...
7,UCX0VSzJ2z5l0C9wnwh5SoRw,23,Projeto Conselho,Deseja aprender a dominar sua própria mente? E...
0,UC3nQ4xUl6rodOWuQbBULyow,20,Don Sandro,Canal voltado para desmascarar as artimanhas d...
2,UCExFA9MsrRmWnXUlhiwu4qA,3,Sigma da Solitude,"Canal que busca trazer a luz da verdade, geral..."
9,UCpeW2LVGeNLnSXCp64b3TEQ,1,Império AntiOtário,Tempos difíceis meus nobres. Acesse o link aba...


## Quantidade de comentários POR CANAL

In [None]:
import pandas as pd
import plotly.graph_objects as go

def plot_channels_by_comment_count_by_bins(df,
                                           comment_column='comment_id',
                                           channel_column='channel_id',
                                           bin_size=100):
    """
    Plota a distribuição de canais agrupados por intervalos de quantidade de comentários.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - comment_column: Nome da coluna de comentário no DataFrame (padrão: 'comment_id')
    - channel_column: Nome da coluna de canal no DataFrame (padrão: 'channel_id')
    - bin_size: Tamanho dos intervalos para agrupar a quantidade de comentários por canal (padrão: 100)
    """
    # Cria a figura para o gráfico
    fig = go.Figure()

    title = 'dados'

    # Conta a quantidade de comentários por canal
    comments_per_channel = df.groupby(channel_column)[comment_column].count()

    # Define os bins (intervalos)
    max_comments = comments_per_channel.max()
    bins = range(0, max_comments + bin_size, bin_size)
    labels = [f"{i}-{i+bin_size-1}" for i in bins[:-1]]

    # Agrupa os canais por intervalos de quantidade de comentários
    binned = pd.cut(comments_per_channel, bins=bins, labels=labels, right=False)
    grouped = binned.value_counts().sort_index()

    # Filtra os bins com quantidade de canais maior que 0
    grouped = grouped[grouped > 0]

    # Plota os dados
    fig.add_trace(go.Bar(
        x=grouped.index,  # Intervalos de comentários por canal
        y=grouped.values,  # Quantidade de canais
        name=title,
        text=grouped.values,  # Exibe o número de canais acima das barras
        textposition='outside',  # Coloca o número acima das barras
    ))

    # Configurações do layout
    fig.update_layout(
        title='Distribuição de Canais por Intervalos de Comentários',
        xaxis_title='Intervalos de Comentários por Canal',
        yaxis_title='Quantidade de Canais',
        barmode='group',
        xaxis=dict(type='category'),  # Mostra os intervalos como categorias
        yaxis=dict(tickformat=',')   # Formata os números no eixo Y
    )

    # Exibe o gráfico
    fig.show()

# Exemplo de uso
plot_channels_by_comment_count_by_bins(df)

## Canais com mais comentários

In [None]:
# Contar comentários por canal
comment_counts = df.groupby('channel_id').size().reset_index(name='comments_count')

comment_counts

# Mesclar com as informações do df_channels
result = comment_counts.merge(df_channels, on='channel_id')

# Ordenar pelos canais com mais comentários
result = result.sort_values(by='comments_count', ascending=False)

# Selecionar as colunas desejadas
result = result[['channel_id', 'comments_count', 'title', 'description']]

result.head(n)

Unnamed: 0,channel_id,comments_count,title,description
1,UCAYoI16-UkXemcnhC-kTvDQ,28500,Geração AntiOtário,💡| Rompendo Ilusões\n🧐| Entre o Engano e a Ver...
8,UCeL1a4rpEA8UG9IQIewPccg,13621,RedCast [Oficial],O Podcast que MAIS CRESCE NO BRASIL!
0,UC3nQ4xUl6rodOWuQbBULyow,10529,Don Sandro,Canal voltado para desmascarar as artimanhas d...
7,UCX0VSzJ2z5l0C9wnwh5SoRw,5713,Projeto Conselho,Deseja aprender a dominar sua própria mente? E...
5,UCRmNflJuD1TxLbRlDV08_7g,1608,Consciência Masculina,Consciência masculina - Visão Realista dos Rel...
3,UCNiU1wZxK6YN-KuJP7QMpBQ,1244,Miquéinha,🚨Canal dedicado a trazer a realidade sombria d...
2,UCExFA9MsrRmWnXUlhiwu4qA,498,Sigma da Solitude,"Canal que busca trazer a luz da verdade, geral..."
4,UCO9FRrBUwGdYopkMbGGKbpg,408,Red Pill Feminina,"""Bem-vindos ao Red Pill Feminina! Este é um e..."
9,UCpeW2LVGeNLnSXCp64b3TEQ,159,Império AntiOtário,Tempos difíceis meus nobres. Acesse o link aba...
6,UCUBeVY6Kn7ulBmUGynJqISw,155,Highlander o último redpill!,Highlander o último redpill! - Visão Realista ...


# Vídeos

## Vídeos por intervalo de comentáros

In [None]:
import pandas as pd
import plotly.graph_objects as go

def plot_videos_by_comment_count_by_bins(df,
                                 video_column='video_id',
                                 comment_column='comment_id',
                                 bin_size=1000):
    """
    Plota a distribuição de vídeos agrupados por intervalos de quantidade de comentários.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - video_column: Nome da coluna de vídeo no DataFrame (padrão: 'video_id')
    - comment_column: Nome da coluna de comentários no DataFrame (padrão: 'comment_id')
    - bin_size: Tamanho dos intervalos para agrupar os comentários (padrão: 100)
    """
    # Cria a figura para o gráfico
    fig = go.Figure()

    title = 'dados'
    # Conta o número de comentários por vídeo
    comments_per_video = df.groupby(video_column)[comment_column].count()

    # Define os bins (intervalos)
    max_comments = comments_per_video.max()
    bins = range(0, max_comments + bin_size, bin_size)
    labels = [f"{i}-{i+bin_size-1}" for i in bins[:-1]]

    # Agrupa os vídeos por intervalos de quantidade de comentários
    binned = pd.cut(comments_per_video, bins=bins, labels=labels, right=False)
    grouped = binned.value_counts().sort_index()

    # Filtra os bins com 0 vídeos
    grouped = grouped[grouped > 0]

    # Plota os dados
    fig.add_trace(go.Bar(
        x=grouped.index,  # Intervalos de comentários
        y=grouped.values,  # Quantidade de vídeos
        name=title,
        text=grouped.values,  # Exibe o número de vídeos acima das barras
        textposition='outside'  # Posiciona o número acima das barras
    ))

    # Configurações do layout
    fig.update_layout(
        title='Distribuição de Vídeos por Intervalos de Comentários',
        xaxis_title='Intervalos de Comentários por Vídeo',
        yaxis_title='Quantidade de Vídeos',
        barmode='group',
        xaxis=dict(type='category'),  # Mostra os intervalos como categorias
        yaxis=dict(tickformat=',')   # Formata os números no eixo Y
    )

    # Exibe o gráfico
    fig.show()

# Exemplo de uso
plot_videos_by_comment_count_by_bins(df)

## Top Vídeos com mais comentários

In [34]:
# Renomear as colunas antes de fazer as mesclagens
df_videos.rename(columns={'title': 'video_name'}, inplace=True)
df_videos.rename(columns={'description': 'video_description'}, inplace=True)
df_channels.rename(columns={'title': 'channel_name'}, inplace=True)

# Contar comentários por vídeo
comment_counts = palestine_df_comments.groupby('video_id').size().reset_index(name='comments_count')

# Mesclar com as informações do df_videos
result = comment_counts.merge(df_videos, on='video_id')

# Adicionar informações do canal associando pelo channel_id do df_channels
result = result.merge(df_channels[['channel_id', 'channel_name']], on='channel_id')

# Ordenar pelos vídeos com mais comentários
result = result.sort_values(by='comments_count', ascending=False)

# Selecionar as colunas desejadas
result = result[['video_id', 'channel_name', 'comments_count', 'video_name', 'video_description']]

# Exibir o resultado
result.head(n)

Unnamed: 0,video_id,channel_name,comments_count,video_name,video_description
333,hzM_vsazR9I,Geração AntiOtário,2298,Quer segunda chance depois de trair? Ainda que...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
210,RJ29gzOwjF4,Geração AntiOtário,1959,Homem se sente valorizado quando recebe demons...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
240,VPUQ7ls7pdo,Geração AntiOtário,1954,Mulher com ou sem maquiagem? E aí mulherada......,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
442,u6qTt6vECBg,Geração AntiOtário,1364,"Menino procura na rua o que ""não"" tem em casa....",#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
447,uO50HuomH2s,Geração AntiOtário,1347,Tá difícil ser solteira! Homem de valor não qu...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
106,CRCTS053DuU,Geração AntiOtário,1335,Agora elas escolhem o homem pela profissão… é ...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
343,ifw_PEfk2ns,Geração AntiOtário,1260,Roupa de academia ou sexualizando demais? Onde...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
373,lNqW6kIPfVU,Geração AntiOtário,1253,"Conheceu um homem provedor e quer aprender a ""...",#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
52,4zbiHwDbySk,Geração AntiOtário,1226,A chave que abre todas as fechaduras é valiosa...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...
0,-2MKUA-jSUk,RedCast [Oficial],1187,DEBATE: MARCELO BRIGADEIRO X MARCO ANTÔNIO (SU...,DEBATE: MARCELO BRIGADEIRO X MARCO ANTÔNIO (SU...


In [35]:
import pandas as pd
import plotly.graph_objects as go
import numpy as np

def plot_log_log_cdf_comments_per_video_per_channel(cdf, video_column='video_id', comment_column='comment_id', channel_column='channel_id'):
    """
    Plota a CDF em escala log-log da quantidade de comentários por vídeo por canal para múltiplos países.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - video_column: Nome da coluna de vídeo no DataFrame (padrão: 'video_id')
    - comment_column: Nome da coluna de comentários no DataFrame (padrão: 'comment_id')
    - channel_column: Nome da coluna de canal no DataFrame (padrão: 'channel_id')
    """
    # Cria uma figura para o gráfico
    fig = go.Figure()


    title = 'dados'

    # Conta o número de comentários por vídeo para cada canal
    comments_per_video_per_channel = df.groupby([channel_column, video_column])[comment_column].nunique()

    # Agora, calcula o número de comentários por vídeo por canal
    comments_per_video_per_channel = comments_per_video_per_channel.reset_index(name='comments_count')

    # Conta a quantidade de vídeos com diferentes números de comentários
    comments_per_video_count = comments_per_video_per_channel['comments_count'].value_counts()

    # Calcula o CDF
    sorted_counts = np.sort(comments_per_video_count)
    cdf = np.arange(1, len(sorted_counts) + 1) / len(sorted_counts)

    # Plota a CDF log-log
    fig.add_trace(go.Scatter(
        x=np.log10(sorted_counts),
        y=np.log10(cdf),
        mode='lines+markers',
        name=title
    ))

    # Configurações do layout para a escala log-log
    fig.update_layout(
        title='CDF Log-Log da Quantidade de Comentários por Vídeo por Canal',
        xaxis_title='Log10(Quantidade de Comentários por Vídeo)',
        yaxis_title='Log10(CDF)',
        xaxis_type="linear",
        yaxis_type="linear",
        xaxis_showgrid=True,
        yaxis_showgrid=True
    )

    # Salva o gráfico e exibe a imagem
    fig.show()
    # image_path = save_plot_as_image(fig, directory_path)
    # display_image(image_path)

# Chama a função para exibir a CDF de comentários por vídeo por canal
plot_log_log_cdf_comments_per_video_per_channel(df)

## Resumo das métricas

In [36]:
import pandas as pd
import ast

# Função para obter os top_n vídeos com base em uma contagem
def get_top_videos(df, column, top_n=5):
    # Remove duplicados com base no video_id
    unique_videos = df.drop_duplicates(subset='video_id')
    # Seleciona os top_n registros com base na coluna especificada
    return unique_videos[['video_id', 'video_name', column]].nlargest(top_n, column)

# Obtendo os top_n vídeos para cada métrica
top_n_views = get_top_videos(df_videos, 'view_count', top_n=n)
top_n_likes = get_top_videos(df_videos, 'like_count', top_n=n)
top_n_comments = get_top_videos(df_videos, 'comment_count', top_n=n)

In [37]:
# Criando uma tabela comparativa
video_ids = set(top_n_views['video_id']).union(set(top_n_likes['video_id'])).union(set(top_n_comments['video_id']))

# Inicializando a tabela comparativa com informações relevantes
compare_videos = pd.DataFrame({'video_id': list(video_ids)})

# Adicionando colunas para verificar a presença nos top_n e as métricas correspondentes
compare_videos = compare_videos.merge(df_videos[['video_id', 'video_name', 'view_count', 'like_count', 'comment_count', 'thumbnail_url', 'published_at']], on='video_id', how='left')

# Adicionando colunas para verificar a presença nos top_n
compare_videos['In Top Views'] = compare_videos['video_id'].apply(lambda x: 'X' if x in top_n_views['video_id'].values else '')
compare_videos['In Top Likes'] = compare_videos['video_id'].apply(lambda x: 'X' if x in top_n_likes['video_id'].values else '')
compare_videos['In Top Comments'] = compare_videos['video_id'].apply(lambda x: 'X' if x in top_n_comments['video_id'].values else '')

# Calculando a soma das métricas para ordenação
compare_videos['Total Score'] = compare_videos['view_count'].fillna(0) + compare_videos['like_count'].fillna(0) + compare_videos['comment_count'].fillna(0)

# Ordenando pela soma das métricas em ordem decrescente
compare_videos = compare_videos.sort_values(by='comment_count', ascending=False)

# Exibindo a tabela comparativa
print("\nComparative Table of Videos:")
compare_videos[['video_id', 'video_name', 'In Top Views', 'In Top Likes', 'In Top Comments', 'view_count', 'like_count', 'comment_count']]


Comparative Table of Videos:


Unnamed: 0,video_id,video_name,In Top Views,In Top Likes,In Top Comments,view_count,like_count,comment_count
12,hzM_vsazR9I,Quer segunda chance depois de trair? Ainda que...,X,X,X,2140594,78404,2298
13,RJ29gzOwjF4,Homem se sente valorizado quando recebe demons...,X,X,X,1986550,107728,2144
5,VPUQ7ls7pdo,Mulher com ou sem maquiagem? E aí mulherada......,,X,X,342206,27771,1961
1,u6qTt6vECBg,"Menino procura na rua o que ""não"" tem em casa....",X,X,X,897680,37044,1365
7,uO50HuomH2s,Tá difícil ser solteira! Homem de valor não qu...,,,X,432975,14715,1347
0,CRCTS053DuU,Agora elas escolhem o homem pela profissão… é ...,,,X,278443,4347,1335
10,ifw_PEfk2ns,Roupa de academia ou sexualizando demais? Onde...,X,X,X,608288,40623,1260
6,lNqW6kIPfVU,"Conheceu um homem provedor e quer aprender a ""...",,,X,112951,5883,1253
14,4zbiHwDbySk,A chave que abre todas as fechaduras é valiosa...,X,X,X,1251967,62110,1226
4,-2MKUA-jSUk,DEBATE: MARCELO BRIGADEIRO X MARCO ANTÔNIO (SU...,,,X,104258,6472,1188


# Usuários

## Quantidade de comentários por USUÁRIO

In [38]:
import pandas as pd
import plotly.graph_objects as go

def plot_users_by_comment_count_by_bins(df,
                                        user_column='author_channel_id',
                                        comment_column='comment_id',
                                        bin_size=10):
    """
    Plota a distribuição de usuários agrupados por intervalos de quantidade de comentários feitos.

    Args:
    
      - "df": DataFrame dos comentários do país
      - "title": Nome do país (para legenda no gráfico)
    - user_column: Nome da coluna de usuários no DataFrame (padrão: 'author_channel_id').
    - comment_column: Nome da coluna de comentários no DataFrame (padrão: 'comment_id').
    - bin_size: Tamanho dos intervalos para agrupar a quantidade de comentários por usuário (padrão: 10).
    """
    # Cria a figura para o gráfico
    fig = go.Figure()

    title = 'dados'

        # Conta a quantidade de comentários por usuário
    comments_per_user = df.groupby(user_column)[comment_column].count()

    # Define os bins (intervalos)
    max_comments = comments_per_user.max()
    bins = range(0, max_comments + bin_size, bin_size)
    labels = [f"{i}-{i+bin_size-1}" for i in bins[:-1]]

    # Agrupa os usuários por intervalos de quantidade de comentários
    binned = pd.cut(comments_per_user, bins=bins, labels=labels, right=False)
    grouped = binned.value_counts().sort_index()

    # Filtra apenas os bins com mais de 0
    grouped = grouped[grouped > 0]

    # Plota os dados com os números acima de cada bin
    fig.add_trace(go.Bar(
        x=grouped.index,  # Intervalos de comentários por usuário
        y=grouped.values,  # Quantidade de usuários
        name=title,
        text=grouped.values,  # Exibe o valor em cima de cada bin
        textposition='outside',  # Coloca o texto fora da barra
    ))

    # Configurações do layout
    fig.update_layout(
        title='Distribuição de Usuários por Intervalos de Comentários',
        xaxis_title='Intervalos de Comentários por Usuário',
        yaxis_title='Quantidade de Usuários',
        barmode='group',
        xaxis=dict(type='category'),  # Mostra os intervalos como categorias
        yaxis=dict(tickformat=',')   # Formata os números no eixo Y
    )

    # Exibe o gráfico
    fig.show()

# Exemplo de uso
plot_users_by_comment_count_by_bins(df)

## Usuários que mais comentaram

In [39]:
import pandas as pd

def display_users_with_channel_info(df,
                                    user_column='author_channel_id',
                                    comment_column='comment_id'):
    """
    Exibe as informações dos usuários agrupados por quantidade de comentários feitos,
    incluindo uma contagem distinta de comentários (comment_id),
    junto com as informações do canal associado.

    Args:
    
      - "df": DataFrame dos comentários do país.
      - "title": Nome do país (para legenda no gráfico).
    - user_column: Nome da coluna de usuário no DataFrame (padrão: 'author_channel_id').
    - comment_column: Nome da coluna de comentários no DataFrame (padrão: 'comment_id').
    """
    title = "dados"

    # Conta a quantidade de comentários distintos por usuário
    distinct_comments_per_user = (
        df.groupby(user_column)[comment_column]
        .nunique()
        .reset_index(name='total_comments')
    )

    # Pega o primeiro canal associado para cada autor
    user_info = (
        df.groupby(user_column)['channel_id']
        .first()
        .reset_index()
    )

    # Mescla os dados com as informações do canal
    result = user_info.merge(
        df_channels[['channel_id', 'channel_name', 'description']],
        on='channel_id',
        how='left'
    )

    # Mescla com a contagem de comentários distintos
    result = result.merge(distinct_comments_per_user, on=user_column, how='left')
    result = result.sort_values(by='total_comments', ascending=False)

    # Exibe as informações finais
    print(f"\nInformações de usuários e canais para o país: {title}")
    return result

# Exemplo de uso
result = display_users_with_channel_info(df)
result.head(n)


Informações de usuários e canais para o país: dados


Unnamed: 0,author_channel_id,channel_id,channel_name,description,total_comments
2484,UC3nQ4xUl6rodOWuQbBULyow,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,Canal voltado para desmascarar as artimanhas d...,1351
14432,UCRmNflJuD1TxLbRlDV08_7g,UCRmNflJuD1TxLbRlDV08_7g,Consciência Masculina,Consciência masculina - Visão Realista dos Rel...,722
12402,UCNiU1wZxK6YN-KuJP7QMpBQ,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,🚨Canal dedicado a trazer a realidade sombria d...,265
8042,UCExFA9MsrRmWnXUlhiwu4qA,UCExFA9MsrRmWnXUlhiwu4qA,Sigma da Solitude,"Canal que busca trazer a luz da verdade, geral...",223
5889,UCAYoI16-UkXemcnhC-kTvDQ,UCAYoI16-UkXemcnhC-kTvDQ,Geração AntiOtário,💡| Rompendo Ilusões\n🧐| Entre o Engano e a Ver...,176
17629,UCYHh5FPeHELtxEN5ReYes3w,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,🚨Canal dedicado a trazer a realidade sombria d...,126
25614,UCnQOi_X9HFSQEIV2IwjzPOw,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,🚨Canal dedicado a trazer a realidade sombria d...,91
22403,UCgzDC0EZyIgupyzOX8zzPlg,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,Canal voltado para desmascarar as artimanhas d...,89
20532,UCd8BMTrpxs9PWPkikY95Esg,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,Canal voltado para desmascarar as artimanhas d...,83
7820,UCESucyFl6AAaDZx2znXkuMw,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,Canal voltado para desmascarar as artimanhas d...,72


💡Os usuários que comentam possuem os seus próprios canais. Abaixo, separo o Top Usuários Comentaristas entre aqueles que comentam no próprio canal (em teoria, que estão respondendo comentários) ou que comentam em canais externos.

In [40]:
def enrich_with_channel_comment_info(result, comments_df):
    """
    Adiciona informações sobre quantos comentários foram feitos no próprio canal
    e quantos foram feitos em outros canais.

    Args:
    - result: DataFrame com informações dos usuários e canais.
    - comments_df: DataFrame contendo os comentários (palestine_df_comments).

    Returns:
    - result: DataFrame atualizado com as colunas 'own_channel_comments' e 'other_channel_comments'.
    """
    # Conta os comentários feitos no próprio canal (author_channel_id == channel_id)
    own_channel_comments = (
        comments_df[comments_df['author_channel_id'] == comments_df['channel_id']]
        .groupby('author_channel_id')['comment_id']
        .count()
        .reset_index(name='own_channel_comments')
    )

    # Conta os comentários feitos em outros canais (author_channel_id != channel_id)
    other_channel_comments = (
        comments_df[comments_df['author_channel_id'] != comments_df['channel_id']]
        .groupby('author_channel_id')['comment_id']
        .count()
        .reset_index(name='other_channel_comments')
    )

    # Mescla as informações no DataFrame result
    result = result.merge(own_channel_comments, on='author_channel_id', how='left')
    result = result.merge(other_channel_comments, on='author_channel_id', how='left')

    # Substitui NaN por 0 nas novas colunas
    result['own_channel_comments'] = result['own_channel_comments'].fillna(0).astype(int)
    result['other_channel_comments'] = result['other_channel_comments'].fillna(0).astype(int)

    # Remove as colunas duplicadas geradas pelo merge
    result = result.drop(columns=['own_channel_comments_x', 'own_channel_comments_y', 'other_channel_comments_x', 'other_channel_comments_y'], errors='ignore')

    return result

# Exemplo de uso: enriquecendo o DataFrame 'result'
result = enrich_with_channel_comment_info(result, palestine_df_comments)
result = result.sort_values(by='total_comments', ascending=False)

# Exibe as primeiras linhas do resultado final
result[['author_channel_id', 'channel_id', 'channel_name', 'total_comments', 'own_channel_comments', 'other_channel_comments']].head(n)

Unnamed: 0,author_channel_id,channel_id,channel_name,total_comments,own_channel_comments,other_channel_comments
0,UC3nQ4xUl6rodOWuQbBULyow,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,1351,1351,0
1,UCRmNflJuD1TxLbRlDV08_7g,UCRmNflJuD1TxLbRlDV08_7g,Consciência Masculina,722,722,0
2,UCNiU1wZxK6YN-KuJP7QMpBQ,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,265,265,0
3,UCExFA9MsrRmWnXUlhiwu4qA,UCExFA9MsrRmWnXUlhiwu4qA,Sigma da Solitude,223,204,19
4,UCAYoI16-UkXemcnhC-kTvDQ,UCAYoI16-UkXemcnhC-kTvDQ,Geração AntiOtário,176,178,0
5,UCYHh5FPeHELtxEN5ReYes3w,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,126,0,126
6,UCnQOi_X9HFSQEIV2IwjzPOw,UCNiU1wZxK6YN-KuJP7QMpBQ,Miquéinha,91,0,91
7,UCgzDC0EZyIgupyzOX8zzPlg,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,89,0,89
8,UCd8BMTrpxs9PWPkikY95Esg,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,83,0,83
9,UCESucyFl6AAaDZx2znXkuMw,UC3nQ4xUl6rodOWuQbBULyow,Don Sandro,72,0,72


# Top Mentions e URLs

In [41]:
def convert_string_to_list(string):
    """
    Converte uma string no formato de lista para um array de strings.

    Parâmetros:
    - string: String a ser convertida.

    Retorna:
    - Lista de strings ou lista vazia se a conversão falhar.
    """
    try:
        return ast.literal_eval(string) if isinstance(string, str) else []
    except (ValueError, SyntaxError):
        return []


## Top canais mais mencionados

São os canais mais referenciados dentro dos comentários

* **mention_count**: total de menções (independente de pârametros).

* **unique_channels/videos**: quantas vezes foi citado em OUTROS canais
* **self_channel_mentions**: quantas vezes foi citado no PRÓPRIO canal


# Tags e Tópicos dos Vídeos

* Tags são definidas pelos próprios produtores do vídeo
* Não é a mesma coisa que as hashtags
* Não são exibidas para o espectador

In [None]:
import pandas as pd
import numpy as np
from collections import Counter
import ast

# Função para contar os elementos mais frequentes em uma coluna de strings que representam listas
def get_top_elements(df_videos, column, top_n=5):
    # Converte as strings para listas
    df_videos[column] = df_videos[column].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

    # Filtra apenas valores que são listas, processando cada elemento
    list_elements = [item for sublist in df_videos[column] if isinstance(sublist, list) for item in sublist]

    # Verifica se há elementos para contar
    if list_elements:
        # Conta a frequência de cada elemento
        counts = Counter(list_elements)
        # Seleciona os top_n mais comuns e converte para DataFrame
        return pd.DataFrame(counts.most_common(top_n), columns=['Element', 'Frequency'])
    else:
        # Retorna um DataFrame vazio se não houver elementos
        return pd.DataFrame(columns=['Element', 'Frequency'])

# Top 40 tags mais comuns
top_n_tags = get_top_elements(df_videos, 'tags', top_n=40)
print("Top tags:")
top_n_tags

Top tags:


Unnamed: 0,Element,Frequency
0,msol,111
1,red pill,73
2,desenvolvimento pessoal,70
3,divorcio,69
4,pensão socio afetiva,69
5,separação,69
6,filhos,69
7,MIQUEINHA,69
8,NAMORO,69
9,INFIEL,69


**Tópicos** também são definidos pelo usuário, mas não são tão “personalizáveis”

💡 Originalmente, esses dados referenciavam um link da Wikipédia, o que me faz pensar que são dadas as opções para o usuário selecionar o que mais se encaixa

In [None]:
# Top 5 tópicos mais comuns
top_n_topics = get_top_elements(df_videos, 'topicCategories', top_n=n)
print("Top topics:")
top_n_topics

Top topics:


Unnamed: 0,Element,Frequency
0,https://en.wikipedia.org/wiki/Lifestyle_(socio...,175
1,https://en.wikipedia.org/wiki/Society,126
2,https://en.wikipedia.org/wiki/Humour,107
3,https://en.wikipedia.org/wiki/Entertainment,50
4,https://en.wikipedia.org/wiki/Health,31
5,https://en.wikipedia.org/wiki/Film,24
6,https://en.wikipedia.org/wiki/Politics,17
7,https://en.wikipedia.org/wiki/Religion,12
8,https://en.wikipedia.org/wiki/Music,2
9,https://en.wikipedia.org/wiki/Television_program,2
