<a href="https://colab.research.google.com/github/VictorHugoMartins/israel_x_palestine_data_analysis/blob/main/preprocess.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# União dos Dados

Este arquivo prepara os dados para as fases posteriores.


# Importação de Dados

In [2]:
import os
import pandas as pd
from config import result_index

with_processed_batches = False

execution = 'local'
# execution = 'cloud'

base_path = f"data" if execution == 'local' else 'cloud'

print(result_index)

2025_06_10


In [3]:
from utils.split_data_files import split_csv 

# Exemplo de uso para canais
csv_file = '../files/channels_info.csv'  # Caminho para o arquivo CSV original
output_dir = 'channels_csv_batches'  # Diretório onde os arquivos divididos serão salvos
split_csv(csv_file, output_dir, id_column='channel_id', date_column='published_at')

# Exemplo de uso para vídeos
csv_file = '../files/videos_info.csv'  # Caminho para o arquivo CSV original
output_dir = 'videos_csv_batches'  # Diretório onde os arquivos divididos serão salvos
split_csv(csv_file, output_dir, id_column='video_id', date_column='published_at')

# Exemplo de uso para comentários
csv_file = '../files/comments_info.csv'  # Caminho para o arquivo CSV original
output_dir = 'comments_csv_batches'  # Diretório onde os arquivos divididos serão salvos
split_csv(csv_file, output_dir, id_column='comment_id', date_column='published_at')

Lote 1 salvo em: channels_csv_batches\lote_1.csv
Lote 1 salvo em: videos_csv_batches\lote_1.csv
Lote 1 salvo em: comments_csv_batches\lote_1.csv
Lote 2 salvo em: comments_csv_batches\lote_2.csv
Lote 3 salvo em: comments_csv_batches\lote_3.csv
Lote 4 salvo em: comments_csv_batches\lote_4.csv
Lote 5 salvo em: comments_csv_batches\lote_5.csv
Lote 6 salvo em: comments_csv_batches\lote_6.csv
Lote 7 salvo em: comments_csv_batches\lote_7.csv


In [8]:
def read_batches_from_dir(directory):
    all_files = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.csv')]
    df_list = []

    # Lê cada arquivo e adiciona ao df_list, verificando se o arquivo não está vazio
    for file in all_files:
        # Verifica se o arquivo não está vazio antes de tentar ler
        if os.path.getsize(file) > 0:
            try:
                df = pd.read_csv(file)
                if df.empty:
                    print(f"Aviso: O arquivo {file} está vazio. Pulando.")
                    continue
                df_list.append(df)
            except pd.errors.EmptyDataError:
                print(f"Aviso: O arquivo {file} não contém dados válidos. Pulando.")
                continue
        else:
            print(f"Aviso: O arquivo {file} está vazio. Pulando.")

    if df_list:  # Verifica se existe pelo menos um DataFrame para concatenar
        final_df = pd.concat(df_list, ignore_index=True)
    else:
        final_df = pd.DataFrame()  # Retorna um DataFrame vazio se não houver dados

    # Imprime a quantidade de arquivos lidos para o diretório
    print(f"Lidos {len(df_list)} arquivos CSV da pasta {directory}")

    return final_df

def import_data(base_path):
    # Diretórios contendo os arquivos CSV de comentários, vídeos e canais
    videos_dir = os.path.join(base_path, f'videos_csv_batches')
    # news_dir = os.path.join(base_path, f'news_batches')
    # scrap_news_dir = os.path.join(base_path, f'scrap_news_batches')

    # Ler todos os arquivos CSV dos diretórios
    df_videos = read_batches_from_dir(videos_dir)

    return df_videos #, df_scrap_news

df_videos = import_data(base_path)

Lidos 1 arquivos CSV da pasta data\videos_csv_batches


## Normalização de colunas

In [9]:
def remove_unnamed_columns(df):
    """Remove colunas cujo nome contém 'Unnamed'."""
    return df.loc[:, ~df.columns.str.contains('Unnamed', case=False)]

# Exemplo de uso:
df_videos = remove_unnamed_columns(df_videos)

In [10]:
df_videos.columns

Index(['video_id', 'title', 'description', 'channel_id', 'published_at',
       'category_id', 'tags', 'view_count', 'like_count', 'comment_count',
       'duration', 'definition', 'caption', 'licensed_content',
       'privacy_status', 'license', 'embeddable', 'public_stats_viewable',
       'is_made_for_kids', 'thumbnail_url', 'default_audio_language',
       'default_language', 'actual_start_time', 'scheduled_start_time',
       'actual_end_time', 'scheduled_end_time', 'concurrent_viewers',
       'active_live_chat_id', 'recording_date', 'topicCategories',
       'processing_status', 'parts_total', 'parts_processed', 'time_left_ms',
       'processing_failure_reason'],
      dtype='object')

In [12]:
df_videos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 488 entries, 0 to 487
Data columns (total 35 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   video_id                   488 non-null    object 
 1   title                      488 non-null    object 
 2   description                447 non-null    object 
 3   channel_id                 488 non-null    object 
 4   published_at               488 non-null    object 
 5   category_id                488 non-null    int64  
 6   tags                       488 non-null    object 
 7   view_count                 488 non-null    int64  
 8   like_count                 488 non-null    int64  
 9   comment_count              488 non-null    int64  
 10  duration                   488 non-null    object 
 11  definition                 488 non-null    object 
 12  caption                    488 non-null    bool   
 13  licensed_content           488 non-null    bool   

## Remoção de duplicatas

In [15]:
df_videos = df_videos.dropna(subset=["video_id", "published_at", "channel_id", "title"])

In [17]:
# Função para remover duplicatas e manter os registros mais recentes.
def remove_duplicates(df, id_column, date_column):
    # Ordena por data de forma decrescente e remove duplicatas mantendo o mais recente
    df_sorted = df.sort_values(by=date_column, ascending=False)
    df_unique = df_sorted.drop_duplicates(subset=id_column, keep='first')
    return df_unique

df_videos = remove_duplicates(df_videos, "video_id", 'published_at')

In [35]:
print(f"{len(df_videos)} videos")

authors_videos = df_videos['channel_id'].unique()
print(f"{len(authors_videos)} canais")

488 videos
10 canais


## Tratamento de Vídeos

### Filtro por Palavras Chave

In [36]:
from config import key_words

def filter_by_keyword(df_videos, key_words, column):
    # Normaliza a lista de palavras-chave para evitar problemas com maiúsculas/minúsculas
    key_words_lower = [kw.lower() for kw in key_words]

    # Tamanho inicial do DataFrame de vídeos
    print("Número de dados antes do filtro:", len(df_videos))

    # Preenche valores NaN na coluna column com string vazia
    df_videos[column] = df_videos[column].fillna('')

    # Filtra o DataFrame de dados
    filtered_videos = df_videos[
        df_videos[column].str.lower().str.contains('|'.join(key_words_lower))
    ]

    # Tamanho depois do filtro
    print("Número de dados após o filtro:", len(filtered_videos))

    return filtered_videos

def show_no_filters_by_keyword(df, key_words, column):
    # Normaliza a lista de palavras-chave para evitar problemas com maiúsculas/minúsculas
    key_words_lower = [kw.lower() for kw in key_words]

    # Tamanho inicial do DataFrame de vídeos
    print("Número de dados antes do filtro:", len(df))

    # Preenche valores NaN na coluna column com string vazia
    df[column] = df[column].fillna('')

    # Filtra o DataFrame de dados
    filtered_videos = df[
        df[column].str.lower().str.contains('|'.join(key_words_lower)) == False
    ]

    print(filtered_videos[column].unique().tolist())

In [37]:
df_videos.columns

Index(['video_id', 'title', 'description', 'channel_id', 'published_at',
       'category_id', 'tags', 'view_count', 'like_count', 'comment_count',
       'duration', 'definition', 'caption', 'licensed_content',
       'privacy_status', 'license', 'embeddable', 'public_stats_viewable',
       'is_made_for_kids', 'thumbnail_url', 'default_audio_language',
       'default_language', 'actual_start_time', 'scheduled_start_time',
       'actual_end_time', 'scheduled_end_time', 'concurrent_viewers',
       'active_live_chat_id', 'recording_date', 'topicCategories',
       'processing_status', 'parts_total', 'parts_processed', 'time_left_ms',
       'processing_failure_reason'],
      dtype='object')

In [38]:
show_no_filters_by_keyword(df_videos, key_words, 'title')

Número de dados antes do filtro: 488
[]


In [39]:
# Chama a função para filtrar os titulos
df_videos = filter_by_keyword(df_videos, key_words, 'title')

Número de dados antes do filtro: 488
Número de dados após o filtro: 488


In [40]:
print(f"{len(df_videos)} vídeos")

488 vídeos


### Exibição dos dados processados

In [41]:
import pandas as pd

# Converter ambas as colunas para datetime
df_videos['published_at'] = pd.to_datetime(df_videos['published_at'])

# Remover timezone de df_videos (se necessário)
df_videos['published_at'] = df_videos['published_at'].dt.tz_localize(None)

In [42]:
df_videos.sample(n=5)

Unnamed: 0,video_id,title,description,channel_id,published_at,category_id,tags,view_count,like_count,comment_count,...,scheduled_end_time,concurrent_viewers,active_live_chat_id,recording_date,topicCategories,processing_status,parts_total,parts_processed,time_left_ms,processing_failure_reason
92,84XBTbDc4-g,Rapaz leva flores e amiga da namorada debocha....,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...,UCAYoI16-UkXemcnhC-kTvDQ,2025-05-25 15:00:22,22,[],172,27,2,...,,0,,,['https://en.wikipedia.org/wiki/Society'],,0,0,0,
478,Slm_luYYCzU,Pagar a conta no primeiro encontro não é genti...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...,UCAYoI16-UkXemcnhC-kTvDQ,2025-05-01 21:00:34,22,[],45821,2325,79,...,,0,,,['https://en.wikipedia.org/wiki/Lifestyle_(soc...,,0,0,0,
162,WGMKEYLMKDs,"Se 1 parafuso fura 10 paredes nada muda, se um...",#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...,UCAYoI16-UkXemcnhC-kTvDQ,2025-05-20 21:00:28,22,[],7734,457,21,...,,0,,,['https://en.wikipedia.org/wiki/Lifestyle_(soc...,,0,0,0,
261,5KChAfouiHo,Quer segunda chance depois de trair? Ainda que...,#rafaelaires #antiotario #redpillbrasil\n\n🔥 P...,UCAYoI16-UkXemcnhC-kTvDQ,2025-05-14 21:00:10,22,[],308,26,4,...,,0,,,[],,0,0,0,
293,GVyDca7MDxk,ONDE ESTÃO OS HOMENS HÉTEROS?,💪 Use o cupom (CONSELHO) na Growth: https://ww...,UCX0VSzJ2z5l0C9wnwh5SoRw,2025-05-12 21:30:02,26,[],19444,2725,149,...,,0,,,['https://en.wikipedia.org/wiki/Society'],,0,0,0,


In [43]:
print(f"{len(df_videos)} videos")

488 videos


In [44]:
print(df_videos.columns)

Index(['video_id', 'title', 'description', 'channel_id', 'published_at',
       'category_id', 'tags', 'view_count', 'like_count', 'comment_count',
       'duration', 'definition', 'caption', 'licensed_content',
       'privacy_status', 'license', 'embeddable', 'public_stats_viewable',
       'is_made_for_kids', 'thumbnail_url', 'default_audio_language',
       'default_language', 'actual_start_time', 'scheduled_start_time',
       'actual_end_time', 'scheduled_end_time', 'concurrent_viewers',
       'active_live_chat_id', 'recording_date', 'topicCategories',
       'processing_status', 'parts_total', 'parts_processed', 'time_left_ms',
       'processing_failure_reason'],
      dtype='object')


In [45]:
unified_data = pd.concat([df_videos], ignore_index=True)

In [46]:
print(len(df_videos), " videos")
print("sum:", len(unified_data))

488  videos
sum: 488


In [47]:
processed_data_dir = f"processed_data_{result_index}"
os.makedirs(processed_data_dir, exist_ok=True)  # Cria o diretório se não existir

results_data_dir = f'results_{result_index}'
os.makedirs(results_data_dir, exist_ok=True)  # Cria o diretório se não existir

In [48]:
unified_data = pd.concat([df_videos], ignore_index=True)

df_videos.to_csv(f"{processed_data_dir}/videos.csv", index=False)