# 📄 Consolidação de Dados de Notícias Financeiras

Este notebook tem como objetivo **consolidar múltiplos arquivos `.csv` contendo notícias financeiras** coletadas de diferentes fontes (por exemplo, Yahoo Finance e Investing.com). O processo executado envolve:

- Leitura dos arquivos `.csv` com os dados de notícias.
- Validação da presença das colunas necessárias: `Link`, `Title`, `Description` e `PublishDate`.
- Ignoração de arquivos que não atendem ao formato esperado.
- Concatenação dos dados válidos em um único DataFrame.
- Salvamento do resultado consolidado em um novo arquivo `.csv`. 

Essa consolidação é essencial para padronizar a base de dados antes da realização de análises, como classificação de sentimentos ou modelagens preditivas.

🚀 **Saída gerada**: `news_data_concat.csv`, contendo todas as notícias válidas em um único arquivo.


In [8]:
import pandas as pd

In [None]:
def concat_csv_files(file_paths, output_path):
    """
    Concatena múltiplos arquivos CSV contendo dados de notícias e salva o resultado em um único arquivo.

    Esta função lê os arquivos CSV fornecidos, verifica se cada arquivo contém as colunas necessárias 
    (Link, Title, Description, PublishDate), e concatena os arquivos válidos em um único DataFrame. O 
    resultado é então salvo em um novo arquivo CSV.

    Args:
        file_paths (list of str): Lista com os caminhos dos arquivos CSV a serem lidos e concatenados.
        output_path (str): Caminho do arquivo de saída onde os dados concatenados serão salvos.

    Returns:
        None: A função salva o arquivo concatenado no caminho especificado, mas não retorna nada.
        
    Exceções:
        Caso um arquivo não contenha as colunas exigidas ou ocorra um erro ao ler um arquivo, a função
        ignora o arquivo e imprime uma mensagem de erro ou aviso.
    """
    # Define as colunas exigidas
    required_columns = {'Link', 'Title', 'Description', 'PublishDate'}
    
    # Lista para armazenar DataFrames válidos
    dataframes = []
    
    for file_path in file_paths:
        # Lê o arquivo .csv
        try:
            df = pd.read_csv(file_path)
            
            # Verifica se todas as colunas exigidas estão presentes
            if required_columns.issubset(df.columns):
                dataframes.append(df)
            else:
                print(f"O arquivo {file_path} não contém todas as colunas exigidas e será ignorado.")
        
        except Exception as e:
            print(f"Erro ao ler o arquivo {file_path}: {e}")
    
    # Concatena todos os DataFrames válidos e salva no arquivo de saída
    if dataframes:
        concatenated_df = pd.concat(dataframes, ignore_index=True)
        concatenated_df.to_csv(output_path, index=False)
        print(f"Tabelas concatenadas salvas em '{output_path}'.")
    else:
        print("Nenhum arquivo válido para concatenação.")

In [None]:
file1 = 'D:/Codes/tcc-sentiment-analysis/notebooks/scraping/Yahoo/news_data.csv'
file2 = 'D:/Codes/tcc-sentiment-analysis/notebooks/scraping/Investing/news_data.csv'

output_path = 'D:/Codes/tcc-sentiment-analysis/data/news/news_data_concat.csv'

file_paths = [file1, file2]
final_df = concat_csv_files(file_paths, output_path)
print(final_df)

Tabelas concatenadas salvas em 'D:/Codes/tcc-sentiment-analysis/data/news/news_data_concat.csv'.
None
