# üìÑ Consolida√ß√£o de Dados de Not√≠cias Financeiras

Este notebook tem como objetivo **consolidar m√∫ltiplos arquivos `.csv` contendo not√≠cias financeiras** coletadas de diferentes fontes (por exemplo, Yahoo Finance e Investing.com). O processo executado envolve:

- Leitura dos arquivos `.csv` com os dados de not√≠cias.
- Valida√ß√£o da presen√ßa das colunas necess√°rias: `Link`, `Title`, `Description` e `PublishDate`.
- Ignora√ß√£o de arquivos que n√£o atendem ao formato esperado.
- Concatena√ß√£o dos dados v√°lidos em um √∫nico DataFrame.
- Salvamento do resultado consolidado em um novo arquivo `.csv`. 

Essa consolida√ß√£o √© essencial para padronizar a base de dados antes da realiza√ß√£o de an√°lises, como classifica√ß√£o de sentimentos ou modelagens preditivas.

üöÄ **Sa√≠da gerada**: `news_data_concat.csv`, contendo todas as not√≠cias v√°lidas em um √∫nico arquivo.


In [8]:
import pandas as pd

In [None]:
def concat_csv_files(file_paths, output_path):
    """
    Concatena m√∫ltiplos arquivos CSV contendo dados de not√≠cias e salva o resultado em um √∫nico arquivo.

    Esta fun√ß√£o l√™ os arquivos CSV fornecidos, verifica se cada arquivo cont√©m as colunas necess√°rias 
    (Link, Title, Description, PublishDate), e concatena os arquivos v√°lidos em um √∫nico DataFrame. O 
    resultado √© ent√£o salvo em um novo arquivo CSV.

    Args:
        file_paths (list of str): Lista com os caminhos dos arquivos CSV a serem lidos e concatenados.
        output_path (str): Caminho do arquivo de sa√≠da onde os dados concatenados ser√£o salvos.

    Returns:
        None: A fun√ß√£o salva o arquivo concatenado no caminho especificado, mas n√£o retorna nada.
        
    Exce√ß√µes:
        Caso um arquivo n√£o contenha as colunas exigidas ou ocorra um erro ao ler um arquivo, a fun√ß√£o
        ignora o arquivo e imprime uma mensagem de erro ou aviso.
    """
    # Define as colunas exigidas
    required_columns = {'Link', 'Title', 'Description', 'PublishDate'}
    
    # Lista para armazenar DataFrames v√°lidos
    dataframes = []
    
    for file_path in file_paths:
        # L√™ o arquivo .csv
        try:
            df = pd.read_csv(file_path)
            
            # Verifica se todas as colunas exigidas est√£o presentes
            if required_columns.issubset(df.columns):
                dataframes.append(df)
            else:
                print(f"O arquivo {file_path} n√£o cont√©m todas as colunas exigidas e ser√° ignorado.")
        
        except Exception as e:
            print(f"Erro ao ler o arquivo {file_path}: {e}")
    
    # Concatena todos os DataFrames v√°lidos e salva no arquivo de sa√≠da
    if dataframes:
        concatenated_df = pd.concat(dataframes, ignore_index=True)
        concatenated_df.to_csv(output_path, index=False)
        print(f"Tabelas concatenadas salvas em '{output_path}'.")
    else:
        print("Nenhum arquivo v√°lido para concatena√ß√£o.")

In [None]:
file1 = 'D:/Codes/tcc-sentiment-analysis/notebooks/scraping/Yahoo/news_data.csv'
file2 = 'D:/Codes/tcc-sentiment-analysis/notebooks/scraping/Investing/news_data.csv'

output_path = 'D:/Codes/tcc-sentiment-analysis/data/news/news_data_concat.csv'

file_paths = [file1, file2]
final_df = concat_csv_files(file_paths, output_path)
print(final_df)

Tabelas concatenadas salvas em 'D:/Codes/tcc-sentiment-analysis/data/news/news_data_concat.csv'.
None
