# Consolidação de Base de Dados - SCOPUS
Este bloco unifica os arquivos exportados da base Scopus, padronizando o diretório local e preparando os dados para posterior união com outras bases da revisão TEMAC.

In [3]:
import os
import pandas as pd

# Caminho absoluto para a pasta da Scopus no seu ambiente Linux
pasta_origem_scopus = "/home/silvio/Projetos/TEMAC/SCOPUS"

### 1. Mapeamento dos Arquivos CSV (Scopus)

In [4]:
if not os.path.exists(pasta_origem_scopus):
    print(f"Erro: A pasta '{pasta_origem_scopus}' não foi encontrada.")
    arquivos_csv_scopus = []
else:
    arquivos_csv_scopus = [arquivo for arquivo in os.listdir(pasta_origem_scopus) if arquivo.endswith('.csv')]
    
    if not arquivos_csv_scopus:
        print(f"Nenhum arquivo CSV encontrado na pasta '{pasta_origem_scopus}'.")
    else:
        print(f"Encontrados {len(arquivos_csv_scopus)} arquivos CSV da Scopus. Iniciando a leitura...\n")

Encontrados 13 arquivos CSV da Scopus. Iniciando a leitura...



### 2. Leitura e Concatenação
A Scopus exporta com algumas colunas específicas (como "EID", "Title", "Source title"). O Pandas empilhará todas elas e manterá o cabeçalho original apenas na primeira linha.

In [5]:
lista_dataframes_scopus = []

if arquivos_csv_scopus:
    for nome_arquivo in arquivos_csv_scopus:
        caminho_completo = os.path.join(pasta_origem_scopus, nome_arquivo)
        
        # A Scopus costuma usar utf-8 com separador vírgula
        df_scopus = pd.read_csv(caminho_completo, encoding='utf-8') 
        lista_dataframes_scopus.append(df_scopus)
        print(f"Lido: {nome_arquivo} - {len(df_scopus)} linhas")

    base_consolidada_scopus = pd.concat(lista_dataframes_scopus, ignore_index=True)
    total_inicial_scopus = len(base_consolidada_scopus)
    print(f"\nTotal de registros empilhados (Scopus): {total_inicial_scopus}")

Lido: scopus_export_Feb 20-2026_47d165b8-ec88-408e-8558-0f005b48f92a.csv - 130 linhas
Lido: scopus_export_Feb 20-2026_b61a3097-9f44-4c77-af06-7bd1fc268c48.csv - 22 linhas
Lido: scopus_export_Feb 20-2026_157fca04-8cb3-4434-bd57-7b1808c37c82.csv - 95 linhas
Lido: scopus_export_Feb 20-2026_2363e749-3da8-4dba-abf0-9172284f86f1.csv - 13 linhas
Lido: scopus_export_Feb 20-2026_d5d314ce-f35d-4c77-8130-49c408235a9e.csv - 81 linhas
Lido: scopus_export_Feb 20-2026_1dcad79f-f108-466d-9cc7-b36286da0eeb.csv - 5 linhas
Lido: scopus_export_Feb 20-2026_a9d07339-59f8-4e4c-b0e7-7d7eccaa9347.csv - 16 linhas
Lido: scopus_export_Feb 20-2026_72bbd9f4-7244-457b-a0f8-1190cdaf7191.csv - 219 linhas
Lido: scopus_export_Feb 20-2026_f876e2e4-4011-4cd6-ba58-a317f8b2e9f1.csv - 33 linhas
Lido: scopus_export_Feb 20-2026_ba78f0cf-e15e-4f6c-8c57-3762dc387d4c.csv - 1522 linhas
Lido: scopus_export_Feb 20-2026_a6504c70-9720-49d5-9b98-3543a4588b48.csv - 46 linhas
Lido: scopus_export_Feb 20-2026_bda59917-bf46-45f4-a736-8b179b

### 3. Limpeza de Duplicatas e Exportação
Na base Scopus, a coluna de título se chama `Title`. Usaremos ela e a coluna `DOI` para garantir que não haja registros duplicados entre as exportações.

In [None]:
if arquivos_csv_scopus and 'base_consolidada_scopus' in locals():
    # Remoção de duplicatas baseada em 'Title' e 'DOI'
    base_deduplicada_scopus = base_consolidada_scopus.drop_duplicates(subset=['Title', 'DOI'], keep='first')
    total_final_scopus = len(base_deduplicada_scopus)
    
    print("--- Resumo da Limpeza (Scopus) ---")
    print(f"Registros originais: {total_inicial_scopus}")
    print(f"Registros únicos mantidos: {total_final_scopus}")
    print(f"Duplicatas removidas: {total_inicial_scopus - total_final_scopus}")
    
    # Salva o arquivo final consolidado no próprio diretório do projeto
    arquivo_saida_scopus = "/home/silvio/Projetos/TEMAC/ajustes_BD/base_scopus_consolidada.csv"
    base_deduplicada_scopus.to_csv(arquivo_saida_scopus, index=False, encoding='utf-8')
    print(f"\nBase final pronta e salva como: {arquivo_saida_scopus}")

--- Resumo da Limpeza (Scopus) ---
Registros originais: 4214
Registros únicos mantidos: 3686
Duplicatas removidas: 528

Base final pronta e salva como: /home/silvio/Projetos/TEMAC/base_scopus_consolidada.csv
