# Bloco 1: Leitura do material na pasta de input

In [6]:
# --- Bloco Único - Versão Final e Corrigida ---

# 1. Importação das bibliotecas necessárias
from pathlib import Path
import pandas as pd

# 2. Definição do caminho base (AQUI ESTÁ A CORREÇÃO FINAL)
# Subimos dois níveis ('../../') para chegar na raiz do projeto e então acessar 'data/raw'.
caminho_base = Path('../../data/raw')

# 3. Execução da lógica principal
# A linha abaixo agora DEVE imprimir o caminho correto
print(f"Tentando acessar o diretório: {caminho_base.resolve()}")

# Dicionário que irá armazenar os dados organizados por fonte
dados_por_fonte = {}

# Verifica se o caminho base existe e é um diretório
if not caminho_base.is_dir():
    print(f"\nERRO: Diretório base não encontrado.")
    print("Por favor, confirme no explorador de arquivos à esquerda que a pasta 'data/raw' existe na raiz do projeto.")
else:
    # Itera sobre cada item dentro do diretório base
    for fonte_path in caminho_base.iterdir():
        # Verifica se o item é um diretório
        if fonte_path.is_dir():
            nome_da_fonte = fonte_path.name
            
            # Busca por arquivos .csv e .txt dentro da pasta da fonte
            arquivos_csv = list(fonte_path.glob('*.csv'))
            arquivos_txt = list(fonte_path.glob('*.txt'))
            
            # Adiciona os arquivos encontrados ao nosso dicionário
            dados_por_fonte[nome_da_fonte] = arquivos_csv + arquivos_txt

    # 4. Impressão do resultado final
    if not dados_por_fonte:
        print("\nNenhuma subpasta com arquivos foi encontrada em 'data/raw'.")
    else:
        print("\n--- Arquivos encontrados e organizados por fonte ---")
        for fonte, arquivos in dados_por_fonte.items():
            print(f"\nFonte: {fonte}")
            if not arquivos:
                print("  -> Nenhum arquivo .csv ou .txt encontrado.")
            else:
                for arquivo in arquivos:
                    # Usamos .as_posix() para uma exibição de caminho mais limpa
                    print(f"  -> {arquivo.as_posix()}")

Tentando acessar o diretório: /workspaces/sismm-cti-amazon/data/raw

--- Arquivos encontrados e organizados por fonte ---

Fonte: scopus_input
  -> ../../data/raw/scopus_input/scopus_angiospermas.csv
  -> ../../data/raw/scopus_input/scopus_fungos_strictusensus.csv
  -> ../../data/raw/scopus_input/scopus_samambaias_e_licófitas.csv
  -> ../../data/raw/scopus_input/scopus_briófitas_musgos.csv
  -> ../../data/raw/scopus_input/scopus_briófitas_hepáticas.csv

Fonte: cncflora
  -> ../../data/raw/cncflora/lista_vermelha_cnc_flora.csv
  -> ../../data/raw/cncflora/termos_plantas.txt

Fonte: espacenet_input
  -> ../../data/raw/espacenet_input/espacenet_samambaias_e_licofitas.csv
  -> ../../data/raw/espacenet_input/espacenet_angiosperma.csv


# Bloco 2:  Carregando e Unindo os Dados da Scopus

In [7]:
# Lista para armazenar os DataFrames de cada arquivo
lista_dataframes_scopus = []

# Seleciona a lista de arquivos da fonte 'scopus_input'
# Usamos .get() para evitar um erro caso a chave não exista
arquivos_scopus = dados_por_fonte.get('scopus_input', [])

if not arquivos_scopus:
    print("Nenhum arquivo encontrado para a fonte 'scopus_input'.")
else:
    print(f"Encontrados {len(arquivos_scopus)} arquivos para a fonte 'scopus_input'. Carregando...")
    
    # Loop para ler cada arquivo e adicioná-lo à nossa lista
    for arquivo_path in arquivos_scopus:
        # Verifica se é um arquivo CSV antes de tentar ler
        if arquivo_path.suffix == '.csv':
            print(f" -> Lendo o arquivo: {arquivo_path.name}")
            df_temp = pd.read_csv(arquivo_path)
            lista_dataframes_scopus.append(df_temp)

    # Verifica se algum DataFrame foi carregado
    if not lista_dataframes_scopus:
        print("\nNenhum DataFrame foi carregado. Verifique se os arquivos CSV não estão vazios.")
    else:
        # Concatena todos os DataFrames da lista em um único DataFrame
        df_scopus = pd.concat(lista_dataframes_scopus, ignore_index=True)
        
        print("\n--- Dados da Scopus Consolidados com Sucesso! ---")
        
        # Exibe informações gerais do DataFrame consolidado
        print("\nInformações do DataFrame (df_scopus):")
        df_scopus.info()
        
        # Exibe as 5 primeiras linhas para uma inspeção inicial
        print("\n5 primeiras linhas do DataFrame (df_scopus):")
        display(df_scopus.head())

Encontrados 5 arquivos para a fonte 'scopus_input'. Carregando...
 -> Lendo o arquivo: scopus_angiospermas.csv
 -> Lendo o arquivo: scopus_fungos_strictusensus.csv
 -> Lendo o arquivo: scopus_samambaias_e_licófitas.csv
 -> Lendo o arquivo: scopus_briófitas_musgos.csv
 -> Lendo o arquivo: scopus_briófitas_hepáticas.csv

--- Dados da Scopus Consolidados com Sucesso! ---

Informações do DataFrame (df_scopus):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 48 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Authors                        799 non-null    object 
 1   Author full names              754 non-null    object 
 2   Author(s) ID                   799 non-null    object 
 3   Title                          800 non-null    object 
 4   Year                           800 non-null    int64  
 5   Source title                   800 non-null    object 
 6   

Unnamed: 0,Authors,Author full names,Author(s) ID,Title,Year,Source title,Volume,Issue,Art. No.,Page start,...,PubMed ID,Language of Original Document,Abbreviated Source Title,Document Type,Publication Stage,Open Access,Source,EID,Funding Text 1,Funding Text 2
0,do Nascimento C.S.; de Almeida Cruz I.; do Nas...,"do Nascimento, Cristiano Souza (57212932024); ...",57212932024; 58355365500; 26028309100; 5595411...,Technological properties of wood from small di...,2023,European Journal of Forest Research,142.0,5.0,,1225.0,...,,English,Eur. J. For. Res.,Article,Final,,Scopus,2-s2.0-85162981044,,
1,da Silva A.S.O.; de Carvalho J.O.P.; Dionisio ...,"da Silva, Antonia Sandra Oliveira (58119830300...",58119830300; 7102474765; 57189244151; 36928208...,Structure of Eschweilera amazonica R. Knuth (m...,2023,Scientia Forestalis/Forest Sciences,51.0,,e3920,,...,,Portuguese,Sci Forest,Article,Final,All Open Access; Gold Open Access,Scopus,2-s2.0-85149013333,,
2,Daly D.C.,"Daly, Douglas C. (7102740855)",7102740855,"A rare new species of Protium from Rondônia, B...",2023,Brittonia,75.0,2.0,,210.0,...,,English,Brittonia,Article,Final,,Scopus,2-s2.0-85160833451,,
3,Londoño-Echeverri Y.; Trujillo-López A.M.; Pér...,"Londoño-Echeverri, Yeison (57221612640); Truji...",57221612640; 57221607661; 58531148900,A new species of Conchocarpus and first record...,2023,Phytotaxa,601.0,2.0,,174.0,...,,English,Phytotaxa,Article,Final,,Scopus,2-s2.0-85167577291,,
4,Corrêa P.G.; Moura L.G.S.; Amaral A.C.F.; do A...,"Corrêa, Pollyane Gomes (58001294800); Moura, L...",58001294800; 58002168600; 7005934688; 57209362...,Chemical and nutritional characterization of A...,2023,Food Research International,163.0,,112290,,...,36596195.0,English,Food Res. Int.,Article,Final,,Scopus,2-s2.0-85143804200,,
