# BLOCO 1 - PROTOTIPAGEM DE DADOS FONTE SCOPUS


# 1.1: Importação de bibliotecas e encontro de arquivos de dados

In [1]:
import pandas as pd
from pathlib import Path
import unicodedata
import re

print("--- Passo 1: Localizando arquivos de dados ---")
# Caminho corrigido para o seu ambiente
caminho_base = Path('../../data/raw')
dados_por_fonte = {}

if not caminho_base.is_dir():
    print(f"ERRO: Diretório '{caminho_base.resolve()}' não encontrado.")
else:
    for fonte_path in caminho_base.iterdir():
        if fonte_path.is_dir():
            nome_da_fonte = fonte_path.name
            arquivos = list(fonte_path.glob('*.csv')) + list(fonte_path.glob('*.txt'))
            dados_por_fonte[nome_da_fonte] = arquivos
    print("Arquivos localizados com sucesso.")

--- Passo 1: Localizando arquivos de dados ---
Arquivos localizados com sucesso.


# 1.2: Carregamento e consolidação os dados da fonte "Scopus"

In [2]:

print("\n--- Passo 2: Consolidando dados da fonte 'scopus_input' ---")
lista_dataframes_scopus = []
# O nome da pasta na sua saída foi "scopus_input", vamos usá-lo
arquivos_scopus = dados_por_fonte.get('scopus_input', [])

if not arquivos_scopus:
    print("ERRO: Nenhum arquivo encontrado para a fonte 'scopus_input'.")
else:
    for arquivo_path in arquivos_scopus:
        if arquivo_path.suffix == '.csv':
            df_temp = pd.read_csv(arquivo_path)
            lista_dataframes_scopus.append(df_temp)
            
    if not lista_dataframes_scopus:
        print("ERRO: Nenhum arquivo CSV foi carregado da fonte Scopus.")
    else:
        df_scopus = pd.concat(lista_dataframes_scopus, ignore_index=True)
        print(f"Dados da Scopus consolidados. Total de {len(df_scopus)} linhas.")



--- Passo 2: Consolidando dados da fonte 'scopus_input' ---
Dados da Scopus consolidados. Total de 800 linhas.


# 1.3 Padronização dos nomes das colunas

In [3]:

if 'df_scopus' in locals():
    print("\n--- Passo 3: Padronizando nomes das colunas ---")
    print("Nomes originais:", df_scopus.columns.tolist())
    
    novas_colunas = []
    for col in df_scopus.columns:
        col_normalizada = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
        col_minuscula = col_normalizada.lower()
        col_com_underscore = col_minuscula.replace(' ', '_').replace('-', '_')
        col_final = re.sub(r'[^\w_]', '', col_com_underscore)
        novas_colunas.append(col_final)

    df_scopus.columns = novas_colunas
    print("Nomes padronizados:", df_scopus.columns.tolist())
    
    print("\n--- Processo concluído! DataFrame 'df_scopus' está pronto para a próxima etapa. ---")
    display(df_scopus.head())


--- Passo 3: Padronizando nomes das colunas ---
Nomes originais: ['Authors', 'Author full names', 'Author(s) ID', 'Title', 'Year', 'Source title', 'Volume', 'Issue', 'Art. No.', 'Page start', 'Page end', 'Page count', 'Cited by', 'DOI', 'Link', 'Affiliations', 'Authors with affiliations', 'Abstract', 'Author Keywords', 'Index Keywords', 'Molecular Sequence Numbers', 'Chemicals/CAS', 'Tradenames', 'Manufacturers', 'Funding Details', 'Funding Texts', 'References', 'Correspondence Address', 'Editors', 'Publisher', 'Sponsors', 'Conference name', 'Conference date', 'Conference location', 'Conference code', 'ISSN', 'ISBN', 'CODEN', 'PubMed ID', 'Language of Original Document', 'Abbreviated Source Title', 'Document Type', 'Publication Stage', 'Open Access', 'Source', 'EID', 'Funding Text 1', 'Funding Text 2']
Nomes padronizados: ['authors', 'author_full_names', 'authors_id', 'title', 'year', 'source_title', 'volume', 'issue', 'art_no', 'page_start', 'page_end', 'page_count', 'cited_by', 'doi

Unnamed: 0,authors,author_full_names,authors_id,title,year,source_title,volume,issue,art_no,page_start,...,pubmed_id,language_of_original_document,abbreviated_source_title,document_type,publication_stage,open_access,source,eid,funding_text_1,funding_text_2
0,do Nascimento C.S.; de Almeida Cruz I.; do Nas...,"do Nascimento, Cristiano Souza (57212932024); ...",57212932024; 58355365500; 26028309100; 5595411...,Technological properties of wood from small di...,2023,European Journal of Forest Research,142.0,5.0,,1225.0,...,,English,Eur. J. For. Res.,Article,Final,,Scopus,2-s2.0-85162981044,,
1,da Silva A.S.O.; de Carvalho J.O.P.; Dionisio ...,"da Silva, Antonia Sandra Oliveira (58119830300...",58119830300; 7102474765; 57189244151; 36928208...,Structure of Eschweilera amazonica R. Knuth (m...,2023,Scientia Forestalis/Forest Sciences,51.0,,e3920,,...,,Portuguese,Sci Forest,Article,Final,All Open Access; Gold Open Access,Scopus,2-s2.0-85149013333,,
2,Daly D.C.,"Daly, Douglas C. (7102740855)",7102740855,"A rare new species of Protium from Rondônia, B...",2023,Brittonia,75.0,2.0,,210.0,...,,English,Brittonia,Article,Final,,Scopus,2-s2.0-85160833451,,
3,Londoño-Echeverri Y.; Trujillo-López A.M.; Pér...,"Londoño-Echeverri, Yeison (57221612640); Truji...",57221612640; 57221607661; 58531148900,A new species of Conchocarpus and first record...,2023,Phytotaxa,601.0,2.0,,174.0,...,,English,Phytotaxa,Article,Final,,Scopus,2-s2.0-85167577291,,
4,Corrêa P.G.; Moura L.G.S.; Amaral A.C.F.; do A...,"Corrêa, Pollyane Gomes (58001294800); Moura, L...",58001294800; 58002168600; 7005934688; 57209362...,Chemical and nutritional characterization of A...,2023,Food Research International,163.0,,112290,,...,36596195.0,English,Food Res. Int.,Article,Final,,Scopus,2-s2.0-85143804200,,


# 1.4: Diagnóstico de dados faltantes

In [4]:
print("\n--- Célula 4: Analisando Valores Ausentes ---")
if 'df_scopus' not in locals():
    print("ERRO: O DataFrame 'df_scopus' não foi encontrado. Execute as células anteriores primeiro.")
else:
    # Calcula o total de valores nulos por coluna
    valores_ausentes = df_scopus.isnull().sum()
    
    # Calcula o percentual de valores nulos por coluna
    percentual_ausente = (df_scopus.isnull().sum() / len(df_scopus)) * 100
    
    # Cria um novo DataFrame para apresentar o resultado de forma organizada
    df_ausentes = pd.DataFrame({
        'valores_ausentes': valores_ausentes,
        'percentual_ausente': percentual_ausente
    })
    
    # Filtra para mostrar apenas colunas que de fato têm valores ausentes
    # e ordena para mostrar as mais problemáticas primeiro
    df_ausentes = df_ausentes[df_ausentes['valores_ausentes'] > 0].sort_values(
        by='percentual_ausente', ascending=False
    )
    
    if df_ausentes.empty:
        print("Ótima notícia! Não há valores ausentes no DataFrame.")
    else:
        print("Relatório de Valores Ausentes (em ordem decrescente de %):")
        # Usamos display() para uma formatação de tabela mais bonita no notebook
        display(df_ausentes)


--- Célula 4: Analisando Valores Ausentes ---
Relatório de Valores Ausentes (em ordem decrescente de %):


Unnamed: 0,valores_ausentes,percentual_ausente
editors,800,100.0
isbn,800,100.0
conference_name,799,99.875
sponsors,799,99.875
conference_date,799,99.875
conference_code,799,99.875
conference_location,799,99.875
manufacturers,798,99.75
molecular_sequence_numbers,798,99.75
tradenames,797,99.625


# 1.5: Removendo colunas com mais de 60% de valores ausentes

In [5]:
print("\n--- Célula 5: Removendo colunas com mais de 60% de valores ausentes ---")

if 'df_scopus' not in locals() or 'df_ausentes' not in locals():
    print("ERRO: Certifique-se de que as Células 2, 3 e 4 foram executadas com sucesso.")
else:
    # Define o limiar de percentual para remoção (AJUSTADO CONFORME SOLICITADO)
    limiar_percentual = 60.0
    
    # Identifica as colunas a serem removidas com base no relatório da Célula 4
    colunas_para_remover = df_ausentes[df_ausentes['percentual_ausente'] > limiar_percentual].index.tolist()
    
    if not colunas_para_remover:
        print("Nenhuma coluna ultrapassou o limiar de 60% de ausência. Nenhuma coluna foi removida.")
        # Se nenhuma coluna for removida, o df_scopus_limpo é uma cópia do original
        df_scopus_limpo = df_scopus.copy()
    else:
        print(f"Total de colunas a serem removidas: {len(colunas_para_remover)}")
        print("Colunas removidas:", colunas_para_remover)
        
        # Cria um novo DataFrame sem as colunas indesejadas
        df_scopus_limpo = df_scopus.drop(columns=colunas_para_remover)
        
        print(f"\nDataFrame limpo! O número de colunas passou de {len(df_scopus.columns)} para {len(df_scopus_limpo.columns)}.")

    # Exibe as informações do novo DataFrame para vermos o resultado
    print("\nInformações do novo DataFrame 'df_scopus_limpo':")
    df_scopus_limpo.info()


--- Célula 5: Removendo colunas com mais de 60% de valores ausentes ---
Total de colunas a serem removidas: 16
Colunas removidas: ['editors', 'isbn', 'conference_name', 'sponsors', 'conference_date', 'conference_code', 'conference_location', 'manufacturers', 'molecular_sequence_numbers', 'tradenames', 'funding_text_2', 'funding_text_1', 'art_no', 'chemicalscas', 'pubmed_id', 'funding_texts']

DataFrame limpo! O número de colunas passou de 48 para 32.

Informações do novo DataFrame 'df_scopus_limpo':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   authors                        799 non-null    object 
 1   author_full_names              754 non-null    object 
 2   authors_id                     799 non-null    object 
 3   title                          800 non-null    object 
 4   year                    

# 1.6: Imputação (Preenchimento) de Valores Ausentes

In [6]:
print("\n--- Célula 6: Preenchendo os valores ausentes restantes ---")

if 'df_scopus_limpo' not in locals():
    print("ERRO: O DataFrame 'df_scopus_limpo' não foi encontrado. Execute a Célula 5 primeiro.")
else:
    # Mostra um resumo dos dados faltantes ANTES do preenchimento
    print("Valores ausentes ANTES da imputação:")
    print(df_scopus_limpo.isnull().sum().sort_values(ascending=False).head())

    # Itera sobre cada coluna do DataFrame para aplicar o preenchimento
    for coluna in df_scopus_limpo.columns:
        # Verifica se a coluna tem algum valor nulo para otimizar o processo
        if df_scopus_limpo[coluna].isnull().any():
            # Se a coluna for do tipo 'object' (texto), preenche com 'nao_informado'
            if df_scopus_limpo[coluna].dtype == 'object':
                df_scopus_limpo[coluna].fillna('nao_informado', inplace=True)
            # Se for numérica, preenche com 0
            else:
                df_scopus_limpo[coluna].fillna(0, inplace=True)

    print("\nImputação concluída!")
    
    # Executa o .info() para PROVAR que não há mais valores nulos
    # A contagem de "Non-Null Count" deve ser igual para todas as colunas
    print("\nInformações do DataFrame 'df_scopus_limpo' APÓS a imputação:")
    df_scopus_limpo.info()


--- Célula 6: Preenchendo os valores ausentes restantes ---
Valores ausentes ANTES da imputação:
funding_details    463
open_access        456
coden              415
index_keywords     339
publisher          254
dtype: int64

Imputação concluída!

Informações do DataFrame 'df_scopus_limpo' APÓS a imputação:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   authors                        800 non-null    object 
 1   author_full_names              800 non-null    object 
 2   authors_id                     800 non-null    object 
 3   title                          800 non-null    object 
 4   year                           800 non-null    int64  
 5   source_title                   800 non-null    object 
 6   volume                         800 non-null    float64
 7   issue                          800 non-n

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_scopus_limpo[coluna].fillna('nao_informado', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_scopus_limpo[coluna].fillna(0, inplace=True)


# 1.7: Correção dos Tipos de Dados (Dtypes)

In [7]:
print("\n--- Célula 7: Corrigindo os tipos de dados (Dtypes) ---")

if 'df_scopus_limpo' not in locals():
    print("ERRO: O DataFrame 'df_scopus_limpo' não foi encontrado. Execute as células anteriores primeiro.")
else:
    # Lista de colunas que deveriam ser numéricas.
    # Revise e ajuste esta lista conforme necessário para seus dados.
    colunas_para_converter = [
        'year', 
        'volume', 
        'issue', 
        'page_start', 
        'page_end', 
        'page_count', 
        'cited_by'
    ]

    print("Tentando converter as seguintes colunas para o tipo numérico:", colunas_para_converter)

    for coluna in colunas_para_converter:
        # Verifica se a coluna existe no DataFrame antes de tentar converter
        if coluna in df_scopus_limpo.columns:
            # Converte para numérico. errors='coerce' transforma falhas em NaN.
            df_scopus_limpo[coluna] = pd.to_numeric(df_scopus_limpo[coluna], errors='coerce')
            # Preenche quaisquer NaNs que possam ter sido criados na conversão
            df_scopus_limpo[coluna].fillna(0, inplace=True)
            # Converte a coluna para o tipo inteiro para economizar memória e ser mais preciso
            df_scopus_limpo[coluna] = df_scopus_limpo[coluna].astype(int)
        else:
            print(f"Aviso: A coluna '{coluna}' não foi encontrada no DataFrame e foi ignorada.")

    print("\nConversão de tipos de dados concluída!")
    
    # Exibe as informações do DataFrame para vermos as mudanças nos Dtypes
    print("\nInformações do DataFrame 'df_scopus_limpo' APÓS a correção de tipos:")
    df_scopus_limpo.info()


--- Célula 7: Corrigindo os tipos de dados (Dtypes) ---
Tentando converter as seguintes colunas para o tipo numérico: ['year', 'volume', 'issue', 'page_start', 'page_end', 'page_count', 'cited_by']

Conversão de tipos de dados concluída!

Informações do DataFrame 'df_scopus_limpo' APÓS a correção de tipos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   authors                        800 non-null    object
 1   author_full_names              800 non-null    object
 2   authors_id                     800 non-null    object
 3   title                          800 non-null    object
 4   year                           800 non-null    int64 
 5   source_title                   800 non-null    object
 6   volume                         800 non-null    int64 
 7   issue                          800 non-null    int

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_scopus_limpo[coluna].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_scopus_limpo[coluna].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting valu

# 1.8: Verificação e Remoção de Duplicatas

In [8]:
print("\n--- Célula 8: Verificando e Removendo Duplicatas ---")

if 'df_scopus_limpo' not in locals():
    print("ERRO: O DataFrame 'df_scopus_limpo' não foi encontrado. Execute as células anteriores primeiro.")
else:
    # 1. Verifica a quantidade de linhas duplicadas
    num_duplicatas = df_scopus_limpo.duplicated().sum()
    print(f"Foram encontradas {num_duplicatas} linhas duplicadas.")

    # 2. Remove as duplicatas, se existirem
    if num_duplicatas > 0:
        linhas_antes = len(df_scopus_limpo)
        # keep='first' (padrão) mantém a primeira ocorrência e remove as subsequentes
        df_scopus_final = df_scopus_limpo.drop_duplicates(keep='first')
        linhas_depois = len(df_scopus_final)
        print(f"{num_duplicatas} linhas duplicadas foram removidas.")
        print(f"O número total de linhas passou de {linhas_antes} para {linhas_depois}.")
    else:
        print("Nenhuma linha duplicada encontrada. O DataFrame já está limpo.")
        # Se não há duplicatas, o DataFrame final é uma cópia do anterior
        df_scopus_final = df_scopus_limpo.copy()

    print("\n--- Processo de Limpeza e Padronização da Fonte Scopus CONCLUÍDO! ---")
    print("\nInformações do DataFrame final 'df_scopus_final':")
    df_scopus_final.info()


--- Célula 8: Verificando e Removendo Duplicatas ---
Foram encontradas 0 linhas duplicadas.
Nenhuma linha duplicada encontrada. O DataFrame já está limpo.

--- Processo de Limpeza e Padronização da Fonte Scopus CONCLUÍDO! ---

Informações do DataFrame final 'df_scopus_final':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   authors                        800 non-null    object
 1   author_full_names              800 non-null    object
 2   authors_id                     800 non-null    object
 3   title                          800 non-null    object
 4   year                           800 non-null    int64 
 5   source_title                   800 non-null    object
 6   volume                         800 non-null    int64 
 7   issue                          800 non-null    int64 
 8   page_start            