In [1]:
import pandas as pd
from unidecode import unidecode

# Função para remover acentos e caracteres especiais e transformar em letras minúsculas
def preprocess_title(title):
    title = unidecode(title)  # Remove acentos
    title = title.lower()  # Converte para letras minúsculas
    return title

# Leia os arquivos CSV em dataframes
web_of_science_df = pd.read_csv('Revisão sistemática/WOSartigos.csv', encoding='ISO-8859-1')
scopus_df = pd.read_csv('Revisão sistemática/scopus.csv', encoding='utf-8-sig')

# Renomeie as colunas do dataframe Scopus
scopus_df = scopus_df.rename(columns={'ï»¿"Authors"': 'Authors',
    'Author(s) ID': 'Author ID',
    'Title': 'Article Title',
    'Year': 'Publication Year',
    'Source title': 'Source Title',
    'Volume': 'Volume',
    'Issue': 'Issue',
    'Art. No.': 'Article Number',
    'Page start': 'Start Page',
    'Page end': 'End Page',
    'Cited by': 'Cited by',
    'DOI': 'DOI',
    'Abstract': 'Abstract',
    'Author Keywords': 'Author Keywords',
    'Index Keywords': 'Index Keywords',
    'References': 'References',
    'Affiliations': 'Affiliations'})

# Pré-processamento de colunas para a junção (merge)
web_of_science_df['Article Title'] = web_of_science_df['Article Title'].apply(preprocess_title)
scopus_df['Article Title'] = scopus_df['Article Title'].apply(preprocess_title)

# Crie conjuntos de títulos únicos para cada base de dados
web_of_science_titles = set(web_of_science_df['Article Title'])
scopus_titles = set(scopus_df['Article Title'])

# Remova títulos duplicados entre as duas bases
web_of_science_df = web_of_science_df[~web_of_science_df['Article Title'].isin(scopus_titles)]
scopus_df = scopus_df[~scopus_df['Article Title'].isin(web_of_science_titles)]

# Junte os dataframes
resultado = pd.concat([web_of_science_df, scopus_df], ignore_index=True)

# Salve o resultado em um novo arquivo CSV
resultado.to_csv('Merge dos banco de dados excluindo duplicatas DOI e Títulos321.csv', index=False, encoding='utf-8-sig')
