# CONFIGURAÇÕES

»» Recursos de interesse:

- Markdown: https://www.markdownguide.org/


## Ativar as bibliotecas de interesse

In [1]:
import os
import sys

In [2]:
import requests
import json

import pickle

import math 
import pandas as pd

## Diretorias


In [3]:
os.getcwd()

'c:\\Users\\paulo\\OneDrive\\ONEDRIVE_CLOUD_DISK\\TRABALHO_AULAS\\AL20242025\\1SEM\\ICD\\projICD2425\\notebooks'

In [4]:
# When this jupyter notebook is opened, the current working directory is the directory where the notebook is saved.
# However, for a better organization of code, we recomend to change the working directory to the root directory of the project.
# Here a windows terminal command to change the working directory is executed. 
# Please, consider to use the right command if you are using another operative system (UNIX).
# Note that the root path is located one level on the top of the folders tree. Thus, we use the relative path symbol "../" to go up one level.

%cd ../

c:\Users\paulo\OneDrive\ONEDRIVE_CLOUD_DISK\TRABALHO_AULAS\AL20242025\1SEM\ICD\projICD2425


# Adicionar os módulos auxiliares

A pasta scripts contém um conjunto de módulos (ficheiros) auxiliares que englobam várias ferramentas (funções) de interesse ao longo do projeto.

In [5]:
# This block of code is used to add the path to the auxiliar modules to the system path.
# Only when the path is added to the system path, the modules can be imported in the notebook as with other
# libraries such as pandas or numpy.

aux_modules_path = os.path.abspath(os.path.join('./scripts'))
if aux_modules_path not in sys.path:
    sys.path.append(aux_modules_path)

### Exemplo de uso dos módulos auxiliares


In [6]:
from scripts.auxiliar_tools import *

print(print_hello_world())

Hello World!


## Configuração Chave API

In [None]:
from decouple import config

# https://medium.com/@alensabu12xtz/configure-environment-variables-with-python-decouple-b5f5446381a3

MY_SCOPUS_API_KEY = config('MY_SCOPUS_API_KEY')

# print('my scopus api key is :', MY_SCOPUS_API_KEY) 

In [None]:
from decouple import Config, RepositoryEnv

DOTENV_FILE = '../.env'
env_config = Config(RepositoryEnv(DOTENV_FILE))

# use the Config().get() method as you normally would since 
# decouple.config uses that internally. 
# i.e. config('SECRET_KEY') = env_config.get('SECRET_KEY')
MY_SCOPUS_API_KEY = env_config.get('MY_SCOPUS_API_KEY')

print('my scopus api key is :', MY_SCOPUS_API_KEY) 

# RECOLHA DE DADOS - Parte 1
Pesquisa e recolha de resultados com a API Scoupus API

## Análise exploratória dos resultados de pesquisa

### Exploratório: 1. Pesquisa API

In [None]:
# IMPORTANTE: https://dev.elsevier.com/sc_search_tips.html

user_query = "data mining housing automated valuation model"

response = requests.get("https://api.elsevier.com/content/search/scopus",
                    headers={'Accept':'application/json',
                             'X-ELS-APIKey': MY_SCOPUS_API_KEY},
                         
                    params={    'query' : user_query,
                                #'start' : "1"
                        }

                        )

print(response.url)



### Exploratório: 2. Analisar resultados / resposta API

In [None]:
print(response.status_code)

In [None]:
# A simples invocação da resposta da API (em formato json) imprime o contéudo obtido com a respetiva syntaxe json
# No entanto, como facilmente se depreende desta forma é dificil discernir a estrutura hierárquica dos dados e, desta forma, extrair os diferentes dados em cada nível
# por forma a transformar os dados numa estrutura de dados mais amigável (por exemplo, um data.frame da livraria "pandas", que nos é uma estrutura de dados mais familiar
# para manipulação)
results = response.json()
results


In [None]:
# Podemos assim invocar a função "jprint" que definimos inicialmente para obtermos uma visualização mais amigável da estrutura de dados codificada no json
# Esta visualização permite-nos ainda identificar a "localização" (na hierarquia) dos dados de interesse e, portanto, as respetivas chaves (que nos permitem
# aceder a esses mesmos dados)
jprint(response.json())

In [None]:
results["search-results"]['entry'][0]["affiliation"]


In [None]:
'affiliation' in results["search-results"]['entry'][0]

### Exploratório: 3. Número total de resultados obtidos na pesquisa

In [None]:
number_of_articles_retrieved = results["search-results"]["opensearch:totalResults"]
number_of_articles_retrieved

In [None]:
number_of_articles_perResultPage = results["search-results"]["opensearch:itemsPerPage"]
number_of_articles_perResultPage

### Exploratório: 4. Obter dados de cada um dos resultados de pesquisa e transformar numa estrutura de dados amigável (pandas -» data.frame )

#### Opção 1

In [None]:
df = pd.DataFrame.from_records(results["search-results"]['entry'] )
df[:3]

#### Opção 2

In [None]:
df = pd.json_normalize(results["search-results"],['entry'] )
df[:3]

In [None]:
df.columns

### Exploratório: 5. Aceder a dados em diferentes níveis hierárquicos

In [None]:
df_affiliation = pd.json_normalize(results["search-results"],['entry', 'affiliation'] )
df_affiliation.columns
#df['prism:doi']
#df_affiliation



In [None]:
df_affiliation[:5]



### Exploratório: 5.1 Aceder a dados em diferentes níveis hierárquicos »» POSSÍVEIS DIFICULDADES

Por vezes, nos resultados de pesquisa alguns items podem não conter certos elementos / informação codificada em níveis hierárquicos
inferiores do json.
Por exemplo, a informação sobre a afiliação dos autores pode estar omissa. 
Nestes casos, ao usar a função "pd.json_normalize" para navegar para níveis inferiores pode devolver um erro e inviabilizar o processo automatizado (isto porque a função
"json_normalize" não permite uma forma expedita de solucionar este problema).

Uma estratégia "naife" para ultrapassar esta questão passa por  transformar os dados para um data.frame considerando
apenas o nível inicial da hierarquia do json (ou seja, utilizar a função json_normalize como fizemos para obter o objeto "df" anteriormente).
Como verificamos, certos elementos do data.frame "df" armazenam dados em formato json / dicionário nas suas células.
Ao invés de utilizarmos a função "json_normalize" para obtermos dados nos níveis hierárquicos inferiores, podemos desenvolver o nosso próprio algoritmo
por forma a solucionarmos os problemas de dados omissos.

Assim, uma implementação alternativa do ponto 5, para os dados da coluna "affiliation" seria algo como o que se ilustra no código seguinte.

NOTA: reparem que se optarem por esta estratégia deverão alterar o código da seccção "Automatização global" em conformidade!

In [34]:
import numpy as np 

i=0 #devem utilizar um índice (de linha) para o qual existam dados na coluna "affiliation" do vosso data.frame «df»
AFF_COL_NAMES = pd.json_normalize(df.affiliation[0]).columns

df_affiliation_v2 = pd.DataFrame(columns=AFF_COL_NAMES)

for i in range(len(df.affiliation)) :
    if  type(df.affiliation.iloc[i]) == list :
        df_aux = pd.json_normalize(df.affiliation.iloc[i])
        df_affiliation_v2 = pd.concat([df_affiliation_v2, df_aux], ignore_index=True)

    else:
        emptydf = pd.DataFrame(np.nan, index=[0],columns=AFF_COL_NAMES) 
        df_affiliation_v2 = pd.concat([df_affiliation_v2,emptydf], ignore_index=True)

In [None]:
df_affiliation_v2[:5]

### Exploratório: 6. Combinar dados de diferentes hierarquias num único "data.frame"
https://pandas.pydata.org/docs/getting_started/intro_tutorials/08_combine_dataframes.html 

In [None]:
FIELDS = ['dc:title', "prism:doi", 'dc:creator', 'citedby-count', 'openaccess']
df[FIELDS][:3]

In [None]:
df_all = pd.merge(df[FIELDS], df_affiliation_v2, how='left', left_index=True, right_index=True)
df_all[:3]


## Automatização global
Recolha de resultados individuais da API, seleção de dados de interesse, criação de estrutura de dados amigável

In [None]:
user_query = "data mining housing automated valuation model"
LEVEL0_FIELDS_OF_INTEREST = ['dc:title', "prism:doi", 'dc:creator']
AFFILIATION_FIELDS_OF_INTEREST = ['affilname', 'affiliation-city', 'affiliation-country']

df_results_list = pd.DataFrame(columns=LEVEL0_FIELDS_OF_INTEREST+AFFILIATION_FIELDS_OF_INTEREST)

cursor = "*"

for i in range(0,math.ceil(int(number_of_articles_retrieved)/int(number_of_articles_perResultPage))) :
#for i in range(0,1) :
    
    
    response = requests.get("https://api.elsevier.com/content/search/scopus",
                    headers={'Accept':'application/json',
                             'X-ELS-APIKey': MY_SCOPUS_API_KEY},
                         
                    params={    'query' : user_query,
                                'cursor' : cursor
                        }

                        )
    print(i)
    print(response.url)
    print(response.status_code)

    if(response.status_code == 200):
        results_aux = response.json()

        df_level1_aux = pd.DataFrame.from_records(results_aux["search-results"]['entry'] )
        df_level1_aux = df_level1_aux[LEVEL0_FIELDS_OF_INTEREST]
                
        df_affil_aux = pd.json_normalize(results["search-results"],['entry', 'affiliation'] )
        df_affil_aux = df_affil_aux[AFFILIATION_FIELDS_OF_INTEREST]
                
        df_all_aux = pd.merge(df_level1_aux, df_affil_aux, how='left', left_index=True, right_index=True)
        
        df_results_list = df_results_list.append(df_all_aux, ignore_index=True)


        cursor = results_aux["search-results"]["cursor"]['@next']
    

In [None]:
user_query = "data mining housing automated valuation model"
LEVEL0_FIELDS_OF_INTEREST = ['dc:title', "prism:doi", 'dc:creator']
AFFILIATION_FIELDS_OF_INTEREST = ['affilname', 'affiliation-city', 'affiliation-country']

df_results_list = pd.DataFrame(columns=LEVEL0_FIELDS_OF_INTEREST+AFFILIATION_FIELDS_OF_INTEREST)

cursor = "*"

for i in range(0,math.ceil(int(number_of_articles_retrieved)/int(number_of_articles_perResultPage))) :
#for i in range(0,1) :
    
    
    response = requests.get("https://api.elsevier.com/content/search/scopus",
                    headers={'Accept':'application/json',
                             'X-ELS-APIKey': MY_SCOPUS_API_KEY},
                         
                    params={    'query' : user_query,
                                'cursor' : cursor
                        }

                        )
    print(i)
    print(response.url)
    print(response.status_code)

    if(response.status_code == 200):
        results_aux = response.json()

        df_level1_aux = pd.DataFrame.from_records(results_aux["search-results"]['entry'] )
        df_level1_aux = df_level1_aux[LEVEL0_FIELDS_OF_INTEREST]
        
        df_affil_aux_out =pd.DataFrame(columns=AFF_COL_NAMES)

        for i in range(len(results_aux["search-results"]['entry'])) :

            if 'affiliation' in results["search-results"]['entry'][i]:
                
                df_affil_aux_in = pd.json_normalize(results["search-results"]['entry'][i]['affiliation'])
                df_affil_aux_in = df_affil_aux_in[AFFILIATION_FIELDS_OF_INTEREST]
                df_affil_aux_out = pd.concat([df_affil_aux_in, df_affil_aux_out], axis=0, ignore_index=True)
               

            else:

                df_affil_aux_in = pd.DataFrame(np.nan, index=[0],columns=AFF_COL_NAMES)
                
        
        df_all_aux = pd.merge(df_level1_aux, df_affil_aux_out, how='left', left_index=True, right_index=True)
        df_results_list = pd.concat([df_results_list, df_all_aux], ignore_index=True)
        cursor = results_aux["search-results"]["cursor"]['@next']
        




        
    

In [None]:
len(results_aux["search-results"]['entry'])

In [None]:
results["search-results"]['entry'][20]['affiliation']

In [None]:
pd.json_normalize(results["search-results"]['entry'][20]['affiliation'])

In [None]:
"affiliation" in results["search-results"]['entry'][20]

In [None]:
jprint(response.json())

In [None]:
df_results_list[:200]

In [122]:
df_results_list.to_csv('../data/interim/df_results_list_records.csv', index=False)

# RECOLHA DE DADOS - Parte 2
Recolha do contéudo dos artigos selecionados com a API Scopus

NOTA: Como facilmente se verifica na [página](https://dev.elsevier.com/api_docs.html) os artigos completos 
estão disponíveis no serviço «ScienceDirect APIs», especificamente na API «Article Retrieval» (documentação [aqui](https://dev.elsevier.com/documentation/ArticleRetrievalAPI.wadl) )

## Recolha de artigos completos
Utilizando o identificador DOI

### Análise exploratória

In [None]:
dois = df_results_list['prism:doi']
dois[:3]

In [None]:
response_article = requests.get("https://api.elsevier.com/content/article/doi/"+dois[2],
                    headers={ 'Accept':'application/json',
                             'X-ELS-APIKey': MY_API_KEY},
                         
                    params={   }

                        )
print(response_article.url)
print(response_article.status_code)

In [114]:
#jprint(response_article.json())

In [None]:
type(dois)

### Implementação global

In [117]:
# - a definir -


## Recolha de resumos (dos artigos) 

Recolha do contéudo dos resumos dos artigos selecionados com a API Scopus (usando o identificador DOI guardado anteriormente)

NOTA: Como facilmente se verifica na [página](https://dev.elsevier.com/api_docs.html) os resumos podem ser obtidos de duas formas:
* Através do serviço «ScienceDirect APIs» e especificamente da API «Article Retrieval» (documentação [aqui](https://dev.elsevier.com/documentation/ArticleRetrievalAPI.wadl) ) descrita anteriormente
* Através do serviço «Scopus APIs» (usado anteriormente para fazer a pesquisa) e especificamente da API «Abstract Retrieval» (documentação [aqui](https://dev.elsevier.com/documentation/AbstractRetrievalAPI.wadl))

### Análise Exploratória

In [163]:
dois = df_results_list['prism:doi']

In [None]:
response_abst = requests.get("https://api.elsevier.com/content/abstract/doi/"+dois[114],
                    headers={#'Accept': 'application/json',
                    'Accept': 'application/json',
                    'X-ELS-APIKey': MY_API_KEY},
                    
                    params={   }
                )
print(response_abst.url)
print(response_abst.status_code)   

In [None]:
results_abstr = response_abst.json()
results_abstr

In [None]:
jprint(response_abst.json())

In [None]:
resumo = results_abstr["abstracts-retrieval-response"][ "coredata"]['dc:description']
resumo

### Implementação Global

In [None]:
dois = df_results_list['prism:doi']
dois

In [None]:
abstract_list = []

i=0
for x in dois :
    print(x)
    response_abst = requests.get("https://api.elsevier.com/content/abstract/doi/"+str(x),
                    headers={
                    'Accept': 'application/json',
                    'X-ELS-APIKey': MY_API_KEY},
                    
                    params={   }
                )
    
    print(response_abst.url)
    print(response_abst.status_code)
    print(i)
    i=i+1

    if(response_abst.status_code == 200):
        results_abst = response_abst.json()
        if 'dc:description' in results_abst["abstracts-retrieval-response"][ "coredata"]:
            abstract_list.append( results_abst["abstracts-retrieval-response"][ "coredata"]['dc:description'] )
        else:
            abstract_list.append("NULL")
    else:
        abstract_list.append("NULL")




In [None]:
abstract_list[0]

In [None]:
type(abstract_list[0])

# GUARDAR DADOS RECOLHIDOS E PROCESSADOS

In [201]:
df_results_list.to_csv('../data/input/'+'search_results.csv',  index=False, encoding = "utf-8")

pd.DataFrame(abstract_list,  columns =['Abstract']).to_csv('../data/input/'+'search_results_abstracts.csv', index=False, encoding = "utf-8")

In [None]:
# Save the file
#pickle.dump( df_results_list, file = open(path_dados+"ICD2122_TextMining_DataStructures.pickle", "wb"))

# Reload the file
#test_grouped_df_reloaded = pickle.load(open(path_dados+"ICD2122_TextMining_DataStructures.pickle", "rb"))