## Extracción API SCOPUS

Realiza una búsqueda en la base de datos de Scopus utilizando la biblioteca `pybliometrics` para obtener artículos relacionados con análisis de sentimientos, aprendizaje automático y redes sociales publicados desde el año 2020. Los resultados se convierten en un DataFrame de pandas y se guardan en un archivo CSV.

1. **Inicialización de la conexión a Scopus:**
   - Se inicializa la conexión con la API de Scopus utilizando la función `pybliometrics.scopus.init()`.

2. **Definición de la consulta:**
   - Se define una consulta en formato SQL (QUERY) que busca artículos que contengan las palabras clave "sentiment analysis", "machine learning" y "social media" en el título, resumen o palabras clave, con una fecha de publicación posterior a 2020.

3. **Ejecutar la búsqueda en Scopus:**
   - Se realiza la búsqueda en Scopus utilizando la función `ScopusSearch()` con la consulta definida.

4. **Conversión de resultados a DataFrame:**
   - Los resultados obtenidos de la búsqueda se convierten en un DataFrame de pandas para facilitar su análisis y manipulación.

5. **Guardar los resultados en un archivo CSV:**
   - El DataFrame se guarda en un archivo CSV llamado `scopus_papers.csv`, sin incluir el índice.

6. **Impresión de mensaje de confirmación:**
   - Se imprime un mensaje indicando la cantidad de artículos guardados en el archivo CSV.

In [None]:
from pybliometrics.scopus import ScopusSearch
import pandas as pd
import pybliometrics

pybliometrics.scopus.init()

# Query for sentiment analysis, machine learning, and social media papers after 2020
query = '''TITLE-ABS-KEY("sentiment analysis" AND "machine learning" AND "social media") AND PUBYEAR > 2020'''

# Perform Scopus search
r = ScopusSearch(query) 

# Convert results to DataFrame
rDF = pd.DataFrame(r.results)

# Save DataFrame to CSV
rDF.to_csv('scopus_papers.csv', index=False)

print(f"CSV file saved with {len(rDF)} papers")

CSV file saved with 2411 papers


In [16]:
print(rDF.shape)

(2411, 36)


In [None]:
rDF.head()

Unnamed: 0,eid,doi,pii,pubmed_id,title,subtype,subtypeDescription,creator,afid,affilname,...,pageRange,description,authkeywords,citedby_count,openaccess,freetoread,freetoreadLabel,fund_acr,fund_no,fund_sponsor
0,2-s2.0-85208915346,10.1016/j.eswa.2024.125717,S0957417424025843,,Anticipating impression using textual sentimen...,re,Review,Karim A.,60037241;60018986;60012981,The Islamia University of Bahawalpur;Hallym Un...,...,,Twitter sentiment analysis is a natural langua...,Ensemble learning | Machine learning | Sentime...,0,1,,,NRF,2022R1A5A8019303,National Research Foundation of Korea
1,2-s2.0-85209885510,10.11591/ijece.v15i1.pp755-766,,,An improved reptile search algorithm-based mac...,ar,Article,Sureja N.,60077969;130371316,Babaria Institute of Technology;Drs. Kiran and...,...,755-766,The rapid growth of mobile technologies has tr...,Deep learning | Machine learning | Reinforceme...,0,1,,,,undefined,
2,2-s2.0-85206539690,10.1016/j.neucom.2024.128705,S0925231224014760,,Enhancing aspect-based sentiment analysis with...,ar,Article,Huang D.,60020620,Chongqing University of Posts and Telecommunic...,...,,Aspect-based sentiment analysis (ABSA) is a so...,Adversarial training | Aspect-based sentiment ...,0,0,,,,CSTB2023TIAD-STX0031,
3,2-s2.0-85209232540,10.1016/j.frl.2024.106487,S1544612324015162,,Intelligent forecasting in bitcoin markets,ar,Article,Cohen G.,60080487,Western Galilee College,...,,This paper examines the effectiveness of Artif...,AI | Bitcoin | Machine learning | Random forest,0,0,,,,undefined,
4,2-s2.0-85209190111,10.1201/9781003561651-42,,,Machine learning-based emotional identificatio...,cp,Conference Paper,Chug A.,60094571,Lovely Professional University,...,295-301,The method of sentiment analysis is employed t...,Convolutional Neural Network | Deep Learning |...,0,0,,,,undefined,


## Extraccion datos API SCOPUS con librería Pybliometrics con el parámetro ABSTRACT

Realizar una búsqueda en Scopus para artículos relacionados con análisis de sentimientos, aprendizaje automático y redes sociales publicados después de 2020, y luego extrae información detallada de cada artículo, incluyendo detalles del abstract. Los resultados completos se guardan en un archivo CSV.

*1, 2 y 3* se siguen los mismos pasos que con el CSV anterior.

4. **Extracción de detalles adicionales con AbstractRetrieval:**
   - Para cada `eid` (ID de artículo) obtenido en los resultados de la búsqueda, se realiza una recuperación adicional utilizando `AbstractRetrieval`.
   - Se extraen detalles como:
     - Título, DOI, autores, afiliaciones, número de citas, referencias, palabras clave, términos indexados, editor, copyright, resumen, y el enlace a Scopus.

5. **Unión de los resultados de búsqueda con los detalles del abstract:**
   - Los datos extraídos con `AbstractRetrieval` se combinan con los resultados de búsqueda originales mediante una operación de fusión (`merge`) basada en el campo `eid`.

6. **Guardado de los datos en un archivo CSV:**
   - El DataFrame combinado se guarda en un archivo CSV llamado `scopus_detailed_papers.csv`.


#### **Estructura de los resultados:**
El archivo CSV `scopus_detailed_papers.csv` contiene los siguientes campos:
- `eid`: ID del artículo en Scopus.
- `title`: Título del artículo.
- `doi`: DOI del artículo.
- `authors`: Lista de autores del artículo.
- `affiliations`: Afiliaciones de los autores.
- `citedby_count`: Número de citas recibidas.
- `references_count`: Número de referencias.
- `keywords`: Palabras clave del artículo.
- `idxterms`: Términos indexados.
- `publisher`: Editor del artículo.
- `copyright`: Información sobre el copyright.
- `abstract`: Resumen del artículo.
- `scopus_link`: Enlace al artículo en Scopus.

In [18]:
from pybliometrics.scopus import ScopusSearch, AbstractRetrieval
import pandas as pd

# Query for sentiment analysis, machine learning, and social media papers after 2020
query = '''TITLE-ABS-KEY("sentiment analysis" AND "machine learning" AND "social media") AND PUBYEAR > 2020'''

# Perform Scopus search

scopus_search = ScopusSearch(query, max_entries=50)  # Limita a 50 resultados

# Convert ScopusSearch results to DataFrame
search_df = pd.DataFrame(scopus_search.results)

# List to store extended data from AbstractRetrieval
abstracts_data = []

# Extract additional details using AbstractRetrieval for each EID
for eid in search_df['eid']:
    try:
        abstract = AbstractRetrieval(eid)
        abstracts_data.append({
            'eid': eid,
            'title': abstract.title,
            'doi': abstract.doi,
            'authors': [author.indexed_name for author in abstract.authors] if abstract.authors else None,
            'affiliations': [author.affiliation for author in abstract.authors] if abstract.authors else None,
            'citedby_count': abstract.citedby_count,
            'references_count': len(abstract.references) if abstract.references else 0,
            'keywords': abstract.authkeywords,
            'idxterms': abstract.idxterms,
            'publisher': abstract.publisher,
            'copyright': abstract.copyright,
            'abstract': abstract.abstract,
            'scopus_link': abstract.scopus_link
        })
    except Exception as e:
        print(f"Error retrieving Abstract for EID {eid}: {e}")

# Convert abstracts data to DataFrame
abstracts_df = pd.DataFrame(abstracts_data)

# Merge with initial search results
full_df = pd.merge(search_df, abstracts_df, on='eid', how='inner')

# Save full data to CSV
full_df.to_csv('scopus_detailed_papers.csv', index=False)

print(f"CSV file saved with {len(full_df)} papers and extended details")


CSV file saved with 2411 papers and extended details


In [19]:
ruta_csv = 'scopus_detailed_papers.csv'
df = pd.read_csv(ruta_csv)

# Obtener el número de variables (columnas)
num_variables = df.shape[1]

print(f"El DataFrame tiene {num_variables} variables (columnas).")



El DataFrame tiene 48 variables (columnas).


In [20]:
df.head()

Unnamed: 0,eid,doi_x,pii,pubmed_id,title_x,subtype,subtypeDescription,creator,afid,affilname,...,authors,affiliations,citedby_count_y,references_count,keywords,idxterms,publisher,copyright,abstract,scopus_link
0,2-s2.0-85208915346,10.1016/j.eswa.2024.125717,S0957417424025843,,Anticipating impression using textual sentimen...,re,Review,Karim A.,60037241;60018986;60012981,The Islamia University of Bahawalpur;Hallym Un...,...,"['Karim A.', 'Mansab M.', 'Shahroz M.', 'Musht...","['60018986', '60037241', '60037241', '60037241...",0,0,,,Elsevier Ltd,,,https://www.scopus.com/inward/record.uri?partn...
1,2-s2.0-85209885510,10.11591/ijece.v15i1.pp755-766,,,An improved reptile search algorithm-based mac...,ar,Article,Sureja N.,60077969;130371316,Babaria Institute of Technology;Drs. Kiran and...,...,"['Sureja N.', 'Chaudhari N.M.', 'Bhatt J.', 'D...","['130371316', '130371316', '130371316', '13037...",0,0,,,Institute of Advanced Engineering and Science,,,https://www.scopus.com/inward/record.uri?partn...
2,2-s2.0-85206539690,10.1016/j.neucom.2024.128705,S0925231224014760,,Enhancing aspect-based sentiment analysis with...,ar,Article,Huang D.,60020620,Chongqing University of Posts and Telecommunic...,...,"['Huang D.', 'Ren L.', 'Li Z.']","['60020620', '60020620', '60020620']",0,0,,,Elsevier B.V.,,,https://www.scopus.com/inward/record.uri?partn...
3,2-s2.0-85209232540,10.1016/j.frl.2024.106487,S1544612324015162,,Intelligent forecasting in bitcoin markets,ar,Article,Cohen G.,60080487,Western Galilee College,...,"['Cohen G.', 'Aiche A.']","['60080487', '60080487']",0,0,,,Elsevier Ltd,,,https://www.scopus.com/inward/record.uri?partn...
4,2-s2.0-85209190111,10.1201/9781003561651-42,,,Machine learning-based emotional identificatio...,cp,Conference Paper,Chug A.,60094571,Lovely Professional University,...,"['Chug A.', 'Sudeep S.', 'Kumar P.A.', 'Sharma...","['60094571', '60094571', '60094571', '60094571...",0,0,,,CRC Press/Balkemahttp://Pub.NL@taylorandfranci...,,,https://www.scopus.com/inward/record.uri?partn...


In [21]:
# Listar los nombres de las columnas
print("Columnas:", df.columns.tolist())

Columnas: ['eid', 'doi_x', 'pii', 'pubmed_id', 'title_x', 'subtype', 'subtypeDescription', 'creator', 'afid', 'affilname', 'affiliation_city', 'affiliation_country', 'author_count', 'author_names', 'author_ids', 'author_afids', 'coverDate', 'coverDisplayDate', 'publicationName', 'issn', 'source_id', 'eIssn', 'aggregationType', 'volume', 'issueIdentifier', 'article_number', 'pageRange', 'description', 'authkeywords', 'citedby_count_x', 'openaccess', 'freetoread', 'freetoreadLabel', 'fund_acr', 'fund_no', 'fund_sponsor', 'title_y', 'doi_y', 'authors', 'affiliations', 'citedby_count_y', 'references_count', 'keywords', 'idxterms', 'publisher', 'copyright', 'abstract', 'scopus_link']


## Extraccion de las referencias y citas


Recuperar citas y referencias de un artículo a partir de su DOI o PubMed ID utilizando la API de Semantic Scholar. Los datos obtenidos se guardan en un archivo CSV para su posterior análisis.


1. **`fetch_citations_and_references(doi, pubmed_id)`**:
   - **Propósito:** Recupera las citas y referencias de un artículo basado en su DOI o PubMed ID.
   - **Parámetros:**
     - `doi`: El identificador DOI del artículo (opcional).
     - `pubmed_id`: El identificador PubMed del artículo (opcional).
   - **Proceso:**
     - Se forma la URL adecuada para acceder a la API de Semantic Scholar, dependiendo de si se proporciona el DOI o el PubMed ID.
     - Realiza una solicitud `GET` a la API de Semantic Scholar para obtener los detalles del artículo.
     - Extrae los `paperId` y los `DOI` de las citas y referencias.
   - **Retorno:** 
     - Devuelve una lista de citas con los identificadores de los artículos citantes y los DOI de los artículos referenciados. Si no se puede obtener la información, devuelve listas vacías.

2. **`init_csv(filename, headers)`**:
   - **Propósito:** Inicializa un archivo CSV con los encabezados proporcionados.
   - **Parámetros:**
     - `filename`: Nombre del archivo CSV a crear.
     - `headers`: Lista de encabezados para el archivo CSV.
   - **Proceso:** 
     - Crea un archivo CSV y escribe una fila de encabezado en él.
   
3. **`save_to_csv(data, filename, header, mode='w')`**:
   - **Propósito:** Guarda los datos de citas y referencias en un archivo CSV.
   - **Parámetros:**
     - `data`: Un diccionario donde las claves son los DOIs de los artículos, y los valores son listas de tuplas que contienen los identificadores de los artículos citantes y los DOI de los artículos referenciados.
     - `filename`: Nombre del archivo CSV donde se guardarán los datos.
     - `header`: El encabezado de la columna para las citas (usualmente relacionado con las referencias).
     - `mode`: El modo de apertura del archivo ('w' para sobrescribir, 'a' para agregar).
   - **Proceso:**
     - Abre el archivo CSV en el modo especificado (`w` o `a`).
     - Si el archivo es nuevo, escribe una fila de encabezado.
     - Guarda las citas de los artículos en el archivo CSV.


#### **Estructura del archivo CSV resultante:**
El archivo CSV contiene las siguientes columnas:
- `DOI`: El DOI del artículo original.
- `Cited Paper ID`: El identificador del artículo citado.
- `Cited Paper DOI`: El DOI del artículo citado.

**Ejemplo de fila en el CSV:**
```csv
DOI,Cited Paper ID,Cited Paper DOI
10.1109/5.771073,12345678,10.1109/123456
```

In [None]:
import pandas as pd
import requests
import csv

def fetch_citations_and_references(doi, pubmed_id):
    if doi:
        url = f"https://api.semanticscholar.org/graph/v1/paper/DOI:{doi}?fields=citations.externalIds,references.externalIds"
    elif pubmed_id:
        url = f"https://api.semanticscholar.org/graph/v1/paper/PMID:{pubmed_id}?fields=citations.externalIds,references.externalIds"
    else:
        return [], []

    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        citations = [(c.get('paperId', ''), c.get('externalIds', {}).get('DOI', '')) for c in data.get('citations', []) if c.get('externalIds')]
        return citations
    else:
        print(f"Failed to fetch data for DOI {doi} / PubMed ID {pubmed_id}: ", response.status_code)
        return [], []

def init_csv(filename, headers):
    with open(filename, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(headers)  # Header row

def save_to_csv(data, filename, header, mode='w'):
    with open(filename, mode=mode, newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        if mode == 'w':
            writer.writerow(['DOI', header, 'Paper DOI'])  # Header row only for new file
        for doi, papers in data.items():
            for paper_id, paper_doi in papers:
                writer.writerow([doi, paper_id, paper_doi])

In [None]:
def main():
    # Cargar el DataFrame
    ruta_csv = 'scopus_detailed_papers.csv'
    df = pd.read_csv(ruta_csv)
    print("Columnas del DataFrame:", df.columns.tolist())

    # Extraer las columnas relevantes
    articles = df[['title_x', 'doi_x', 'pubmed_id']].values.tolist()

    citations_filename = 'citations.csv'

    # Inicializar archivos CSV
    init_csv(citations_filename, ['DOI', 'Citing Paper ID', 'Paper DOI'])

    for Title, DOI, PubMed_ID in articles:
        print(f"Fetching data for {Title}...")
        citations = fetch_citations_and_references(DOI, PubMed_ID)
        save_to_csv({DOI or PubMed_ID: citations}, citations_filename, 'Citing Paper ID', mode='a')

if __name__ == "__main__":
    main()

In [9]:
df_reference = pd.read_csv('citations.csv')
print("Columnas:",df_reference.columns.tolist())

Columnas: ['DOI', 'Cited Paper ID', 'Paper DOI']


In [1]:
!jupyter nbconvert --to html scopus_extraction.ipynb

[NbConvertApp] Converting notebook scopus_extraction.ipynb to html
[NbConvertApp] Writing 319214 bytes to scopus_extraction.html
