# **NLP en artículos científiocs (papers) de Arxiv sobre Inteligencia Artificial hata 2022**
En este notebook se trabaja el procesamiento de lenguaje natura (NLP) mediante la busqueda de bigramas y trigramas en los textos de los titulos y los abstracs del dataset de artículos científicos de Arxiv sobre inteligencia artifical, con la intención de hayar información de en que campos o conceptos de la inteligencia artifical se esta trabajaron más. 

---
---
---

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import regex as re
import time

from collections import Counter
import nltk
from nltk.corpus import stopwords
from nltk import pos_tag
from nltk.util import ngrams

nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/egoitzaulestiapadilla/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/egoitzaulestiapadilla/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
# Carga del dataset
arxivs_papers = "../data/arxiv_papers.csv"

In [4]:
# Leemos el dataset, creamos e imprimimos información de filas, columnas, tamaño y el data frame
df_arxivs_papers = pd.read_csv(arxivs_papers, encoding="ISO-8859-1")
print(f"Rows and columns: {df_arxivs_papers.shape}", "\n")
print(f"Tamaño del data frame: {df_arxivs_papers.size}\n")
print("Data frame:")
df_arxivs_papers.head()

Rows and columns: (8000, 5) 

Tamaño del data frame: 40000

Data frame:


Unnamed: 0,title,abstract,published,authors,url
0,MetaFormer is Actually What You Need for Vision,Transformers have shown great potential in com...,2021-11-22T18:52:03+00:00,"['Weihao Yu', 'Mi Luo', 'Pan Zhou', 'Chenyang ...",http://arxiv.org/abs/2111.11418v1
1,Turbo Autoencoder with a Trainable Interleaver,A critical aspect of reliable communication in...,2021-11-22T18:37:03+00:00,"['Karl Chahine', 'Yihan Jiang', 'Pooja Nuti', ...",http://arxiv.org/abs/2111.11410v1
2,Ab-initio calculation of point defect equilibr...,Point defects are responsible for a wide range...,2021-11-22T17:11:17+00:00,"['Mubashir Mansoor', 'Mehya Mansoor', 'Maryam ...",http://arxiv.org/abs/2111.11359v1
3,Divergent electrostriction at ferroelectric ph...,We investigate the electrostrictive response a...,2021-11-22T17:00:32+00:00,"['Daniel S. P. Tanner', 'Pierre-Eymeric Janoli...",http://arxiv.org/abs/2111.11352v1
4,ProxyFL: Decentralized Federated Learning thro...,Institutions in highly regulated domains such ...,2021-11-22T16:47:39+00:00,"['Shivam Kalra', 'Junfeng Wen', 'Jesse C. Cres...",http://arxiv.org/abs/2111.11343v1


In [5]:
df_arxivs_papers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   title      8000 non-null   object
 1   abstract   8000 non-null   object
 2   published  8000 non-null   object
 3   authors    8000 non-null   object
 4   url        8000 non-null   object
dtypes: object(5)
memory usage: 312.6+ KB


In [6]:
# Preprocesamiento de Datos
titulos = df_arxivs_papers['abstract'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplanamos la lista de palabras
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo]

# Contamos la frecuencia de palabras
frecuencia_palabras = Counter(todas_las_palabras)

# Encontramos las palabras más comunes
palabras_mas_comunes = frecuencia_palabras.most_common(20)

print("Las 20 palabras más repetidas en los títulos del dataset\
\nde artículos cintíficos de Arxiv sobre Inteligencia Artificial:\
\n---------------------------------------------------------------")
# Imprimimos las palabras más comunes
for palabra, cuenta in palabras_mas_comunes:
    print(f'{palabra}: {cuenta}')

Las 20 palabras más repetidas en los títulos del dataset
de artículos cintíficos de Arxiv sobre Inteligencia Artificial:
---------------------------------------------------------------
the: 87429
of: 49288
and: 43112
to: 37277
a: 35083
in: 27711
we: 19752
for: 17842
is: 17017
that: 13599
with: 12633
on: 12121
this: 10938
by: 8782
are: 8665
as: 8406
an: 7765
our: 6364
can: 6111
design: 6020


Observamos que esas palabras no nos dicen nada. Vamos importar "stopwords" para filtrar las palabras que no nos aporten nada.

In [7]:
# Registramos tiempo de inicio
tiempo_inicio = time.time()

# Preprocesamiento de Datos
titulos = df_arxivs_papers['title'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplanamanos la lista de palabras y eliminamos las stopwords
stopwords_ingles = set(stopwords.words("english"))
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo if palabra not in stopwords_ingles]

# Contamos la frecuencia de palabras
frecuencia_palabras = Counter(todas_las_palabras)

# Encontramos las palabras más comunes
palabras_mas_comunes = frecuencia_palabras.most_common(20)

print("Las 20 palabras más repetidas en los títulos del dataset\
\nde artículos cintíficos de Arxiv sobre Inteligencia Artificial:\
\n---------------------------------------------------------------")
# Imprimimos las palabras más comunes
for palabra, cuenta in palabras_mas_comunes:
    print(f'{palabra}: {cuenta}')

# Registramos el tiempo de finalización
tiempo_fin = time.time()

# Calculamos la diferencia de tiempo
tiempo_transcurrido = round((tiempo_fin - tiempo_inicio), 2)

print(f"---------------------------------------------------------------\
\nTiempo de busqueda transcurrido: {tiempo_transcurrido} segundos")

Las 20 palabras más repetidas en los títulos del dataset
de artículos cintíficos de Arxiv sobre Inteligencia Artificial:
---------------------------------------------------------------
learning: 977
design: 617
using: 468
neural: 411
networks: 383
network: 372
deep: 371
data: 310
via: 310
based: 308
systems: 307
control: 292
detection: 256
model: 240
quantum: 237
optimization: 232
approach: 230
graph: 206
analysis: 205
system: 202
---------------------------------------------------------------
Tiempo de busqueda transcurrido: 0.13 segundos


Vamos a desacernos de los vervos.

In [8]:
# Registramos tiempo de inicio
tiempo_inicio = time.time()

# Preprocesamiento de Datos
titulos = df_arxivs_papers['title'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplanamos la lista de palabras y eliminamos las stopwords
stop_words = set(stopwords.words("english"))
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo if palabra not in stop_words]

# Filtramos los verbos
palabras_filtradas = []
for palabra in todas_las_palabras:
    etiquetas_pos = pos_tag([palabra])
    if etiquetas_pos[0][1] not in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:  # Etiquetas de verbos
        palabras_filtradas.append(palabra)

# Contamos la frecuencia de palabras
frecuencia_palabras = Counter(palabras_filtradas)

# Encontramos las palabras más comunes
palabras_mas_comunes = frecuencia_palabras.most_common(20)

print("Las 20 palabras más repetidas en los títulos del dataset\
\nde artículos cintíficos de Arxiv sobre Inteligencia Artificial:\
\n---------------------------------------------------------------")
# Imprimimos las palabras más comunes
for palabra, cuenta in palabras_mas_comunes:
    print(f'{palabra}: {cuenta}')

# Registramos el tiempo de finalización
tiempo_fin = time.time()

# Calculamos la diferencia de tiempo
tiempo_transcurrido = round((tiempo_fin - tiempo_inicio), 2)

print(f"---------------------------------------------------------------\
\nTiempo de busqueda transcurrido: {tiempo_transcurrido} segundos")

Las 20 palabras más repetidas en los títulos del dataset
de artículos cintíficos de Arxiv sobre Inteligencia Artificial:
---------------------------------------------------------------
design: 617
neural: 411
networks: 383
network: 372
deep: 371
data: 310
via: 310
systems: 307
control: 292
detection: 256
model: 240
quantum: 237
optimization: 232
approach: 230
graph: 206
analysis: 205
system: 202
image: 195
machine: 190
framework: 185
---------------------------------------------------------------
Tiempo de busqueda transcurrido: 9.09 segundos


Vamos a ver cuales son los bigramas más se repiten en los títulos. Un bigrama es una secuencia de dos palabras que aparecen juntas en un texto en un orden específico.

In [9]:
# Registramos el tiempo de inicio
tiempo_inicio = time.time()

# Preprocesamiento de Datos
titulos = df_arxivs_papers['title'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplanamos la lista de palabras y eliminamos las stopwords
stopwords_ingles = set(stopwords.words("english"))
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo if palabra not in stopwords_ingles]

# Filtramos los verbos
palabras_filtradas = []
for palabra in todas_las_palabras:
    etiquetas_pos = pos_tag([palabra])
    if etiquetas_pos[0][1] not in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:  # Etiquetas de verbos
        palabras_filtradas.append(palabra)

# Creamos bigramas
bigramas = list(ngrams(palabras_filtradas, 2))

# Contamos la frecuencia de bigramas
frecuencia_bigramas = Counter(bigramas)

# Encontramos los bigramas más comunes
bigramas_mas_comunes = frecuencia_bigramas.most_common(20)  # Cambia 10 al número deseado de bigramas

print("Los 20 bigramas más repetidos en los títulos de los artículos cintíficos del dataset de Arxiv sobre IA :\
\n---------------------------------------------------------------------------------------------------------\
\nNOTA: Un bigrmama es una secuencia de dos palabras que aparecen juntas en un texto en un orden específico.\
\n---------------------------------------------------------------------------------------------------------")
# Imprimimos los bigramas más comunes
for bigrama, cuenta in bigramas_mas_comunes:
    print(f'{bigrama[0]} {bigrama[1]}: {cuenta}')

# Registramos el tiempo de finalización
tiempo_fin = time.time()

# Calculamos la diferencia de tiempo
tiempo_transcurrido = round((tiempo_fin - tiempo_inicio), 2)

print(f"---------------------------------------------------------------------------------------------------------\
\nTiempo de busqueda transcurrido: {tiempo_transcurrido} segundos")

Los 20 bigramas más repetidos en los títulos de los artículos cintíficos del dataset de Arxiv sobre IA :
---------------------------------------------------------------------------------------------------------
NOTA: Un bigrmama es una secuencia de dos palabras que aparecen juntas en un texto en un orden específico.
---------------------------------------------------------------------------------------------------------
neural networks: 154
neural network: 112
graph neural: 62
object detection: 41
convolutional neural: 41
deep reinforcement: 39
architecture search: 38
semantic segmentation: 37
deep neural: 36
neural architecture: 33
case study: 29
massive mimo: 28
generative adversarial: 27
artificial intelligence: 27
point cloud: 26
domain adaptation: 22
recommender systems: 21
time series: 20
medical image: 20
image classification: 19
---------------------------------------------------------------------------------------------------------
Tiempo de busqueda transcurrido: 8.54 segundo

Busquemos ahora los trigrmas más se repiten en los títulos. Al igual que el bigrama, un trigrma es una secuencia, esta vez, de tres palabras que aparecen juntas en un texto en un orden específico.

In [10]:
# Registrmos el tiempo de inicio
tiempo_inicio = time.time()

# Preprocesamiento de Datos
titulos = df_arxivs_papers['title'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplananamo la lista de palabras y eliminamos las stopwords
stopwords_ingles = set(stopwords.words("english"))
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo if palabra not in stopwords_ingles]

# Filtramos los verbos
palabras_filtradas = []
for palabra in todas_las_palabras:
    etiquetas_pos = pos_tag([palabra])
    if etiquetas_pos[0][1] not in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:  # Etiquetas de verbos
        palabras_filtradas.append(palabra)

# Crear trigramas
trigramas = list(ngrams(palabras_filtradas, 3))

# Contamos la frecuencia de trigramas
frecuencia_trigramas = Counter(trigramas)

# Encontramos los trigramas más comunes
trigramas_comunes = frecuencia_trigramas.most_common(20)  # Cambia 10 al número deseado de trigramas

print("Los 20 trigramas más repetidos en los títulos de los artículos cintíficos del dataset de Arxiv sobre IA :\
\n---------------------------------------------------------------------------------------------------------\
\nNOTA: Un trigrama es una secuencia de tres palabras que aparecen juntas en un texto en un orden específico.\
\n---------------------------------------------------------------------------------------------------------")
# Imprimimos los trigramas más comunes
for trigrama, cuenta in trigramas_comunes:
    print(f'{trigrama[0]} {trigrama[1]} {trigrama[2]}: {cuenta}')

# Registramos el tiempo de finalización
tiempo_fin = time.time()

# Calculamos la diferencia de tiempo
tiempo_transcurrido = round((tiempo_fin - tiempo_inicio), 2)

print(f"---------------------------------------------------------------------------------------------------------\
\nTiempo de busqueda transcurrido: {tiempo_transcurrido} segundos")

Los 20 trigramas más repetidos en los títulos de los artículos cintíficos del dataset de Arxiv sobre IA :
---------------------------------------------------------------------------------------------------------
NOTA: Un trigrama es una secuencia de tres palabras que aparecen juntas en un texto en un orden específico.
---------------------------------------------------------------------------------------------------------
graph neural networks: 45
neural architecture search: 32
convolutional neural network: 22
deep neural networks: 18
convolutional neural networks: 17
deep neural network: 16
massive mimo systems: 15
graph neural network: 14
medical image segmentation: 13
model predictive control: 13
generative adversarial network: 12
generative adversarial networks: 12
van der waals: 12
unsupervised domain adaptation: 9
quantum key distribution: 9
neural networks via: 9
salient object detection: 9
graph convolutional networks: 8
deep convolutional neural: 8
cell-free massive mimo: 7
--

In [13]:
# Registrmos el tiempo de inicio
tiempo_inicio = time.time()

# Preprocesamiento de Datos
titulos = df_arxivs_papers['abstract'].str.lower().str.replace(r'[^\w\s]', '').str.split()

# Aplananamo la lista de palabras y eliminamos las stopwords
stopwords_ingles = set(stopwords.words("english"))
todas_las_palabras = [palabra for titulo in titulos for palabra in titulo if palabra not in stopwords_ingles]

# Filtramos los verbos
palabras_filtradas = []
for palabra in todas_las_palabras:
    etiquetas_pos = pos_tag([palabra])
    if etiquetas_pos[0][1] not in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:  # Etiquetas de verbos
        palabras_filtradas.append(palabra)

# Crear trigramas
trigramas = list(ngrams(palabras_filtradas, 3))

# Contamos la frecuencia de trigramas
frecuencia_trigramas = Counter(trigramas)

# Encontramos los trigramas más comunes
trigramas_comunes = frecuencia_trigramas.most_common(20)  # Cambia 10 al número deseado de trigramas

print("Los 20 trigramas más repetidos en los abstracts de los artículos cintíficos del dataset de Arxiv sobre IA :\
\n---------------------------------------------------------------------------------------------------------\
\nNOTA: Un trigrama es una secuencia de tres palabras que aparecen juntas en un texto en un orden específico.\
\nNOTA 2: Los abstracts contienen bastantes palabras más que los títulos de las publicaciones científicas.\
\n---------------------------------------------------------------------------------------------------------")
# Imprimimos los trigramas más comunes
for trigrama, cuenta in trigramas_comunes:
    print(f'{trigrama[0]} {trigrama[1]} {trigrama[2]}: {cuenta}')

# Registramos el tiempo de finalización
tiempo_fin = time.time()

# Calculamos la diferencia de tiempo
tiempo_transcurrido = round((tiempo_fin - tiempo_inicio), 2)

print(f"---------------------------------------------------------------------------------------------------------\
\nTiempo de busqueda transcurrido: {tiempo_transcurrido} segundos")

Los 20 trigramas más repetidos en los abstracts de los artículos cintíficos del dataset de Arxiv sobre IA :
---------------------------------------------------------------------------------------------------------
NOTA: Un trigrama es una secuencia de tres palabras que aparecen juntas en un texto en un orden específico.
NOTA 2: Los abstracts contienen bastantes palabras más que los títulos de las publicaciones científicas.
---------------------------------------------------------------------------------------------------------
experimental results show: 154
deep neural networks: 131
deep neural network: 97
convolutional neural network: 95
paper, propose novel: 92
convolutional neural networks: 88
graph neural networks: 75
neural architecture search: 75
simulation results show: 71
experimental results demonstrate: 68
natural language processing: 63
results show method: 47
artificial intelligence (ai): 47
graph neural network: 45
extensive experiments demonstrate: 45
paper, propose new: 

Como vemos, el tiempo de busqueda de trigramas en los abstract de los artículos científico analizados es mucho más elevado que la empleada en la busqueda de trigramas realizada en los títulos.

---

- *NOTA: En el futuro pasar los plurales a singular.*
    
    *De esta forma, por ejemplo "graph neural networks" que aparece 45 veces y "graph neural network" en 14 ocasiones, podrían sumarse y contar como un trigrama con 59 apariciones.*

---
### Conclusión: 
# Graph Neural Networks es el Futuro

1. ***Graph Neural Networks*** (graph neural networks + graph neural network) es el trigrama más nombrado con un total de 59 apariciones. Le sigue en sunda posición ***Convolutional Neural Networks*** (convolutional neural networks + convolutional neural network) con 39 nombramientos. Y en tercera posición ***Deep Neural Networks*** (deep neural networks + deep neural network) hasta en 34 ocasiones. En cuarto lugar tendríamos a ***Generative Adversarial Netwoks*** (generative adversarial networks + generative adversarial network) con 24. Y finalmente, ***Masive MIMO Systems*** con 15.

2. Observamos que en los abstract trigrama más utilizado es la ***Deep Neural Networks*** (deep neural networks + deep neural network) 228 veces. Después ***Convolutional Neural Networks*** (convolutional neural network + convolutional neural networks) 183 veces. El tercer trigrama es ***Experimerntal Results Shows***, 153 veces, que no nos aporta mucho, la verda. En cuarto lugar ***Graph Neural Networks*** (graph neural networks + graph neural network) con 120 menciones, sí bien unidos al trigrama ***Neural Networks (gnns)*** —GNN son las siglas Graph Neural Networks— el número ascendería a 160 mendiones, ascendiendio de este modo al podio en tercera posición.