<a href="https://colab.research.google.com/github/jmolina010/ejemplo_tokenizar_y_mas/blob/main/tokenizar_y_vectorizar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Carga de librerías
import nltk
nltk.download("all")



In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

In [None]:
# Este texto es un extracto de wikipedia
# obtenido de https://es.wikipedia.org/wiki/Inteligencia_artificial al que he
# agregado un post completo de mi autoría, de forma que se disponga de un
# volumen mínimo de contenido

file_path = '/content/texto sobre IA.txt'
with open(file_path) as fichero:
  texto = fichero.read()

print(texto)

In [None]:
# Crear tokens por frases
tokens = sent_tokenize(texto,"spanish")

print(f'tipo de datos de "tokens": {type(tokens)}')
print('----------------------------')
for token in tokens:
  print(token)
  print('----------------------------')


In [None]:
# Crear tokens por palabras
tokens = word_tokenize(texto,"spanish")

# Eliminar los signos de puntuación
tokens=[word.lower() for word in tokens if word.isalpha()]
print(tokens)



In [None]:
# vamos a contar las palabras y ver cuáles aparecen con mayor frecuencia, ...
# este proceso puede servir, por ejemplo, -y una vez eliminadas las stop-words-
# para identificar qué términos son los más relevantes y cuáles no, pongamos por
# caso, para un proceso de clasificación de textos contextualizado.

freq = nltk.FreqDist(tokens)
for key,val in freq.items():
    print (str(key) + ':' + str(val))



In [None]:
# puede observarse que los tokens que más aparecen, en algunos casos, no aportan
# valor (por, para, que, ...)
# procedemos a eliminar las stop-words....

from nltk.corpus import stopwords

tokens_2 = [word for word in tokens if word not in stopwords.words('spanish')]
print(tokens_2)

# y de nuevo calculamos frecuencias...

freq = nltk.FreqDist(tokens_2)
for key,val in freq.items():
    print (str(key) + ':' + str(val))


In [None]:
# puede observarse que han desaparecido numerosos términos que no aportaban valor contextual.
# puede observarse, aún así, que hay palabras que no aportan contenido a nivel de IA, y,
# finalmente se puede observar también que no hay demasiadas apariciones de
# cada token, ya que es un texto pequeño.

# (ejercicio propuesto para el final)
# te recomiendo que hagas este ejercicio descargando un libro completo en
# formato texto y analices con qué palabras te quedarías -las que mayor valor
# aportan-

# (continuamos...)

# vamos a visualizar los tokens
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# visualizamos los 30 token con mayor frecuencia de aparición
freq.plot(30, cumulative=False)

In [None]:
# también se pueden identificar términos clave y sustituir por éstos aquellos
# sinónimos que pueda haber en el texto. Una especie de "reagrupación" de tokens

# veamos un ejemplo...

# sustituir 'inteligencia' por 'ia' y eliminar artificial
tokens_2 = [token for token in tokens_2 if token!='artificial']
tokens_2 = [token if token!='inteligencia' else 'ia' for token in tokens_2]

# deep por profundo y learning por aprendizaje
tokens_2 = [token if token!='deep' else 'profundo' for token in tokens_2]
tokens_2 = [token if token!='learning' else 'aprendizaje' for token in tokens_2]

# funcion por función
tokens_2 = [token if token!='funcion' else 'función' for token in tokens_2]

freq = nltk.FreqDist(tokens_2)
sns.set()
freq.plot(30, cumulative=False)

In [None]:
# Derivación regresiva textos en español
# otra técnica interesante podría ser, pero hay que pensarlo para
# cada caso en concreto, extraer la raiz de cada token, como
# técnica de reagrupación de tokens

from nltk.stem import SnowballStemmer

spanish_stemmer = SnowballStemmer('spanish')

tokens_raiz = [spanish_stemmer.stem(token) for token in tokens_2]
freq = nltk.FreqDist(tokens_raiz)
sns.set()
freq.plot(30, cumulative=False)