# Extracción de información de texto

En este cuaderno utilizaremos librerías de Python para extraer información te texto libre.

Estas técnicas son parte de la rama de inteligencia artificial llamada procesamiento de lenguaje natural (NLP por sus siglas en inglés).
La librería principal para extraer información de textos será nltk y scikitlearn, pero también utilizaremos librerías request para descargar información, collections para obtener conteos y pandas para crear tablas


In [1]:
import requests
import nltk
from collections import Counter
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import numpy as np

# Preparación
Descargamosun libro del proyecto [Gutenberg](https://www.gutenberg.org). Este proyecto ofrece libros en distintos idiomas de manera gratuita libres de derechos de autor


In [2]:
url_libro = "https://www.gutenberg.org/files/57654/57654-0.txt"

Con este libro generamos un documento donde guardamos el contenido de texto

In [None]:
r = requests.get(url_libro)
r.encoding = r.apparent_encoding
documento = r.text

La primera manera de tokenizar los elementos del texto es a través de la función split, la cual separa por el caracter de espacio.

In [None]:
tokens1 = documento.split(" ")
tokens1

Una segunda aproximación es realizar un preprocesamiento eliminando todos  los signos del documento.

In [None]:
separadores = ["(",")",",",".",";",":","\"","¿","?","¡","!","--","_","\r\n"]
documento2 = documento
for separador in separadores:
  documento2 = documento2.replace(separador," ")

Una vez que se tiene el corpus libre de signos se procede a separar por palabras

In [None]:
tokens2 = documento2.split(" ") 
tokens2

La tercera opción hace uso de la librería nltk la cual tiene un tokenizador adaptado para cada idioma.

Es necesario descargar primero los elementos para el tokenizador ya que no los incluye por defecto la libreria

In [None]:
nltk.download('punkt')

In [None]:
tokens3 = nltk.word_tokenize(documento,"spanish")
tokens3

A continuación definimos funciones para tokenizar y stemizar las palabras a fin de tener conceptos más generales

In [None]:
def tokenizar(texto):
    puntuacion = '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¿¡'
    tokens = nltk.word_tokenize(texto,"spanish")
    for i,token in enumerate(tokens):
        tokens[i] = token.strip(puntuacion)
    texto = " ".join(tokens)
    tokens = nltk.word_tokenize(texto,"spanish")
    return tokens
def stemmizar(tokens):
    stemmer = nltk.stem.SnowballStemmer("spanish")
    stems = [stemmer.stem(token) for token in tokens]
    return stems



In [None]:
tokens4 = tokenizar (documento)
tokens4

Generamos los tokens y los steams y con estos calculamos un conteo

In [None]:
stems = stemmizar(tokens4)
stems

In [None]:
conteos = Counter(stems)
conteos 

Podemos volcar esta información en un dataframe de pandas para facilitar el manejo

In [None]:
dataframes = pd.DataFrame.from_dict(conteos, orient='index', columns=[f"conteo"])

Encontramos que las palabras más utilizadas son conectores o también llamadas palabras funcionales.

In [None]:
dataframes.sort_values("conteo",ascending=False).head(20)

La librería nltk proporciona un conjunto de palabras a ser omitidas para el idioma español.

Es necesario primero descargar los datos para poder utilizarlos

In [None]:
nltk.download("stopwords")

palabras_funcionales=nltk.corpus.stopwords.words("spanish")
palabras_funcionales

Definimos un tokenizador el cual obtendrá los stems a partir de los tokens

In [None]:
def tokenizador(texto):
    tokens = tokenizar(texto)
    stems = stemmizar(tokens)
    return stems

Los pasos anteriores pueden ser realizados a través de la función CountVectorizer la cual nos permite de manera sencilla establecer tokenizadores y stop words

In [None]:
#vectorizador = CountVectorizer(input="content",analyzer="word")
#vectorizador = CountVectorizer(input="content",analyzer="word",tokenizer=tokenizador)
vectorizador = CountVectorizer(input="content",analyzer="word",stop_words=palabras_funcionales)
matriz_frecuencias = vectorizador.fit_transform([documento])

Volcamos la información a un dataframe, con el cual podemos revisar las frecuencias de los elementos más comunes

In [None]:
tabla_frecuencias = pd.DataFrame(
    np.transpose(matriz_frecuencias.toarray()),
    index=vectorizador.get_feature_names_out(), 
    columns = ["conteo"]
)
tabla_frecuencias.sort_values("conteo",ascending=False).head(20)

También existe el vectorizador tfidf del cual haremos uso para calcular los valores en los documentos presentados

In [None]:
vectorizador = TfidfVectorizer(input="content",analyzer="word")
matriz_tfidf = vectorizador.fit_transform([documento])
tabla_tfidf = pd.DataFrame(np.transpose(matriz_tfidf.toarray()),index=vectorizador.get_feature_names_out(), columns = ["conteo"])
tabla_tfidf

In [None]:
tabla_frecuencias.sort_values("conteo",ascending=False).head(20)