# Extracción de información de texto

En este cuaderno utilizaremos librerías de Python para extraer información te texto libre.

Estas técnicas son parte de la rama de inteligencia artificial llamada procesamiento de lenguaje natural (NLP por sus siglas en inglés).
La librería principal para extraer información de textos será nltk y scikitlearn, pero también utilizaremos librerías request para descargar información, collections para obtener conteos y pandas para crear tablas


In [1]:
import requests
import nltk
from collections import Counter
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import numpy as np

# Preparación
Descargamosun libro del proyecto [Gutenberg](https://www.gutenberg.org). Este proyecto ofrece libros en distintos idiomas de manera gratuita libres de derechos de autor


In [2]:
url_libro = "https://www.gutenberg.org/files/57654/57654-0.txt"

Con este libro generamos un documento donde guardamos el contenido de texto

In [3]:
r = requests.get(url_libro)
r.encoding = r.apparent_encoding
documento = r.text

La primera manera de tokenizar los elementos del texto es a través de la función split, la cual separa por el caracter de espacio.

In [4]:
tokens1 = documento.split(" ")
tokens1

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'La',
 'Ilíada,',
 'by',
 'Homer\r\n\r\nThis',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and\r\nmost',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions\r\nwhatsoever.',
 '',
 'You',
 'may',
 'copy',
 'it,',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it',
 'under',
 'the',
 'terms\r\nof',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at\r\nwww.gutenberg.org.',
 '',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States,',
 "you'll\r\nhave",
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using\r\nthis',
 'ebook.\r\n\r\n\r\n\r\nTitle:',
 'La',
 'Ilíada\r\n\r\nAuthor:',
 'Homer\r\n\r\nIllustrator:',
 'Flaxman',
 'Flaxman\r\n',
 '',
 '',
 '',
 '',
 '',
 ''

Una segunda aproximación es realizar un preprocesamiento eliminando todos  los signos del documento.

In [5]:
separadores = ["(",")",",",".",";",":","\"","¿","?","¡","!","--","_","\r\n"]
documento2 = documento
for separador in separadores:
  documento2 = documento2.replace(separador," ")

Una vez que se tiene el corpus libre de signos se procede a separar por palabras

In [6]:
tokens2 = documento2.split(" ") 
tokens2

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'La',
 'Ilíada',
 '',
 'by',
 'Homer',
 '',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 '',
 '',
 'You',
 'may',
 'copy',
 'it',
 '',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at',
 'www',
 'gutenberg',
 'org',
 '',
 '',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States',
 '',
 "you'll",
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'ebook',
 '',
 '',
 '',
 '',
 'Title',
 '',
 'La',
 'Ilíada',
 '',
 'Author',
 '',
 'Homer',
 '',
 'Illustrator',
 

La tercera opción hace uso de la librería nltk la cual tiene un tokenizador adaptado para cada idioma.

Es necesario descargar primero los elementos para el tokenizador ya que no los incluye por defecto la libreria

In [7]:
nltk.download('punkt')  #Páquete de puntuación

[nltk_data] Downloading package punkt to /home/kincaid/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [8]:
tokens3 = nltk.word_tokenize(documento,"spanish")
tokens3

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'La',
 'Ilíada',
 ',',
 'by',
 'Homer',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 '.',
 'You',
 'may',
 'copy',
 'it',
 ',',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at',
 'www.gutenberg.org',
 '.',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States',
 ',',
 "you'll",
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'ebook',
 '.',
 'Title',
 ':',
 'La',
 'Ilíada',
 'Author',
 ':',
 'Homer',
 'Illustrator',
 ':',
 'Flaxman',
 'Flaxman',
 'A.',
 'J.

A continuación definimos funciones para tokenizar y stemizar las palabras a fin de tener conceptos más generales

In [9]:
def tokenizar(texto):
    puntuacion = '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~¿¡'
    tokens = nltk.word_tokenize(texto,"spanish")
    for i,token in enumerate(tokens):
        tokens[i] = token.strip(puntuacion)
    texto = " ".join(tokens)
    tokens = nltk.word_tokenize(texto,"spanish")
    return tokens
def stemmizar(tokens):
    stemmer = nltk.stem.SnowballStemmer("spanish")
    stems = [stemmer.stem(token) for token in tokens]
    return stems



In [10]:
tokens4 = tokenizar (documento)
tokens4

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'La',
 'Ilíada',
 'by',
 'Homer',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 'You',
 'may',
 'copy',
 'it',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at',
 'www.gutenberg.org',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States',
 'you',
 "'ll",
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'ebook',
 'Title',
 'La',
 'Ilíada',
 'Author',
 'Homer',
 'Illustrator',
 'Flaxman',
 'Flaxman',
 'A',
 'J',
 'Church',
 'Translator',
 'Luis',
 'Segalá',
 '

Generamos los tokens y los steams y con estos calculamos un conteo

In [11]:
stems = stemmizar(tokens4)
stems

['the',
 'project',
 'gutenberg',
 'ebook',
 'of',
 'la',
 'ili',
 'by',
 'hom',
 'this',
 'ebook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyon',
 'anywher',
 'in',
 'the',
 'unit',
 'stat',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoev',
 'you',
 'may',
 'copy',
 'it',
 'giv',
 'it',
 'away',
 'or',
 're-us',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'project',
 'gutenberg',
 'licens',
 'includ',
 'with',
 'this',
 'ebook',
 'or',
 'onlin',
 'at',
 'www.gutenberg.org',
 'if',
 'you',
 'are',
 'not',
 'locat',
 'in',
 'the',
 'unit',
 'stat',
 'you',
 "'ll",
 'hav',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'wher',
 'you',
 'are',
 'locat',
 'befor',
 'using',
 'this',
 'ebook',
 'titl',
 'la',
 'ili',
 'author',
 'hom',
 'illustrator',
 'flaxm',
 'flaxm',
 'a',
 'j',
 'church',
 'translator',
 'luis',
 'segal',
 'y',
 'estalell',
 'rel',
 'dat',
 'august

In [12]:
conteos = Counter(stems)
conteos 

Counter({'the': 191,
         'project': 88,
         'gutenberg': 31,
         'ebook': 13,
         'of': 125,
         'la': 5684,
         'ili': 34,
         'by': 30,
         'hom': 4,
         'this': 51,
         'is': 23,
         'for': 28,
         'use': 11,
         'anyon': 5,
         'anywher': 2,
         'in': 65,
         'unit': 15,
         'stat': 25,
         'and': 72,
         'most': 5,
         'other': 16,
         'parts': 2,
         'world': 2,
         'at': 15,
         'no': 1400,
         'cost': 17,
         'with': 48,
         'almost': 2,
         'restrictions': 2,
         'whatsoev': 2,
         'you': 76,
         'may': 16,
         'copy': 12,
         'it': 15,
         'giv': 5,
         'away': 3,
         'or': 78,
         're-us': 2,
         'under': 6,
         'terms': 21,
         'licens': 16,
         'includ': 5,
         'onlin': 6,
         'www.gutenberg.org': 5,
         'if': 22,
         'are': 24,
         'not': 57,
   

Podemos volcar esta información en un dataframe de pandas para facilitar el manejo

In [13]:
dataframes = pd.DataFrame.from_dict(conteos, orient='index', columns=[f"conteo"])

Encontramos que las palabras más utilizadas son conectores o también llamadas palabras funcionales.

In [14]:
dataframes.sort_values("conteo",ascending=False).head(20)

Unnamed: 0,conteo
de,9455
y,7990
a,6484
la,5684
el,5329
los,5028
que,4749
en,3771
por,2026
las,2011


La librería nltk proporciona un conjunto de palabras a ser omitidas para el idioma español.

Es necesario primero descargar los datos para poder utilizarlos

In [15]:
nltk.download("stopwords")

palabras_funcionales=nltk.corpus.stopwords.words("spanish")
palabras_funcionales

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/kincaid/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

Definimos un tokenizador el cual obtendrá los stems a partir de los tokens

In [16]:
def tokenizador(texto):
    tokens = tokenizar(texto)
    stems = stemmizar(tokens)
    return stems

Los pasos anteriores pueden ser realizados a través de la función CountVectorizer la cual nos permite de manera sencilla establecer tokenizadores y stop words

In [17]:
#vectorizador = CountVectorizer(input="content",analyzer="word")
#vectorizador = CountVectorizer(input="content",analyzer="word",tokenizer=tokenizador)
vectorizador = CountVectorizer(input="content",analyzer="word",stop_words=palabras_funcionales)
matriz_frecuencias = vectorizador.fit_transform([documento])

Volcamos la información a un dataframe, con el cual podemos revisar las frecuencias de los elementos más comunes

In [18]:
tabla_frecuencias = pd.DataFrame(
    np.transpose(matriz_frecuencias.toarray()),
    index=vectorizador.get_feature_names_out(), 
    columns = ["conteo"]
)
tabla_frecuencias.sort_values("conteo",ascending=False).head(20)

Unnamed: 0,conteo
hijo,870
héctor,682
aquiles,633
júpiter,562
aqueos,502
si,497
teucros,490
así,476
naves,470
ciudad,430


También existe el vectorizador tfidf del cual haremos uso para calcular los valores en los documentos presentados

In [19]:
vectorizador = TfidfVectorizer(input="content",analyzer="word")
matriz_tfidf = vectorizador.fit_transform([documento])
tabla_tfidf = pd.DataFrame(np.transpose(matriz_tfidf.toarray()),index=vectorizador.get_feature_names_out(), columns = ["conteo"])
tabla_tfidf

Unnamed: 0,conteo
000,0.000063
10,0.000759
100,0.000506
101,0.000632
102,0.000506
...,...
ῥίγμος,0.000063
ῥίπη,0.000063
ῥόδος,0.000063
ῥύτιον,0.000063


In [20]:
tabla_frecuencias.sort_values("conteo",ascending=False).head(20)

Unnamed: 0,conteo
hijo,870
héctor,682
aquiles,633
júpiter,562
aqueos,502
si,497
teucros,490
así,476
naves,470
ciudad,430
