In [28]:
# 24/01/2024
# 4.4 Cargar un corpus converted CIE

# pip install spacy
# python -m spacy download en_core_web_sm

# Cargar un corpus textual

## NLTK:

In [29]:
import nltk

Para poder cargar o importar un corpus desde NLTK, primero tenemos que tenerlo descargado. Esta descarga se realiza en la siguiente celda, y vamos a emplear por ejemplo el corpus de Gutenberg. 
El corpus de Gutemberg es una colección de unas 25.000 obras literarias clásicas, públicas y gratuitas. Estos textos están disponibles en formatos de archivo de texto plano, lo que los hace accesibles para su uso en investigación, educación y diversas aplicaciones de Procesamiento del Lenguaje Natural (NLP) y análisis de texto.

In [30]:
# Descargar un corpus de NLTK
nltk.download('gutenberg')

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\AlejandroDiezRedondo\AppData\Roaming\nltk_dat
[nltk_data]     a...
[nltk_data]   Package gutenberg is already up-to-date!


True

Ahora que está descargado, ya podemos cargarlo para poder utilizarlo en nuestro estudio. 

In [31]:
# Cargar un corpus de texto de NLTK 
from nltk.corpus import gutenberg


Podemos visualizar cuáles son los textos que contiene:  

In [32]:
# Obtener las listas de libros disponibles en el corpus
print(gutenberg.fileids())

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']


Escogemos uno, por ejemplo el Emma de Jane Austen:

In [33]:
# Cargar un libro específico del corpus (por ejemplo, 'shakespeare-hamlet.txt')
emma_text = gutenberg.raw('austen-emma.txt')
print(emma_text[:500])  # Imprimir los primeros 500 caracteres del libro

[Emma by Jane Austen 1816]

VOLUME I

CHAPTER I


Emma Woodhouse, handsome, clever, and rich, with a comfortable home
and happy disposition, seemed to unite some of the best blessings
of existence; and had lived nearly twenty-one years in the world
with very little to distress or vex her.

She was the youngest of the two daughters of a most affectionate,
indulgent father; and had, in consequence of her sister's marriage,
been mistress of his house from a very early period.  Her mother
had died t


Vamos a tomar parte de su contenido, y vamos a aplicarle un etiquetador morfosintáctico

In [34]:
### Primero importamos y descargamos las cosas necesarias.
from nltk.tokenize import word_tokenize

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\AlejandroDiezRedondo\AppData\Roaming\nltk_dat
[nltk_data]     a...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\AlejandroDiezRedondo\AppData\Roaming\nltk_dat
[nltk_data]     a...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [35]:
# Tokenizar el texto en palabras
palabras_emma = word_tokenize(emma_text)

# Realizar POS tagging
pos_tagging_emma = nltk.pos_tag(palabras_emma)

# Mostrar el POS tagging
print(pos_tagging_emma[11:30])


[('Emma', 'NNP'), ('Woodhouse', 'NNP'), (',', ','), ('handsome', 'NN'), (',', ','), ('clever', 'NN'), (',', ','), ('and', 'CC'), ('rich', 'JJ'), (',', ','), ('with', 'IN'), ('a', 'DT'), ('comfortable', 'JJ'), ('home', 'NN'), ('and', 'CC'), ('happy', 'JJ'), ('disposition', 'NN'), (',', ','), ('seemed', 'VBD')]


## Importando un corpus desde local:

Importamos la biblioteca y descargamos el modelo de lenguaje a emplear.

In [36]:
import spacy
# python -m spacy download en_core_web_sm


# Cargar un modelo de lenguaje de spaCy
nlp = spacy.load('en_core_web_sm')



A diferencia de NLTK, SpaCy no incorpora ningun corpus propio. Por lo que tendremos que importar un archivo de texto que tengamos disponible 

In [37]:
# Leer un archivo de texto y procesarlo con spaCy
with open('corpus.txt', 'r', encoding='utf-8') as file:
    texto = file.read()

print(texto[:500])

INT. COMEDY CLUB – NIGHT
(Jerry is on stage, performing.)
JERRY: Do you know what this is all about? Do you know, why we're here? To be out, this is out...and out is one of the single most enjoyable experiences of life. People...did you ever hear people talking about "We should go out"? This is what they're talking about...this whole thing, we're all out now, no one is home. Not one person here is home, we're all out! There are people tryin' to find us, they don't know where we are. (on an imagi


Vamos a aplicarle la tecnica NER por ejemplo.

In [38]:
from IPython.display import display
from spacy import displacy



# Procesar el texto con el modelo de spaCy
doc = nlp(texto[:1500])

# Crear una lista para almacenar las entidades como diccionarios
entidades = []

# Obtener las entidades nombradas y sus tipos
for entidad in doc.ents:
    entidades.append({"Entidad": entidad.text, "Tipo": entidad.label_})

# Mostrar las entidades nombradas usando display
display(entidades)



spacy.displacy.render(doc, style='ent',jupyter=True)

[{'Entidad': 'INT', 'Tipo': 'ORG'},
 {'Entidad': 'Jerry', 'Tipo': 'PERSON'},
 {'Entidad': 'one', 'Tipo': 'CARDINAL'},
 {'Entidad': 'tomorrow', 'Tipo': 'DATE'},
 {'Entidad': 'INT', 'Tipo': 'ORG'},
 {'Entidad': 'PETE', 'Tipo': 'ORG'},
 {'Entidad': 'LUNCHEONETTE – DAY', 'Tipo': 'DATE'},
 {'Entidad': 'Jerry', 'Tipo': 'PERSON'},
 {'Entidad': 'George', 'Tipo': 'PERSON'},
 {'Entidad': 'George', 'Tipo': 'PERSON'},
 {'Entidad': 'second', 'Tipo': 'ORDINAL'}]