# Ejercicio:
Fragmento de Texto de "El Señor de las Moscas"
"Ralph se sentó en la arena caliente, tocando la concha, sonriendo y asintiendo con la cabeza a los gritos de admiración. A su alrededor, los niños comenzaron a asentarse y a prestar atención. Era como si hubiesen oído por primera vez la brillante idea de la democracia."


- Tokenización: Divide el texto en oraciones y luego en palabras.
- Etiquetado de Partes del Discurso (POS Tagging): Realiza un etiquetado POS de las palabras en el texto.
- Lematización: Encuentra los lemas de las palabras en el texto.
- Análisis de Sentimientos: Determina la polaridad general (positiva, negativa, neutral) del texto.
- Extracción de Entidades Nombradas (Named Entity Recognition, NER): Identifica y clasifica las entidades nombradas (como personas, lugares) en el texto

In [1]:
# Importar bibliotecas
import nltk
from nltk import sent_tokenize, word_tokenize, pos_tag
from nltk.corpus import stopwords
from textblob import TextBlob
import spacy

In [8]:
# Descargar recursos necesarios para NLTK
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/n.c.rodriguez/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/n.c.rodriguez/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/n.c.rodriguez/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [9]:
# Descargar modelo en español para spaCy
spacy.cli.download('es_core_news_sm')

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [12]:
texto = "Ralph se sentó en la arena caliente, tocando la concha, sonriendo y asintiendo con la cabeza a los gritos de admiración. A su alrededor, los niños comenzaron a asentarse y a prestar atención. Era como si hubiesen oído por primera vez la brillante idea de la democracia."

## Tokenización: Divide el texto en oraciones y luego en palabras.

In [13]:
oraciones = sent_tokenize(texto)
palabras = [word_tokenize(oracion) for oracion in oraciones]

print("Tokenización:")
print("Oraciones:", oraciones)
print("Palabras:", palabras)

Tokenización:
Oraciones: ['Ralph se sentó en la arena caliente, tocando la concha, sonriendo y asintiendo con la cabeza a los gritos de admiración.', 'A su alrededor, los niños comenzaron a asentarse y a prestar atención.', 'Era como si hubiesen oído por primera vez la brillante idea de la democracia.']
Palabras: [['Ralph', 'se', 'sentó', 'en', 'la', 'arena', 'caliente', ',', 'tocando', 'la', 'concha', ',', 'sonriendo', 'y', 'asintiendo', 'con', 'la', 'cabeza', 'a', 'los', 'gritos', 'de', 'admiración', '.'], ['A', 'su', 'alrededor', ',', 'los', 'niños', 'comenzaron', 'a', 'asentarse', 'y', 'a', 'prestar', 'atención', '.'], ['Era', 'como', 'si', 'hubiesen', 'oído', 'por', 'primera', 'vez', 'la', 'brillante', 'idea', 'de', 'la', 'democracia', '.']]


## Etiquetado de Partes del Discurso (POS Tagging): Realiza un etiquetado POS de las palabras en el texto.

In [14]:
palabras_pos_tag = [pos_tag(word_tokenize(oracion)) for oracion in oraciones]

print("\nEtiquetado de Partes del Discurso:")
print("POS Tagging por Oración:", palabras_pos_tag)


Etiquetado de Partes del Discurso:
POS Tagging por Oración: [[('Ralph', 'NNP'), ('se', 'VBD'), ('sentó', 'JJ'), ('en', 'FW'), ('la', 'FW'), ('arena', 'FW'), ('caliente', 'NN'), (',', ','), ('tocando', 'NN'), ('la', 'NN'), ('concha', 'NN'), (',', ','), ('sonriendo', 'JJ'), ('y', 'NN'), ('asintiendo', 'NN'), ('con', 'NN'), ('la', 'NN'), ('cabeza', 'VBD'), ('a', 'DT'), ('los', 'JJ'), ('gritos', 'NN'), ('de', 'IN'), ('admiración', 'NN'), ('.', '.')], [('A', 'DT'), ('su', 'NN'), ('alrededor', 'NN'), (',', ','), ('los', 'JJ'), ('niños', 'JJ'), ('comenzaron', 'NN'), ('a', 'DT'), ('asentarse', 'NN'), ('y', 'NN'), ('a', 'DT'), ('prestar', 'NN'), ('atención', 'NN'), ('.', '.')], [('Era', 'NN'), ('como', 'NN'), ('si', 'NN'), ('hubiesen', 'NN'), ('oído', 'NN'), ('por', 'NN'), ('primera', 'NN'), ('vez', 'NN'), ('la', 'NN'), ('brillante', 'FW'), ('idea', 'NN'), ('de', 'IN'), ('la', 'FW'), ('democracia', 'NN'), ('.', '.')]]


## Lematización: Encuentra los lemas de las palabras en el texto.

In [15]:
nlp = spacy.load('es_core_news_sm')
lemas = [[token.lemma_ for token in nlp(oracion)] for oracion in oraciones]

print("\nLematización:")
print("Lemas por Oración:", lemas)


Lematización:
Lemas por Oración: [['Ralph', 'él', 'sentar', 'en', 'el', 'arena', 'caliente', ',', 'tocar', 'el', 'concha', ',', 'sonreir', 'y', 'asinteir', 'con', 'el', 'cabeza', 'a', 'el', 'grito', 'de', 'admiración', '.'], ['a', 'su', 'alrededor', ',', 'el', 'niño', 'comenzar', 'a', 'asentar él', 'y', 'a', 'prestar', 'atención', '.'], ['ser', 'como', 'si', 'haber', 'oer', 'por', 'primero', 'vez', 'el', 'brillante', 'idea', 'de', 'el', 'democracia', '.']]


## Análisis de Sentimientos: Determina la polaridad general (positiva, negativa, neutral) del texto.

In [18]:
analisis_sentimientos = TextBlob(texto)
polaridad = analisis_sentimientos.sentiment.polarity


print("\nAnálisis de Sentimientos:")
print("Polaridad General del Texto:", polaridad)

# Determinar el tipo de polaridad
if polaridad > 0:
    tipo_polaridad = "Positiva"
elif polaridad < 0:
    tipo_polaridad = "Negativa"
else:
    tipo_polaridad = "Neutral"

print("Tipo de Polaridad:", tipo_polaridad)


Análisis de Sentimientos:
Polaridad General del Texto: 0.0
Tipo de Polaridad: Neutral


## Extracción de Entidades Nombradas (Named Entity Recognition, NER): Identifica y clasifica las entidades nombradas (como personas, lugares) en el texto

In [17]:
entidades_nombradas = [ent.text for ent in nlp(texto).ents]

print("\nExtracción de Entidades Nombradas (NER):")
print("Entidades Nombradas:", entidades_nombradas)


Extracción de Entidades Nombradas (NER):
Entidades Nombradas: ['Ralph']
