# **Tokenización con NLTK:**

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# Descargar recursos necesarios si no se han descargado ya
nltk.download('punkt')

# Texto a tokenizar
text = "El PLN es fascinante, me encanta la forma de usar y, por ende, comprenderlo!"

# Tokenización del texto
tokens = word_tokenize(text)

# Imprimir los tokens
print(tokens)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['El', 'PLN', 'es', 'fascinante', ',', 'me', 'encanta', 'la', 'forma', 'de', 'usar', 'y', ',', 'por', 'ende', ',', 'comprenderlo', '!']


### **Ejercicio**
Importa la biblioteca NLTK.

Descarga los recursos necesarios para la tokenización si aún no los has descargado.

Define una variable text que contenga la frase "La inteligencia artificial está revolucionando el mundo.".

Utiliza la función word_tokenize de NLTK para tokenizar el texto.
Imprime la lista de tokens resultante.

# **Stemming y Lematización con NLTK:**

In [None]:
# Importar las bibliotecas necesarias
import nltk
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# Descargar los recursos necesarios
nltk.download('wordnet')
nltk.download('omw-1.4')  # Para WordNetLemmatizer en algunos casos

# Crear instancias del Stemmer y del Lemmatizer
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Palabra a procesar
word = "running"

# Aplicar stemming
stemmed_word = stemmer.stem(word)
print("Stemming:", stemmed_word)

# Aplicar lematización
lemmatized_word = lemmatizer.lemmatize(word, pos='v')
print("Lematización:", lemmatized_word)


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


Stemming: run
Lematización: run


### **Ejercicio**
Importa las bibliotecas necesarias de NLTK.

Descarga los recursos necesarios para el stemming y lematización si aún no los has descargado.

Crea instancias de PorterStemmer y WordNetLemmatizer.

Define una variable word que contenga la palabra "running".

Aplica stemming a la palabra y almacena el resultado en una variable stemmed_word.

Aplica lematización a la palabra y almacena el resultado en una variable lemmatized_word.

Imprime ambos resultados con etiquetas adecuadas.

# **Etiquetado de Partes del Discurso (POS Tagging)**

# **spaCy**

In [4]:
import spacy

!python -m spacy download es_core_news_sm
nlp = spacy.load("es_core_news_sm")
doc = nlp("El PLN es fascinante.")
for token in doc:
    print(token.text, token.pos_)


Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m75.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
El DET
PLN PROPN
es AUX
fascinante ADJ
. PUNCT


# **Ejercicio:**
Tenga en cuenta el texto entre comillas ("") y determine la cantidad de determinantes, pronombres propios, adjetivos y signos de puntuacion contiene.

"A menudo un fragmento pertenece con la oración antes o después de ella. Si la oración anterior o posterior puede completar el pensamiento, la forma más sencilla de arreglar el fragmento es unir los dos. Los escritores a veces crean fragmentos cuando estamos tratando de evitar los run-ons. Podemos sentir que una sentencia se está haciendo demasiado larga. Recuerde, sin embargo, que está bien escribir una oración larga si alguna cláusula independiente está conectada con la puntuación correcta y las palabras de conexión. También está bien romper la oración si parece demasiado larga, pero en ese caso hay que asegurarnos de que cada oración resultante esté completa por sí sola."

In [5]:
import spacy

!python -m spacy download es_core_news_sm
nlp = spacy.load("es_core_news_sm")


Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m23.5 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [6]:
text = """A menudo un fragmento pertenece con la oración antes o después de ella.
Si la oración anterior o posterior puede completar el pensamiento, la forma más
sencilla de arreglar el fragmento es unir los dos. Los escritores a veces crean
fragmentos cuando estamos tratando de evitar los run-ons. Podemos sentir que una
sentencia se está haciendo demasiado larga. Recuerde, sin embargo, que está bien
escribir una oración larga si alguna cláusula independiente está conectada con la
puntuación correcta y las palabras de conexión. También está bien romper la oración
si parece demasiado larga, pero en ese caso hay que asegurarnos de que cada oración
resultante esté completa por sí sola."""
doc = nlp(text)

tipos = {
    "DET": 0,
    "PROPN": 0,
    "ADJ": 0,
    "PUNCT": 0,
    "PRON": 0,
    "ADV": 0,
    "CCONJ": 0,
    "AUX": 0,
    "VERB": 0,
    "NOUN": 0,
    "ADP": 0,
    "SCONJ": 0
}


for token in doc:

    if token.pos_ in tipos:
        tipos[token.pos_] += 1

for tipo, conteo in tipos.items():
    print(f"{tipo}: {conteo}")





DET: 17
PROPN: 1
ADJ: 12
PUNCT: 10
PRON: 3
ADV: 8
CCONJ: 4
AUX: 10
VERB: 13
NOUN: 21
ADP: 12
SCONJ: 8


# **Reconocimiento de Entidades Nombradas (NER)**

In [7]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Apple es una empresa que fue fundada por Steve Jobs en California.")
for ent in doc.ents:
    print(ent.text, ent.label_)


Apple ORG
Steve Jobs PER
California LOC


# **Ejercicio**
Considere un texto de 700 caracteres que contenga organizaciones, personas y lugares y determine cuantos hay de cada categoría.

In [8]:
import spacy

nlp = spacy.load("es_core_news_sm")

In [29]:
text = """En el mundo de la cooperación internacional y el desarrollo sostenible, existen diversas organizaciones, personas y lugares que desempeñan roles cruciales. Este ámbito no solo abarca la ayuda humanitaria, sino también el fortalecimiento de comunidades, la promoción de los derechos humanos y la protección del medio ambiente. A continuación, se presenta una panorámica que ilustra la interacción entre estos elementos.

Organizaciones y su impacto global

Una de las organizaciones más destacadas en el ámbito internacional es la Organización de las Naciones Unidas (ONU). Fundada en 1945, la ONU agrupa a 193 países y su misión es promover la paz, la seguridad y la cooperación entre las naciones. La ONU tiene diversas agencias especializadas, como el Programa de las Naciones Unidas para el Desarrollo (PNUD), que trabaja en más de 170 países para erradicar la pobreza y reducir las desigualdades.

Otra entidad relevante es Médicos Sin Fronteras (MSF), una organización no gubernamental (ONG) fundada en 1971. MSF proporciona asistencia médica a poblaciones en situaciones de emergencia, como conflictos armados y desastres naturales. Su presencia en lugares como Siria y Yemen ha sido crucial para salvar innumerables vidas.

El Fondo Mundial para la Naturaleza (WWF) es otra organización destacada, dedicada a la conservación del medio ambiente. Fundada en 1961, WWF trabaja en más de 100 países para proteger especies en peligro y preservar ecosistemas críticos. Lugares como la Amazonía y el Ártico son focos de sus esfuerzos de conservación.

Personas que marcan la diferencia

En el contexto de estas organizaciones, varias personas han dejado una huella imborrable. Uno de ellos es Kofi Annan, quien fue Secretario General de la ONU de 1997 a 2006. Annan fue galardonado con el Premio Nobel de la Paz en 2001 por sus esfuerzos en la revitalización de la ONU y la promoción de los derechos humanos.

Jane Goodall, una primatóloga y antropóloga británica, ha dedicado su vida a la conservación y el estudio de los chimpancés. Fundadora del Instituto Jane Goodall, ha trabajado incansablemente en África, principalmente en Tanzania, para promover la conservación de estos primates y sus hábitats.

Wangari Maathai, una ecologista y activista keniana, fundó el Movimiento Cinturón Verde (Green Belt Movement) en 1977. Maathai recibió el Premio Nobel de la Paz en 2004 por sus contribuciones al desarrollo sostenible, la democracia y la paz. Su labor ha llevado al replanteamiento del manejo de recursos naturales en Kenia y otros países africanos.

Lugares clave en la cooperación internacional

Existen numerosos lugares alrededor del mundo que son puntos focales en el ámbito de la cooperación internacional. Uno de ellos es Ginebra, Suiza, hogar de muchas organizaciones internacionales como la Cruz Roja Internacional y la Oficina de las Naciones Unidas en Ginebra. Esta ciudad es un importante centro de diplomacia y ayuda humanitaria.

Otro lugar de relevancia es Bruselas, Bélgica, sede de la Unión Europea (UE). La UE juega un papel fundamental en la cooperación internacional, tanto a través de sus políticas de desarrollo como de sus programas de ayuda exterior. Bruselas es un epicentro de la formulación de políticas y de la coordinación de esfuerzos internacionales.

En África, Nairobi, Kenia, es un hub crucial para muchas agencias de la ONU, incluidas el Programa de las Naciones Unidas para el Medio Ambiente (PNUMA) y el Programa de las Naciones Unidas para los Asentamientos Humanos (ONU-Hábitat). Nairobi es central en la implementación de programas de desarrollo y sostenibilidad en la región.

Interacciones y sinergias

La interacción entre organizaciones, personas y lugares es esencial para abordar los desafíos globales. Por ejemplo, en el Amazonas, WWF colabora con comunidades locales y gobiernos para frenar la deforestación y proteger la biodiversidad. En situaciones de emergencia, como el terremoto de Haití en 2010, MSF y la ONU coordinaron esfuerzos para brindar atención médica y ayuda humanitaria a las víctimas.

Asimismo, las acciones de individuos como Jane Goodall y Wangari Maathai han inspirado a generaciones de ambientalistas y han fomentado la cooperación a nivel comunitario y global. Sus legados perduran en los lugares donde trabajaron, influyendo en políticas y prácticas de conservación.

En resumen, el ámbito de la cooperación internacional está formado por una red compleja de organizaciones, personas y lugares que trabajan conjuntamente para enfrentar los problemas más urgentes de nuestro tiempo. Desde la labor incansable de la ONU en promover la paz, hasta los esfuerzos de activistas individuales en la conservación del medio ambiente, cada componente es vital para construir un mundo más justo y sostenible."""

doc = nlp(text)

tipos = {
    "Organizaciones": 0,
    "Lugares": 0,
    "Personas": 0,
}

for ent in doc.ents:
    if ent.label_ == "PER":
        tipos["Personas"] += 1
    elif ent.label_ == "ORG":
        tipos["Organizaciones"] += 1
    elif ent.label_ == "LOC":
        tipos["Lugares"] += 1


#for token in doc:
    #if token.pos_ in tipos:
       # tipos[token.pos_] += 1

for tipo, conteo in tipos.items():
    print(f"{tipo}: {conteo}")



Organizaciones: 28
Lugares: 27
Personas: 7


# **Gensim**

In [None]:
from gensim.models import Word2Vec

sentences = [["el", "PLN", "es", "fascinante"], ["el", "procesamiento", "del", "lenguaje", "natural"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
print(model.wv['PLN'])


[ 8.1681199e-03 -4.4430327e-03  8.9854337e-03  8.2536647e-03
 -4.4352221e-03  3.0310510e-04  4.2744912e-03 -3.9263200e-03
 -5.5599655e-03 -6.5123225e-03 -6.7073823e-04 -2.9592158e-04
  4.4630850e-03 -2.4740540e-03 -1.7260908e-04  2.4618758e-03
  4.8675989e-03 -3.0808449e-05 -6.3394094e-03 -9.2608072e-03
  2.6657581e-05  6.6618943e-03  1.4660227e-03 -8.9665223e-03
 -7.9386048e-03  6.5519023e-03 -3.7856805e-03  6.2549924e-03
 -6.6810320e-03  8.4796622e-03 -6.5163244e-03  3.2880199e-03
 -1.0569858e-03 -6.7875278e-03 -3.2875966e-03 -1.1614120e-03
 -5.4709399e-03 -1.2113475e-03 -7.5633135e-03  2.6466595e-03
  9.0701487e-03 -2.3772502e-03 -9.7651005e-04  3.5135616e-03
  8.6650876e-03 -5.9218528e-03 -6.8875779e-03 -2.9329848e-03
  9.1476962e-03  8.6626766e-04 -8.6784009e-03 -1.4469790e-03
  9.4794659e-03 -7.5494875e-03 -5.3580985e-03  9.3165627e-03
 -8.9737261e-03  3.8259076e-03  6.6544057e-04  6.6607012e-03
  8.3127534e-03 -2.8507852e-03 -3.9923131e-03  8.8979173e-03
  2.0896459e-03  6.24894

# **Ejercicio**

Importa las bibliotecas necesarias de Gensim.

Preprocesa una lista de documentos, convirtiendo el texto a minúsculas (usando gensim) y tokenizando.

Crea un diccionario y un corpus utilizando Gensim.

Entrena un modelo LDA (Latent Dirichlet Allocation) para identificar tópicos en los documentos.

Imprime los tópicos generados por el modelo.

In [None]:
import gensim
from gensim import corpora, models
from gensim.models import LdaModel
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk
from gensim.models import Word2Vec



In [None]:
nltk.download('punkt')
nltk.download('stopwords')

docs = [["Este es una de las liberias necesarias para Procesamiento de Lenguaje Natural"], ["Se pueden categorizar las palabras por medio de liberías"], ["Tercera lista de texto"]]

def preprocesar_text(text):
  text = ' '.join(text)
  text = text.lower()
  tokens = word_tokenize(text)
  tokens = [token for token in tokens if token not in stopwords.words('spanish')]
  return tokens

preprocesar_docs = [preprocesar_text(doc) for doc in docs]

dictionary = corpora.Dictionary(preprocesar_docs)
corpus = [dictionary.doc2bow(doc) for doc in preprocesar_docs]

num_topics = 3
lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=10)

topics = lda_model.print_topics(num_words=3)
for topic in lda_model.print_topics(num_words=3):
    print(topic)

(0, '0.108*"categorizar" + 0.108*"medio" + 0.108*"pueden"')
(1, '0.143*"necesarias" + 0.143*"lenguaje" + 0.143*"liberias"')
(2, '0.077*"lista" + 0.077*"tercera" + 0.077*"texto"')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# **Hugging Face Transformers**

In [None]:
from transformers import pipeline

classifier = pipeline('sentiment-analysis')
result = classifier('Oye, te enteraste que Frank murió!.')
print(result)


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.7460900545120239}]


# **Ejercicio**
Considere el siguiente texto:

"El amanecer en la playa fue absolutamente impresionante, llenándonos de paz y alegría. La cena en el restaurante local fue una decepción total; la comida estaba fría y sin sabor. Hoy recibí una noticia increíble: me han ofrecido el trabajo de mis sueños. No puedo creer lo rápido que pasó el fin de semana, siento que no tuve tiempo para descansar. La nueva película de acción fue emocionante y me mantuvo en el borde de mi asiento durante toda la noche. Me molesta mucho cuando la gente no respeta las normas de tráfico, es peligroso y frustrante. Agradezco cada día la amabilidad de mis amigos, su apoyo es invaluable. El tráfico en la ciudad es simplemente insoportable, cada día es una batalla. Me encanta la nueva decoración de mi sala de estar, hace que la casa se sienta más acogedora. Estoy preocupado por los informes de un nuevo virus, espero que no se convierta en una pandemia. Fue maravilloso pasar tiempo con mi familia durante las vacaciones, esos momentos son invaluables. Me siento tan cansado después de trabajar horas extras toda la semana, necesito un descanso. La tormenta anoche fue aterradora, nunca había visto relámpagos tan intensos. Me alegra mucho haber comenzado a practicar yoga, me ayuda a relajarme y encontrar paz interior. Es frustrante cuando los proyectos en el trabajo no avanzan como se esperaba. Adoro las mañanas de domingo, cuando puedo quedarme en cama leyendo un buen libro."

**Ahora realiza:**

Divide el texto en oraciones individuales.

Clasifica cada oración como positiva, negativa o neutra.

Cuenta cuántas oraciones hay en total, cuántas son positivas, cuántas son negativas y cuántas son neutras.

In [31]:
from transformers import pipeline
classifier = pipeline('sentiment-analysis')

texto = "El amanecer en la playa fue absolutamente impresionante, llenándonos de paz y alegría. La cena en el restaurante local fue una decepción total; la comida estaba fría y sin sabor. Hoy recibí una noticia increíble: me han ofrecido el trabajo de mis sueños. No puedo creer lo rápido que pasó el fin de semana, siento que no tuve tiempo para descansar. La nueva película de acción fue emocionante y me mantuvo en el borde de mi asiento durante toda la noche. Me molesta mucho cuando la gente no respeta las normas de tráfico, es peligroso y frustrante. Agradezco cada día la amabilidad de mis amigos, su apoyo es invaluable. El tráfico en la ciudad es simplemente insoportable, cada día es una batalla. Me encanta la nueva decoración de mi sala de estar, hace que la casa se sienta más acogedora. Estoy preocupado por los informes de un nuevo virus, espero que no se convierta en una pandemia. Fue maravilloso pasar tiempo con mi familia durante las vacaciones, esos momentos son invaluables. Me siento tan cansado después de trabajar horas extras toda la semana, necesito un descanso. La tormenta anoche fue aterradora, nunca había visto relámpagos tan intensos. Me alegra mucho haber comenzado a practicar yoga, me ayuda a relajarme y encontrar paz interior. Es frustrante cuando los proyectos en el trabajo no avanzan como se esperaba. Adoro las mañanas de domingo, cuando puedo quedarme en cama leyendo un buen libro."
texto_tokenizado = texto.split(".")



#print(len(texto_tokenizado))
# Forma larga
#result = classifier(texto_tokenizado[0])
#print(result)


positive= 0
negative= 0
neutral= 0


for frase in texto_tokenizado:
  result = classifier(frase)
  if result[0]['label'] == 'POSITIVE':
    positive += 1
  elif result[0]['label'] == 'NEGATIVE':
    negative += 1
  else:
    neutral += 1
print(texto_tokenizado)

# Use the built-in print function
print(f"Total de oraciones positivas: {positive}")
print(f"Total de oraciones negativas: {negative}")
print(f"Total de oraciones neutras: {neutral}")






No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


['El amanecer en la playa fue absolutamente impresionante, llenándonos de paz y alegría', ' La cena en el restaurante local fue una decepción total; la comida estaba fría y sin sabor', ' Hoy recibí una noticia increíble: me han ofrecido el trabajo de mis sueños', ' No puedo creer lo rápido que pasó el fin de semana, siento que no tuve tiempo para descansar', ' La nueva película de acción fue emocionante y me mantuvo en el borde de mi asiento durante toda la noche', ' Me molesta mucho cuando la gente no respeta las normas de tráfico, es peligroso y frustrante', ' Agradezco cada día la amabilidad de mis amigos, su apoyo es invaluable', ' El tráfico en la ciudad es simplemente insoportable, cada día es una batalla', ' Me encanta la nueva decoración de mi sala de estar, hace que la casa se sienta más acogedora', ' Estoy preocupado por los informes de un nuevo virus, espero que no se convierta en una pandemia', ' Fue maravilloso pasar tiempo con mi familia durante las vacaciones, esos momen

In [None]:
from transformers import pipeline

# Crear el pipeline de análisis de sentimientos
classifier = pipeline('sentiment-analysis')

# Frases para clasificar
positive_sentence = 'El PLN es fascinante.'
negative_sentence = 'El PLN es muy difícil y frustrante.'

# Clasificación del sentimiento
positive_result = classifier(positive_sentence)
negative_result = classifier(negative_sentence)

# Imprimir los resultados
print(f"Sentimiento de la frase positiva: {positive_result}")
print(f"Sentimiento de la frase negativa: {negative_result}")


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Sentimiento de la frase positiva: [{'label': 'POSITIVE', 'score': 0.9655920267105103}]
Sentimiento de la frase negativa: [{'label': 'NEGATIVE', 'score': 0.9816438555717468}]


In [None]:
from transformers import pipeline

# Crear el pipeline de análisis de emociones
emotion_classifier = pipeline('text-classification', model='j-hartmann/emotion-english-distilroberta-base')

# Frases para clasificar
sentences = [
    "I am very happy today!",
    "This is so frustrating and annoying.",
    "I am scared of the upcoming exam.",
    "What a surprising turn of events!",
    "I feel completely indifferent about this."
]

# Clasificación de las emociones
results = emotion_classifier(sentences)

# Imprimir los resultados
for sentence, result in zip(sentences, results):
    print(f"Sentencia: {sentence}")
    print(f"Emoción: {result['label']}, Score: {result['score']}\n")


config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/329M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/294 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Sentencia: I am very happy today!
Emoción: joy, Score: 0.9743683338165283

Sentencia: This is so frustrating and annoying.
Emoción: anger, Score: 0.42917442321777344

Sentencia: I am scared of the upcoming exam.
Emoción: fear, Score: 0.9943622350692749

Sentencia: What a surprising turn of events!
Emoción: surprise, Score: 0.9708973169326782

Sentencia: I feel completely indifferent about this.
Emoción: disgust, Score: 0.6188342571258545



# **Modelado de Temas**

In [None]:
from gensim import corpora, models

documents = ["El PLN es fascinante y complejo.",
             "El aprendizaje profundo está revolucionando el PLN.",
             "Los modelos de lenguaje son una parte crucial del PLN."]

# Preprocesamiento
texts = [doc.lower().split() for doc in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# Modelo LDA
lda_model = models.LdaModel(corpus, num_topics=2, id2word=dictionary, passes=15)
topics = lda_model.print_topics(num_words=4)
for topic in topics:
    print(topic)


Dictionary<20 unique tokens: ['complejo.', 'el', 'es', 'fascinante', 'pln']...>
(0, '0.152*"el" + 0.065*"revolucionando" + 0.065*"aprendizaje" + 0.065*"complejo."')
(1, '0.076*"pln." + 0.075*"lenguaje" + 0.075*"una" + 0.075*"los"')


# **Plataformas y Herramientas Adicionales**

## **Google Cloud Natural Language API**

In [None]:
import nltk
from nltk.corpus import stopwords
from bs4 import BeautifulSoup
import re

import nltk
nltk.download('stopwords')
stop_words = stopwords.words('english')
texto_html = "<html><p>Hello, this is an example of<strong>HTMl on</strong>, and<em> something else</em> interesting</p>"
soup = BeautifulSoup(texto_html, "html.parser")
print(soup)
texto_limpio = soup.get_text()

<html><p>Hello, this is an example of<strong>HTMl on</strong>, and<em> something else</em> interesting</p></html>


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# ***Programación funcional ***

In [None]:
import nltk
from nltk.corpus import stopwords
from bs4 import BeautifulSoup
import re
from textblob import TextBlob

nltk.download('stopwords')
stop_words= set(stopwords.words('english'))
texto_html = "<html><p>Hello, this is an example of<strong>HTMl on</strong>, and<em> something else</em> interesting</p></html>"

def limpiarTexto(textoHtml):
  soup = BeautifulSoup(texto_html, "html.parser")
  texto_limpio = soup.get_text()

  #Quitar caracteres no alfabéticos
  texto_limpio = re.sub(r'[Â-Za-záéíóúÁÉÍÓÚÑn]', '', texto_limpio)

  #Texto_limpio = re.sub(r'[Â-Za-z]', '', texto_limpio)

  #Tokenizando
  palabras = texto_limpio.split()
  palabras_filtradas = [palabra for palabra in palabras if palabra.lower()not in stop_words]

  texto_limpio = ' '.join(palabras_filtradas)
  return texto_limpio


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
def analizar_sentimientos(texto):
  analisis = TextBlob(texto)
  return analisis.sentiment

In [None]:
frase = "This is an amazing moment beacause I'm learning so much about PLN!"
resultado = analizar_sentimientos(frase)
print(resultado)

Sentiment(polarity=0.42500000000000004, subjectivity=0.55)


In [None]:
#Ejemplo con stopwords y análisis de sentimientos y HTML
ejemplo_texto = "<html><p>Hello, this is an example of<strong>HTMl on</strong>, and<em> something else</em> interesting</p></html>"
ejemplo_limpio = limpiarTexto(ejemplo_texto)

sentimiento = analizar_sentimientos(ejemplo_limpio)
print(ejemplo_limpio)
print(sentimiento)




error: bad character range Â-Z at position 1