<a href="https://colab.research.google.com/github/MarioCrespo/pruebapythonbot/blob/master/nivel_morfol%C3%B3gico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Dos conceptos clave en NLTK y en el NLP en general son la tokenización y el stemming.

*Tokenización*: La tokenización es el proceso de dividir un texto en unidades más pequeñas, llamadas tokens. Un token puede ser una palabra, una oración, un párrafo, un símbolo o un signo de puntuación, dependiendo del contexto y del tipo de tokenización que se realice. La tokenización es un paso fundamental en el procesamiento del lenguaje natural, ya que facilita el análisis del texto al dividirlo en partes más manejables. En NLTK, hay varias funciones de tokenización disponibles, como **word_tokenize()** para dividir texto en palabras y **sent_tokenize()** para dividirlo en oraciones.


La tokenización de palabras en nltk se realiza con **word_tokenize()**, la de oraciones con **sent_tokenize()** . Para ello escribiremos el siguiente código:

***from nltk import word_tokenize, sent_tokenize()***

Adicionalmente cargaremos el paquete "punk":

***nltk.download('punkt')***

Este paquete contiene un modelo pre-entrenado que es esencial para realizar la tokenización de oraciones y palabras en el texto. El modelo "punkt" es un tokenizador no supervisado basado en el aprendizaje automático que se entrena para reconocer abreviaturas, signos de puntuación y caracteres especiales que indican el final de una oración o el inicio de una nueva. Al descargar e instalar este paquete, le permitirá utilizar funciones de tokenización, como nltk.sent_tokenize() y nltk.word_tokenize() para dividir el texto en oraciones y palabras, respectivamente.



In [None]:
import nltk
from nltk import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

Una vez instalado, se puede usar:

In [None]:
string = "Ya queda poco para terminar la asignatura. Al menos eso creo."
tokens = word_tokenize(string.lower())
print(tokens)

['ya', 'queda', 'poco', 'para', 'terminar', 'la', 'asignatura', '.', 'al', 'menos', 'eso', 'creo', '.']


Compara el resultado anterior con el que hemos estado usando hasta ahora:

In [None]:
print(string.split())#dividimos el texto en tokens a partir de espacio

['Ya', 'queda', 'poco', 'para', 'terminar', 'la', 'asignatura.', 'Al', 'menos', 'eso', 'creo.']


¿ En qué se diferencia word_tokenize(string) de string.split() ?

Anteriormente, cargábamos los textos en el nltk a partir de .split, pero word_tokenize también produce una lista. Veamos:

In [None]:
texto_periodistico = '''Una nueva era se ha abierto en la Unión Europea (UE). Y, por tanto, en España. Las subidas de los tipos de interés del Banco Central Europeo (BCE) y las nuevas reglas fiscales amenazan las políticas sociales de los gobiernos para luchar contra el impacto de la inflación y las consecuencias de la guerra de Ucrania. La combinación del encarecimiento de la financiación para luchar contra la subida de precios y la vuelta a normas de control presupuestario para reducir los endeudamientos atan las 'manos' de los ejecutivos europeos para diseñar medidas que alivien el daño que sufren los ingresos reales de las familias.

La cuestión es que, efectivamente, los planes anticrisis (bajadas de impuestos, descuentos en el transporte, tope al gas...) vienen amortiguando el golpe de las subidas precios, y también de la estrategia de la política monetaria. Porque, con las subidas de tipos, el BCE pretende reducir la capacidad de consumo de las familias, de inversión de las empresas y, por supuesto, de gasto del Estado (al que se le incrementa la factura de intereses de la deuda pública). Básicamente, el objetivo es desacelerar la economía en general para contener así la inflación, pese al riesgo de recesión y de que aumente el paro.

Judith Arnal, investigadora del Real Instituto Elcano, señala que “el mayor problema que puede llegar a haber” con esta descoordinación entre las medidas de los gobiernos y la política monetaria del BCE es que “una política fiscal expansiva contrarresta los efectos del endurecimiento de la política monetaria, forzando entonces al banco central a subir tipos por encima del nivel que resultaría óptimo”. Ese escenario significa más sufrimiento y más desigualdad, al ser siempre más vulnerables las familias más pobres, las empresas pequeñas y medianas que necesitan financiación y los estados más sobreendeudados, como son España o Italia.

Por su parte, Víctor Alvargonzález, socio fundador de Nextep Finance, incide en que “lo peor es que la política monetaria no se anula del todo [con políticas fiscales expansivas]. A quienes le suben los tipos de interés, pero no reciben una subvención, ni les suben los sueldos, ni les dan obra pública para sus empresas... solo les queda la parte mala. Mientras que quienes reciben apoyo del Estado de una u otra forma les afecta menos que les suban los tipos de interés en los créditos hipotecarios”.'''

In [None]:
from nltk import Text
texto_en_nltk = nltk.Text(texto_periodistico.split())
len(texto_en_nltk)

390

In [None]:
texto_en_nltk = nltk.Text(word_tokenize(texto_periodistico))
len(texto_en_nltk)

447

¿los resultado de los dos anteriores no son iguales, por qué?

In [None]:
texto_en_nltk = nltk.Text(word_tokenize(texto_periodistico))
filtered_words = [word for word in texto_en_nltk if word not in '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~''']

print(filtered_words)


['Una', 'nueva', 'era', 'se', 'ha', 'abierto', 'en', 'la', 'Unión', 'Europea', 'UE', 'Y', 'por', 'tanto', 'en', 'España', 'Las', 'subidas', 'de', 'los', 'tipos', 'de', 'interés', 'del', 'Banco', 'Central', 'Europeo', 'BCE', 'y', 'las', 'nuevas', 'reglas', 'fiscales', 'amenazan', 'las', 'políticas', 'sociales', 'de', 'los', 'gobiernos', 'para', 'luchar', 'contra', 'el', 'impacto', 'de', 'la', 'inflación', 'y', 'las', 'consecuencias', 'de', 'la', 'guerra', 'de', 'Ucrania', 'La', 'combinación', 'del', 'encarecimiento', 'de', 'la', 'financiación', 'para', 'luchar', 'contra', 'la', 'subida', 'de', 'precios', 'y', 'la', 'vuelta', 'a', 'normas', 'de', 'control', 'presupuestario', 'para', 'reducir', 'los', 'endeudamientos', 'atan', 'las', "'manos", 'de', 'los', 'ejecutivos', 'europeos', 'para', 'diseñar', 'medidas', 'que', 'alivien', 'el', 'daño', 'que', 'sufren', 'los', 'ingresos', 'reales', 'de', 'las', 'familias', 'La', 'cuestión', 'es', 'que', 'efectivamente', 'los', 'planes', 'anticrisis'

In [None]:
text = "Esta es una oración de ejemplo para demostrar cómo combinar for e if en Python."
words = word_tokenize(text)
words_starting_with_e = [word for word in words if word.lower().startswith('e')]
print(words_starting_with_e)



['Esta', 'es', 'ejemplo', 'e', 'en']


Vamos a ver ahora **sent_tokenize()**:

In [None]:
from nltk import sent_tokenize
oraciones = sent_tokenize(string)
print(oraciones)

['Ya queda poco para terminar la asignatura.', 'Al menos eso creo.']


Cuando hemos ejecutado **sent_tokenize()**, ¿qué tipo de dato es el output?

NLTK puede etiquetar clases de palabras, pero solo para el inglés. Para el español podemos utilizar otras librerías como spaCy:

Se trata de una biblioteca de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) de código abierto desarrollada en Python. Fue creada por Explosion AI y es ampliamente utilizada en la comunidad de NLP y análisis de texto. La biblioteca ofrece funciones eficientes y de alto rendimiento para realizar tareas comunes de NLP, como tokenización, etiquetado gramatical, análisis de dependencias o reconocimiento de entidades


In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')
text = "The quick brown fox jumps over the lazy dog."
tags = nltk.pos_tag(text.split())


[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog.', 'NN')]
('The', 'DT')


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [None]:
print(tags)
etiquetas = tags
print(etiquetas[0])

print(etiquetas[0][1])

[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog.', 'NN')]
('The', 'DT')
DT


In [None]:
numero = 0
for elemento, valor in etiquetas:
  print(elemento, valor)
  if valor == "JJ":
    numero += 1

print("el resultado de NN es", numero)


The DT
quick JJ
brown NN
fox NN
jumps VBZ
over IN
the DT
lazy JJ
dog. NN
el resultado de NN es 2


¿De qué manera opera este clasificador? El método pos_tag de NLTK es un clasificador gramatical que utiliza aprendizaje automático. Mediante el análisis de miles de ejemplos de enunciados con etiquetas manuales, el sistema ha sido capaz de aprender, determinar frecuencias y establecer cuál es la clase gramatical con mayor probabilidad para cada elemento en la oración.

In [None]:
import spacy
!python -m spacy download es_core_news_md #nos descargamos su modelo de etiquetado para español
nlp = spacy.load('es_core_news_md')


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-md==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.5.0/es_core_news_md-3.5.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-md
Successfully installed es-core-news-md-3.5.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')


In [None]:
type(nlp)

spacy.lang.es.Spanish

El modelo es_core_news_md de SpaCy es un modelo estadístico entrenado utilizando el conjunto de datos "AnCora". AnCora es un corpus anotado del español que contiene textos periodísticos con anotaciones lingüísticas, como etiquetas de partes del discurso, análisis morfosintáctico y relaciones semánticas.

In [None]:
doc = nlp("juan come las patatas que María le dio.") 
print(doc[0])
print(doc[0].lemma_)
print(doc[0].pos_)
print(doc[0].dep_)
print()
for token in doc:
  print(token, token.lemma_, token.pos_, token.dep_)#se va a imprimir el token, su lema, su clase de palabra y su función sintáctica
#la lista de etiquetas está aquí https://www.kaggle.com/code/weka511/list-spacy-tags

juan
juan
PROPN
nsubj

juan juan PROPN nsubj
come come PROPN ROOT
las el DET det
patatas patata NOUN obj
que que PRON obj
María María PROPN nsubj
le él PRON obj
dio dar VERB acl
. . PUNCT punct
