<a href="https://colab.research.google.com/github/AnaliaLeyez/AnaliaLeyez/blob/main/Semana_06_Tema_01_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [nltk](https://www.nltk.org/)

[Libro](https://www.nltk.org/book/)

Librería para el procesamiento de texto para clasificación, tokenización, stemming, etiquetado, análisis sintáctico.

Permite entrenar modelos chicos que no están relacionados con transformer. Está parte no la vamos a ver.

Esta librería posee dataset de ejemplos que se pueden descargar para hacer pruebas.

Todavia es muy utilizada para entrenar modelos pequeños y específicos. Posee librerías y herramientas que se utilizan en la actualidad.

## Instalación

In [None]:
!pip install -U nltk



## Versión

In [None]:
import nltk
nltk.__version__

'3.9.1'

## Configuración

Por defecto viene configurada para trabajar en inglés por lo tanto debemos pasarla a español.

Las bibliotecas se descargan y para ello debemos ejecutar la sentencia
```python
nltk.download(...)
```

In [None]:
language = 'spanish'

## [Tokenizador y tokens](https://www.nltk.org/api/nltk.tokenize.html)

Un tokenizador es una herramienta que se utiliza en el procesamiento del lenguaje natural para dividir un texto en palabras individuales o en frases más pequeñas llamadas tokens. El proceso de tokenización implica la separación de signos de puntuación y caracteres especiales y la separación de las palabras en un texto.

Existen varios tipos de tokenizadores, algunos dividen las palabras en sub palabras.


In [None]:
# Para poder utilizar los tokenizadores necesitamos descargar la biblioteca
# de caracteres de puntuación
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
texto = """La inteligencia artificial (IA), en el contexto de las ciencias de la
computación, es el conjunto de sistemas o combinación de algoritmos, cuyo
propósito es crear máquinas que imitan la inteligencia humana para realizar
tareas y pueden mejorar conforme la información que recopilan. La inteligencia
artificial no tiene como finalidad reemplazar a los humanos, sino mejorar
significativamente las capacidades y contribuciones humanas. Se hizo presente
poco después de la Segunda Guerra Mundial, y el nombre lo acuñó en 1956 el
informático John McCarthy, en la Conferencia de Dartmouth."""
# Fijense como separó las palabras, los caracteres especiales tienen su propio
# lugar en la lista, no están pegadas a las palabras.
nltk.tokenize.word_tokenize(text=texto, language=language)

['La',
 'inteligencia',
 'artificial',
 '(',
 'IA',
 ')',
 ',',
 'en',
 'el',
 'contexto',
 'de',
 'las',
 'ciencias',
 'de',
 'la',
 'computación',
 ',',
 'es',
 'el',
 'conjunto',
 'de',
 'sistemas',
 'o',
 'combinación',
 'de',
 'algoritmos',
 ',',
 'cuyo',
 'propósito',
 'es',
 'crear',
 'máquinas',
 'que',
 'imitan',
 'la',
 'inteligencia',
 'humana',
 'para',
 'realizar',
 'tareas',
 'y',
 'pueden',
 'mejorar',
 'conforme',
 'la',
 'información',
 'que',
 'recopilan',
 '.',
 'La',
 'inteligencia',
 'artificial',
 'no',
 'tiene',
 'como',
 'finalidad',
 'reemplazar',
 'a',
 'los',
 'humanos',
 ',',
 'sino',
 'mejorar',
 'significativamente',
 'las',
 'capacidades',
 'y',
 'contribuciones',
 'humanas',
 '.',
 'Se',
 'hizo',
 'presente',
 'poco',
 'después',
 'de',
 'la',
 'Segunda',
 'Guerra',
 'Mundial',
 ',',
 'y',
 'el',
 'nombre',
 'lo',
 'acuñó',
 'en',
 '1956',
 'el',
 'informático',
 'John',
 'McCarthy',
 ',',
 'en',
 'la',
 'Conferencia',
 'de',
 'Dartmouth',
 '.']

In [None]:
# En este caso vamos a utilizar un tokenizer por oraciones. Utiliza un modelo
# para realizar la separación.
punktSentenceTokenizer = nltk.tokenize.PunktSentenceTokenizer()
punktSentenceTokenizer.tokenize(text=texto)

['La inteligencia artificial (IA), en el contexto de las ciencias de la\ncomputación, es el conjunto de sistemas o combinación de algoritmos, cuyo\npropósito es crear máquinas que imitan la inteligencia humana para realizar\ntareas y pueden mejorar conforme la información que recopilan.',
 'La inteligencia\nartificial no tiene como finalidad reemplazar a los humanos, sino mejorar\nsignificativamente las capacidades y contribuciones humanas.',
 'Se hizo presente\npoco después de la Segunda Guerra Mundial, y el nombre lo acuñó en 1956 el\ninformático John McCarthy, en la Conferencia de Dartmouth.']

In [None]:
# En este caso vamos a utilizar un tokenizer por experesiones regulares donde
# me quedo con las palabras que comienzan en mayúscula.
regexpTokenizer = nltk.tokenize.RegexpTokenizer(r"[A-Z]\w+")
regexpTokenizer.tokenize(text=texto)

['La',
 'IA',
 'La',
 'Se',
 'Segunda',
 'Guerra',
 'Mundial',
 'John',
 'McCarthy',
 'Conferencia',
 'Dartmouth']

In [None]:
# similar a "word_tokenize" con la diferencia que no necesito pasarle
# el idioma porque separa por palabras o caracteres de puntuación
toktokTokenizer = nltk.tokenize.ToktokTokenizer()
lista_toktokTokenizer = toktokTokenizer.tokenize(text=texto)
lista_toktokTokenizer

['La',
 'inteligencia',
 'artificial',
 '(',
 'IA',
 ')',
 ',',
 'en',
 'el',
 'contexto',
 'de',
 'las',
 'ciencias',
 'de',
 'la',
 'computación',
 ',',
 'es',
 'el',
 'conjunto',
 'de',
 'sistemas',
 'o',
 'combinación',
 'de',
 'algoritmos',
 ',',
 'cuyo',
 'propósito',
 'es',
 'crear',
 'máquinas',
 'que',
 'imitan',
 'la',
 'inteligencia',
 'humana',
 'para',
 'realizar',
 'tareas',
 'y',
 'pueden',
 'mejorar',
 'conforme',
 'la',
 'información',
 'que',
 'recopilan.',
 'La',
 'inteligencia',
 'artificial',
 'no',
 'tiene',
 'como',
 'finalidad',
 'reemplazar',
 'a',
 'los',
 'humanos',
 ',',
 'sino',
 'mejorar',
 'significativamente',
 'las',
 'capacidades',
 'y',
 'contribuciones',
 'humanas.',
 'Se',
 'hizo',
 'presente',
 'poco',
 'después',
 'de',
 'la',
 'Segunda',
 'Guerra',
 'Mundial',
 ',',
 'y',
 'el',
 'nombre',
 'lo',
 'acuñó',
 'en',
 '1956',
 'el',
 'informático',
 'John',
 'McCarthy',
 ',',
 'en',
 'la',
 'Conferencia',
 'de',
 'Dartmouth',
 '.']

## n-gramas

Se utilizan en el procesamiento del lenguaje natural para la predicción de palabras y la identificación de patrones en el texto. Los unigramas son secuencias de una sola palabra, los bigramas son secuencias de dos palabras y los trigramas son secuencias de tres palabras. Los n-gramas se utilizan en la modelización del lenguaje para predecir la probabilidad de una palabra dada una secuencia de palabras anteriores.

In [None]:
from nltk.util import bigrams
# Vamos a tomar como ejemplo la lista de salida toktoktokenizer y vamos a generar
# bigramas es decir vamos a generar tuplas de 2 palabras.
# Estas funciones retornan un generador y la forma más sencilla de ver el
# resultado es pasandola a una lista
lista_bigrams = list(bigrams(lista_toktokTokenizer))
lista_bigrams


[('La', 'inteligencia'),
 ('inteligencia', 'artificial'),
 ('artificial', '('),
 ('(', 'IA'),
 ('IA', ')'),
 (')', ','),
 (',', 'en'),
 ('en', 'el'),
 ('el', 'contexto'),
 ('contexto', 'de'),
 ('de', 'las'),
 ('las', 'ciencias'),
 ('ciencias', 'de'),
 ('de', 'la'),
 ('la', 'computación'),
 ('computación', ','),
 (',', 'es'),
 ('es', 'el'),
 ('el', 'conjunto'),
 ('conjunto', 'de'),
 ('de', 'sistemas'),
 ('sistemas', 'o'),
 ('o', 'combinación'),
 ('combinación', 'de'),
 ('de', 'algoritmos'),
 ('algoritmos', ','),
 (',', 'cuyo'),
 ('cuyo', 'propósito'),
 ('propósito', 'es'),
 ('es', 'crear'),
 ('crear', 'máquinas'),
 ('máquinas', 'que'),
 ('que', 'imitan'),
 ('imitan', 'la'),
 ('la', 'inteligencia'),
 ('inteligencia', 'humana'),
 ('humana', 'para'),
 ('para', 'realizar'),
 ('realizar', 'tareas'),
 ('tareas', 'y'),
 ('y', 'pueden'),
 ('pueden', 'mejorar'),
 ('mejorar', 'conforme'),
 ('conforme', 'la'),
 ('la', 'información'),
 ('información', 'que'),
 ('que', 'recopilan.'),
 ('recopilan.',

In [None]:
from nltk.util import trigrams
# Vamos a tomar como ejemplo la lista de salida toktoktokenizer y vamos a generar
# trigramas es decir vamos a generar tuplas de 3 palabras.
lista_trigrams = list(trigrams(lista_toktokTokenizer))
lista_trigrams

[('La', 'inteligencia', 'artificial'),
 ('inteligencia', 'artificial', '('),
 ('artificial', '(', 'IA'),
 ('(', 'IA', ')'),
 ('IA', ')', ','),
 (')', ',', 'en'),
 (',', 'en', 'el'),
 ('en', 'el', 'contexto'),
 ('el', 'contexto', 'de'),
 ('contexto', 'de', 'las'),
 ('de', 'las', 'ciencias'),
 ('las', 'ciencias', 'de'),
 ('ciencias', 'de', 'la'),
 ('de', 'la', 'computación'),
 ('la', 'computación', ','),
 ('computación', ',', 'es'),
 (',', 'es', 'el'),
 ('es', 'el', 'conjunto'),
 ('el', 'conjunto', 'de'),
 ('conjunto', 'de', 'sistemas'),
 ('de', 'sistemas', 'o'),
 ('sistemas', 'o', 'combinación'),
 ('o', 'combinación', 'de'),
 ('combinación', 'de', 'algoritmos'),
 ('de', 'algoritmos', ','),
 ('algoritmos', ',', 'cuyo'),
 (',', 'cuyo', 'propósito'),
 ('cuyo', 'propósito', 'es'),
 ('propósito', 'es', 'crear'),
 ('es', 'crear', 'máquinas'),
 ('crear', 'máquinas', 'que'),
 ('máquinas', 'que', 'imitan'),
 ('que', 'imitan', 'la'),
 ('imitan', 'la', 'inteligencia'),
 ('la', 'inteligencia', 'hum

In [None]:
from nltk.util import everygrams
# Con la función everygrams podemos generar todo tipo de n-gramas que van desde
# un máximo hasta un mínimo
lista_everygrams = list(everygrams(lista_toktokTokenizer,min_len=1, max_len=3))
lista_everygrams

[('La',),
 ('La', 'inteligencia'),
 ('La', 'inteligencia', 'artificial'),
 ('inteligencia',),
 ('inteligencia', 'artificial'),
 ('inteligencia', 'artificial', '('),
 ('artificial',),
 ('artificial', '('),
 ('artificial', '(', 'IA'),
 ('(',),
 ('(', 'IA'),
 ('(', 'IA', ')'),
 ('IA',),
 ('IA', ')'),
 ('IA', ')', ','),
 (')',),
 (')', ','),
 (')', ',', 'en'),
 (',',),
 (',', 'en'),
 (',', 'en', 'el'),
 ('en',),
 ('en', 'el'),
 ('en', 'el', 'contexto'),
 ('el',),
 ('el', 'contexto'),
 ('el', 'contexto', 'de'),
 ('contexto',),
 ('contexto', 'de'),
 ('contexto', 'de', 'las'),
 ('de',),
 ('de', 'las'),
 ('de', 'las', 'ciencias'),
 ('las',),
 ('las', 'ciencias'),
 ('las', 'ciencias', 'de'),
 ('ciencias',),
 ('ciencias', 'de'),
 ('ciencias', 'de', 'la'),
 ('de',),
 ('de', 'la'),
 ('de', 'la', 'computación'),
 ('la',),
 ('la', 'computación'),
 ('la', 'computación', ','),
 ('computación',),
 ('computación', ','),
 ('computación', ',', 'es'),
 (',',),
 (',', 'es'),
 (',', 'es', 'el'),
 ('es',),
 (

## [POS (part of speech)](https://www.nltk.org/book/ch05.html)

Por el momento solo está disponible para inglés o ruso, pero lo vamos a probar igual.

VER CON [SPACY](https://colab.research.google.com/drive/18tx1BgPYxg0oONRV3uQF-s19rmjCdr9S#scrollTo=hwz8stYbDyIB)

`Tener en cuenta que los ejemplos están en inglés`

- Clasificación universal

| Tag | Meaning | English Examples |
| --- | --- | --- |
| ADJ	| adjective | new, good, high, special, big, local |
| ADP | adposition | on, of, at, with, by, into, under |
| ADV | adverb | really, already, still, early, now |
| CONJ | conjunction | and, or, but, if, while, although |
| DET | determiner, article | the, a, some, most, every, no, which |
| NOUN | noun | year, home, costs, time, Africa |
| NUM | numeral | twenty-four, fourth, 1991, 14:24 |
| PRT | particle | at, on, out, over per, that, up, with |
| PRON | pronoun | he, their, her, its, my, I, us |
| VERB | verb | is, say, told, given, playing, would |
| . | punctuation marks | . , ; ! |
| X | other | ersatz, esprit, dunno, gr8, univeristy |


In [None]:
# descargamos la biblioteca de tageos
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [None]:
# utilizamos el tokenizador TokTokTokenizer y luego le pasamos el pos_tag
nltk.pos_tag(toktokTokenizer.tokenize(text=texto))

[('La', 'NNP'),
 ('inteligencia', 'JJ'),
 ('artificial', 'NN'),
 ('(', '('),
 ('IA', 'NNP'),
 (')', ')'),
 (',', ','),
 ('en', 'FW'),
 ('el', 'FW'),
 ('contexto', 'FW'),
 ('de', 'FW'),
 ('las', 'FW'),
 ('ciencias', 'FW'),
 ('de', 'FW'),
 ('la', 'FW'),
 ('computación', 'NN'),
 (',', ','),
 ('es', 'JJ'),
 ('el', 'FW'),
 ('conjunto', 'NN'),
 ('de', 'FW'),
 ('sistemas', 'FW'),
 ('o', 'FW'),
 ('combinación', 'FW'),
 ('de', 'FW'),
 ('algoritmos', 'FW'),
 (',', ','),
 ('cuyo', 'NN'),
 ('propósito', 'NN'),
 ('es', 'NN'),
 ('crear', 'VBP'),
 ('máquinas', 'NNS'),
 ('que', 'JJ'),
 ('imitan', 'JJ'),
 ('la', 'NN'),
 ('inteligencia', 'NN'),
 ('humana', 'NN'),
 ('para', 'NN'),
 ('realizar', 'NN'),
 ('tareas', 'NNS'),
 ('y', 'VBP'),
 ('pueden', 'JJ'),
 ('mejorar', 'NN'),
 ('conforme', 'NN'),
 ('la', 'NN'),
 ('información', 'NN'),
 ('que', 'NN'),
 ('recopilan.', 'NN'),
 ('La', 'NNP'),
 ('inteligencia', 'VBZ'),
 ('artificial', 'JJ'),
 ('no', 'DT'),
 ('tiene', 'NN'),
 ('como', 'NN'),
 ('finalidad', 'NN')

## [Stem o Stemming](https://www.nltk.org/api/nltk.stem.html)

Es un proceso de reducción de palabras a su raíz o base común, eliminando sufijos y prefijos para obtener una forma básica de la palabra. Esta técnica es comúnmente utilizada en el procesamiento de lenguaje natural para mejorar la precisión de las búsquedas y la recuperación de información en los motores de búsqueda y otras aplicaciones similares.

Por ejemplo:

El objetivo del stemming es reducir las palabras a su forma más básica, para que se puedan agrupar y contar con mayor facilidad. Esto puede ser útil para análisis de texto, minería de datos y otras aplicaciones en las que es importante contar y agrupar palabras de manera eficiente.

Hay varios algoritmos de stemming, como el algoritmo de Porter, el algoritmo Snowball, el algoritmo Lancaster, entre otros. Cada algoritmo tiene sus propias reglas para reducir las palabras a su raíz común, y puede haber variaciones en el resultado dependiendo del algoritmo utilizado y de la lengua del texto a procesar.

Por ejemplo:

| Palabra | SnowballStemmer |
| --- | --- |
| corriendo | corr |
| corre | corr |
| cantando | cant |
| comiendo | com |
| gatos | gat |
| mejores | mejor |
| hablando | habl |
| felicidad | felic |
| leyendo | leyend |
| bailando | bail |
| trabajadores | trabaj |

In [None]:
from nltk.stem import SnowballStemmer
snowballStemmer = SnowballStemmer('spanish')

print("Los idiomas soportados por Snowball son:\n", snowballStemmer.languages)
print()
# utilizamos el tokenizador TokTokTokenizer y luego le pasamos el pos_tag
print([(word, snowballStemmer.stem(word)) for word in toktokTokenizer.tokenize(text=texto)])

Los idiomas soportados por Snowball son:
 ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')

[('La', 'la'), ('inteligencia', 'inteligent'), ('artificial', 'artificial'), ('(', '('), ('IA', 'ia'), (')', ')'), (',', ','), ('en', 'en'), ('el', 'el'), ('contexto', 'context'), ('de', 'de'), ('las', 'las'), ('ciencias', 'cienci'), ('de', 'de'), ('la', 'la'), ('computación', 'comput'), (',', ','), ('es', 'es'), ('el', 'el'), ('conjunto', 'conjunt'), ('de', 'de'), ('sistemas', 'sistem'), ('o', 'o'), ('combinación', 'combin'), ('de', 'de'), ('algoritmos', 'algoritm'), (',', ','), ('cuyo', 'cuy'), ('propósito', 'proposit'), ('es', 'es'), ('crear', 'cre'), ('máquinas', 'maquin'), ('que', 'que'), ('imitan', 'imit'), ('la', 'la'), ('inteligencia', 'inteligent'), ('humana', 'human'), ('para', 'par'), ('realizar', 'realiz'), ('tareas', 'tar'), ('y', 'y'), ('pueden', 'pued'),

## Lemma o Lemmatizer

Convierte las palabras en su forma base, conocida como "lema". El lema es la forma de la palabra que se encuentra en un diccionario y representa su significado principal.

El proceso de lematización es similar a la reducción de una palabra a su raíz, pero en lugar de simplemente eliminar los sufijos y prefijos, el lematizador utiliza un conocimiento más profundo del idioma para identificar la forma base correcta de una palabra en función del contexto en el que se utiliza.

Por ejemplo:

| Palabra Español | Palabra inglés | Lemma |
| --- | --- | --- |
| corriendo | running | running |
| corre | running | running |
| cantando | singing | singing |
| comiendo | eating | eating |
| gatos | cats | cat |
| mejores | best | best |
| hablando | talking | talking |
| felicidad | happiness | happiness |
| leyendo | reading | reading |
| bailando | dancing | dancing |
| trabajadores | workers | worker |

`Ver el ejemplo en Spacy. La librería wordnet no es lo suficientemente robusta y no funciona para español`.

[Link a Spacy](https://colab.research.google.com/drive/18tx1BgPYxg0oONRV3uQF-s19rmjCdr9S#scrollTo=0jLEwBMwh-St&line=1&uniqifier=1)

In [None]:
# para el lemma necesitamos descargar
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
from nltk.stem.wordnet import WordNetLemmatizer
wordNetLemmatizer = WordNetLemmatizer()

# utilizamos el tokenizador TokTokTokenizer y luego le pasamos el lemma
# no observamos cambios por el idioma
print([(word, wordNetLemmatizer.lemmatize(word)) for word in toktokTokenizer.tokenize(text=texto)])

[('La', 'La'), ('inteligencia', 'inteligencia'), ('artificial', 'artificial'), ('(', '('), ('IA', 'IA'), (')', ')'), (',', ','), ('en', 'en'), ('el', 'el'), ('contexto', 'contexto'), ('de', 'de'), ('las', 'la'), ('ciencias', 'ciencias'), ('de', 'de'), ('la', 'la'), ('computación', 'computación'), (',', ','), ('es', 'e'), ('el', 'el'), ('conjunto', 'conjunto'), ('de', 'de'), ('sistemas', 'sistemas'), ('o', 'o'), ('combinación', 'combinación'), ('de', 'de'), ('algoritmos', 'algoritmos'), (',', ','), ('cuyo', 'cuyo'), ('propósito', 'propósito'), ('es', 'e'), ('crear', 'crear'), ('máquinas', 'máquinas'), ('que', 'que'), ('imitan', 'imitan'), ('la', 'la'), ('inteligencia', 'inteligencia'), ('humana', 'humana'), ('para', 'para'), ('realizar', 'realizar'), ('tareas', 'tareas'), ('y', 'y'), ('pueden', 'pueden'), ('mejorar', 'mejorar'), ('conforme', 'conforme'), ('la', 'la'), ('información', 'información'), ('que', 'que'), ('recopilan.', 'recopilan.'), ('La', 'La'), ('inteligencia', 'inteligenc

## Stop words

Las stop words, son palabras que se consideran muy comunes en un idioma en particular y, por lo tanto, no aportan un valor semántico significativo a una frase o texto. Ejemplos comunes de stop words en inglés son "de", "la", "que", "con", "muy", "ante", "eso", entre otros.

En el procesamiento de lenguaje natural, las stop words se eliminan o se ignoran para evitar que afecten el resultado de la búsqueda o el análisis. La eliminación de stop words puede ayudar a reducir la dimensionalidad del texto y mejorar la eficiencia de los algoritmos de búsqueda, ya que estas palabras no proporcionan información útil para la clasificación o la recuperación de información.

Sin embargo, la eliminación de stop words también puede tener un impacto negativo en el resultado final, especialmente si se trata de un texto corto o si las stop words son importantes en el contexto específico del texto. Por esta razón, en algunos casos puede ser necesario ajustar el conjunto de stop words o no eliminarlas por completo.

Es importante destacar que el conjunto de stop words varía según el idioma y el contexto, por lo que es necesario elegir cuidadosamente qué palabras se eliminan o se mantienen en cada caso.

[Link a Spacy](https://colab.research.google.com/drive/18tx1BgPYxg0oONRV3uQF-s19rmjCdr9S#scrollTo=OlnAzDksj6Kw&line=2&uniqifier=1)

In [None]:
# para el lemma necesitamos descargar
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
stopwords = nltk.corpus.stopwords.words('spanish')
# para ver todos los stop words desc
print("Existen: ", len(stopwords))
print("Estos son los stop words en español:\n", stopwords)

Existen:  313
Estos son los stop words en español:
 ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy

In [None]:
# vamos a limpiar el texto que venimos trabajando
# verificamos si la palabra no esta dentro de la lista de stopwords.
print(" ".join([word for word in toktokTokenizer.tokenize(text=texto) if word.lower() not in stopwords]))

inteligencia artificial ( IA ) , contexto ciencias computación , conjunto sistemas combinación algoritmos , cuyo propósito crear máquinas imitan inteligencia humana realizar tareas pueden mejorar conforme información recopilan. inteligencia artificial finalidad reemplazar humanos , sino mejorar significativamente capacidades contribuciones humanas. hizo presente después Segunda Guerra Mundial , nombre acuñó 1956 informático John McCarthy , Conferencia Dartmouth .
