In [1]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
import spacy
import unidecode
import contractions

In [2]:

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')

# Inicializar spaCy para lematización y POS tagging
nlp = spacy.load('en_core_web_sm')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/joseaguilar/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/joseaguilar/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/joseaguilar/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/joseaguilar/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


# Texto de ejemplo

```
It's essential to drink coffee at a café and to keep one’s emotions in check while analyzing complex, real-time data!
```

In [3]:
# Texto de ejemplo
text = "It's essential to drink coffee at a café and to keep one’s emotions in check while analyzing complex, real-time data!"


# Expansión de contracciones


Convertir las formas abreviadas de las palabras, conocidas como contracciones, en sus formas completas. Util para normalizar el texto.

## Ejemplo

### Texto original
- **Oración:** "I'm going to the store because I can't wait."

### Después de expandir contracciones
- **Resultado:** "I am going to the store because I cannot wait."


In [4]:
# Paso 1: Expansión de contracciones
text = contractions.fix(text)
print("Después de la expansión de contracciones:", text)


Después de la expansión de contracciones: It is essential to drink coffee at a café and to keep one’s emotions in check while analyzing complex, real-time data!


# Eliminación de Diacríticos

La **eliminación de diacríticos** es un proceso en el procesamiento del lenguaje natural que consiste en eliminar los signos diacríticos o acentos de los caracteres. 

Es útil para normalizar texto donde los acentos pueden no ser relevantes o consistentes en la entrada del usuario.

## Ejemplos

### Texto original
- **Oración:** "El niño está en el café."

### Después de eliminar diacríticos
- **Resultado:** "El nino esta en el cafe."

In [5]:
# Paso 2: Eliminación de diacríticos
text = unidecode.unidecode(text)
print("Después de la eliminación de diacríticos:", text)


Después de la eliminación de diacríticos: It is essential to drink coffee at a cafe and to keep one's emotions in check while analyzing complex, real-time data!


# Tokenización y eliminación de puntuación

La **tokenización** es el proceso de dividir un texto en unidades más pequeñas llamadas *tokens*. Los tokens pueden ser palabras, frases, u otras unidades significativas del texto. 

La **eliminación de puntuación** es un proceso que implica quitar todos los signos de puntuación del texto. Esto se realiza para simplificar el texto y enfocarse únicamente en las palabras, ya que la puntuación generalmente no aporta significado en tareas de análisis de contenido.



In [6]:
# Paso 3: Tokenización y eliminación de puntuación
tokens = word_tokenize(text)
tokens = [token for token in tokens if token.isalpha()]
print("Después de la tokenización y eliminación de puntuación:", tokens)


Después de la tokenización y eliminación de puntuación: ['It', 'is', 'essential', 'to', 'drink', 'coffee', 'at', 'a', 'cafe', 'and', 'to', 'keep', 'one', 'emotions', 'in', 'check', 'while', 'analyzing', 'complex', 'data']


# Minúsculas

Proceso simple pero crucial. Convierter todas las letras de un texto a su forma minúscula. Este paso ayuda a normalizar los datos de texto, permitiendo que las palabras sean tratadas de manera uniforme, independientemente de cómo estén escritas en el texto original.

In [16]:


# Paso 4: Cambio a minúsculas
tokens = [token.lower() for token in tokens]
print("Después de convertir a minúsculas:", tokens)


Después de convertir a minúsculas: ['it', 'is', 'essential', 'to', 'drink', 'coffee', 'at', 'a', 'cafe', 'and', 'to', 'keep', 'one', 'emotions', 'in', 'check', 'while', 'analyzing', 'complex', 'data']


# Stopwords

Proceso de eliminar palabras comunes que no aportan un significado significativo al análisis de texto. Incluyen términos como "el," "la," "es," "en," y "con" en español, o "the," "is," "in," y "on" en inglés.

## Ejemplos

### Texto original
- **Oración:** "El perro está en el jardín."

### Después de eliminar stopwords
- **Resultado:** "perro jardín"

### Texto original
- **Oración:** "She is going to the store."

### Después de eliminar stopwords
- **Resultado:** "going store"

In [8]:
# Paso 5: Eliminación de stopwords
stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token not in stop_words]
print("Después de la eliminación de stopwords:", filtered_tokens)


Después de la eliminación de stopwords: ['essential', 'drink', 'coffee', 'cafe', 'keep', 'one', 'emotions', 'check', 'analyzing', 'complex', 'data']


# Lemmatización

La **lematización** es un proceso en el procesamiento del lenguaje natural que consiste en reducir las palabras a su forma base o lema. A diferencia del stemming, que simplemente recorta los sufijos, la lematización utiliza un enfoque más inteligente que considera el análisis morfológico de las palabras.

## Ejemplos

1. **Palabra:** "running"  
   - **Tipo de palabra:** Verbo  
   - **Lema:** "run"

2. **Palabra:** "better"  
   - **Tipo de palabra:** Adjetivo  
   - **Lema:** "good"

3. **Palabra:** "geese"  
   - **Tipo de palabra:** Sustantivo  
   - **Lema:** "goose"

In [9]:
# Paso 6: Lematización
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(token) for token in filtered_tokens]
print("Después de la lematización:", lemmas)


Después de la lematización: ['essential', 'drink', 'coffee', 'cafe', 'keep', 'one', 'emotion', 'check', 'analyzing', 'complex', 'data']


# Stemming

El stemming se usa para reducir las palabras a su raiz. Utiliza heuristicas y/o diccionarios para hacerlo.
En este caso utilizamos el stemmer de Porter, que es muy eficiente y funciona bastante bien.

El **algoritmo de Porter Stemmer** es un proceso para reducir las palabras a su forma base o raíz. Fue desarrollado por Martin Porter en 1980 y es uno de los algoritmos de stemming más conocidos y utilizados en el procesamiento del lenguaje natural. 

El objetivo del algoritmo es eliminar los sufijos comunes de las palabras en ingléspara que palabras relacionadas se reduzcan a la misma palabra. Por ejemplo, las palabras "running", "runner", y "runs" --> "run". Aplica una serie de reglas de sustitución en varias etapas, lo que permite manejar diferentes variaciones y complejidades del idioma.


## Ejemplo "happiness"

### Paso 1: Remover sufijos plurales y "-ed" o "-ing"
- No se aplica ninguna regla.

### Paso 2: Remover sufijos "ational", "iveness", "fulness", etc.
- **Regla aplicada:** Si la palabra termina en "ness", eliminar "ness".
- **Resultado:** happi

### Paso 3: Aplicar reglas de transformación
- **Regla aplicada:** Si la palabra termina en "i", reemplazar con "y".
- **Resultado:** happy

### Raíz final
- **Resultado final:** happi

## Ejemplo "relational"

### Paso 1: Remover sufijos plurales y "-ed" o "-ing"
- No se aplica ninguna regla.

### Paso 2: Remover sufijos "ational", "iveness", "fulness", etc.
- **Regla aplicada:** Si la palabra termina en "ational", reemplazar con "ate".
- **Resultado:** relate

### Paso 3: Aplicar reglas de transformación
- No se aplica ninguna regla adicional.

### Raíz final
- **Resultado final:** relat


In [15]:
# Paso 7: Stemming
stemmer = PorterStemmer()
stems = [stemmer.stem(token) for token in filtered_tokens]
print("Después del stemming:", stems)


Después del stemming: ['essenti', 'drink', 'coffe', 'cafe', 'keep', 'one', 'emot', 'check', 'analyz', 'complex', 'data']


# Part of Speech

El último paso en este ejemplo es asignar el *Part of Speech* a cada palabra.
Los *part of speech* usados son los siguientes:

* CC coordinating conjunction
* CD cardinal digit
* DT determiner
* EX existential there (like: “there is” … think of it like “there exists”)
* FW foreign word
* IN preposition/subordinating conjunction
* JJ adjective "big"
* JJR adjective, comparative "bigger"
* JJS adjective, superlative "biggest"
* LS list marker 1)
* MD modal could, will
* NN noun, singular "desk"
* NNS noun plural "desks"
* NNP proper noun, singular "Harrison"
* NNPS proper noun, plural "Americans"
* PDT predeterminer "all the kids"
* POS possessive ending parent"s
* PRP personal pronoun I, he, she
* PRP\$ possessive pronoun my, his, hers
* RB adverb very, silently,
* RBR adverb, comparative better
* RBS adverb, superlative best
* RP particle give up
* TO, to go "to" the store.
* UH interjection, errrrrrrrm
* VB verb, base form take
* VBD verb, past tense took
* VBG verb, gerund/present participle taking
* VBN verb, past participle taken
* VBP verb, sing. present, non-3d take
* VBZ verb, 3rd person sing. present takes
* WDT wh-determiner which
* WP wh-pronoun who, what
* WP\$ possessive wh-pronoun whose
* WRB wh-abverb where, when

Tags tomadas de [Categorizing and POS Tagging with NLTK Python](https://www.learntek.org/blog/categorizing-pos-tagging-nltk-python/)

In [14]:
# Paso 8: Part of Speech Tagging
pos_tags = nltk.pos_tag(filtered_tokens)
print("Después del etiquetado de partes del discurso:\n")

for tag in pos_tags:
    print(f"{tag[0]}:{tag[1]}")

Después del etiquetado de partes del discurso:

essential:JJ
drink:NN
coffee:NN
cafe:JJ
keep:VB
one:CD
emotions:NNS
check:VB
analyzing:VBG
complex:JJ
data:NNS
