# 🧪 NLP Fundamentos + NLTK
**Talento TECH — Nivel Innovador**


**Objetivo general:** que los campistas entiendan qué es NLP, el pipeline básico de texto y construyan un mini-clasificador de sentimientos con NLTK.



## 📋 Agenda
1) ¿Qué es NLP y aplicaciones (10 min)
2) Pipeline básico: tokenización → normalización → stopwords → stemming vs lematización (25 min)
3) POS tagging y una mirada a parsing (10 min)
4) Representaciones: Bolsa de Palabras (BoW) y n-gramas (10 min)
5) **Hands-on**: Mini-clasificador Naive Bayes con NLTK (50 min)
6) Mini-reto en equipos y salida (15 min)


## 🚀 Preparación del entorno
- Si usas **Google Colab**, ejecuta la celda de instalación.  
- Si usas local/Jupyter, asegúrate de tener `nltk` instalado.


In [None]:
# Ejecuta esta celda en Colab
!pip -q install nltk scikit-learn

import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

## 1) 🧠 ¿Qué es NLP y para qué sirve?
Procesamiento del Lenguaje Natural (NLP) = que las máquinas entiendan y generen lenguaje humano.

**Ejemplos cotidianos:**
- Buscadores y autocompletar.
- Chatbots y asistentes (servicio al cliente, FAQ).
- Análisis de sentimiento en reseñas.
- Traducción automática y resumen de textos.

**Actividad rápida (2 min):** Escribe 3 apps que uses que tengan NLP y qué tarea hacen.


## 2) 🧪 Pipeline de texto
### 2.1 Tokenización
Dividir el texto en **tokens** (palabras, signos).

In [None]:
from nltk.tokenize import word_tokenize

texto = "¡Hola! Estoy aprendiendo NLP con Talento Tech. ¿Qué tal vamos?"
tokens = word_tokenize(texto)
tokens

['¡Hola',
 '!',
 'Estoy',
 'aprendiendo',
 'NLP',
 'con',
 'Talento',
 'Tech',
 '.',
 '¿Qué',
 'tal',
 'vamos',
 '?']

### 2.2 Normalización
- **lowercase** (minúsculas)
- quitar símbolos no alfabéticos
- (opcional) quitar acentos, emojis, etc.

In [None]:
import unicodedata

def normalizar(tokens):
    norm = []
    for t in tokens:
        t2 = t.lower()
        # quitar tildes/acentos
        t2 = ''.join(c for c in unicodedata.normalize('NFD', t2) if unicodedata.category(c) != 'Mn')
        # solo letras
        if t2.isalpha():
            norm.append(t2)
    return norm

tokens_norm = normalizar(tokens)
tokens_norm

['estoy', 'aprendiendo', 'nlp', 'con', 'talento', 'tech', 'tal', 'vamos']

### 2.3 Stopwords (palabras vacías)
Palabras muy frecuentes que suelen aportar poco significado ("de", "la", "y").

In [None]:
from nltk.corpus import stopwords
stop_es = set(stopwords.words('spanish'))

[t for t in tokens_norm if t not in stop_es]

['aprendiendo', 'nlp', 'talento', 'tech', 'tal', 'vamos']

### 2.4 Stemming vs Lemmatization
- **Stemming**: recorta palabras a su “raíz” de forma heurística (puede producir formas no reales).
- **Lematización**: reduce a la forma canónica (lemma). En NLTK está pensada para inglés con WordNet.

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer

palabras_en = ["studies", "studying", "studied", "better", "cars"]
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

stems = [stemmer.stem(w) for w in palabras_en]
lemmas = [lemmatizer.lemmatize(w) for w in palabras_en]

list(zip(palabras_en, stems, lemmas))

[('studies', 'studi', 'study'),
 ('studying', 'studi', 'studying'),
 ('studied', 'studi', 'studied'),
 ('better', 'better', 'better'),
 ('cars', 'car', 'car')]

## 3) 🧷 POS Tagging (etiquetado gramatical)
Asignar categorías gramaticales (sustantivo, verbo, adjetivo, etc.) a cada token.

> Nota: El etiquetador por defecto de NLTK está entrenado en inglés.

In [None]:
from nltk import pos_tag
from nltk.tokenize import word_tokenize

oracion_en = word_tokenize("The amazing movie had a weak story but great acting")
pos_tag(oracion_en)

[('The', 'DT'),
 ('amazing', 'JJ'),
 ('movie', 'NN'),
 ('had', 'VBD'),
 ('a', 'DT'),
 ('weak', 'JJ'),
 ('story', 'NN'),
 ('but', 'CC'),
 ('great', 'JJ'),
 ('acting', 'NN')]

**Abreviaturas comunes en POS Tagging (NLTK/Penn Treebank Tagset):**

*   **JJ**: Adjetivo (ej. "amazing", "weak", "great")
*   **NN**: Sustantivo, singular (ej. "movie", "story", "acting")
*   **NNS**: Sustantivo, plural
*   **VB**: Verbo, forma base
*   **VBD**: Verbo, pasado (ej. "had")
*   **DT**: Determinante (ej. "The", "a")
*   **IN**: Preposición o conjunción subordinada
*   **CC**: Conjunción coordinante (ej. "but")

Puedes encontrar una lista más completa buscando "Penn Treebank Tagset".

## 4) 🧰 Representaciones: BoW y n-gramas
- **BoW (Bolsa de Palabras)**: cuenta ocurrencias, ignora orden.
- **n-gramas**: secuencias de n palabras (bi-gramas, tri-gramas).

In [None]:
from nltk.probability import FreqDist
from nltk.corpus import stopwords

stop_es = set(stopwords.words('spanish'))

tokens_demo_espanol = normalizar(word_tokenize("Esta película es buena, buena, buena, pero el final es malo"))
fd_espanol = FreqDist([t for t in tokens_demo_espanol if t not in stop_es])
fd_espanol.most_common(10)

[('buena', 3), ('pelicula', 1), ('final', 1), ('malo', 1)]

In [None]:
from nltk.util import ngrams
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

stop_es = set(stopwords.words('spanish'))

tokens_demo_espanol = normalizar(word_tokenize("Esta película es buena, buena, buena, pero el final es malo"))
# Remove stopwords before generating ngrams for more meaningful phrases
tokens_filtered = [t for t in tokens_demo_espanol if t not in stop_es]

bigrams_espanol = list(ngrams(tokens_filtered, 2))
trigrams_espanol = list(ngrams(tokens_filtered, 3))
bigrams_espanol[:10], trigrams_espanol[:10]

([('pelicula', 'buena'),
  ('buena', 'buena'),
  ('buena', 'buena'),
  ('buena', 'final'),
  ('final', 'malo')],
 [('pelicula', 'buena', 'buena'),
  ('buena', 'buena', 'buena'),
  ('buena', 'buena', 'final'),
  ('buena', 'final', 'malo')])

## 5) 🤖 Mini-proyecto: Clasificador de Sentimientos (Naive Bayes + NLTK)
Entrenaremos un clasificador simple usando un dataset pequeño de ejemplo. **Recomendado en inglés** para aprovechar lematización y POS por defecto. Luego puedes cambiar/mezclar con textos en español (quitar lematización o usar solo stopwords).


In [None]:
import random

data = [
    ("this movie is amazing", "pos"),
    ("i loved the film", "pos"),
    ("what a wonderful performance", "pos"),
    ("absolutely fantastic soundtrack", "pos"),
    ("what a terrible plot", "neg"),
    ("boring and predictable", "neg"),
    ("the acting was weak", "neg"),
    ("i hated this movie", "neg"),
]
random.shuffle(data)
len(data), data[:4]

(8,
 [('i hated this movie', 'neg'),
  ('this movie is amazing', 'pos'),
  ('what a wonderful performance', 'pos'),
  ('i loved the film', 'pos')])

### 5.1 Preprocesamiento y extracción de features
Usaremos un **bolsón de tokens** (presencia/ausencia) tras normalizar y quitar stopwords.

In [None]:
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

stop_en = set(stopwords.words("english"))
lem = WordNetLemmatizer()

def preprocess_en(text):
    toks = word_tokenize(text.lower())
    toks = [t for t in toks if t.isalpha() and t not in stop_en]
    toks = [lem.lemmatize(t) for t in toks]
    return {t: True for t in toks}

featuresets = [(preprocess_en(t), y) for t,y in data]
featuresets[:2]

[({'hated': True, 'movie': True}, 'neg'),
 ({'movie': True, 'amazing': True}, 'pos')]

In [None]:
split = int(0.8*len(featuresets))
train_set, test_set = featuresets[:split], featuresets[split:]
len(train_set), len(test_set)

(6, 2)

In [None]:
from nltk import NaiveBayesClassifier, classify

clf = NaiveBayesClassifier.train(train_set)
acc = classify.accuracy(clf, test_set)
print("Accuracy:", round(acc, 3))
clf.show_most_informative_features(5)

Accuracy: 0.5
Most Informative Features
                  acting = None              pos : neg    =      1.4 : 1.0
                 amazing = None              neg : pos    =      1.4 : 1.0
                    film = None              neg : pos    =      1.4 : 1.0
                   hated = None              pos : neg    =      1.4 : 1.0
                   loved = None              neg : pos    =      1.4 : 1.0


### 5.2 Probemos el modelo
Escribe una reseña y veamos si clasifica bien. Prueba frases positivas y negativas.

In [None]:
text = "the actors were great but the story was weak"
pred = clf.classify(preprocess_en(text))
print(text, "=>", pred)

the actors were great but the story was weak => neg


### 5.3 Métricas básicas (opcional con scikit-learn)
Construimos `y_true` y `y_pred` para ver matriz de confusión y F1. *Requiere `scikit-learn`.*

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

y_true = [y for _, y in test_set]
y_pred = [clf.classify(x) for x, _ in test_set]
print(confusion_matrix(y_true, y_pred))
print(classification_report(y_true, y_pred))

[[0 1]
 [0 1]]
              precision    recall  f1-score   support

         neg       0.00      0.00      0.00         1
         pos       0.50      1.00      0.67         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## 🧩 Mini-reto (10–15 min)
1. En equipos, añadan **5 frases** nuevas (propias) al dataset y re-entrenen.
2. Modifiquen el **preprocesamiento**:
   - prueben **sin lematización**,
   - o eliminen menos **stopwords**,
   - o construyan **bi-gramas** como features.
3. Midan el impacto en `accuracy`.


In [None]:
# === Espacio de trabajo del reto ===
# 1) Agrega aquí nuevas frases al dataset 'data' (texto, etiqueta)
data.extend([
    ("i really enjoyed the story", "pos"),
    ("the movie was too long and dull", "neg"),
])

# 2) Cambia el preprocesamiento si quieres experimentar
def preprocess_variant(text):
    toks = word_tokenize(text.lower())
    toks = [t for t in toks if t.isalpha() and t not in stop_en]
    # ejemplo: sin lematizacion
    return {t: True for t in toks}

featuresets = [(preprocess_variant(t), y) for t,y in data]
random.shuffle(featuresets)
split = int(0.8*len(featuresets))
train_set, test_set = featuresets[:split], featuresets[split:]

clf = NaiveBayesClassifier.train(train_set)
from nltk import classify
acc = classify.accuracy(clf, test_set)
print("Accuracy variante:", round(acc, 3))

Accuracy variante: 0.0


## 🔌 (Opcional) Cargar dataset propio (CSV)
Formato esperado: dos columnas `text,label` con etiquetas tipo `pos/neg` (o como prefieras).

In [None]:
import pandas as pd
from io import StringIO

# En Colab puedes usar: from google.colab import files; files.upload()
# Para demo, creamos un CSV en memoria:
csv_demo = """text,label\nI love this app,pos\nThis service is awful,neg\nGreat features and support,pos\nNot worth the price,neg\n"""
df = pd.read_csv(StringIO(csv_demo))
df.head()

Unnamed: 0,text,label
0,I love this app,pos
1,This service is awful,neg
2,Great features and support,pos
3,Not worth the price,neg


In [None]:
# Entrenar con el CSV cargado
dataset = [(t, y) for t, y in zip(df["text"].astype(str), df["label"].astype(str))]
featuresets = [(preprocess_en(t), y) for t,y in dataset]
random.shuffle(featuresets)
split = int(0.8*len(featuresets))
train_set, test_set = featuresets[:split], featuresets[split:]
clf = NaiveBayesClassifier.train(train_set)
from nltk import classify
print("Accuracy con CSV:", round(classify.accuracy(clf, test_set), 3))

Accuracy con CSV: 0.0


## ✅ Exit-ticket (3 preguntas rápidas)
1) ¿Qué problema resuelve la **tokenización**?  
2) ¿En qué se diferencian **stemming** y **lematización**?  
3) ¿Por qué dividimos en **train/test**?

— ¡Nos vemos en la **Sesión 2** (tareas comunes de NLP + reto con dataset)!