# Lematizaci√≥n para Mejora de An√°lisis de Sentimiento en Rese√±as Multiling√ºes
Implementar un pipeline de lematizaci√≥n que unifique variantes morfol√≥gicas ("corriendo" ‚Üí "correr"), mejorando la precisi√≥n del modelo de clasificaci√≥n.



## 1. Diagn√≥stico de Problemas
Objetivo: Identificar palabras no lematizadas que causan ruido en el an√°lisis.


### 1.1 - An√°lisis Exploratorio
Descargar el dataset reviews_multilang.csv
Ejemplo Cr√≠tico (Espa√±ol):
"Los usuarios reportaron fallas constantes: no funciona, se traba y no responde."  
Procesar sin Lematizaci√≥n usando CountVectorizer:
Contar frecuencias de tokens: ["funciona", "funcionar", "trab√≥", "responder"].
Identificar:
Variantes morfol√≥gicas que inflan el vocabulario.
Errores de POS tagging (ej: "reportaron" etiquetado como sustantivo).
Pistas:
Usar spacy.load("es_core_news_sm") para inspeccionar POS tags.
Generar una nube de palabras con WordCloud para visualizar repeticiones innecesarias.
Verificaci√≥n:
Tabla con 5 pares de palabras que deben unificarse (ej: "fallas" ‚Üí "falla").

### 1.2: Implementaci√≥n del Lematizador
Objetivo: Crear una funci√≥n que lematice texto seg√∫n su idioma y categor√≠a gramatical.

Tarea 2 - Pipeline de Lematizaci√≥n
Para Espa√±ol:
Usar spaCy para lematizar y obtener POS tags.
Mapear verbos a infinitivo ("reportaron" ‚Üí "reportar"), sustantivos a singular ("fallas" ‚Üí "falla").
Para Ingl√©s:
Usar WordNetLemmatizer de NLTK con POS tags (ej: pos='v' para verbos).
Manejar Ambiguidades:
En "El banco financiero cerr√≥", "cerr√≥" ‚Üí "cerrar" (verbo) vs "banco" ‚Üí "banco" (sustantivo).
Requisitos:
Input: "Los dispositivos fallaron constantemente, no funcionan bien."
Output Esperado: ["el", "dispositivo", "fallar", "constantemente", "no", "funcionar", "bien"].
Pista:
Filtrar stopwords despu√©s de lematizar.
Usar token.lemma_ en spaCy y lemmatizer.lemmatize(token, pos) en NLTK.
Fase 3: Optimizaci√≥n y Validaci√≥n
Objetivo: Ajustar el lematizador para manejar jerga t√©cnica y evaluar su impacto.


Tarea 3 - Personalizaci√≥n y Pruebas (Opcional)
M√©tricas de Rendimiento:
Entrenar un modelo de RandomForest con y sin lematizaci√≥n. Para predecir el sentimiento.
Comparar F1-score y tama√±o del vocabulario.
Pista:
Usar PhraseMatcher de spaCy para detectar t√©rminos t√©cnicos no lematizados.
Para "crashe√≥", aplicar una regla regex si el lematizador no lo resuelve.
Fase 4: Evaluaci√≥n Comparativa
Objetivo: Medir la mejora en la precisi√≥n del modelo y reducir falsos negativos.


Tarea 4 - An√°lisis Cuantitativo
Dataset de Validaci√≥n:
200 rese√±as etiquetadas manualmente (50% negativas, 50% positivas).
Resultados Esperados:
Reducci√≥n de vocabulario ‚â•30%.
Aumento de F1-score ‚â•10% en rese√±as con negaciones ("no funciona" vs "funcionando").
Pista:
Usar TfidfVectorizer para ponderar t√©rminos clave post-lematizaci√≥n.
Si el F1-score baja, revisar lemas de palabras negativas ("nunca" ‚Üí "nunca").
Entrega Final
C√≥digo:
Funci√≥n lematizar(texto, idioma) que maneje espa√±ol e ingl√©s.
Documentaci√≥n:
Reporte PDF con:
Comparativo de m√©tricas pre/post lematizaci√≥n.
Ejemplos de errores corregidos (ej: "trab√≥" ‚Üí "trabar").

üîç Fase 1: Diagn√≥stico de Problemas
Tarea 1: An√°lisis Exploratorio
1.1. Cargar Datos
python
import pandas as pd

df = pd.read_csv("reviews_multilang.csv")
df.head()
1.2. Procesar sin Lematizaci√≥n
python
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(df["review_espa√±ol"])  # suponiendo columna en espa√±ol
token_freq = pd.DataFrame({'token': vectorizer.get_feature_names_out(), 'freq': X_counts.sum(axis=0).A1})
token_freq.sort_values(by="freq", ascending=False).head(10)
1.3. POS Tagging con spaCy
python
import spacy
from wordcloud import WordCloud
import matplotlib.pyplot as plt

nlp = spacy.load("es_core_news_sm")
doc = nlp("Los usuarios reportaron fallas constantes: no funciona, se traba y no responde.")

for token in doc:
    print(token.text, token.pos_, token.lemma_)
1.4. Visualizaci√≥n: Nube de Palabras
python
text = " ".join(df["review_espa√±ol"])
doc = nlp(text)
lemmas = " ".join([token.lemma_ for token in doc if not token.is_stop and not token.is_punct])
wordcloud = WordCloud(background_color='white').generate(lemmas)

plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
1.5. Tabla de Variantes a Unificar
python
# Manualmente o con l√≥gica heur√≠stica
variantes = [("fallas", "falla"), ("funciona", "funcionar"), ("trab√≥", "trabar"), ("responder", "responder"), ("reportaron", "reportar")]
pd.DataFrame(variantes, columns=["Forma Original", "Lema"])
üõ†Ô∏è Fase 2: Implementaci√≥n del Lematizador
Tarea 2: Pipeline de Lematizaci√≥n
python
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from nltk import pos_tag, word_tokenize
from nltk.corpus import wordnet
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')

def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN  # fallback

def lematizar(texto, idioma):
    if idioma == "es":
        doc = spacy.load("es_core_news_sm")(texto)
        return [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    elif idioma == "en":
        lemmatizer = WordNetLemmatizer()
        tokens = word_tokenize(texto)
        tagged = pos_tag(tokens)
        return [lemmatizer.lemmatize(word, get_wordnet_pos(pos)) for word, pos in tagged if word.lower() not in stopwords.words("english")]
Prueba:
python
print(lematizar("Los dispositivos fallaron constantemente, no funcionan bien.", "es"))
‚öôÔ∏è Fase 3: Optimizaci√≥n y Validaci√≥n
Tarea 3: M√©tricas de Rendimiento
python
# Entrenar RandomForest con y sin lematizaci√≥n
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from sklearn.feature_extraction.text import TfidfVectorizer

# Preprocesamiento
df["review_lematizado"] = df["review_espa√±ol"].apply(lambda x: " ".join(lematizar(x, "es")))

# TF-IDF
vectorizer = TfidfVectorizer()
X_lem = vectorizer.fit_transform(df["review_lematizado"])
X_raw = TfidfVectorizer().fit_transform(df["review_espa√±ol"])
y = df["sentimiento"]  # asumimos que existe esta columna

# Modelo con lematizaci√≥n
X_train, X_test, y_train, y_test = train_test_split(X_lem, y, test_size=0.2)
clf = RandomForestClassifier().fit(X_train, y_train)
preds = clf.predict(X_test)
print("F1-score con lematizaci√≥n:", f1_score(y_test, preds, average="macro"))

# Sin lematizaci√≥n
X_train2, X_test2, _, _ = train_test_split(X_raw, y, test_size=0.2)
clf2 = RandomForestClassifier().fit(X_train2, y_train)
preds2 = clf2.predict(X_test2)
print("F1-score sin lematizaci√≥n:", f1_score(y_test, preds2, average="macro"))
üìä Fase 4: Evaluaci√≥n Comparativa
Tarea 4: An√°lisis Cuantitativo
python
vocab_size_raw = len(TfidfVectorizer().fit(df["review_espa√±ol"]).vocabulary_)
vocab_size_lem = len(TfidfVectorizer().fit(df["review_lematizado"]).vocabulary_)
print("Reducci√≥n de vocabulario:", round((vocab_size_raw - vocab_size_lem) / vocab_size_raw * 100, 2), "%")
üìå Entrega Final
Funci√≥n Final:
python
# Ya definida como `lematizar(texto, idioma)`
Documentaci√≥n Esperada:
Comparativo de m√©tricas pre/post lematizaci√≥n.

Ejemplos como: "trab√≥" ‚Üí "trabar", "funcion√≥" ‚Üí "funcionar".

