Utilizando el dataset " Twitter Sentiment Analysis in Spanish Tweets", deberás
implementar y comparar diferentes técnicas de Inteligencia Artificial y Modelos de
Lenguaje (LLM) para la clasificación de sentimientos en comentarios de usuarios.
• Demostrar conocimientos prácticos en técnicas de IA/ML
• Evaluar capacidad de prompt engineering con LLMs
• Analizar críticamente los resultados obtenidos
• Muestra a utilizar: Los primeros 100 datos seleccionados aleatoriamente
• Etiquetas esperadas: POSITIVO, NEGATIVO, NEUTRO


## Plan de reentrenamiento reproducible
1. Preparar entorno limpio (usa `venv` o `conda`) e instala solo las dependencias necesarias (`pandas`, `numpy`, `scikit-learn`, `joblib`, `tarfile` ya viene con Python). Mantén la misma versión de Python que usarás en `deploy.ipynb`.
2. Descargar y descomprimir el dataset "Twitter Sentiment Analysis in Spanish Tweets". Si vuelves a muestrear, fija la semilla para poder replicar (ej. `random_state=42`).
3. Limpieza y preprocesado: normaliza texto, elimina duplicados si aparecen y mapea las etiquetas a `POSITIVO`, `NEGATIVO`, `NEUTRO` como se usa en las métricas.
4. División de datos: separa en train/test (y valid si lo necesitas) manteniendo estratificación para no perder la proporción de clases.
5. Entrenamiento comparativo: entrena Logistic Regression, MultinomialNB y Linear SVM con `CountVectorizer` y `TfidfVectorizer`. Guarda las métricas (accuracy, f1-macro y por clase) en tablas reproducibles.
6. Interpretación: documenta por qué eliges el modelo final (actualmente Linear SVM + CountVectorizer). Conserva también el `vectorizer` para inferencia.
7. Serialización: guarda el pipeline completo (`joblib.dump`) y arma `model.tar.gz` con el artefacto y el script de inferencia usado por `deploy.ipynb`.
8. Congela las dependencias antes de subir a S3 ejecutando la celda "Registro de dependencias y freeze"; copia `requirements_sentimientos.txt` junto al `model.tar.gz` para SageMaker y evita errores de versión en CloudWatch.


In [None]:
#%pip install pandas scikit-learn jupyter ipywidgets

#%pip install --upgrade pip


: 

In [None]:
import pandas as pd

df = pd.read_csv("sentiment_analysis_dataset.csv")
df.head()

In [None]:
print("Categorías en 'emotion':", df['emotion'].unique())
print("Categorías en 'sentiment':", df['sentiment'].unique())

In [None]:
# Diccionarios de mapeo
emotion_map = {
    'overwhelmed': 'NEGATIVO', 'embarrassed': 'NEGATIVO', 'jealous': 'NEGATIVO',
    'irritated': 'NEGATIVO', 'frustrated': 'NEGATIVO', 'distant': 'NEGATIVO',
    'stupid': 'NEGATIVO', 'isolated': 'NEGATIVO', 'sleepy': 'NEGATIVO',

    'responsive': 'NEUTRO', 'relaxed': 'NEUTRO',

    'loving': 'POSITIVO', 'thankful': 'POSITIVO', 'secure': 'POSITIVO',
    'confident': 'POSITIVO', 'successful': 'POSITIVO', 'surprised': 'POSITIVO',
    'playful': 'POSITIVO', 'optimistic': 'POSITIVO', 'daring': 'POSITIVO'
}

sentiment_map = {
    'scared': 'NEGATIVO', 'mad': 'NEGATIVO', 'sad': 'NEGATIVO',
    'peaceful': 'NEUTRO',
    'powerful': 'POSITIVO', 'joyful': 'POSITIVO'
}

# Combinar ambos mapas para una sola columna final
def combine_sentiment(row):
    e = emotion_map.get(row['emotion'], 'NEUTRO')
    s = sentiment_map.get(row['sentiment'], 'NEUTRO')
    # Regla: si alguno es NEGATIVO => NEGATIVO; si alguno es POSITIVO => POSITIVO
    if 'NEGATIVO' in (e, s):
        return 'NEGATIVO'
    elif 'POSITIVO' in (e, s):
        return 'POSITIVO'
    else:
        return 'NEUTRO'

df['sentiment_label'] = df.apply(combine_sentiment, axis=1)

# Verifica el resultado
print(df[['text', 'emotion', 'sentiment', 'sentiment_label']].sample(10))
print(df['sentiment_label'].value_counts())

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

import joblib
import os
# usar dataset completo

df_sample = df.copy()  # usar todo el dataset
print(df_sample['sentiment_label'].value_counts())


# Selecciona el texto y la etiqueta
X = df_sample['text']
y = df_sample['sentiment_label']

# Divide en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Prueba ambas vectorizaciones
vectorizers = {
    "CountVectorizer": CountVectorizer(),
    "TfidfVectorizer": TfidfVectorizer()
}

models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Naive Bayes": MultinomialNB(),
    "Linear SVM": LinearSVC()
}

# Crear directorios para guardar los modelos
os.makedirs('models/svm_countvectorizer', exist_ok=True)
os.makedirs('models/svm_tfidfvectorizer', exist_ok=True)

for vec_name, vectorizer in vectorizers.items():
    print(f"\n--- Usando {vec_name} ---")
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)
    
    for model_name, model in models.items():
        print(f"\nModelo: {model_name}")
        model.fit(X_train_vec, y_train)
        y_pred = model.predict(X_test_vec)
        
        acc = accuracy_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred, average='macro')
        cm = confusion_matrix(y_test, y_pred, labels=['POSITIVO', 'NEGATIVO', 'NEUTRO'])
        
        print(f"Accuracy: {acc:.4f}")
        print(f"F1-score (macro): {f1:.4f}")
        print("Matriz de confusión:")
        print(cm)
        print("Reporte de clasificación:")
        print(classification_report(y_test, y_pred, digits=4))

        # Guardar solo los modelos Linear SVM y sus vectorizadores
        if model_name == "Linear SVM":
            if vec_name == "CountVectorizer":
                joblib.dump(model, 'models/svm_countvectorizer/model.joblib')
                joblib.dump(vectorizer, 'models/svm_countvectorizer/vectorizer.joblib')
            elif vec_name == "TfidfVectorizer":
                joblib.dump(model, 'models/svm_tfidfvectorizer/model.joblib')
                joblib.dump(vectorizer, 'models/svm_tfidfvectorizer/vectorizer.joblib')

## Interpretación de resultados y modelo recomendado
Se compararon tres modelos de clasificación de sentimientos (Logistic Regression, Naive Bayes y Linear SVM) usando dos técnicas de vectorización de texto (CountVectorizer y TfidfVectorizer).
- **CountVectorizer**: Linear SVM obtuvo la mejor precisión (Accuracy: 0.82, F1 macro: 0.77), mostrando buen desempeño en las clases POSITIVO y NEGATIVO, aunque la clase NEUTRO fue la más difícil de predecir (menor recall y f1-score).
- **TfidfVectorizer**: Linear SVM también fue el mejor (Accuracy: 0.81, F1 macro: 0.71), pero la clase NEUTRO sigue siendo la menos representada correctamente.
En general, **Linear SVM con CountVectorizer** fue el modelo más robusto, logrando el mejor balance entre precisión y F1-score macro. Sin embargo, todos los modelos presentan dificultades para clasificar correctamente la clase NEUTRO, posiblemente por desbalance de clases o menor información en los textos asociados.
**Conclusión:** El modelo recomendado es **Linear SVM con CountVectorizer**, ya que ofrece el mejor desempeño global en este problema de clasificación de sentimientos en tweets en español.

In [None]:
print(X_test.shape)
#print(X_test,y_test)
print(X_test.tolist(),y_test.tolist())


# Empaquetado de Modelos para SageMaker
- Verifica que el pipeline elegido (modelo + vectorizador) quede en un archivo único (`model.pkl`/`joblib`), listo para cargar en el handler de `deploy.ipynb`.
- Arma `model.tar.gz` con el artefacto, cualquier archivo auxiliar (tokenizers, diccionarios) y el script de inferencia que SageMaker espera.
- Ejecuta la celda de registro de dependencias para generar `requirements_sentimientos.txt`; úsalo en la imagen/notebook de despliegue para instalar versiones idénticas a las de entrenamiento.
- Sube ambos (`model.tar.gz` y `requirements_sentimientos.txt`) al bucket S3 y referencia el requirements en tu contenedor o paso de instalación para evitar incompatibilidades en CloudWatch.



## Registro de dependencias y freeze (ejecutar después de entrenar)
Esta celda captura versiones clave y genera `requirements_sentimientos.txt` con `pip freeze`. Úsalo tanto para volver a entrenar como para el contenedor de inferencia en SageMaker.


In [None]:

import importlib
import json
import platform
import subprocess
import sys

def pkg_version(name):
    try:
        return importlib.import_module(name).__version__
    except Exception:
        return "no encontrado"

summary = {
    "python": sys.version.split()[0],
    "platform": platform.platform(),
    "packages": {
        "pandas": pkg_version("pandas"),
        "numpy": pkg_version("numpy"),
        "scikit-learn": pkg_version("sklearn"),
        "joblib": pkg_version("joblib"),
    },
}

freeze_output = subprocess.check_output([sys.executable, "-m", "pip", "freeze"], text=True)
with open("requirements_sentimientos.txt", "w", encoding="utf-8") as f:
    f.write(freeze_output)

print(json.dumps(summary, indent=2, ensure_ascii=False))
print("Archivo requirements_sentimientos.txt generado en el directorio actual.")


In [None]:

import tarfile
import os
import shutil
import subprocess
import sys
from pathlib import Path

def prepare_code(src_dir: Path, dest_dir: Path):
    dest_dir.mkdir(parents=True, exist_ok=True)
    for fname in ["inference.py", "__init__.py", "requirements.txt"]:
        shutil.copy(src_dir / fname, dest_dir / fname)

def freeze_requirements(output_path: str = "models/requirements_sentimientos.txt"):
    """Genera un pip freeze de la sesión actual para reproducibilidad."""
    output_path = Path(output_path)
    output_path.parent.mkdir(parents=True, exist_ok=True)
    print(f"Generando freeze de dependencias en {output_path}...")
    freeze = subprocess.check_output([sys.executable, "-m", "pip", "freeze"], text=True)
    output_path.write_text(freeze)
    print("Freeze generado.")

# Congelar dependencias del entorno actual
freeze_requirements()

# --- 1. Empaquetar Linear SVM + CountVectorizer ---
count_dir = Path('models/svm_countvectorizer')
prepare_code(Path('modelos/sentimientos/svm_countvectorizer/code'), count_dir / 'code')
output_filename = 'models/model_svm_countvectorizer.tar.gz'

with tarfile.open(output_filename, "w:gz") as tar:
    tar.add(count_dir / 'model.joblib', arcname='model.joblib')
    tar.add(count_dir / 'vectorizer.joblib', arcname='vectorizer.joblib')
    for fname in ["inference.py", "__init__.py", "requirements.txt"]:
        tar.add(count_dir / 'code' / fname, arcname=f'code/{fname}')

print(f"Modelo {output_filename} creado exitosamente.")

# --- 2. Empaquetar Linear SVM + TfidfVectorizer ---
tfidf_dir = Path('models/svm_tfidfvectorizer')
prepare_code(Path('modelos/sentimientos/svm_tfidfvectorizer/code'), tfidf_dir / 'code')
output_filename = 'models/model_svm_tfidfvectorizer.tar.gz'

with tarfile.open(output_filename, "w:gz") as tar:
    tar.add(tfidf_dir / 'model.joblib', arcname='model.joblib')
    tar.add(tfidf_dir / 'vectorizer.joblib', arcname='vectorizer.joblib')
    for fname in ["inference.py", "__init__.py", "requirements.txt"]:
        tar.add(tfidf_dir / 'code' / fname, arcname=f'code/{fname}')

print(f"Modelo {output_filename} creado exitosamente.")



#Comparación Completa de Modelos y Análisis Final
## Comparación de Rendimiento de Modelos
Modelo	Accuracy	F1-macro
Linear SVM + CountVectorizer	0.8200	0.7700
Linear SVM + TfidfVectorizer	0.8100	0.7100

# Conclusiones del Análisis
1. Linear SVM con CountVectorizer mantiene el mejor equilibrio entre accuracy (0.82) y F1 macro (0.77).
2. El modelo con TfidfVectorizer queda ligeramente por debajo pero sigue siendo competitivo y puede ser útil si se prioriza un vocabulario ponderado.
3. La clase NEUTRO es la más retadora; podría beneficiarse de más datos o ajustes de balance de clases.
4. Para despliegue se recomienda serializar el pipeline elegido y conservar el vectorizador correspondiente.
