# **Proyecto: API de Análisis de Sentimientos**

##  **Descripción del Proyecto**
Crear una **API simple** que recibe textos (comentarios, reseñas o tweets), aplica un **modelo de Data Science** para clasificar el sentimiento y devuelve el resultado en formato **JSON**, permitiendo que las aplicaciones consuman esta predicción automáticamente.

### **Opciones de Clasificación**
- **Binaria**: Positivo / Negativo
- **Ternaria**: Positivo / Neutro / Negativo

##  **Alcance Recomendado**
Clasificación con un **modelo simple** usando:
- **TF-IDF**: Técnica que transforma texto en números, mostrando qué palabras son más importantes
- **Regresión Logística**: Modelo de aprendizaje automático que aprende a diferenciar sentimientos

##  **Objetivos del Proyecto**

### **1.  Exploración y Limpieza de Datos (EDA)**
- Análisis exploratorio de los datos de texto
- Limpieza de datos: manejo de valores nulos, duplicados
- Preprocesamiento de texto: lowercasing, eliminación stopwords, etc.

### **2.  Transformación de Textos con TF-IDF**
- Convertir texto en representación numérica
- Creación de matriz de características
- Selección de características más relevantes

### **3.  Entrenamiento del Modelo Supervisado**
- **Opción A**: Regresión Logística
- **Opción B**: Naive Bayes
- **Opción C**: Support Vector Machines (SVM)
- División de datos: train/test split
- Validación cruzada

### **4.  Métricas de Desempeño**
- **Accuracy**: Precisión general del modelo
- **Precision**: Exactitud en predicciones positivas
- **Recall**: Capacidad de encontrar todos los positivos
- **F1-Score**: Balance entre Precision y Recall
- Matriz de confusión

### **5.  Serialización del Modelo**
- Guardar modelo entrenado con `joblib` o `pickle`
- Guardar vectorizador TF-IDF
- Crear pipeline completo
- Versionado de modelos


### Aqui irian todos los **IMPORTS NECESARIOS**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Configurar visualizaciones
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline
print("Librerias cargadas correctamente")

Librerias cargadas correctamente


# Lectura del DataSet

In [None]:
df = pd.read_csv('/content/dataset_sentiment_analisys.csv', sep=';')
print("Dataset cargado exitosamente!")
print(f"Dimensiones: {df.shape[0]} filas × {df.shape[1]} columnas\n")

print("Primeras 5 filas:")
print(df.head())
print("\n" + "="*50 + "\n")

print("Informacion basica:")
print(f"Columnas: {list(df.columns)}")
print(f"\nTipos de datos:")
print(df.dtypes)
print(f"\nValores nulos por columna:")
print(df.isnull().sum())
print("\n" + "="*50 + "\n")

print("3 filas aleatorias:")
print(df.sample(3, random_state=42))

FileNotFoundError: [Errno 2] No such file or directory: '/content/dataset_sentiment_analisys.csv'

In [None]:
df.head()

# Histograma de comportamiento de los sentimientos

# Limpieza de datos

# Entrenamiento

In [None]:
df['review_es'].apply(getStemmedReview)
X_train = df.loc[:35000, 'review_es'].values
y_train = df.loc[:35000, 'target'].values
X_test = df.loc[35000:, 'review_es'].values
y_test = df.loc[35000:, 'target'].values

# Vectorización

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(sublinear_tf=True, encoding='utf-8',
 decode_error='ignore')
vectorizer.fit(X_train)
X_train=vectorizer.transform(X_train)
X_test=vectorizer.transform(X_test)

# Regresión Logística

# Matriz de confusión (Conjunto Entrenamiento)

In [4]:
cm = confusion_matrix(y_train, P_train, normalize='true')
cm

NameError: name 'confusion_matrix' is not defined

# Graficar la matriz de confusión (Conjunto Entrenamiento)

# Matriz de confusión (Conjunto Prueba)

# Vectorización del vocabulario

# Verificar que palabras estan más hacia positivo o negativo

# Palabras más positivas

# Palabras más negativas

# Prueba

In [5]:
prueba = ["Es irrespetuoso y crítico sin ofrecer soluciones constructivas",
          "Toma desiciones que parece beneficiar solo sus  propios intereses",
          "La evaluación fue satisfactoria, y el evaluador demostró un rendimiento óptimo",
          "El evaluador respondio adecuadamente mis dudas"]

# Transformar la entrada con el vectorizador

In [6]:
x = vectorizer.transform(prueba)

NameError: name 'vectorizer' is not defined

In [7]:
# Predecir con el modelo
P = model.predict(x)

NameError: name 'model' is not defined

In [8]:
# Obtener las clases del modelo (0 => N, 1 => P)
clases = model.classes_

NameError: name 'model' is not defined

# Mensaje de salida

In [None]:
for i in range (len(prueba)):
    if clases[P[i]] < 0:
        print(f"El Comentario: '{prueba[i]}' es: Negativo")
    elif clases[P[i]] == 0:
        print(f"El Comentario: '{prueba[i]}' es: Neutro")
    else:
        print(f"El Comentario: '{prueba[i]}' es: Neutro")

# # Encapsulamiento del modelo


In [9]:
import joblib
joblib.dump(model,'model_es.pkl')
joblib.dump(vectorizer,'vectorizer_es.pkl')
joblib.dump(en_stopwords,'stopwords.pkl')

NameError: name 'model' is not defined