In [None]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# Cargar datasets

train = pd.read_csv("dataset_train_95.csv")
test = pd.read_csv("dataset_test_5_sin_etiqueta.csv")


# Separar características y etiquetas

X = train['declaracion']
y = train['etiqueta']  # 1 = positiva, 0 = negativa


# Dividir en entrenamiento y prueba (opcional, para evaluar)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)


# Vectorizar el texto

vectorizador = CountVectorizer()
X_train_vec = vectorizador.fit_transform(X_train)
X_val_vec = vectorizador.transform(X_val)
X_test_vec = vectorizador.transform(test['declaracion'])


# Entrenar el modelo

modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train_vec, y_train)


accuracy = modelo.score(X_val_vec, y_val)
print(f"Precisión en el conjunto de validación: {accuracy:.2f}")

predicciones = modelo.predict(X_test_vec)


test['etiqueta'] = predicciones
test.to_csv("dataset_test.csv", index=False)
print("Archivo dataset_test.csv generado con la columna 'etiqueta'.")

Precisión en el conjunto de validación: 1.00
Archivo dataset_test.csv generado con la columna 'etiqueta'.
