In [None]:
# Cargar los datos de entrenamiento y prueba desde archivos CSV
train_data = pd.read_csv('/kaggle/input/contradictory-my-dear-watson/train.csv')
test_data = pd.read_csv('/kaggle/input/contradictory-my-dear-watson/test.csv')

# Importar bibliotecas y clases necesarias
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

# Dividir los datos de entrenamiento en entrenamiento y validación
# X_train contiene las premisas, X_val contiene las suposiciones
# y_train contiene las etiquetas correspondientes a las premisas,
# y_val contiene las etiquetas correspondientes a las suposiciones
X_train, X_val, y_train, y_val = train_test_split(train_data['premise'], train_data['hypothesis'], test_size=0.2, random_state=42)

# Crear un vectorizador TF-IDF con un límite máximo de 5000 características
tfidf_vectorizer = TfidfVectorizer(max_features=5000)

# Transformar los datos de entrenamiento en vectores TF-IDF
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)

# Transformar los datos de validación en vectores TF-IDF utilizando el mismo vectorizador
X_val_tfidf = tfidf_vectorizer.transform(X_val)

# Inicializar un modelo de regresión logística
model = LogisticRegression()

# Entrenar el modelo de regresión logística con los datos de entrenamiento
model.fit(X_train_tfidf, y_train)

# Transformar los datos de prueba en vectores TF-IDF utilizando el mismo vectorizador
X_test_tfidf = tfidf_vectorizer.transform(test_data['premise'])

# Generar predicciones en el conjunto de prueba
predictions = model.predict(X_test_tfidf)

# Crear un DataFrame para almacenar las predicciones junto con sus identificadores
submission_df = pd.DataFrame({
    'id': test_data['id'],
    'prediction': predictions
})

# Guardar el DataFrame de predicciones en un archivo CSV llamado 'submission.csv' sin incluir el índice
submission_df.to_csv('submission.csv', index=False)
