In [1]:
# data_preprocessing.py

import pandas as pd
import numpy as np
import re
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
import pickle

# 1. Cargar el dataset
def load_data(filepath):
    # Asumimos que el dataset está en formato CSV
    data = pd.read_csv(filepath)
    return data['review'], data['sentiment']

# 2. Limpiar el texto
def clean_text(text):
    # Eliminar HTML tags
    text = re.sub(r'<.*?>', '', text)
    # Eliminar caracteres especiales y números
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    # Convertir todo a minúsculas
    text = text.lower()
    return text

# 3. Preprocesar todo el conjunto de datos
def preprocess_data(reviews):
    cleaned_reviews = [clean_text(review) for review in reviews]
    return cleaned_reviews

# 4. Tokenización y secuencias
def tokenize_and_pad(reviews, max_len=200):
    tokenizer = Tokenizer(num_words=10000, oov_token='<OOV>')
    tokenizer.fit_on_texts(reviews)
    
    # Convertir las oraciones en secuencias de enteros
    sequences = tokenizer.texts_to_sequences(reviews)
    
    # Rellenar secuencias para que tengan la misma longitud
    padded_sequences = pad_sequences(sequences, maxlen=max_len, padding='post', truncating='post')
    
    with open('tokenizer.pickle', 'wb') as handle:
        pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

    return padded_sequences, tokenizer

# 5. Convertir las etiquetas (sentimientos) a formato binario
def label_encoding(labels):
    return np.array([1 if label == 'positive' else 0 for label in labels])

# 6. Dividir el dataset en entrenamiento y prueba
def split_data(X, y, test_size=0.2):
    return train_test_split(X, y, test_size=test_size, random_state=42)

if __name__ == "__main__":
    # 7. Cargar y preprocesar el dataset
    reviews, sentiments = load_data('IMDB Dataset.csv')
    cleaned_reviews = preprocess_data(reviews)
    
    # 8. Tokenización y padding
    X, tokenizer = tokenize_and_pad(cleaned_reviews)
    
    # 9. Codificación de etiquetas
    y = label_encoding(sentiments)
    
    # 10. Dividir en entrenamiento y prueba
    X_train, X_test, y_train, y_test = split_data(X, y)

    # Guardar los datos preprocesados (opcional)
    np.save('X_train.npy', X_train)
    np.save('X_test.npy', X_test)
    np.save('y_train.npy', y_train)
    np.save('y_test.npy', y_test)
    print("Preprocesamiento completo.")


Preprocesamiento completo.
