In [None]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import string
import emoji
from sklearn.feature_extraction.text import TfidfVectorizer


# Cargar los datos desde el archivo CSV con encoding 'latin1'
file_path = 'data/suicidal_data.csv'  # Ajusta la ruta según tu estructura de carpetas
df = pd.read_csv(file_path, encoding='latin1')

# Imprimir el texto de las primeras 5 instancias
print("Texto de las primeras 5 instancias:")
print(df['tweet'].head())

# Funciones de preprocesamiento
def preprocess_text(text):
    # Convertir a minúsculas
    text = text.lower()
    # Manejar emojis
    text = emoji.demojize(text)
    # Eliminar puntuación
    text = text.translate(str.maketrans("", "", string.punctuation))
    # Tokenización
    tokens = word_tokenize(text)
    # Eliminar stopwords
    stop_words = set(stopwords.words('english'))
    tokens = [token for token in tokens if token not in stop_words]
    # Lematización
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(tokens)

# Aplicar preprocesamiento a la columna 'tweet'
df['processed_tweet'] = df['tweet'].apply(preprocess_text)

# Imprimir el texto preprocesado de las primeras 5 instancias
print("\nTexto preprocesado de las primeras 5 instancias:")
print(df['processed_tweet'].head())

# Vectorización con TF-IDF y Ponderación de Términos por IDF ponderada por TF
vectorizer = TfidfVectorizer(use_idf=True)
X_tfidf = vectorizer.fit_transform(df['processed_tweet'])

# Imprimir el texto vectorizado de las primeras 5 instancias
print("\nTexto vectorizado de las primeras 5 instancias:")
print(X_tfidf[:5].toarray())
