In [10]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
import openpyxl
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [11]:
path = '../data/Consulta_JMA.xlsx'

df = pd.read_excel(path)
df.head()

Unnamed: 0,CodigoTarea,IDEmail,Cuerpo,FechaCreacion,Categoria,Idioma
0,1094561,1379091,"Buenos días Manuel,_x000d_\n_x000d_\nPasarme ...",2023-06-02,OMOD,E
1,1194837,1391986,"Hola,_x000d_\n_x000d_\n¿Espero que estés bien?...",2024-02-16,I,E
2,1225091,1391986,"Hola,_x000d_\n_x000d_\n¿Espero que estés bien?...",2024-04-25,I,E
3,1034918,1464101,"Buenos días,_x000d_\n_x000d_\n _x000d_\n_x000d...",2023-01-01,OMOD,E
4,1034932,1464115,Adjunto les enviamos PEDIDOS (PDF)_x000d_\n_x0...,2023-01-02,PMOD,E


In [12]:
df['Categoria'] = df['Categoria'].fillna("sin categoría")
df['Cuerpo'] = df['Cuerpo'].fillna("sin cuerpo")

# Agrupar por CodigoTarea y unir los correos electrónicos en una sola entrada
df = df.groupby(by='CodigoTarea').agg({
    'IDEmail': 'first',
    'Cuerpo': 'first',
    'FechaCreacion': 'first',
    'Categoria': 'first',
    'Idioma': 'first'
}).reset_index()

# df['Categoria'] = df['Categoria'].replace({'PREP': 'P', 'PMOD': 'P', 'OMOD' : 'O', 'OREP' : 'O', 'SAT' : 'I'})

# Asegúrate de descargar las stopwords
nltk.download('stopwords')

# Función para limpiar el texto
def clean_text(text):
    # Eliminar 'xd'
    text = re.sub(r'\bxd\b', '', text)

    # Eliminar caracteres no deseados (como 'x000d')
    text = re.sub(r'\bx000d\b', '', text)

    # Eliminar URLs y correos electrónicos
    text = re.sub(r'http\S+|www\S+|https\S+|mailto:\S+', '', text)

    # Convertir a minúsculas
    text = text.lower()

    # Eliminar caracteres no alfabéticos y espacios extra
    text = re.sub(r'[^a-záéíóúñü\s]', '', text)

    # Dividir el texto en palabras
    words = text.split()
    
    words = word_tokenize(text)

    # Filtrar stopwords
    spanish_stopwords = set(stopwords.words('spanish'))
    filtered_words = [word for word in words if word not in spanish_stopwords]
    

    return ' '.join(filtered_words)

# Supongamos que df_grouped ya está definido
# Aplica la función a cada fila de la columna 'Cuerpo'
df['Cuerpo'] = df['Cuerpo'].apply(clean_text)


# Selección de las columnas relevantes
df = df[['Cuerpo', 'Categoria']]

# Codificación de etiquetas
label_encoders = {}
for column in ['Categoria']:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le

[nltk_data] Downloading package stopwords to /home/jose-
[nltk_data]     manuel/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [13]:
df.head()

Unnamed: 0,Cuerpo,Categoria
0,buenos díasxd xd xd xd solicito precio compone...,1
1,adjunto enviamos pedidos pdfxd xd otis spain s...,3
2,xd xd xd xd peticion oferta imem n xd xd somgi...,1
3,proveedor hidral sa dirección carmendiezhidral...,3
4,bom dia xd xd xd xd sei podes ajudar com uma d...,1
