<a href="https://colab.research.google.com/github/jumafernandez/clasificacion_correos/blob/main/tesis/notebooks/00-procesamiento_inicial_correos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Procesamiento inicial de correos electrónicos

__Carrera:__ Maestria en Inteligencia de datos orientada a Big Data de la Universidad Nacional de La Plata.

___Título de la Tesis:___ Clasificación automática de correos electrónicos

___Autor:___ Juan Manuel Fernandez

___Director:___ Marcelo Errecalde


__Objetivo:__ En esta notebook, se procesa el backup de correos, que se encuentra en un archivo pst. Los archivos en el formato PST son archivos de datos creados por Microsoft Outlook, un gestor de información personal y una parte de la suite Microsoft Office.


## 1. Primeros pasos

### 1.1 Instalación de librerías

In [3]:
!pip install libpff-python
!pip install -U -q PyDrive
!pip install wget



### 1.2 Funciones propias

Se definen funciones propias para la limpieza de los correos y las cadenas de texto:

In [4]:
#%% Función para limpiar las consultas
def limpiar_correo(text):
    '''Se limpian las cadenas de texto'''
    
    # Paso a minusculas
    text = str(text).lower()

    # Reemplazo los tildes
    text = text.replace("\\xc3\\xa1", "á")
    text = text.replace("\\xc3\\xa9", "é")
    text = text.replace("\\xc3\\xad", "í")
    text = text.replace("\\xc3\\xb3", "ó")
    text = text.replace("&uacute;", "ú")
    text = text.replace("\\xc3\\xb1", "ñ")
    text = text.replace("&aacute;", "á")
    text = text.replace("&eacute;", "é")
    text = text.replace("&iacute;", "í")
    text = text.replace("&oacute;", "ó")
    text = text.replace("&uacute;", "ú")
    text = text.replace("&ntilde;", "ñ")
    text = text.replace("&ordm", "°")

    # Quito los fin de linea y caracteres especiales
    text = text.replace("\\n", " ")
    text = text.replace("\\r", "")
    text = text.replace("\\", "")
    text = text.replace("b\'", "")

    return text

def limpiar_consulta(text):
    '''Se limpian las consultas'''   
    # Separo la consulta en encabezado y cuerpo
    COMIENZO_CORREO = "de: u.n.lu. [mailto:consultasweb@mail.unlu.edu.ar]"
    GUIONES_CUERPO  = "-------------------------"
    
    text = str(text).replace(" >", "")
    text = text.split("---------------------------------")
    if len(text)>1:
        # El encabezado solo posee la fecha como dato importante
        encabezado = text[0]
        encabezado = encabezado.replace(COMIENZO_CORREO, "")
        #fecha = encabezado[len(encabezado)-len("08.23.2015-00:57:19")-2:len(encabezado)].strip()
        inicio_fecha = encabezado.find("enviado :")
        fecha        = encabezado[inicio_fecha+len("enviado :"):len(encabezado)].strip()
        fecha        = fecha[0:len("08.20.2019-20:48:53")]
        hora         = fecha.split("-")[1]
        fecha        = fecha.split("-")[0].replace(".", "-")
        
        # Cuerpo        
        cuerpo = text[1]
        cuerpo = cuerpo.replace(GUIONES_CUERPO, "")
        
        # Busco el inicio de cada dato para estructurarlos
        inicio_ap_nom    = cuerpo.find("nombre y apellido: ")
        inicio_legajo    = cuerpo.find("legajo: ")
        inicio_documento = cuerpo.find("documento: ")
        inicio_carrera   = cuerpo.find("carrera: ")
        inicio_telefono  = cuerpo.find("teléfono: ")
        inicio_email     = cuerpo.find("e-mail: ")
        inicio_consulta  = cuerpo.find("mensaje / consulta: ")

        apellido_nombre = cuerpo[inicio_ap_nom+len("nombre y apellido: "):inicio_legajo-1]
        legajo          = cuerpo[inicio_legajo+len("legajo: "):inicio_documento-1]
        documento       = cuerpo[inicio_documento+len("documento: "):inicio_carrera-1]
        carrera         = cuerpo[inicio_carrera+len("carrera: "):inicio_telefono-1]
        telefono        = cuerpo[inicio_telefono+len("teléfono: "):inicio_email-1]
        email           = cuerpo[inicio_email+len("e-mail: "):inicio_consulta-1]
        consulta        = cuerpo[inicio_consulta+len("mensaje / consulta: "):len(cuerpo)]
        
    else:
        fecha = text[0]
        hora  = -1
        apellido_nombre = -1
        legajo          = -1
        documento       = -1
        carrera         = -1
        telefono        = -1
        email           = -1
        consulta        = -1
        
    return fecha, hora, apellido_nombre, legajo, documento, carrera, telefono, email, consulta

### 1.3 Descarga de archivo de correos

Se abre el archivo con las consultas que se encuentra en Google Drive (~=800 mb)

In [5]:
import pypff
from google.colab import drive
drive.mount('/content/drive')

pst_file = 'drive/MyDrive/Tesis_Maestria/datos/00-Consultas-originales/Consultas.pst'

pst = pypff.file()
pst.open(pst_file)

Mounted at /content/drive


Se verifican las carpetas que se encuentran dentro del backup y la cantidad de mensajes de cada una de ellas:

In [6]:
root_node = pst.get_root_folder()
carpeta_Outlook = root_node.get_sub_folder(1)
print('Carpetas del Outlook:')
for i in range(0, carpeta_Outlook.get_number_of_sub_folders()):
    folder=carpeta_Outlook.get_sub_folder(i)
    print(str(i) + "-" + folder.get_name() + ": " + str(folder.get_number_of_sub_messages()))

Carpetas del Outlook:
0-Elementos eliminados: 1491
1-Bandeja de entrada: 22703
2-Bandeja de salida: 0
3-Elementos enviados: 24166
4-Correo electrónico no deseado: 19
5-Configuración de acción de conversación: 0
6-Configuración de pasos rápidos: 0
7-Calendario: 0
8-Diario: 0
9-Tareas: 0
10-Infected Items: 0
11-Contactos: 0
12-Notas: 0
13-Borrador: 0
14-Fuentes RSS: 0


## 2. Procesamiento de correos

Se escoge trabajar con los correos enviados puesto que los mismos cuentan con la consulta y su respuesta (eventual etiqueta):

In [7]:
enviados = carpeta_Outlook.get_sub_folder(3)

Se ponen en memoria los correos etiquetados para quitarlos de esta muestra:

In [8]:
import warnings
from os import path
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np

# Constantes con los datos
descarga = True
DS_DIR = 'https://raw.githubusercontent.com/jumafernandez/clasificacion_correos/main/data/50jaiio/'
TRAIN_FILE = 'correos-train-80.csv'
TEST_FILE = 'correos-test-20.csv'

# Genero el enlace completo
URL_file_train = DS_DIR + TRAIN_FILE
URL_file_test = DS_DIR + TEST_FILE
  
if descarga:
  print('Se inicia descarga de los datasets {} y {}.'.format(TRAIN_FILE, TEST_FILE))
  import wget
  wget.download(URL_file_train)
  wget.download(URL_file_test)
else:
  # Si ya están descargados los tomo del working directory
  URL_file_train = TRAIN_FILE
  URL_file_test = TEST_FILE
    
# Leemos el archivo en un dataframe
df_train = pd.read_csv(URL_file_train)
df_test = pd.read_csv(URL_file_test)

df_etiquetados = pd.concat([df_train, df_test])
df_etiquetados= df_etiquetados.rename(columns=str.lower)

print(f"\nLos atributos de los correos son: {str(df_etiquetados.columns.values)}")
print(f"\nEl conjunto de correos etiquetados tiene la dimensión: {df_etiquetados.shape}")

Se inicia descarga de los datasets correos-train-80.csv y correos-test-20.csv.

Los atributos de los correos son: ['consulta' 'dia_semana' 'semana_del_mes' 'mes' 'cuatrimestre' 'anio'
 'hora_discretizada' 'dni_discretizado' 'legajo_discretizado'
 'posee_legajo' 'posee_telefono' 'carrera_valor' 'proveedor_correo'
 'cantidad_caracteres' 'proporcion_mayusculas' 'proporcion_letras'
 'cantidad_tildes' 'cantidad_palabras' 'cantidad_palabras_cortas'
 'proporcion_palabras_distintas' 'frecuencia_signos_puntuacion'
 'cantidad_oraciones' 'utiliza_codigo_asignatura' 'clase']

El conjunto de correos etiquetados tiene la dimensión: (1000, 24)


Se definen constantes que tienen que ver con el tamaño de la muestra y el nombre del archivo donde se van a guardar los correos procesados:

In [9]:
CANTIDAD_CORREOS = enviados.get_number_of_sub_messages()
print('La muestra posee {} correos.'.format(CANTIDAD_CORREOS))
# Constante para la etapa de pruebas
# CANTIDAD_CORREOS = 10

# Datos del archivo donde se guardan las consultas
PATH_ARCHIVO_CORREOS = "correos-procesados.csv"

La muestra posee 24166 correos.


Se definen un conjunto ce constantes que tienen que ver con el texto de los correos:

In [10]:
SEPARADOR_CONSULTA_RESPUESTA = "-----mensaje original-----"
INICIO_DISTINTO = "de: u.n.lu. [mailto:consultasweb@mail.unlu.edu.ar]"

In [11]:
# Se crea el data frame donde se guardan los correos procesados
import pandas as pd
nombre_campos = ["fecha", "hora", "apellido_nombre", "legajo", "documento", "carrera", "telefono", "email", "consulta", "respuesta"]

df_correos = pd.DataFrame(columns = nombre_campos)

In [12]:
for i in range(0, CANTIDAD_CORREOS):
  # Se toma el correo de índice i
  correo = enviados.get_sub_message(i)
  cuerpo = correo.get_plain_text_body()
  if cuerpo:
    
    # Se hace una limpieza inicial del texto
    cuerpo = limpiar_correo(cuerpo)      
    
    # Se separa la consulta de la respuesta, solo acepta un ida y vuelta
    cuerpo = cuerpo.split(SEPARADOR_CONSULTA_RESPUESTA)
    
    # Se deciden desechar los correos no separables, con varios idas/vueltas
    if len(cuerpo)>1:
      respuesta = cuerpo[0]
      consulta = cuerpo[1]
            
      # Si es un ida/vuelta UNICO
      if consulta.find(INICIO_DISTINTO)!=-1:
        fecha, hora, apellido_nombre, legajo, documento, carrera, telefono, email, consulta = limpiar_consulta(consulta)

        if apellido_nombre!=-1:
          
          # Chequeo sino está entre los correos etiquetados

          correo_procesado = {'fecha': fecha, 'hora': hora, 'apellido_nombre': apellido_nombre, 'legajo': legajo, 'documento': documento, 'carrera': carrera, 
                              'telefono': telefono, 'email': email, 'consulta': consulta, 'respuesta': respuesta}
        
          df_correos = df_correos.append(correo_procesado, ignore_index=True)

print(f"\nLa dimensión de los correos procesados es: {df_correos.shape}")


La dimensión de los correos procesados es: (20876, 10)


Ahora eliminamos aquellos correos que están entre los correos etiquetados para no "hacer trampa" en la clasificación:

In [13]:
df_final = df_correos[~df_correos['consulta'].isin(df_etiquetados['consulta'].values.tolist())]

print(f"\nLa dimensión de los correos procesados es: {df_final.shape}")


La dimensión de los correos procesados es: (19776, 10)


Se vuelvan los correos a JSON y CSV:

In [14]:
df_final.to_json('correos-procesados.json', orient='records', lines=True)

In [15]:
df_final.to_csv('correos-procesados.csv', index=False)

Si estamos en COLAB lo pasamos a Google Drive:

In [17]:
ENTORNO='Colab'

if ENTORNO=='Colab':
  from google.colab import drive
  drive.mount('drive')
  !cp correos-procesados.csv "drive/My Drive/Tesis_Maestria/datos/01-Correos-primer-procesamiento/"
  !cp correos-procesados.json "drive/My Drive/Tesis_Maestria/datos/01-Correos-primer-procesamiento/"

Drive already mounted at drive; to attempt to forcibly remount, call drive.mount("drive", force_remount=True).
