In [489]:
import os
import re

import spacy

In [490]:
nlp = spacy.load("es_core_news_lg")

In [491]:
file = open('./Mails/correo_1.txt')
text = file.read()

In [492]:
parsed_mails = []

In [493]:
def extract_topic(text):
    # Extract topic
    expression = re.compile(r"Asunto: (.*)", re.UNICODE)
    match = re.search(expression, text)
    return match.group(1)

In [494]:
def extract_location(text):
    doc = nlp(text)

    for entity in doc.ents:
        if entity.label_ == "LOC" and entity.root.pos_ == "PROPN":
            return entity.text

    return "Mordor"

In [495]:
def extract_day(text):
    expression = re.compile(r"(lunes|martes|miércoles|jueves|viernes|sábado|domingo)", flags=re.UNICODE | re.IGNORECASE)
    match = re.search(expression, text)
    return match.group(1)

In [496]:
def extract_time(text):
    # Extract time 
    expression = re.compile(r"(\d\d:\d\d)", re.UNICODE)
    match = re.search(expression, text)
    return match.group(1)

In [497]:
def extract_participants(text):
    participants = []
    doc = nlp(text)

    for entity in doc.ents:
        if entity.label_ == "PER" and entity.root.pos_ == "PROPN":
            participants.append(entity.text.strip())

    return ', '.join(participants)

In [498]:
def print_info(text, mail):
    print()
    print()

    print(mail)
    print()
    doc = nlp(text)
    for entity in doc.ents:
        print(f"Entity: {entity.text} | Label: {entity.label_}")

    print()
    print()

In [499]:
mails = os.listdir('./Mails')

for mail in mails:
    file_handler = open('./Mails' + '/' + mail, "r", encoding="utf-8")
    text = file_handler.read()

    print_info(text, mail)

    mail_data = {}
    mail_data["Topic"] = extract_topic(text)
    mail_data["Location"] = extract_location(text)
    mail_data["Day"] = extract_day(text)
    mail_data["Time"] = extract_time(text)
    mail_data["Participants"] = extract_participants(text)

    parsed_mails.append(mail_data)



correo_1.txt

Entity: Proyecto

De: | Label: MISC
Entity: Ana Torres | Label: PER
Entity: Marcos | Label: MISC
Entity: Espero | Label: MISC
Entity: Te cuento | Label: MISC
Entity: Barcelona | Label: LOC
Entity: María | Label: PER
Entity: Juan | Label: PER
Entity: Saludos | Label: MISC
Entity: Ana | Label: PER




correo_10.txt

Entity: Roberto Martínez | Label: PER
Entity: Marcos | Label: MISC
Entity: Espero | Label: MISC
Entity: Confirmo | Label: LOC
Entity: Valencia | Label: LOC
Entity: Estoy | Label: LOC
Entity: Love me | Label: MISC
Entity: Saludos | Label: MISC
Entity: Roberto | Label: PER




correo_2.txt

Entity: Juan Pérez | Label: PER
Entity: Marcos | Label: MISC
Entity: Espero | Label: MISC
Entity: Saludos | Label: MISC
Entity: Juan
 | Label: PER




correo_3.txt

Entity: María Gómez | Label: PER
Entity: Marcos | Label: MISC
Entity: Nos reuniremos el jueves a las 10:00 en Madrid | Label: MISC
Entity: Hablaremos sobre los avances del proyecto | Label: MISC
Entity: Saludos | 

In [500]:
mails_by_day = {
    "lunes": [],
    "martes": [],
    "miércoles": [],
    "jueves": [],
    "viernes": [],
    "sábado": [],
    "domingo": [],
}

for mail_parsed in parsed_mails:
    mails_by_day[mail_parsed["Day"]].append(mail_parsed)

In [501]:
for day in mails_by_day:
    mails = mails_by_day[day]
    if len(mails) == 0:
        continue

    print(f">> {day.upper()}")
    print()

    for mail in mails:
        print("REUNIÓN")
        print(f"· Tema: {mail['Topic']}")
        print(f"· Lugar: {mail['Location']}")
        print(f"· Día y hora: {mail['Day']}, a las {mail['Time']}")
        print(f"· Participantes: {mail['Participants']}")
        print()

>> LUNES

REUNIÓN
· Tema: Cambio de Lugar - Reunión de Estrategia
· Lugar: Madrid
· Día y hora: lunes, a las 10:00
· Participantes: Juan Pérez, Roberto, María, Juan

>> MARTES

REUNIÓN
· Tema: Sesión de Brainstorming
· Lugar: Londres
· Día y hora: martes, a las 15:00
· Participantes: Ana Torres, Ana

REUNIÓN
· Tema: Recordatorio de Reunión
· Lugar: Sevilla
· Día y hora: martes, a las 15:30
· Participantes: María López, Carla, Juan, María

>> MIÉRCOLES

REUNIÓN
· Tema: Novedades del Proyecto
· Lugar: Barcelona
· Día y hora: miércoles, a las 16:00
· Participantes: Ana Torres, María, Juan, Ana

REUNIÓN
· Tema: Cambio de Horario - Reunión Urgente
· Lugar: de Valencia
· Día y hora: miércoles, a las 17:00
· Participantes: Juan Pérez, Felipe, Juan

REUNIÓN
· Tema: Cambio en la Participación
· Lugar: Berlín
· Día y hora: miércoles, a las 16:30
· Participantes: Juan Pérez, María, Laura Rodríguez, Juan

>> JUEVES

REUNIÓN
· Tema: Reunión semanal
· Lugar: Saludos
· Día y hora: jueves, a las 10:00