# PAIR PROGRAMMING EXPRESIONES REGULARES (REGEX)

Antes de empezar:
> 📌 Cargad el fichero del email que tenemos al final de la explicación del pair de hoy y almacenarlo en una variable. Para abrirlo tendremos que usar el método open aprendido en lecciones anteriores. 📌 Importad las librerías necesarias para poder usar las expresiones regulares

Recordad que en regex tenemos que buscar patrones para cada objetivo que os planteamos. Tendremos que poner en práctica todo lo aprendido hasta ahora. For loops, métodos de strings, indexación de listas, etc.

In [3]:
import re


1. Extraer el email de la persona que envió el email (os deberían salir 2).

💡 Pista 💡 Tendremos que hacer dos busquedas:
- Una para extraer toda la información del remitente. El remitente siempre empieza por From:
```
info_remitente = re.findall('From:.*',email)
```
- Otra para extraer el email únicamente.

In [5]:
email = open("email.txt", "r").read()

In [6]:
info_remitente = re.findall('From:.*',email)

In [7]:
info_remitente

['From: "Mr. Ben Suleman" <bensul2004nng@spinfinder.com>',
 'From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>']

In [8]:
# lo convertimos a string
info_remitente_copia = info_remitente.copy()
str_info = " ".join(info_remitente_copia)


In [9]:
str_info

'From: "Mr. Ben Suleman" <bensul2004nng@spinfinder.com> From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>'

In [10]:
correos = re.findall('(\w+\d+\w*@\w+\.com)', str_info)

#[a-z]+|\d+

In [11]:
correos

['bensul2004nng@spinfinder.com', 'james_ngola2002@maktoob.com']

2. Extraer el nombre de la persona que envió el email (os deberían salir 2).

💡 Pista 💡 Tendremos que hacer dos busquedas:
- Podemos usar el resultado de la primera búsqueda del ejercicio anterior para sacar el nombre.
- Otra para extraer el nombre únicamente.

In [12]:
nombres = re.findall('[M][r|R]\.\s[A-Z]\w*\s[A-Z]\w*', str_info)

In [13]:
nombres

['Mr. Ben Suleman', 'MR. JAMES NGOLA']

3. El día en el que se mandó el email (os deberían salir 2).

💡 Pista 💡 De la misma forma que antes buscamos por From: primero, ahora lo tendremos que hacer con Date: .*

In [14]:
fecha_envio = re.findall('Date:.*',email)

In [15]:
fecha_envio = " ".join(fecha_envio)

In [16]:
fecha_envio

'Date: Thu, 31 Oct 2002 05:10:00 Date: Thu, 31 Oct 2002 02:38:20 +0000'

In [17]:
fechas = re.findall('([A-Z][a-z]+,\s\d{2}\s[A-Z]\w+\s\d{4}\s.{8})', fecha_envio)

In [18]:
fechas

['Thu, 31 Oct 2002 05:10:00', 'Thu, 31 Oct 2002 02:38:20']

4. El asunto del email (os deberían salir 2).

💡 Pista 💡 Busca primero "Subject:.* y después busca el patrón para extraer el asunto.

In [19]:
asunto = re.findall('Subject:.*',email)

In [20]:
asunto = ' '.join(asunto)
print(asunto)

Subject: URGENT ASSISTANCE /RELATIONSHIP (P) Subject: URGENT BUSINESS ASSISTANCE AND PARTNERSHIP


In [40]:
asuntos_correo = re.findall('[A-Z]+\s[A-Z]+\s.[A-Z]+[\s\w+\s\w+]*', asunto)

In [49]:
asuntos_correo

['URGENT ASSISTANCE /RELATIONSHIP ',
 'URGENT BUSINESS ASSISTANCE AND PARTNERSHIP']

5. Guarda todos los resultados en un diccionario

In [53]:
diccionario_datos = {'nombre':'', 'correos':'', 'fecha_envio':'', 'asunto':''}

In [54]:
diccionario_datos['nombre'] = nombres
diccionario_datos['correos'] = correos
diccionario_datos['fecha_envio'] = fechas
diccionario_datos['asunto'] = asuntos_correo

In [55]:
diccionario_datos

{'nombre': ['Mr. Ben Suleman', 'MR. JAMES NGOLA'],
 'correos': ['bensul2004nng@spinfinder.com', 'james_ngola2002@maktoob.com'],
 'fecha_envio': ['Thu, 31 Oct 2002 05:10:00', 'Thu, 31 Oct 2002 02:38:20'],
 'asunto': ['URGENT ASSISTANCE /RELATIONSHIP ',
  'URGENT BUSINESS ASSISTANCE AND PARTNERSHIP']}

In [97]:
diccionario_datos2 = {'nombre':'', 'correos':'', 'fecha_envio':'', 'asunto':''}

In [98]:
diccionario_datos2

{'nombre': '', 'correos': '', 'fecha_envio': '', 'asunto': ''}

💪🏽 BONUS 💪🏽

Utiliza funciones para cada una de los objetivos planteados.

In [110]:
import re

In [131]:
email = open("email.txt", "r").read()

In [138]:
def limpiar_nombres(email):
    info_remitente = re.findall('From:.*',email)
    str_info = " ".join(info_remitente)
    nombres = re.findall('[M][r|R]\.\s[A-Z]\w*\s[A-Z]\w*', str_info)
    return nombres

In [135]:
def limpiar_email(email):
    info_remitente = re.findall('From:.*',email)
    str_info = " ".join(info_remitente)
    correos1 = re.findall('(\w+\d+\w*@\w+\.com)', str_info)
    return correos1

In [142]:
def limpiar_fecha_envio(email):
    fecha_envio = re.findall('Date:.*',email)
    fecha_envio = " ".join(fecha_envio)
    fechas = re.findall('([A-Z][a-z]+,\s\d{2}\s[A-Z]\w+\s\d{4}\s.{8})', fecha_envio)
    return fechas

In [144]:
def limpiar_asunto(email):
    asunto = re.findall('Subject:.*',email)
    asunto = ' '.join(asunto)
    asuntos_correo = re.findall('[A-Z]+\s[A-Z]+\s.[A-Z]+[\s\w+\s\w+]*', asunto)
    return asuntos_correo

In [153]:
nombres_fun = limpiar_nombres(email)
correo_fun = limpiar_email(email)
fecha_fun = limpiar_fecha_envio(email)
asunto_fun = limpiar_asunto(email)

In [158]:
def creacion_diccionario():
    diccionario_final = {}
    for k, v in diccionario_datos2.items():
        if k == 'nombre':
            diccionario_final['nombres'] = nombres_fun
        elif k == 'correos':
            diccionario_final['correos'] = correo_fun
        elif k == 'fecha_envio':
            diccionario_final['fecha_envio'] = fecha_fun
        else:
            diccionario_final['asunto'] = asunto_fun
    return diccionario_final

In [159]:
creacion_diccionario()

{'nombres': ['Mr. Ben Suleman', 'MR. JAMES NGOLA'],
 'correos': ['bensul2004nng@spinfinder.com', 'james_ngola2002@maktoob.com'],
 'fecha_envio': ['Thu, 31 Oct 2002 05:10:00', 'Thu, 31 Oct 2002 02:38:20'],
 'asunto': ['URGENT ASSISTANCE /RELATIONSHIP ',
  'URGENT BUSINESS ASSISTANCE AND PARTNERSHIP']}