# Expresiones regulares (regex)

Una de las tareas más utilizadas en la programación es la búsqueda de subcadenas o patrones dentro de otras cadenas de texto.

Las **expresiones regulares** son un potente lenguaje de descripción de texto, son patrones de búsqueda definidos con una sintaxis formal.

No existe un lenguaje moderno que no permita usarlas. Las reglas con las que se forman son bastante simples. Pero aprender a combinarlas correctamente **requiere de práctica**.

[regex 101](https://regex101.com/)

[regexr](https://regexr.com/)

<br>

Supongamos el siguiente escenario:

Quiero determinar si dentro de una cadena puedo encontrar el numero 123.
    

In [3]:
string = 'hola123chau'

In [4]:
"123" in string

True

In [5]:
string.find("123")

4

In [6]:
string.index("123")

4

Pero que pasa si ahora lo que queremos saber es si nuestro string contiene una secuencia de 3 numeros, sin importar cuales sean.. Aqui es donde se vuelven utiles las **expresiones regulares**

## Regex en Python

### El modulo `re`

Las regex en Python residen en la funcionalidad del modulo `re` , el cual es una libreria que contiene funciones y metodos muy utiles para el uso de expresiones regulares.

Para trabajar con el debemos importarlo:

    import re

In [1]:
import re

En este notebook nos vamos a centrar en explicar aspectos de la sintaxis de las regex, y para ello nos vamos a basar en dos funciones del modulo re:

1. **re.search(patron,string)** : va a escanear el string buscando la primer ocurrencia del patron especificado. Si hay concordancia, nos devuelve un objeto `match`, sino devuelve `None`
<br>
2. **re.findall(*patron,string*)** : va a escanear el string buscando todas las ocurrencias del patron especificado. Nos devuelve una lista con todas las ocurrencias (lista vacia si no se encuentra el patron)

In [None]:
# volvamos al caso de antes

In [3]:
string = "hola123chau"

In [10]:
re.search('123',string)

<re.Match object; span=(4, 7), match='123'>

In [12]:
string[4:7]

'123'

In [11]:
re.findall('123',string)

['123']

In [None]:
# pero esto no es mas poderoso de lo que ya veniamos viendo

### METACARACTERES

El verdadero poder de las regex es cuando usamos **metacaracteres** en el patron, estos son caracteres que tienen un significado especial dentro de las regex e incrementan enormemente la capacidad de busqueda.

Veamos un ejemplo, el metacaracter `[]` indica la creacion de una **clase de caracteres** (conjunto de caracteres) de los cuales si el string posee alguno de ellos, va a haber un match.

Es importante remarcar, que este conjunto de caracteres creado, funciona como si fuese un solo caracter pero que puede valer cualquier valor del conjunto.

In [15]:
re.search('[abc]',string)

<re.Match object; span=(3, 4), match='a'>

In [16]:
string

'hola123chau'

In [17]:
re.findall('[abc]',string)

['a', 'c', 'a']

Y si ahora queremos que sea mas de un caracter ?

In [18]:
re.search('[abc][0123456789]',string)

<re.Match object; span=(3, 5), match='a1'>

In [4]:
re.findall('[abc][0123456789]',string)

['a1']

In [19]:
re.search('[a-z][0-9]',string)

<re.Match object; span=(3, 5), match='a1'>

In [20]:
re.findall('[a-z][0-9]',string)

['a1']

In [21]:
# veamos otro ejemplo
re.search('[a-z][0-9][abc456]',string)


In [22]:
string2 = "Hola3a la95"
re.search('[a-z][0-9][abc456]',string2)

<re.Match object; span=(3, 6), match='a3a'>

In [23]:
re.findall('[a-z][0-9][abc456]',string2)

['a3a', 'a95']

### Tabla de metacaracteres

A continuacion una tabla **resumida** de los metacaracteres de las expresiones regulares 

<table >
<tr>
    <th style="width:20%"> Metacarater</th>
    <th>Descripcion</th> 
</tr>

<tr>
    <td>.</td> 
    <td>Coincide con cualquier caracter, excepto el salto de linea</td>
</tr>

<tr>
    <td>*</td> 
    <td>Coincide con el elemento anterior cero o más veces.</td>
</tr>
    
<tr>
    <td>+</td> 
    <td>Coincide con el elemento anterior una o más veces.</td>
</tr>
  
<tr>
    <td>[ ]</td> 
    <td>Especifica una clase de caracteres</td>
</tr>  
    
<tr>
    <td>^</td> 
    <td>Coincidencia del patron al principio de la cadena. <br>
    Complementa el uso de la clase de caracteres</td>
</tr>
    
<tr>
    <td>$</td> 
    <td>Coincidencia del patron al final de la cadena</td>
</tr>
    
    
<tr>
    <td>?</td> 
    <td>Coincide con el elemento anterior cero o una vez.
    <br>Especifica una coincidencia no ambiciosa.</td>
</tr>
    
<tr>
    <td>( )</td> 
    <td>Crea un grupo</td>
</tr>
    
<tr>
    <td>\</td> 
    <td>Anula el significado de un metacaracter
    <br>Induce a otros metacaracteres</td>
</tr>

<tr>
    <td>\s</td> 
    <td>Coincide con cualquier carácter que sea un espacio en blanco.</td>
</tr>
    
<tr>
    <td>\S</td> 
    <td>Coincide con cualquier carácter que NO sea un espacio en blanco.</td>
</tr>
    
<tr>
    <td>\w</td> 
    <td>Coincide con cualquier carácter alfanumerico.</td>
</tr>
    
<tr>
    <td>\W</td> 
    <td>Coincide con cualquier carácter NO alfanumerico.</td>
</tr>
    
 </table>


Vamos a analizar algunos de ellos

**Pero antes hagamos un parentesis**

El uso de `r' '` en Python (aconsejable al 100%)

In [4]:
string = 'cara\b'
print(string)

cara


In [6]:
string = 'cara\tluna'
print(string)

cara	luna


In [7]:
string = r'cara\tluna'
print(string)

cara\tluna


In [8]:
string = r'cara\b'
print(string)

cara\b


**Recuerden**

**El uso de `r''` es propio de Python**, no corresponde a las expresiones regulares, por lo que si estan programando en otro lenguaje no deben utilizarlo.

### [ ]

In [7]:
# sigamos con los ejemplos anteriores, como vemos al crear una clase de caracteres, buscamos la coincidencia de un solo 
# caracter

string = 'el numero 456 es el indicado'

re.search(r'[0-9]',string)

<re.Match object; span=(10, 11), match='4'>

In [5]:
re.findall(r'[0-9]',string)

['4', '5', '6']

In [6]:
# pero que pasa si queremos que coincida con 3 caracteres numericos
# como vimos recien tenemos que utilizar el siguiente patron

re.search(r'[0-9][0-9][0-9]',string)

<re.Match object; span=(10, 13), match='456'>

In [8]:
re.findall(r'[0-9][0-9][0-9]',string)

['456']

**Pero que sucede si nosotros queremos que el patron nos coincida con un numero entero, no importa de cuantas cifras sea, pero queremos todo el numero.**

##  + 
## * 

Match para repeticiones

In [9]:
string = 'el numero 456 es el indicado'

re.search(r'[0-9]+',string)

<re.Match object; span=(10, 13), match='456'>

In [12]:
re.findall(r'[0-9]+',string)

['456']

In [13]:
string = 'el numero 456 es el indicado pero 23454 tambien puede ser, o el 14'

re.search(r'[0-9]+',string)

<re.Match object; span=(10, 13), match='456'>

In [14]:
re.findall(r'[0-9]+',string)

['456', '23454', '14']

In [5]:
# la diferencia entre + y *

string = 'el numero'

re.search(r'[0-9]+',string)

In [6]:
re.search(r'[0-9]*',string)

<re.Match object; span=(0, 0), match=''>

## .

Match con cualquier caracter menos el de nueva linea

In [17]:
string = 'fooxbar'
re.search(r'foo.bar',string)

<re.Match object; span=(0, 7), match='fooxbar'>

In [18]:
string = 'fooHbar'
re.search(r'foo.bar',string)

<re.Match object; span=(0, 7), match='fooHbar'>

In [19]:
string = 'foo\nbar'
re.search(r'foo.bar',string)

In [20]:
string = 'fooMnbar'
re.search(r'o..b',string)

<re.Match object; span=(2, 6), match='oMnb'>

In [None]:
# veamos como podemor ir combinando metacaracteres para ir armando nuestro patron

In [24]:

string = "hola345chau"
patron = r".[0-9]+."
re.search(patron,string)

<re.Match object; span=(3, 8), match='a345c'>

In [25]:
string = "hola345chau"
patron = r".[0-9]."
re.search(patron,string)

<re.Match object; span=(3, 6), match='a34'>

In [38]:
string = "hola345chau"
patron = r".[0-9].+"
re.search(patron,string)

<re.Match object; span=(3, 11), match='a345chau'>

****

Hagamos una pausa, creamos una funcion para ir mostrando los resultados de los metodos `.search()` y `.findall()`

In [8]:
def mostrar(patron,string):
    print('Usando re.search() : ', re.search(patron,string))
    print('Usando re.findall() : ', re.findall(patron,string))

In [44]:
string = "hola345chau"
patron = r".[0-9].+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(3, 11), match='a345chau'>
Usando re.findall() :  ['a345chau']


***

## ^
Veamos sus dos usos

In [67]:
# podemos usarlos para una coincidencia al inicio del string

string = 'auto rojo'
patron = r'^auto'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 4), match='auto'>
Usando re.findall() :  ['auto']


In [68]:
string = ' un auto rojo'
patron = r'^auto'
mostrar(patron,string)

Usando re.search() :  None
Usando re.findall() :  []


In [9]:
# podemos usarlos en conjunto con una clase de caracteres para indicar NO inclusion

string = 'clase a, clase b, clase c'
patron = r'clase [^a]'
mostrar(patron,string)


Usando re.search() :  <re.Match object; span=(9, 16), match='clase b'>
Usando re.findall() :  ['clase b', 'clase c']


In [10]:
string = 'clase a, clase b, clase c'
patron = r'clase [^ab]'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(18, 25), match='clase c'>
Usando re.findall() :  ['clase c']


In [20]:
# veamos el siguiente string, solo quiero contar cuantas veces encontramos las palabras java o Java

string = 'Cuando decimos Java nos referimos a un lenguaje de programacion, javascript y java son cosas distintas'
patron = r'[Jj]ava'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(15, 19), match='Java'>
Usando re.findall() :  ['Java', 'java', 'java']


In [21]:
patron = r'[Jj]ava[^Ss]'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(15, 20), match='Java '>
Usando re.findall() :  ['Java ', 'java ']


## \

Como metacaracter de escape

In [73]:
string = 'foo.bar'
patron = r'.'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 1), match='f'>
Usando re.findall() :  ['f', 'o', 'o', '.', 'b', 'a', 'r']


In [74]:
string = 'foo.bar'
patron = r'\.'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(3, 4), match='.'>
Usando re.findall() :  ['.']


In [61]:
# encontrando la suma

string = "12 + 15 es 27"
patron = r"[0-9]+ + [0-9]+"
mostrar(patron,string)

Usando re.search() :  None
Usando re.findall() :  []


In [62]:
string = "12 + 15 es 27"
patron = r"[0-9]+ \+ [0-9]+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 7), match='12 + 15'>
Usando re.findall() :  ['12 + 15']


In [11]:
string = "1223 + 15344 es 27"
patron = r"[0-9]+ \+ [0-9]+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 12), match='1223 + 15344'>
Usando re.findall() :  ['1223 + 15344']


In [12]:
# que pasa si tenemos la cuenta muy sepadara?

string = "12    +  15 es 27"
mostrar(patron,string)

Usando re.search() :  None
Usando re.findall() :  []


In [None]:
# ahora volvemos a este ejercicio, vamos a introducir otro metacaracter

## \s

Espacios ( ,\n,\t)

In [13]:
string = "match de los espacios"
patron = r"\s"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(5, 6), match=' '>
Usando re.findall() :  [' ', ' ', ' ']


In [14]:
string = "match     de  los              espacios"
patron = r"\s+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(5, 10), match='     '>
Usando re.findall() :  ['     ', '  ', '              ']


In [16]:
# supongamos que queremos extraer dos palabras consecutivas que comiencen con mayuscula, pero no sabemos cuantos espacios
# de separacion hay entre ellas

string = 'las dos palabras son Maria    Marta'
patron = r'[A-Z][a-z]+\s+[A-Z][a-z]+'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(21, 35), match='Maria    Marta'>
Usando re.findall() :  ['Maria    Marta']


In [17]:
string = 'las dos palabras son Maria       Marta y Juan Perez'
patron = r'[A-Z][a-z]+\s+[A-Z][a-z]+'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(21, 38), match='Maria       Marta'>
Usando re.findall() :  ['Maria       Marta', 'Juan Perez']


In [18]:
print(string)

las dos palabras son Maria       Marta y Juan Perez


In [None]:
# volvemos al ejercicio de las sumas separadas

In [19]:
string = "12    +  15 es 27"
patron = r"[0-9]+\s*\+\s*[0-9]+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 11), match='12    +  15'>
Usando re.findall() :  ['12    +  15']


In [20]:
# y si no tenemos ningun espacio?

string = "123+15 es 27"
patron = r"[0-9]+\s*\+\s*[0-9]+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 6), match='123+15'>
Usando re.findall() :  ['123+15']


In [33]:
# y si tenemos operaciones distintas a la suma?
string = "123*15 es 27"
patron = r"[0-9]+\s*[*+-/%]\s*[0-9]+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 6), match='123*15'>
Usando re.findall() :  ['123*15']


## \w

Incluye todo aquellos que forme parte de una palabra [a-zA-Z0-9_]

In [36]:
string = "cualquier caracter?"
patron = r"\w"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 1), match='c'>
Usando re.findall() :  ['c', 'u', 'a', 'l', 'q', 'u', 'i', 'e', 'r', 'c', 'a', 'r', 'a', 'c', 't', 'e', 'r']


In [38]:
string = "cualquier caracter?"
patron = r"\w+"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 9), match='cualquier'>
Usando re.findall() :  ['cualquier', 'caracter']


In [53]:
# supongamos que queremos agarrar todas las palabras que esten entre comillas simple en este string

string = " Las palabras 'entre' las 'comillas' 'simples' son lo que 'necesitamos'"
patron = r"'\w+'"
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(14, 21), match="'entre'">
Usando re.findall() :  ["'entre'", "'comillas'", "'simples'", "'necesitamos'"]


In [59]:
mostrar(r'\w+\s\w+', 'que   me   traera este   patron ?')

Usando re.search() :  <re.Match object; span=(11, 22), match='traera este'>
Usando re.findall() :  ['traera este']


In [58]:
mostrar(r'\w+\s+\w+', 'que   me   traera este   patron ?')

Usando re.search() :  <re.Match object; span=(0, 8), match='que   me'>
Usando re.findall() :  ['que   me', 'traera este']


## ?

**Coincidencia Ambiciosa**

A menos que se indique lo contrario la libreria re nos va a dar la version mas larga de la coincidencia frente al patron especificado.

Veamos a que nos referimos con esto

In [78]:
string = "From Maria: to Joaquin, Subject: Despido"
patron = r'.+:'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 32), match='From Joaquin: to Maria, Subject:'>
Usando re.findall() :  ['From Joaquin: to Maria, Subject:']


Los metacaracteres `+` y `*` van a llegar con la coincidencia lo mas lejos que puedan dentro del string, son ambiciosos... Pero podemos solucionarlo con un simple caracter, el **`?`**

In [79]:
string = "From Maria: to Joaquin, Subject: Despido"
patron = r'.+?:'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 13), match='From Joaquin:'>
Usando re.findall() :  ['From Joaquin:', ' to Maria, Subject:']


## ( )

##### Extraccion

Estos metacaracteres **crean grupos**, es decir, crean subcadenas dentro de la cadena matcheada.

Utilizando la funcion `findall()`, podemos definir el patron para hacer el matcheo y ademas determinar que porcion del match queremos extraer utilizando lo metacarateres `( )`


In [39]:
# supongamos que queremos extraer todos los datos de un individuo x

string = ( ' peso individuo x: 76 kg, peso individuo y: 90 kg, altura individuo x: 1.76 m, altura individuo y: 1.70 m,'
          'edad individuo x: 26 años, edad individuo y: 34 años , sexo individuo x: masculino,'
          ' sexo individuo y: femenino' )

In [101]:
patron = r'individuo x: .+?,'
re.findall(patron,string)

['individuo x: 76 kg,',
 'individuo x: 1.76 m,',
 'individuo x: 26 años,',
 'individuo x: masculino,']

In [102]:
patron = r'individuo x: (.+?),'
re.findall(patron,string)

['76 kg', '1.76 m', '26 años', 'masculino']

In [None]:
# no mostrar esto a la clase
# que sucede con la funcion search

# ver lo de los grupos

## \b

### boundaries

Los boundaries (limites) son aquellas posiciones entre \w y \W, o al inicio o final del string si es que el string empieza o termina con un caracter de palabra (\w)

Veamos cuando son de utilidad:

In [67]:
# obteners solo las ocurrencias de la palabra 'java' por si sola

string = "java obtener las palabras que digan java javascript superjava java"
patron = r'java'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 4), match='java'>
Usando re.findall() :  ['java', 'java', 'java', 'java', 'java']


In [68]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = r'java\s'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 5), match='java '>
Usando re.findall() :  ['java ', 'java ', 'java ']


In [69]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = r'\sjava\s'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(35, 41), match=' java '>
Usando re.findall() :  [' java ']


In [71]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = r'\s*java\s*'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(0, 5), match='java '>
Usando re.findall() :  ['java ', ' java ', 'java', 'java ', 'java']


In [73]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = r'\bjava\b'
mostrar(patron,string)

Usando re.search() :  <re.Match object; span=(31, 35), match='java'>
Usando re.findall() :  ['java', 'java']


In [52]:
print('java\b')

java


In [9]:
print(r'java\b')

java\b


## Funciones del modulo re

### re.search()

Veamos un poquito mas del objeto que nos devuelve esta funcion

In [12]:
string = "el mail es juancito@gmail.com"
patron = r'\w+@\S+'
ma = re.search(patron,string)

In [13]:
ma

<re.Match object; span=(11, 29), match='juancito@gmail.com'>

In [15]:
type(ma)

re.Match

In [14]:
# es un objeto considerado verdadero, por lo que lo podemos usar con condicionales

if ma:
    print("existe un email en este string")

existe un email en este string


In [17]:
# ademas es un objeto que como todos en Python, tiene sus atributos y metodos
ma.start()

11

In [19]:
ma.end()

29

In [18]:
ma.span()

(11, 29)

In [20]:
ma.group()

'juancito@gmail.com'

In [None]:
# supongamos que ahora queremos obtener el nombre de la persona y el mail completo en distintos grupos

# recordemos que el uso de () en el patron, crean grupos, podemos hacer uso de ello para este ejercicio

In [39]:
string = "el mail es juancito@gmail.com"
patron = r'(\w+)@\S+'
ma = re.search(patron,string)

In [40]:
ma.group()

'juancito@gmail.com'

In [43]:
ma.groups()

'juancito'

In [41]:
ma.group(1)

'juancito'

### Flags

La mayoria de las funciones del modulo re tienen como argumento `flags = 0`.

Las flags (banderas) modifican la expresion regular, permitiendonos refinar aun mas las condiciones de matcheo.

La mas comun es **IGNORECASE** (`re.I` o `re.IGNORECASE`)

In [45]:
# veamos el siguiente ejemplo, queremos marchear con todas las ocurrencias de la palabra Python,
# no importa como este escrita

string = 'python en minusculas, PYTHON es con mayusculas, pero tambien puede ser pyTHon, PYthon o pythoN'

In [None]:
re.findall(r'[Pp][Yy]....',string)

In [46]:
re.findall(r'python',string,flags=re.IGNORECASE)

['python', 'PYTHON', 'pyTHon', 'PYthon', 'pythoN']

### re.split()

Divide un string en substrings usando la expresion regular (patron) como delimitador.

In [51]:
# queremos separar el string por los numeros que encontremos
string = 'hay 40cuarenta ovejas 12doce liebres y 50cincuenta vacas'
patron = r'[0-9]+'

re.split(patron,string)

['hay ', 'cuarenta ovejas ', 'doce liebres y ', 'cincuenta vacas']

### re.sub()

Escanea el string en busca de coincidencias y reemplaza los substrings coincidentes con el string de reemplazo, y devuelve el string con los valores reemplazados.

Es importante remarcar que el strig devuelto es un string nuevo. El string original se mantiene sin cambios.

In [None]:
re.sub()

In [48]:
# supongamos que queremos reemplazar todos los numeros de cualquier cifra por ###

string = 'el codigo 1234 es de verificacion, 343445 y 55 son para operaciones'
patron = r'[0-9]+'
remp = '###'

re.sub(patron,remp,string)

'el codigo ### es de verificacion, ### y ### son para operaciones'

In [49]:
# supongamos que queremos reemplazar todos los nombres propios con la palabra 'nombre'

string = 'en clases estan Gabriel , Gaston y Daniela'
patron = r'[A-Z][a-z]+'
remp = 'nombre'

re.sub(patron,remp,string)

'en clases estan nombre , nombre y nombre'

## MANOS A LA OBRA

1- Matchear todas las palabras de la lista con una expresion regular (podemos usar la funcion filter)


In [52]:
lista_palabras = ['email', 'Email', 'e Mail', 'e mail', 'E-mail',
                'e-mail', 'eMail', 'E-Mail', 'EMAIL', 'emails', 'Emails',
                'E-Mails']


# vamos a usar esto para verlo en regex101
string = ' '.join(lista_palabras)
string

'email Email e Mail e mail E-mail e-mail eMail E-Mail EMAIL emails Emails E-Mails'

In [None]:
# vayamos a regex101 para encontrar el patron que matchee con todas las posibilidades
patron = r'e.*mail[s]*'

patron = r'e.*?mail[s]*'

In [None]:
# podemos hacerlo dentro de un ciclo for
lista_validacion = []
for palabra in lista_palabras:
    if re.search(patron,palabra):
        lista_validacion.append(palabra)
        
lista_validacion

In [57]:
# hay que hacerlo con el ignorecase
list(filter(lambda x: re.search('e.*mail[s]*',x,flags=re.I), lista_palabras))

['email',
 'Email',
 'e Mail',
 'e mail',
 'E-mail',
 'e-mail',
 'eMail',
 'E-Mail',
 'EMAIL',
 'emails',
 'Emails',
 'E-Mails']

2- Obtener todos los mails del siguiente texto


In [59]:

texto = """dowdy@yahoo.ca el mail de cierta persona es: phyruxus@att.net el mail de cierta persona es: tlinden@msn.com el mail de cierta persona es: jhardin@me.com el mail de cierta persona es: lushe@comcast.net el mail de cierta persona es: netsfr@hotmail.com el mail de cierta persona es: wildixon@att.net el mail de cierta persona es: scottzed@optonline.net el mail de cierta persona es: cantu@msn.com el mail
de cierta persona es: rhavyn@gmail.com el mail de cierta persona es: redingtn@hotmail.com el mail de cierta persona 
es: houle@icloud.com el mail de cierta persona es: bflong@hotmail.com el mail de cierta persona es: kenja@hotmail.com 
el mail de cierta persona es: openldap@gmail.com el mail de cierta persona es: bryanw@me.com el mail de cierta persona 
es: tromey@comcast.net el mail de cierta persona es: esasaki@gmail.com el mail de cierta persona es: fhirsch@att.net 
el mail de cierta persona es: hermanab@sbcglobal.net el mail de cierta persona es: rupak@msn.com el mail de cierta 
persona es: gravyface@yahoo.com el mail de cierta persona es: yfreund@mac.com el mail de cierta persona 
es: ryanshaw@gmail.com el mail de cierta persona es: chaikin@yahoo.ca
"""


In [60]:
re.findall(r'\w+@\S+', texto)

['dowdy@yahoo.ca',
 'phyruxus@att.net',
 'tlinden@msn.com',
 'jhardin@me.com',
 'lushe@comcast.net',
 'netsfr@hotmail.com',
 'wildixon@att.net',
 'scottzed@optonline.net',
 'cantu@msn.com',
 'rhavyn@gmail.com',
 'redingtn@hotmail.com',
 'houle@icloud.com',
 'bflong@hotmail.com',
 'kenja@hotmail.com',
 'openldap@gmail.com',
 'bryanw@me.com',
 'tromey@comcast.net',
 'esasaki@gmail.com',
 'fhirsch@att.net',
 'hermanab@sbcglobal.net',
 'rupak@msn.com',
 'gravyface@yahoo.com',
 'yfreund@mac.com',
 'ryanshaw@gmail.com',
 'chaikin@yahoo.ca']

3- Dentro del siguiente archivo se encuentra un chat de wpp donde hay muuchos enlaces a articulos de distintas categorias (mayormente tecnologicas) que se fueron recopilando con el pasar de los dias.

Leer el archivo y obtener todos los enlaces disponibles (https://) en una lista

Luego recorrer esa lista y Obtener todos los enlaces que hagan referencia a Python



In [62]:
with open('wpp_urls.txt',encoding='latin1') as archivo:
    texto = archivo.read()

In [64]:
len(texto)

46643

In [70]:
 prueba = texto[:300]

In [71]:
patron = r'https\S+'
re.findall(patron,prueba)

['https://towardsdatascience.com/probably-the-best-resource-to-learn-deep-learning-in-2020-66d13a8ab1f1',
 'https://www.techradar.com/best/python-online-courses',
 'https://towardsdatascience.com/pa']

In [72]:
lista_urls = re.findall(patron,texto)

In [73]:
len(lista_urls)

347

In [75]:
# nos interesan los articulos de python

patron = r'python'

lista_python = list(filter(lambda x: re.search(patron,x),lista_urls))

lista_python

86

In [None]:
# les comparto el archivo con todos estos url, hay mucho material, investiguenlo usando regex, sets y lo que quieran hacer,
# ya tenemos los conocimientos necesarios para hacer freestyle

## Conclusion

Hay mucho, muuuucho mas por ver de expresiones regulares, pueden chequear las siguientes paginas para tutoriales mas completos y en detalle:

[Documentacion oficial](https://docs.python.org/3/library/re.html)

[Mas metacaracteres](https://docs.microsoft.com/es-es/dotnet/standard/base-types/regular-expression-language-quick-reference)

[Tutorial completo parte 1](https://realpython.com/regex-python/)

[Tutorial completo parte 2](https://realpython.com/regex-python-part-2/)

[Excelente para practicar - regex 101](https://regex101.com/)

[Excelente para practicar - regexr](https://regexr.com/)

<br>

Como vimos, el uso de regex nos da un poder de extraccion de subcadenas impresionante, pero ...
<br>

Antes de utilizarlas hay que estar seguros de lo que hacemos, de ahí aquella famosa frase de Jamie Zawinski, programador y hacker:

**`Hay gente que, cuando se enfrenta a un problema, piensa "Ya sé, usaré expresiones regulares". Ahora tienen dos problemas.`**