# 3 - Regex


<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/python_regex.webp" style="width:400px;"/>

<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/regex.jpg" style="width:400px;"/>


<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---¿Qué-es-regex?" data-toc-modified-id="1---¿Qué-es-regex?-1">1 - ¿Qué es regex?</a></span></li><li><span><a href="#2---Sintáxis-básica" data-toc-modified-id="2---Sintáxis-básica-2">2 - Sintáxis básica</a></span></li><li><span><a href="#3---Patrones-básicos" data-toc-modified-id="3---Patrones-básicos-3">3 - Patrones básicos</a></span></li><li><span><a href="#4---Ejemplos-de-patrones" data-toc-modified-id="4---Ejemplos-de-patrones-4">4 - Ejemplos de patrones</a></span></li><li><span><a href="#5----Uso-de-regex-en-Python" data-toc-modified-id="5----Uso-de-regex-en-Python-5">5 -  Uso de regex en Python</a></span><ul class="toc-item"><li><span><a href="#5.1---Método-search" data-toc-modified-id="5.1---Método-search-5.1">5.1 - Método search</a></span></li><li><span><a href="#5.2---Método-match" data-toc-modified-id="5.2---Método-match-5.2">5.2 - Método match</a></span></li><li><span><a href="#5.3---Método-findall" data-toc-modified-id="5.3---Método-findall-5.3">5.3 - Método findall</a></span></li><li><span><a href="#5.4---Método-sub" data-toc-modified-id="5.4---Método-sub-5.4">5.4 - Método sub</a></span></li><li><span><a href="#5.5---Método-split" data-toc-modified-id="5.5---Método-split-5.5">5.5 - Método split</a></span></li></ul></li><li><span><a href="#6---Recursos" data-toc-modified-id="6---Recursos-6">6 - Recursos</a></span></li></ul></div>

## 1 - ¿Qué es regex?

Una expresión regular (regex, abreviatura de "regular expression") es una secuencia de caracteres que define un patrón de búsqueda. Las expresiones regulares se utilizan para realizar búsquedas y manipulaciones avanzadas de texto.

**Se buscan patrones en strings tales como**:

+ emails
+ números de teléfono
+ números de tarjetas de crédito
+ IDs
+ fechas
+ cualquier tipo de dato que tenga un patrón definido

## 2 - Sintáxis básica


**selección**
- `.`  : cualquier caracter excepto salto de línea
- `\d` : dígitos (0-9)
- `\D` : NO dígitos, cualquier cosa salvo un número
- `\w` : alfanumérico (a-z, A-Z, 0-9)
- `\W` : NO alfanumérico (., '¡)
- `\s` : espacio en blanco
- `\S` : cualquier cosa que NO sea un espacio en blanco

**según posición**
- `\b` : límite de la string
- `\B` : NO limíte, dentro de la string
- `^`  : principio de la string
- `$`  : fin de la string

**según cantidad**
- `*`       : 0 o más
- `+`       : 1 o más
- `?`       : 0 o 1, haya o no haya
- `{3}`     : exactamente 3, número exacto de caracteres
- `{3,4}`   : rango de caracteres, {mínimo, máximo}

**corchetes y grupos**
- `[]`      : busca grupo de caracteres en el corchete
- `[^ ]`    : busca grupo de caracteres que NO estén en el corchete
- `|`       : o lógico (e.g: a|c significa el caracter a o el b)
- `( )`     : grupo

## 3 - Patrones básicos

+ `.` : Coincide con cualquier carácter excepto un salto de línea.
+ `^` : Coincide con el inicio de una cadena.
+ `$` : Coincide con el final de una cadena.
+ `*` : Coincide con cero o más repeticiones del carácter anterior.
+ `+` : Coincide con una o más repeticiones del carácter anterior.
+ `?` : Coincide con cero o una repetición del carácter anterior.
+ `{n}` : Coincide exactamente con n repeticiones del carácter anterior.
+ `{n,}` : Coincide con n o más repeticiones del carácter anterior.
+ `{n,m}` : Coincide con al menos n y no más de m repeticiones del carácter anterior.
+ `[]` : Coincide con cualquier carácter dentro de los corchetes.
+ `|` : Alternancia, coincide con el patrón a la izquierda o el patrón a la derecha.
+ `()` : Agrupamiento, permite agrupar partes de una expresión regular.


## 4 - Ejemplos de patrones 

+ `[a-z]` : Coincide con cualquier letra minúscula.
+ `[A-Z]` : Coincide con cualquier letra mayúscula.
+ `[0-9]` : Coincide con cualquier dígito.
+ `\d` : Coincide con cualquier dígito (equivalente a [0-9]).
+ `\D` : Coincide con cualquier carácter que no sea un dígito.
+ `\w` : Coincide con cualquier carácter alfanumérico (equivalente a [a-zA-Z0-9_]).
+ `\W` : Coincide con cualquier carácter que no sea alfanumérico.
+ `\s` : Coincide con cualquier espacio en blanco (espacios, tabulaciones, saltos de línea).
+ `\S` : Coincide con cualquier carácter que no sea un espacio en blanco.


## 5 -  Uso de regex en Python

Para usar regex tendremos que realizar la siguiente instalación:

```bash
pip install regex
```

In [1]:
# importamos regex

import re

In [2]:
# usemos el siguiente texto

texto='''Hola     Hackio, buscamos a nuestro nuevo    desarrollador  12  345  0.987986  😎  
    
    lista de contactos: 
    
    hola@gmail.com, yo_rod_aqui@ifgsttdb.es, ha@hack.io, yo.r.a@gmail.com
    
    +34666123890, 1563-454-222
    
    ean : 0983458721346

'''

### 5.1 - Método search

**re.search()**: Busca a través de la string el patrón dado, cualquier parte de la string

- **argumentos de entrada:** patrón (regex) + string
- **devuelve:** un objeto (span=rango de índices dentro de la str, match=elemento)

In [3]:
# definimos el patron

patron = '\d+'    # numerico, 1 o mas caracteres

In [4]:
# uso del metodo

re.search(patron, texto)

<re.Match object; span=(60, 62), match='12'>

In [5]:
# otro ejmplo

patron = '\W+'   # No alfanumerico, 1 o mas caracteres


re.search(patron, texto)

<re.Match object; span=(4, 9), match='     '>

### 5.2 - Método match

**re.match():** Busca el patrón al inicio de la string

- **argumentos de entrada:** patrón (regex) + string
- **devuelve:** un objeto (span=rango de índices dentro de la str, match=elemento)

In [6]:
# usar el metodo

re.match('\w', texto)

<re.Match object; span=(0, 1), match='H'>

In [7]:
# otro ejemplo

if re.match('\w+', texto):
    print('Correcto dentro de la string')
    
else:
    print('El patron que buscas aqui no esta')

Correcto dentro de la string


### 5.3 - Método findall

**re.findall()**: Encuentra todas las coincidencias del patrón.

- **argumentos de entrada:** patrón (regex) + string
- **devuelve:** una lista de los elementos encontrados

In [10]:
# ejmplo basico

patron = '\d+'    # numerico, 1 o mas caracteres

re.findall(patron, texto)

['12',
 '345',
 '0',
 '987986',
 '34666123890',
 '1563',
 '454',
 '222',
 '0983458721346']

In [11]:
# busqueda de emails

patron = '[\w\.]+@\w+\.\w+'

re.findall(patron, texto)

['hola@gmail.com', 'yo_rod_aqui@ifgsttdb.es', 'ha@hack.io', 'yo.r.a@gmail.com']

### 5.4 - Método sub

**re.sub()**: Replaces one or many matches with a string

- **argumentos de entrada:** patrón (regex) + cadena a modificar + string original
- **devuelve:** una string modificada

In [12]:
# sustituye numeros por nada

re.sub('\d+', '', texto)

'Hola     Hackio, buscamos a nuestro nuevo    desarrollador      .  😎  \n    \n    lista de contactos: \n    \n    hola@gmail.com, yo_rod_aqui@ifgsttdb.es, ha@hack.io, yo.r.a@gmail.com\n    \n    +, --\n    \n    ean : \n\n'

In [13]:
# sustituye email por nada

re.sub(patron, '', texto)

'Hola     Hackio, buscamos a nuestro nuevo    desarrollador  12  345  0.987986  😎  \n    \n    lista de contactos: \n    \n    , , , \n    \n    +34666123890, 1563-454-222\n    \n    ean : 0983458721346\n\n'

In [14]:
# sustituye numeros por emojis

re.sub('\d+', '🫥', texto) 

'Hola     Hackio, buscamos a nuestro nuevo    desarrollador  \U0001fae5  \U0001fae5  \U0001fae5.\U0001fae5  😎  \n    \n    lista de contactos: \n    \n    hola@gmail.com, yo_rod_aqui@ifgsttdb.es, ha@hack.io, yo.r.a@gmail.com\n    \n    +\U0001fae5, \U0001fae5-\U0001fae5-\U0001fae5\n    \n    ean : \U0001fae5\n\n'

In [15]:
'\U0001fae5'

'\U0001fae5'

### 5.5 - Método split

**re.split()**: Similar al split de las strings, corta la string por el patrón dado y devuelva una lista.

- **argumentos de entrada:** patrón (regex) + string
- **devuelve:** una lista

In [16]:
# rompoe la string por el salto de linea

re.split('\n', texto)

['Hola     Hackio, buscamos a nuestro nuevo    desarrollador  12  345  0.987986  😎  ',
 '    ',
 '    lista de contactos: ',
 '    ',
 '    hola@gmail.com, yo_rod_aqui@ifgsttdb.es, ha@hack.io, yo.r.a@gmail.com',
 '    ',
 '    +34666123890, 1563-454-222',
 '    ',
 '    ean : 0983458721346',
 '',
 '']

In [17]:
# rompe por los numeros

re.split('\d+', texto)

['Hola     Hackio, buscamos a nuestro nuevo    desarrollador  ',
 '  ',
 '  ',
 '.',
 '  😎  \n    \n    lista de contactos: \n    \n    hola@gmail.com, yo_rod_aqui@ifgsttdb.es, ha@hack.io, yo.r.a@gmail.com\n    \n    +',
 ', ',
 '-',
 '-',
 '\n    \n    ean : ',
 '\n\n']

In [18]:
# rompe por los emails

re.split(patron, texto)

['Hola     Hackio, buscamos a nuestro nuevo    desarrollador  12  345  0.987986  😎  \n    \n    lista de contactos: \n    \n    ',
 ', ',
 ', ',
 ', ',
 '\n    \n    +34666123890, 1563-454-222\n    \n    ean : 0983458721346\n\n']

## 6 - Recursos

**[pratica con regex101](https://regex101.com/)**

**[Documentación](https://docs.python.org/3/howto/regex.html)**

**[CHEATSHEET](https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285)**
