In [None]:
try:
    # settings colab:
    import google.colab
    
    ! mkdir -p ../Data
    # los que usan colab deben modificar el token de esta url:
    ! wget -O ../Data/melb_data.csv "https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M2/CLASE_05_Limpieza_de_datos/Data/melb_data.csv?token=AA4GFHIDAH5VEX2N7ZFSVYK6VHD3I"
    
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"


---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Expresiones Regulares

<a id="section_toc"></a> 
## Tabla de Contenidos

[Intro](#section_intro)

$\hspace{.5cm}$[Sintaxis](#section_sintaxis)

[Módulo `re`](#section_re)

$\hspace{.5cm}$[Split](#section_split)

$\hspace{.5cm}$[Pattern matching](#section_pattern_matching)

$\hspace{.5cm}$[Sustitución](#section_sub)

$\hspace{.5cm}$[Ejemplos](#section_ejemplos)

[Referencias](#section_referencias)


<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)

Una expresión regular es una secuencia de caracteres que define un **patrón** de búsqueda de texto. 

Las expresiones regulares constituyen un lenguaje muy flexible que sirve para identificar y extraer información de un cuerpo de texto.

Una sola expresión, comúnmente llamada regex, es una cadena de caracteres construida de acuerdo a la sintaxis del lenguaje de expresiones regulares. 

El módulo `re` de Python es responsable de aplicar expresiones regulares a cadenas de caracteres.

Las funciones del módulo `re` se agupan en tres categorías:

* Split: divide una cadena de caracteres, usando el patrón definido por la expresión regular como separador.

* Pattern maching: extrae, de una cadena de caracteres, las subcadenas definidas por el patrón de la expresión regular

* Sustitución: reemplaza la cadena de caracteres definida por la expresión regular por otra


<a id="section_sintaxis"></a> 
### Sintaxis en expresiones regulares en Python

[volver a TOC](#section_toc)

#### Metacaracteres

    .  símbolo que indica cualquier caracter con excepción de nueva línea (\n)
    ^  símbolo que indica comienzo
    $  símbolo que indica fin
    \  símbolo que escapa caracteres reservados
    |  o lógico 
    \d símbolo que indica cualquier dígito del 0 al 9
    \w símbolo que indica cualquier caracter alfanumérico (A-Z, a-z, 0-9 y _)
    \s símbolo que indica cualquier espacio en blanco (espacio, tabulado, nueva línea, etc.)
    \D símbolo que indica cualquier caracter que no sea dígito
    \W símbolo que indica cualquier caracter que no sea alfanumérico
    \S símbolo que indica cualquier caracter que no sea espacio en blanco

        
#### Cuantificadores

    *  símbolo que indica cero o más ocurrencias
    +  símbolo que indica una o más ocurrencias
    ?  símbolo que indica optativo (puede estar o no)
    {m}  donde m es un número entero, indica exactamente m repeticiones 
    {m,n}  donde m y n son números enteros, indica al menos m repeticiones y como máximo n repeticiones

#### Opciones 

    [abc]  indica un caracter perteneciente al conjunto de valores posibles especificado entre corchetes
    [a-z]  indica un caracter perteneciente al intervalo de valores posibles especificado entre corchetes

#### Grupos 
    ( )  define un grupo
    (?P<group_name> ) define un grupo etiquetado
    
#### Ejemplos de sintaxis:

`\d+` encuentra números de un dígito o más

`.*` encuentra cadenas de caracteres de cualquier longitud, incluso vacías.

`\w{2,6}` encuentra un conjunto de caracteres alfanuméricos con una longitud que va de 2 a 6 caracteres

`[a-zA-Z]` encuentra lo mismo que `[a-zA-Z]{1}` que es cualquier caracter entre a y z minúscula o A y Z mayúscula

`[a-zA-Z]+` encuentra cadenas de caracteres con letras entre a y z y A y Z de longitud al menos 1

`(\d\d\d\d)` encuentra lo mismo que `\d{4}` que son cadenas de cuatro dígitos

`(?P<num>\d\d\d\d)` encuentra  cadenas de cuatro dígitos y etiqueta a ese grupo como "num"

---


![Image](img/regex_methods.png)



<div id="caja1" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/haciendo_foco.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>Vamos a crear objetos regex con `re.compile` porque es mucho más eficiente su ejecución cuando aplicamos la misma expresión a muchas cadenas de caracteres.</label></div>
</div>


<a id="section_re"></a> 
## Módulo `re`

[volver a TOC](#section_toc)

https://docs.python.org/3/library/re.html

Este módulo provee operaciones de búsqueda, sustitución y split con expresiones regulares


<a id="section_split"></a> 
### Split

[volver a TOC](#section_toc)

Dividimos una cadena de caracteres (la variable texto), usando el patrón definido en la expresión regular como separador.

Obtenemos como resultado la lista de partes que componen la variable texto.

De link de referencia de sintaxis vemos que

*\s: Returns a match where the string contains a white space character*

In [None]:
import re

patron = "\s+"

regex = re.compile(patron, flags = re.IGNORECASE)

texto = "foo      bar \t bas \tqux"
regex.split(texto)


<a id="section_pattern_matching"></a> 
### Pattern matching

[volver a TOC](#section_toc)


Si en lugar de separar la variable texto, queremos extraer todas las subcadenas que verifiquen el patrón de la expresión regular: 

In [None]:
regex.findall(texto)

Si buscamos sólo el primer match del patrón de la expresión regular:

In [None]:
regex.search(texto)

match sólo busca al comienzo del string:

In [None]:
result = regex.match(texto)
print(result)

In [None]:
texto_2 = '   ' + texto
result = regex.match(texto_2)
print(result)

<div id="caja2" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/haciendo_foco.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
match y search funcionan de forma similar a findall. <br/> 
Mientras que findall devuelve todos los match en una cadena de caracteres, search devuelve sólo el primero, y match sólo lo encuentra si está al comienzo de la cadena.
</label></div>
</div>


<a id="section_sub"></a> 
### Sustitución

[volver a TOC](#section_toc)



Ahora queremos reemplazar todas las subcadenas que verifican el patón de la expresión regular por la cadena " [espacios] "

In [None]:
regex.sub(' [espacios] ', texto)

<a id="section_ejemplos"></a> 
### Ejemplos

[volver a TOC](#section_toc)



Usando en dataset de porpiedades de Melbourne, el campo Address, vamos a extraer el número y el nombre de la calle sin el sufijo 'St'


Leemos los datos:    

In [None]:
import pandas as pd 

# local
data_location = "../Data/melb_data.csv"
# colab
# data_location = ""

data = pd.read_csv(data_location)

data.head(5)

La expresión regular para el número de la dirección es, cualquier dígito (\d) una o más veces (+)

Como queremos extraerlo, vamos a usar alguna de las funciones de pattern matching, en este caso `re.findall`

Y como tenemos que evaluarlo sobre cada elemento de la series `data.Address` vamos a usar `apply`

In [None]:
patron_num = "\d+"
patron_num_regex = re.compile(patron_num)

In [None]:
address_series = data.Address
resultado = address_series.apply(lambda x: patron_num_regex.findall(x))
print(type(resultado))
print(resultado)

Obsevemos que:

* El resultado es una instancia de Series.

* Cada uno de sus elementos es una lista de longitud igual a la cantidad de números que haya en el valor del campo Address de cada registro (porque findall devuelve todos los match que encuentra)


Si usamos search obtenemos sólo el primero:

In [None]:
address_series = data.Address
resultado = address_series.apply(lambda x: patron_num_regex.search(x))
print(type(resultado))
print(resultado)

Obsevemos que:

* El resultado es una instancia de Series.

* Cada uno de sus elementos es un objeto de tipo Match, que corresponde al primer número encontrado para cada registro en ese campo
https://docs.python.org/3/library/re.html#match-objects

Para extraer el valor del número a partir del objeto Match podemos usar `group` o `[ ]`:

In [None]:
numeros_match = resultado.apply(lambda x: x[0])
numeros_match

In [None]:
numeros_match = resultado.apply(lambda x: x.group(0))
numeros_match

Ahora busquemos el nombre de la calle sin el sufijo. Los sufijos pueden ser St, La, Cr, Dr.

Vamos a construir un patrón que identifique 

1)  el número de calle `(?P<numero_calle>\d+[a-z]*)` como uno o más dígitos (\d+) seguidos opcionalemnet (*) por un caracter en minúscula. Definimos el nombre del grupo con (?P<nombre_del_gripo> ...)
  
2)  seguido por un espacio (\s)

3) seguido por el nombre de la calle `(?P<nombre_calle>.+)` cualquier cadena de caracteres de longitud al menos 1

4) seguido por un sufijo `(?P<sufijo>\sSt|La|Cr|Dr)` que es un espacio seguido por la cadena de caracteres "St" ó "La" ó "Cr" ó "Dr"

In [None]:

pattern_nombre = "(?P<numero_calle>\d+[a-z]*)\s(?P<nombre_calle>.+)(?P<sufijo>\sSt|La|Cr|Dr)"

pattern_nombre_regex = re.compile(pattern_nombre)
address_series = data.Address
resultado_nombres = address_series.apply(lambda x: pattern_nombre_regex.search(x))
#print(type(resultado))
print(resultado_nombres)


Para extraer el nombre de la calle a partir del objeto Match podemos usar `group` sabiendo que el nombre del grupo es 'nombre_calle':

In [None]:
calles_match = resultado_nombres.apply(lambda x: x if x is None else x.group('nombre_calle'))
calles_match

Ahora queremos dividir cada el campo Address de cada registro en tres partes: número, nombre y sufijo.
    
Para eso vamos a usar la misma expresión regular del punto anterior y el método `split`

In [None]:
pattern_address = "(?P<numero_calle>\d+[a-z]*)\s(?P<nombre_calle>.+)(?P<sufijo>\sSt|La|Cr|Dr)"

pattern_address_regex = re.compile(pattern_address)
address_series = data.Address
resultado_nombres = address_series.apply(lambda x: pattern_address_regex.split(x))
#print(type(resultado))
print(resultado_nombres)


Para terminar vamos a reemplazar el sufijo de cada registro por un string vacío


In [None]:
pattern_suffix = "\sSt|La|Cr|Dr"

cadena_reemplazo = ""

pattern_suffix_regex = re.compile(pattern_suffix)
address_series = data.Address
resultado_reemplazo = address_series.apply(lambda x: pattern_suffix_regex.sub(cadena_reemplazo, x))
print(resultado_reemplazo)


<a id="section_referencias"></a> 

## Referencias

[volver a TOC](#section_toc)

Python for Data Analysis. Wes McKinney. Cap 7.3

Documentación Python `re`

https://docs.python.org/3/library/re.html

Regex tutorial a simple cheatsheet by examples

https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285

Sintaxis expresiones regulares

https://docs.python.org/3/library/re.html#re-syntax


https://www.w3schools.com/python/python_regex.asp


https://docs.python.org/3/howto/regex.html


Sitios web para practicar:

https://regexr.com/

https://regex101.com/

