<a id="standard_modules"></a>
## Módulos de la Biblioteca Estándar de Python (re, os, time, calendar, math)

Aunque los paquetes de terceros como NumPy, Matplotlib, Pandas, y demás, deben instalarse por separado, Python incluye una biblioteca de módulos estándar. 

No es necesario recordar o entender todas las bibliotecas en Python, pero vale la pena ser consciente de ellas. Antes de escribir una nueva rutina compleja, es bueno verificar si dicha rutina no ha sido ya escrita y se encuentra disponible como un módulo.

## re (RegEx)
(Regular Expressions - Expresiones Regulares)

Los datos no siempre están listos para ser utilizados para el aprendizaje automático. A menudo, los datos deben extraerse de conjuntos de datos muy diversos y "sucios". Por ejemplo, los números (unidades físicas o números de teléfono) o los correos electrónicos se pueden ocultar en el texto largo y deben encontrarse y extraerse.

Module `re` no es fácil de aprender..., pero es muy poderoso en la ciencia de datos y se utiliza  para el propósito mencionado anteriormente. Por ejemplo, nosotros, como humanos, somos buenos para reconocer patrones. Es intuitivo decir que 304-359-3348 es un número de teléfono, pero 1000.000.000 no lo es. Las expresiones regulares son descripciones de un patrón de texto. Por ejemplo, un `\d` en un regex de Python significa un carácter de dígito, en otras palabras, cualquier número único de 0 a 9. Para encontrar cualquier número en el formato anterior se puede usar el regex tipo: `\d\d\d-\d\d\d-\d\d\d\d` para hacer coincidir una cadena de tres números, un guion, tres números más, otro guión y cuatro números. Cualquier otra cosa no coincidiría con este patrón de regex.

`re` tiene muchos métodos y guías más completas los explican todos con detalle (https://www.w3schools.com/python/python_regex.asp, https://docs.python.org/3/howto/regex.html), pero el método más común es `re.findall()`.

# ALL (most) pattern elements

* `\d` - matches any digit from 0 a 9.
* `\d{3}` means three digits
* `\d{2,3}` means minimum two and maximum three digits
* `\d{2,}` means at least two digits
* `\d+` means any number of repeating digits
* `\D` - matches any NON digit 
* `\S` - matches string DOES NOT contain a white space character
* `.` - matches any character (except newline character)
* `\s` matches space ONLY (or just put space)
* `\w` - matches any alfanumeric character. Equivalent to [a-zA-Z0-9].
* `\w{3}` means three letters or digits
* `\w{2,3}` means minimum two letters or digits and maximum three letters or digits
* `\w{2,}` means at least two letters or digits
* `\.` - matches a dot
* `\g<1>` refers to a group number (used more oftern for `re.sub`)
* `\b` matches a word boundary.
* `(?i)` means case insensive 
* `$` end of the string
* `^` beginning of string

* `*` zero or more occurences
* `+` one or more occurences
* `^` for example [^abc] means anything EXCEPT those three letters
* `(....)`	Capturing group
* `(?:....)`	Non-Capturing group

https://re-thought.com/python-regular-expressions/

# The re module offers a set of functions that allows us to search a string for a match:
* `re.findall()` 	Returns a list containing all matches
* `re.sub()` 	Replaces one or many matches with a string
* `re.search()` 	Returns a Match object if there is a match anywhere in the string
* `re.split()` 	Returns a list where the string has been split at each match

# `re.findall(<regex>, <cadena>, flags=0)` 
devuelve una LISTA de cadenas que contiene todas las coincidencias. Por ejemplo, imagine un comentario que un empleado de un banco escribió sobre un número de teléfono de un cliente:

In [1]:
bank_comment='Sr. James García tiene varios números. El numero principal es 304-359-3348, pero dijo que despues de 5pm y antes de 7am usa este 315-309-3308, En caso de emergencia se puede llamar a su esposa María al 305-605-5001.'

Para extraer solo los números de este texto e ignorar cualquier otra cosa, se puede obtener el patrón de los dígitos.

In [2]:
import re
re.findall(r"\d\d\d-\d\d\d-\d\d\d\d", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

*Es un buen hábito poner la letra `r` al frente de `"regex"`, eso significa el texto "crudo", sin formateo.

* {} - corchetes rizados

Para no escribir tantos `\d` en regex se puede usar `{}` donde se pone el número de dígitos. Entonces la expresión regular regex: `\d\d\d-\d\d\d-\d\d\d\d` para el mismo patrón también se puede definir como `\d{3}-\d{3}-\d{4}`.   

`\d{n,m}` significaría al menos `n` y a lo más `m` repeticiones del patrón que se le deja. 

In [3]:
re.findall(r"\d{3}-\d{3}-\d{4}", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

* [] - Los corchetes especifican un conjunto de dígitos o caracteres que desea que coincidan.

Este RegEx [123456789]{2, 4} coincide con al menos dos dígitos, pero no más de cuatro dígitos de conjunto '1-9' (excluyendo '0').

En el ejemplo regex del número de teléfono`\d` podría significar cualquier dígito numérico, pero hay 
muchas de estas clases de caracteres taquigráficos, lo más comunes son:

* `\d` - Coincide con CUALQUIER DÍGITO decimal, equivalente a cualquier número individual de 0 a 9.

* `\S` - Coincide con CUALQUIER CARÁCTER que no sea un espacio, tabulación o nueva línea.

* `\w` - Coincide con CUALQUIER CARÁCTER ALFANUMÉRICO (dígitos y alfabetos) o el carácter de subrayado. Equivalente a [a-zA-Z0-9_] (sin guion).
* `\s` - Coincide SOLAMENTE con espacio ` `.

* `\.` - Coincide SOLAMENTE con un punto `.`

* MetaCaracteres 
Para definir expresiones regulares se utilizan metacaracteres. Por ejemplo, `\` y `?` son metacaracteres. Los metacaracteres son caracteres que son interpretados de manera especial por un motor RegEx. Por ejemplo:


* `()` - paréntesis () se utiliza para agrupar subpatrones. Por ejemplo, (a|b|c)xz coincide con cualquier cadena que coincida con 'a' o 'b' o 'c' seguida de xz.
* `+` - el símbolo que más coincide con una o más apariciones del patrón que se le deja.

Entonces
* `\d+` significaría cualquier número de repeticiones de dígitos [0-9] 
* `\w+` significaría cualquier número de repeticiones del carácter alfanumérico  
* `\S+` significaría cualquier número de repeticiones de cualquier carácter excepto el espacio ` `

In [4]:
re.findall(r"\d+-\d+-\d+", bank_comment)
#buscar patrón: cualquier número de dígitos hasta el guion, luego cualquier número de dígitos hasta el guion, luego cualquier número de dígitos

['304-359-3348', '315-309-3308', '305-605-5001']

Un ejemplo más:  Para extraer los horarios del comentario 'bank_comment' ('5pm') que escribió el empleado del banco podemos utilizar el siguiente regex: 

In [5]:
re.findall(r'\d{1}pm|\d{1}am', bank_comment,flags=re.I)
#buscar patrón: un dígito después dos letras 'pm' o un dígito después letras 'am'

['5pm', '7am']

Donde se usa `|` como un operador (am `o` pm) y `flags=re.I`. Aquí `re.I` significa ignorar el caso de las letras.

* `(....)`	Capturing group
* `(?:....)`	Capturing group

In [25]:
text1=r"Jack owes me USD200, and Mary owes me USD500."
re.findall(r'USD(\d+)',text1)

['200', '500']

In [46]:
buried_phone_number = 'You are the 987 th caller in line for 1234567890. Please continue to hold .'
re.findall(r'\d{10}', buried_phone_number)

['1234567890']

In [47]:
# extract only three first digits from the matched 10 digits number
# using capturing group
re.findall(r'(\d{3})\d{7}', buried_phone_number)

['123']

In [70]:
# extract only three first digits from the matched 10 digits number
# using non capturing group - very similar
re.findall(r'(\d{3})(?:\d{7})', buried_phone_number)

['123']

* `\s` means space
* `space ( )` means space

In [9]:
text1=r"Jack owes me USD 200, and Mary owes me USD 500."
re.findall(r'USD \d+',text1)

['USD 200', 'USD 500']

* Match any sequence of characters not containing some characters [...]
* `^` for example [^abc] means anything EXCEPT those three letters

In [10]:
# what happens if someone puts , at the end of the email: 
emails3='Dr Juan Marquez usa correos: adr_marquez@email.co, dr_marquez@email.co ,marquez@hotmail.com'
re.findall(r"[^,\s]+@[^,\s]+", emails3)

['adr_marquez@email.co', 'dr_marquez@email.co', 'marquez@hotmail.com']

#### Extracting numbers between sequence

In [11]:
signal='PING www.google.com (142.250.219.164) 56(84) bytes of data\
64 bytes from gru06s63-in-f4.1e100.net (142.250.219.164): icmp_seq=1 ttl=119 time=18.7 ms'

In [12]:
re.findall('time=\d+.\d+',signal)

['time=18.7']

In [13]:
re.findall('time=(\d+.\d+)',signal)

['18.7']

#### Example: Extracting names

* \b matches a word boundary.
* (?i) means case insensive
*  ^ matches the beginning of a STRING.
* $ matches the end of a STRING.

In [14]:
text="Tom. Let's talk about him. He often forgets to capitalize tom, his name. Oh, and don't match tomorrow."

In [15]:
re.findall(r"\b[T]om\b", text)

['Tom']

In [16]:
# ignore case
re.findall(r"\b[T]om\b", text, flags=re.I)

['Tom', 'tom']

#### find all sequence that are at the end of the the string
* `$` end of the string
* `^` beginning of string
* `.` any character (except newline character)
* `*` zero or more occurences
* `+` one or more occurences
* `\(` parentheses

In [56]:
# find string that ends with: planet 
txt = "beautiful planet, my planet"
re.findall("planet$", txt)

['planet']

# re.sub() - `re.sub(<regex>, <replace>, <string>, count=0, flags=0)` 
El método devuelve una cadena donde las ocurrencias coincidentes se reemplazan con el contenido de la variable de reemplazo.

In [18]:
print('I would like some vegetables.'.replace('vegetables', 'pie'))
print(re.sub('vegetables', 'pie', 'I would like some vegetables.'))

I would like some pie.
I would like some pie.


In [69]:
veggie_request = 'I would like some vegetables, vitamins, and water.'

print('string method: replace')
print(veggie_request.replace('vegetables', 'pie').replace('vitamins', 'pie').replace('water', 'pie'))

print()
print('regex method: sub')
print(re.sub('vegetables|vitamins|water', 'pie', veggie_request))

string method: replace
I would like some pie, pie, and pie.

regex method: sub
I would like some pie, pie, and pie.


#### clear messy phone number 

In [20]:
# substitute \D - any non digit number with empty string
messy_phone_number = '(123) 456-7890'
print(re.sub(r'\D', '', messy_phone_number))

1234567890


In [21]:
# [-.() ]
print(re.sub(r'[-.() ]', '', messy_phone_number))

1234567890


* `\g<1>` refers to a group number

In [22]:
# replace (0055) with (0057)
some_number = r"00553152754106"
pattern=r'(\d{4})(\d{10})'
print(re.sub(pattern, r"0057\g<2>", some_number))

00573152754106


In [23]:
# replace (0055) with (0057)
some_number = r"(0055)3152754106"
pattern=r'(\(\d{4}\))(\d{10})'
print(re.sub(pattern, r"0057\g<2>", some_number))

00573152754106


# IF condition in RegEx

In [24]:
text = "this this that"
m = re.sub(r"(this)|(that)", lambda x: "ONE" if x.group() == "this" else "TWO", text)