<a id="standard_modules"></a>
## Módulos de la Biblioteca Estándar de Python (re, os, time, calendar, math)

Aunque los paquetes de terceros como NumPy, Matplotlib, Pandas, y demás, deben instalarse por separado, Python incluye una biblioteca de módulos estándar. 

No es necesario recordar o entender todas las bibliotecas en Python, pero vale la pena ser consciente de ellas. Antes de escribir una nueva rutina compleja, es bueno verificar si dicha rutina no ha sido ya escrita y se encuentra disponible como un módulo.

## re (RegEx)
(Regular Expressions - Expresiones Regulares)

Los datos no siempre están listos para ser utilizados para el aprendizaje automático. A menudo, los datos deben extraerse de conjuntos de datos muy diversos y "sucios". Por ejemplo, los números (unidades físicas o números de teléfono) o los correos electrónicos se pueden ocultar en el texto largo y deben encontrarse y extraerse.

Module `re` no es fácil de aprender..., pero es muy poderoso en la ciencia de datos y se utiliza  para el propósito mencionado anteriormente. Por ejemplo, nosotros, como humanos, somos buenos para reconocer patrones. Es intuitivo decir que 304-359-3348 es un número de teléfono, pero 1000.000.000 no lo es. Las expresiones regulares son descripciones de un patrón de texto. Por ejemplo, un `\d` en un regex de Python significa un carácter de dígito, en otras palabras, cualquier número único de 0 a 9. Para encontrar cualquier número en el formato anterior se puede usar el regex tipo: `\d\d\d-\d\d\d-\d\d\d\d` para hacer coincidir una cadena de tres números, un guion, tres números más, otro guión y cuatro números. Cualquier otra cosa no coincidiría con este patrón de regex.

`re` tiene muchos métodos y guías más completas los explican todos con detalle (https://www.w3schools.com/python/python_regex.asp, https://docs.python.org/3/howto/regex.html), pero el método más común es `re.findall()`.

El método `re.findall(<regex>, <cadena>, flags=0)` devuelve una LISTA de cadenas que contiene todas las coincidencias. Por ejemplo, imagine un comentario que un empleado de un banco escribió sobre un número de teléfono de un cliente:

In [None]:
bank_comment='Sr. James García tiene varios números. El numero principal es 304-359-3348, pero dijo que despues de 5pm y antes de 7am usa este 315-309-3308, En caso de emergencia se puede llamar a su esposa María al 305-605-5001.'

Para extraer solo los números de este texto e ignorar cualquier otra cosa, se puede obtener el patrón de los dígitos.

In [None]:
import re
re.findall(r"\d\d\d-\d\d\d-\d\d\d\d", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

*Es un buen hábito poner la letra `r` al frente de `"regex"`, eso significa el texto "crudo", sin formateo.

* {} - corchetes rizados

Para no escribir tantos `\d` en regex se puede usar `{}` donde se pone el número de dígitos. Entonces la expresión regular regex: `\d\d\d-\d\d\d-\d\d\d\d` para el mismo patrón también se puede definir como `\d{3}-\d{3}-\d{4}`.   

`\d{n,m}` significaría al menos `n` y a lo más `m` repeticiones del patrón que se le deja. 

In [None]:
re.findall(r"\d{3}-\d{3}-\d{4}", bank_comment)

['304-359-3348', '315-309-3308', '305-605-5001']

* [] - Los corchetes especifican un conjunto de dígitos o caracteres que desea que coincidan.

Este RegEx [123456789]{2, 4} coincide con al menos dos dígitos, pero no más de cuatro dígitos de conjunto '1-9' (excluyendo '0').

En el ejemplo regex del número de teléfono`\d` podría significar cualquier dígito numérico, pero hay 
muchas de estas clases de caracteres taquigráficos, lo más comunes son:

* `\d` - Coincide con CUALQUIER DÍGITO decimal, equivalente a cualquier número individual de 0 a 9.

* `\S` - Coincide con CUALQUIER CARÁCTER que no sea un espacio, tabulación o nueva línea.

* `\w` - Coincide con CUALQUIER CARÁCTER ALFANUMÉRICO (dígitos y alfabetos) o el carácter de subrayado. Equivalente a [a-zA-Z0-9_] (sin guion).
* `\s` - Coincide SOLAMENTE con espacio ` `.

* `\.` - Coincide SOLAMENTE con un punto `.`

* MetaCaracteres 
Para definir expresiones regulares se utilizan metacaracteres. Por ejemplo, `\` y `?` son metacaracteres. Los metacaracteres son caracteres que son interpretados de manera especial por un motor RegEx. Por ejemplo:


* `()` - paréntesis () se utiliza para agrupar subpatrones. Por ejemplo, (a|b|c)xz coincide con cualquier cadena que coincida con 'a' o 'b' o 'c' seguida de xz.
* `+` - el símbolo que más coincide con una o más apariciones del patrón que se le deja.

Entonces
* `\d+` significaría cualquier número de repeticiones de dígitos [0-9] 
* `\w+` significaría cualquier número de repeticiones del carácter alfanumérico  
* `\S+` significaría cualquier número de repeticiones de cualquier carácter excepto el espacio ` `

In [None]:
re.findall(r"\d+-\d+-\d+", bank_comment)
#buscar patrón: cualquier número de dígitos hasta el guion, luego cualquier número de dígitos hasta el guion, luego cualquier número de dígitos

['304-359-3348', '315-309-3308', '305-605-5001']

Un ejemplo más:  Para extraer los horarios del comentario 'bank_comment' ('5pm') que escribió el empleado del banco podemos utilizar el siguiente regex: 

In [None]:
re.findall(r'\d{1}pm|\d{1}am', bank_comment,flags=re.I)
#buscar patrón: un dígito después dos letras 'pm' o un dígito después letras 'am'

['5pm', '7am']

Donde se usa `|` como un operador (am `o` pm) y `flags=r.I`. Aquí `r.I` significa ignorar el caso de las letras.