## Ejemplo 2: Regex

### 1. Objetivos:
    - Repasar algunas reglas básicas de las Expresiones Regulares y su aplicación usando pandas
 
---
    
### 2. Desarrollo:

Ya conoces seguramente las Expresiones Regulares. Las expresiones regulares o regex son secuencias de caracteres que definen un patrón de búsqueda. Son una manera de describirle a nuestros programas qué patrones estamos buscando en nuestros datos.

Las expresiones regulares resultan sumamente útiles para trabajar con lenguaje natural. Vamos a repasar algunas de las reglas de las regex y a aprender a aplicarlas usando pandas.

Para esto utilizaremos el dataset 'new_york_times_bestsellers-clean.json' que contiene datos acerca de libros que han sido seleccionados como bestsellers del New York Times.

In [None]:
import pandas as pd
import re

In [None]:
df = pd.read_json('../../Datasets/new_york_times_bestsellers-clean.json')

df.head()

In [None]:
grouped_by_title = df.groupby('title')['description'].max()

grouped_by_title

Hay varias entradas para los mismos libros, así que los he agrupado por título. En la columna 'description' tenemos descripciones de los libros en nuestro dataset. Resulta un conjunto de datos interesante, puesto que podemos entender qué tipo de libros son los que se convierten en bestsellers del New York Times.

### Patrones de Regex

Vamos a utilizar este dataset para repasar algunas maneras de definir patrones usando regex.

In [None]:
# Buscar una palabra en un texto

grouped_by_title[grouped_by_title.str.contains('woman', case=False)]

In [None]:
# Buscar la aparición de números del 0 al 9

grouped_by_title[grouped_by_title.str.contains('[0-9]')]

In [None]:
# Uno o más números seguidos por una o más letras

grouped_by_title[grouped_by_title.str.contains('[0-9]+[a-z]+', case=False)]

In [None]:
# Uno o más números seguidos por las letras 'th'

grouped_by_title[grouped_by_title.str.contains('[0-9]th', case=False)]

In [None]:
# Textos que comiencen con la palabra 'After'

grouped_by_title[grouped_by_title.str.contains('^After', case=False)]

In [None]:
# Textos que terminen con la palabra 'London' y un punto (.)

grouped_by_title[grouped_by_title.str.contains('London.$', case=False)]

In [None]:
# Textos que contengan la palabra 'cat' o 'dog'

grouped_by_title[grouped_by_title.str.contains('\scat\s|\sdog\s', case=False)]

In [None]:
# Textos que contengan las palabras 'man' y/o 'woman' en singular y plural

grouped_by_title[grouped_by_title.str.contains('wom[ae]n|m[ae]n', case=False)]

In [None]:
# Podemos también reemplazar todos los caracteres que no sean ni alfanuméricos ni espacios o tabs por espacios vacíos
# Esto nos va a ser muy útil más adelante

grouped_by_title.str.replace('[^\w\s]', '')

In [None]:
# Podemos también reemplazar todos los caracteres numéricos por espacios vacíos

grouped_by_title.str.replace('\d','')