# Práctica de expresiones regulares

## 1. Manipula direcciones

Este es un ejercicio intermedio. Los resultados puedes encontrarlos en el código adjunto en la plataforma. 

En el primer problema pensemos que trabajamos para una empresa de paquetería en territorio estadounidense que organiza la logística de entrega a partir de la dirección de sus destinatarios. Ahora trabajaremos con una base muy sencilla que tendrá algunas direcciones, mismas que deberás separar en el nombre de la calle, el número y el barrio al que se dirige la entrega.

Démosle un vistazo a la base de datos:

In [1]:
# Cargamos las paqueterías que necesitaremos
library(stringr)
library(dplyr)

# Cargamos la base de datos
df_direcciones <- read.csv("datos/direcciones_US.csv", stringsAsFactors = FALSE)
glimpse(df_direcciones)

Queremos extraer el número de la dirección que se encuentra en la variable **dirección**. Utilizamos la función *str_extract()* con la variable como
primer argumento, y con la expresión regular **"\\\\d+"**

*(Recuerda que en R utilizamos dobles diagonales invertidas \\\\ para que
se interprete como una diagonal invertida \\ )*


In [None]:
df.albercas$numero <- str_extract(...)
glimpse(df.albercas)

Ahora queremos recuperar el condado en donde se encuentran cada una de
las dierecciones. 

Esta expresión regular **\\\\b\[^,\]+\\$** es compleja: significa
identifica una palabra que en su borde **(\\\\b)** inicial tenga una coma **([^,])**
una o más veces **(+)** y que se encuentre al final de la dirección **(\\$)**

El resultado es que encontrará todas las palabras buscando desde el
final, hasta donde encuentre una coma.

*Estas expresiones se aprenden a construirlas con la práctica. Para eso, en el aula encontrarás un libro especializado en construcción de expresiones regulares.*

In [None]:
### Crea la variable condado e imprime el vector para confirmar tu selección
...
...

## 2. Ahora es tu turno

Tenemos una base de registro a un taller que darás. Importemos la base y echemos un vistazo.

In [None]:
# Cargamos la base de datos
df_registro <- read.csv("datos/Registro-asistencia.csv", stringsAsFactors = FALSE)
glimpse(df_registro)
head(df_registro)

Como en cualquier registro en línea, algunos datos que introducen las y los participantes no son correctos. Para la comprobación de nuestro taller es muy importante contar con las CURPs de ellos.

En la siguiente tarea te pedimos que verifiques los CURPs, para que todos tengan la siguiente forma:

* Cuatro letras iniciales, más
* Seis números que correspondan a la fecha de nacimiento de cada participante (AA-MM-DD), más
* Una letra H o M (mayúscula o minúscula) que corresponde a su sexo biológico, más
* Cinco letras, más
* Dos dígitos finales.

In [None]:
# Realiza las modificaciones al código para lograrlo
# Primero identifica las observaciones que cumplan
# con la forma de letras y números XXXX000000HXXXXX00 con H igual a (H o M)
df_registro$indic <- str_...(..., "...")

# Número de filas antes de filtrar
nrow(df_registro)
# Filtramos las que cumplen con nuestra condición
df_registro <- dplyr::filter(df, indic==TRUE)
# Número de filas después de filtrar
nrow(df_registro)

# Ahora revisa si los dígitos de la CURP corresponden
# a los que declara en su variable nac. Para eso
# creamos dos variables nuevas con las cifras que corresponden

df_registro$anio <- str_...(..., "[0-9]{6}")
df_registro$anio2 <- paste(str_...(...), str_...(...), str_...(...),
                  sep=...)

# Creamos una variable con TRUE cuando ambos años son iguales
df_registro$indic <- df$anio == df$anio2

# Y ordenamos la base para dejar los FALSE de la 
# variable indic hasta arriba
df_registro <- ...

# ¿Puedes identificar por qué no están bien las
# CURPs de las primeras observaciones?
head(df_registro)