# Introducción a la Programación para Ciencia de Datos
## Lenguaje de programación R
_Rocío Romero Zaliz_ - rocio@decsai.ugr.es

# Cadenas de caracteres en R

Aunque R es un lenguaje estadístico en el que los vectores numéricos y las matrices desempeñan un papel central, las cadenas de caracteres también son necesarias y R dispone de una serie de utilidades de manipulación de cadenas.

In [1]:
texto <- "Ciencia de datos"
class(texto)

In [2]:
length(texto)

In [3]:
nchar("Ciencia de Datos")

In [4]:
textos <- c("hola", 'mundo')
length(textos)

In [5]:
class(textos)

In [6]:
print(textos)

[1] "hola"  "mundo"


In [7]:
# String construction

empty_str <- character(10)
print(empty_str)

 [1] "" "" "" "" "" "" "" "" "" ""


In [8]:
paste("Ciencia", "de", "Datos")

In [9]:
paste("Ciencia", "de", "Datos", sep="_|_") 

In [10]:
paste("Ciencia", c("hola", "mundo"), "cierta")

In [11]:
paste(1:3, 1:5, sep="_") 

In [12]:
paste(1:3, 1:5, sep="_", collapse="|") 

In [13]:
?paste

paste                   package:base                   R Documentation

_C_o_n_c_a_t_e_n_a_t_e _S_t_r_i_n_g_s

_D_e_s_c_r_i_p_t_i_o_n:

     Concatenate vectors after converting to character.  Concatenation
     happens in two basically different ways, determined by ‘collapse’
     being a string or not.

_U_s_a_g_e:

     paste (..., sep = " ", collapse = NULL, recycle0 = FALSE)
     paste0(...,            collapse = NULL, recycle0 = FALSE)
     
_A_r_g_u_m_e_n_t_s:

     ...: one or more R objects, to be converted to character vectors.

     sep: a character string to separate the terms.  Not
          ‘NA_character_’.

collapse: an optional character string to separate the results.  Not
          ‘NA_character_’.  When ‘collapse’ is a string, the result is
          always a string (‘character’ of length 1).

recycle0: ‘logical’ indicating if zero-length character arguments
          should result in the zero-length ‘character(0)’.  Note th

## Ejemplo

* Dado un conjunto de datos, anonimizar los nombres de las columnas

In [14]:
data <- data.frame(name = c("Susan", "Greg", "Amy", "Laura", "David"), 
                   lastname = c("Wilson", "Gray", "Sanders", "Xeon", "Rogers"), 
                   gender = c("F", "M", "F", "F", "M"), age = c(23, 46, 32, 90, 53))
data

name,lastname,gender,age
<chr>,<chr>,<chr>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


In [15]:
colnames(data)

In [16]:
colnames(data) <- paste("var", 1:dim(data)[2], sep="_")
data

var_1,var_2,var_3,var_4
<chr>,<chr>,<chr>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


## Funciones básicas para trabajar con cadenas de caracteres

In [17]:
substr("Ciencia de Datos", 3, 5)

In [18]:
# substr("Ciencia de Datos", 12) # Error!

In [19]:
?substr

substr                  package:base                   R Documentation

_S_u_b_s_t_r_i_n_g_s _o_f _a _C_h_a_r_a_c_t_e_r _V_e_c_t_o_r

_D_e_s_c_r_i_p_t_i_o_n:

     Extract or replace substrings in a character vector.

_U_s_a_g_e:

     substr(x, start, stop)
     substring(text, first, last = 1000000L)
     
     substr(x, start, stop) <- value
     substring(text, first, last = 1000000L) <- value
     
_A_r_g_u_m_e_n_t_s:

 x, text: a character vector.

start, first: integer.  The first element to be extracted or replaced.

stop, last: integer.  The last element to be extracted or replaced.

   value: a character vector, recycled if necessary.

_D_e_t_a_i_l_s:

     ‘substring’ is compatible with S, with ‘first’ and ‘last’ instead
     of ‘start’ and ‘stop’.  For vector arguments, it expands the
     arguments cyclically to the length of the longest _provided_ none
     are of zero length.

     When extracting, if ‘start’ is

In [20]:
date()

In [21]:
strsplit(c(date(), "hola mundo"), split=" ")

In [22]:
class(strsplit(date(), split=" "))

In [23]:
strsplit(c("Esta es una frase", "Esta es otra linda frase"), split="a ")

In [24]:
print(strsplit(c("Esta es una frase", "Esta es otra frase"), split=c(" ", "e")))

[[1]]
[1] "Esta"  "es"    "una"   "frase"

[[2]]
[1] "Esta "       "s otra fras"



## Ejemplo

In [25]:
files <- list.files()
files

In [26]:
print(strsplit(files, split="."))

[[1]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[2]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" ""



In [27]:
strsplit(files, split="\\.")

In [28]:
print(unlist(strsplit(files, split="\\.")))

[1] "BrianSena_Strings" "ipynb"             "Strings"          
[4] "ipynb"            


In [29]:
matrix(unlist(strsplit(files, split="\\.")), ncol=2, byrow=TRUE)

0,1
BrianSena_Strings,ipynb
Strings,ipynb


## Expresiones regulares

* Una expresión regular es una especie de comodín. 
* Es una forma abreviada de especificar distintas clases de cadenas de caracteres.
* En R, debes prestar atención a este punto cuando uses las funciones `grep`, `grepl`, `regexpr`, `gregexpr`, `sub`, `gsub` y `strsplit`. 

In [30]:
date()

In [31]:
strsplit(date(), split="[0-9]+")

In [32]:
files

In [33]:
files[grep("txt", files)]

In [34]:
donde <- grep("[ia]", c("Ciencia","de","Datos"))
donde

In [35]:
c("Ciencia","de","Datos")[donde]

In [36]:
grep("e.", c("Ciencia","de","Datos"))

In [37]:
# Another example using strsplit()

print(strsplit("a.b.c", "."))

[[1]]
[1] "" "" "" "" ""



In [38]:
strsplit("a.b.c", "\\.")

In [39]:
strsplit("a.b.c", "[.]") # ¡Cuidado!

## Ejemplo

Anonimización de datos

In [40]:
data

var_1,var_2,var_3,var_4
<chr>,<chr>,<chr>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


In [41]:
ncolumn <- paste(tolower(substr(data$var_1, 1, 1)), 
                 tolower(substr(data$var_2, 1, 1)), sep = "")
ncolumn

In [42]:
paste(colnames(data)[1:2], collapse="_and_")

In [43]:
data$var_1 <- ncolumn
colnames(data)[1] <- paste(colnames(data)[1:2], collapse="_and_")
data <- data[,-2]
data

var_1_and_var_2,var_3,var_4
<chr>,<chr>,<dbl>
sw,F,23
gg,M,46
as,F,32
lx,F,90
dr,M,53


More info in: [R Manual](https://stat.ethz.ch/R-manual/R-devel/library/base/html/regex.html)

## Ejercicios strings (1ra parte)
1. Crea un vector de cadenas de caracteres con tu nombre y apellidos (por ejemplo, ["Rocío", "Romero", Zaliz"]). A partir de el crea una nueva cadena de caracteres con la inicial de tu nombre, un punto y tus apellidos (por ejemplo, "R. Romero Zaliz").
2. Dado un vector de cadenas de caracteres que representan fechas (por ejemplo, ["2005-11-28", "2015-10-18", "2000-01-01"], utilizando el formato AÑO-MES-DÍA), mostrar sólo las correspondientes a los meses impares.
3. Dada una cadena de caracteres con varias palabras (por ejemplo, "Esta es una frase, pero no cualquier frase.") crea un vector con cada una de las palabras de la cadena (por ejemplo, ["Esta", "es", "una", "frase", "pero", "no", "cualquier", "frase"]). Tenga en cuenta todos los caracteres de puntuación posibles.
4. Busca en un vector de cadenas de caractees aquellas que incluyan sólo vocales "a" y/o "e" o ninguna (comprueba mayúsculas y minúsculas, considera á, é, Á y É como otros caracteres y no los que buscas).
5. Dados tres vectores numéricos que representan días, meses y años, crea un vector nuevo con fechas (sólo si son válidas, si la fecha es inválida ignorarla) (Sugerencia: investigue la función `as.Date`).

# Manipulación de cadenas de caracters usando Tidyverse

## Cheat sheets

* https://github.com/rstudio/cheatsheets/raw/main/strings.pdf

In [44]:
library(tidyverse)
library(stringr)

data <- data.frame(name = c("Susan", "Greg", "Amy", "Laura", "David"), lastname = c("Wilson", "Gray", "Sanders", "Xeon", "Rogers"), gender = c("F", "M", "F", "F", "M"), age = c(23, 46, 32, 90, 53))
data

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


name,lastname,gender,age
<chr>,<chr>,<chr>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


La función <s>`nchar`</s> `str_length` indica la longitud de la cadena de caracteres.

In [45]:
data %>% pull(lastname) %>% str_length

La función <s>`paste`</s> `str_c` concatena varias cadenas de caracteres.

In [46]:
data$name %>% str_c(collapse = ", ")

In [47]:
str_c(data$name, data$lastname, sep = " - ")

In [48]:
data %>% unite("Full_name", c(name, lastname), remove = FALSE, sep = " - ")

Full_name,name,lastname,gender,age
<chr>,<chr>,<chr>,<chr>,<dbl>
Susan - Wilson,Susan,Wilson,F,23
Greg - Gray,Greg,Gray,M,46
Amy - Sanders,Amy,Sanders,F,32
Laura - Xeon,Laura,Xeon,F,90
David - Rogers,David,Rogers,M,53


In [49]:
data %>% unite("Full_name", c(name, lastname), sep = " - ")

Full_name,gender,age
<chr>,<chr>,<dbl>
Susan - Wilson,F,23
Greg - Gray,M,46
Amy - Sanders,F,32
Laura - Xeon,F,90
David - Rogers,M,53


In [50]:
data %>% unite("Full_name", c(name, lastname), remove = FALSE, sep = " - ") %>%
    separate(Full_name, c("x", "y"), remove = TRUE, sep = " - ")

x,y,name,lastname,gender,age
<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>
Susan,Wilson,Susan,Wilson,F,23
Greg,Gray,Greg,Gray,M,46
Amy,Sanders,Amy,Sanders,F,32
Laura,Xeon,Laura,Xeon,F,90
David,Rogers,David,Rogers,M,53


La función <s>`substr(x, inicio, parada)`</s> `str_sub(x, inicio, parada)` devuelve la subcadena en el rango de posiciones de caracteres dado inicio:parada para la cadena x. 

In [51]:
data$name %>% str_sub(2, 3)

## Expresiones regulares

La función `str_detect` indica si hay alguna coincidencia con el patrón indicado.

In [52]:
data[1,]

Unnamed: 0_level_0,name,lastname,gender,age
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<dbl>
1,Susan,Wilson,F,23


In [53]:
str_detect(data[1,], "[ae]+")

In [54]:
data$name

In [55]:
data$name %>% str_detect("[aeiou]")

La función `str_subset` extrae los componentes que han coincidido.components

In [56]:
data$name %>% str_subset("[aeiou]")

La función `str_count` cuenta la cantidad de veces que coincide.

In [57]:
data$name %>% str_count("[aeiou]")

La función `str_extract` extrae el texto de la coincidencia.

In [58]:
data$name %>% str_extract("[aeiou]")

In [59]:
data$name %>% str_extract_all("[aeiou]")

La función `str_match` extrae partes de la coincidencia definida entre paréntesis.

In [60]:
print(data$name)

data$name %>% str_match("(.)[aeiou](..)")

[1] "Susan" "Greg"  "Amy"   "Laura" "David"


0,1,2
Susa,S,sa
,,
,,
Laur,L,ur
Davi,D,vi


La función `str_replace` reemplaza las coincidencias por una nueva cadena de caracteres.

In [61]:
data$name %>% str_replace("[aeiou]", "*")

In [62]:
data$name %>% str_replace_all("[aeiou]", "*")

La función <s>`strsplit`</s>`str_split` divide una cadena de caracteres en trozos.

In [63]:
data$name %>% str_split("[aeiou]")

## Ejemplo

In [64]:
library("ISLR")
College

Unnamed: 0_level_0,Private,Apps,Accept,Enroll,Top10perc,Top25perc,F.Undergrad,P.Undergrad,Outstate,Room.Board,Books,Personal,PhD,Terminal,S.F.Ratio,perc.alumni,Expend,Grad.Rate
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Abilene Christian University,Yes,1660,1232,721,23,52,2885,537,7440,3300,450,2200,70,78,18.1,12,7041,60
Adelphi University,Yes,2186,1924,512,16,29,2683,1227,12280,6450,750,1500,29,30,12.2,16,10527,56
Adrian College,Yes,1428,1097,336,22,50,1036,99,11250,3750,400,1165,53,66,12.9,30,8735,54
Agnes Scott College,Yes,417,349,137,60,89,510,63,12960,5450,450,875,92,97,7.7,37,19016,59
Alaska Pacific University,Yes,193,146,55,16,44,249,869,7560,4120,800,1500,76,72,11.9,2,10922,15
Albertson College,Yes,587,479,158,38,62,678,41,13500,3335,500,675,67,73,9.4,11,9727,55
Albertus Magnus College,Yes,353,340,103,17,45,416,230,13290,5720,500,1500,90,93,11.5,26,8861,63
Albion College,Yes,1899,1720,489,37,68,1594,32,13868,4826,450,850,89,100,13.7,37,11487,73
Albright College,Yes,1038,839,227,30,63,973,306,15595,4400,300,500,79,84,11.3,23,11644,80
Alderson-Broaddus College,Yes,582,498,172,21,44,799,78,10468,3380,660,1800,40,41,11.5,15,8991,52


In [65]:
college.names <- rownames(College)
college.names

1. Obtener un vector que contenga todas las universidades con `Texas` en su nombre. ¿Cuántas hay?

In [66]:
college.names %>% str_count("Texas") %>% sum

2. Obtener un vector de todas las filas del conjunto de datos College que contengan el término "University" (HINT: `str_which`).

In [67]:
college.names %>% str_detect("University")

3. ¿Cuántas "University" hay en el conjunto de datos frente a "College"?

In [68]:
college.names %>% str_count("Univer") %>% sum

In [69]:
college.names %>% str_count("Coll") %>% sum

In [72]:
345+410 == length(college.names)

## Ejercicios string (2da parte)

Lo mismo que en la parte 1 pero usando las funciones de `stringr`.

1. Crea un vector de cadenas de caracteres con tu nombre y apellidos (por ejemplo, ["Rocío", "Romero", Zaliz"]). A partir de el crea una nueva cadena de caracteres con la inicial de tu nombre, un punto y tus apellidos (por ejemplo, "R. Romero Zaliz").
2. Dado un vector de cadenas de caracteres que representan fechas (por ejemplo, ["2005-11-28", "2015-10-18", "2000-01-01"], utilizando el formato AÑO-MES-DÍA), mostrar sólo las correspondientes a los meses impares.
3. Dada una cadena de caracteres con varias palabras (por ejemplo, "Esta es una frase, pero no cualquier frase.") crea un vector con cada una de las palabras de la cadena (por ejemplo, ["Esta", "es", "una", "frase", "pero", "no", "cualquier", "frase"]). Tenga en cuenta todos los caracteres de puntuación posibles.
4. Busca en un vector de cadenas de caractees aquellas que incluyan sólo vocales "a" y/o "e" o ninguna (comprueba mayúsculas y minúsculas, considera á, é, Á y É como otros caracteres y no los que buscas).
5. Dados tres vectores numéricos que representan días, meses y años, crea un vector nuevo con fechas (sólo si son válidas, si la fecha es inválida ignorarla) (Sugerencia: investigue la función `as.Date`).

# References

* Gaston Sanchez. Handling and Processing Strings in R. https://www.gastonsanchez.com/Handling_and_Processing_Strings_in_R.pdf
* R-tutorials. http://r-tutorials.com
* Norman Matloff. 2011. The Art of R Programming: A Tour of Statistical Software Design (1st ed.). No Starch Press, San Francisco, CA, USA.
* Patrick Burns. 2011. The R Inferno.