# Introducción a la Programación para Ciencia de Datos
## Lenguaje de programación R
_Rocío Romero Zaliz_ - rocio@decsai.ugr.es

# Cadenas de caracteres en R

Aunque R es un lenguaje estadístico en el que los vectores numéricos y las matrices desempeñan un papel central, las cadenas de caracteres también son necesarias y R dispone de una serie de utilidades de manipulación de cadenas.

In [1]:
texto <- "Ciencia de datos"
class(texto)

In [2]:
length(texto)

In [3]:
nchar(c("Ciencia de Datos", "a"))

In [4]:
# String construction

empty_str <- character(10)
print(empty_str)

 [1] "" "" "" "" "" "" "" "" "" ""


In [5]:
print(paste("Ciencia", "de", "Datos"))

[1] "Ciencia de Datos"


In [6]:
paste("Ciencia", "de", "Datos", sep="_|_") 

In [7]:
paste("Ciencia", c("hola", "mundo"), "cierta")

In [8]:
paste(1:3, 1:5, sep="_") 

In [9]:
paste(1:3, 1:5, sep="_", collapse="|") 

In [None]:
?paste

## Ejemplo

* Dado un conjunto de datos, anonimizar los nombres de las columnas

In [10]:
data <- data.frame(name = c("Susan", "Greg", "Amy", "Laura", "David"), 
                   lastname = c("Wilson", "Gray", "Sanders", "Xeon", "Rogers"), 
                   gender = factor(c("F", "M", "F", "F", "M")), age = c(23, 46, 32, 90, 53))
data

name,lastname,gender,age
<chr>,<chr>,<fct>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


In [11]:
colnames(data)

In [13]:
colnames(data) <- paste("var", 1:dim(data)[2], sep="_")
data

var_1,var_2,var_3,var_4
<chr>,<chr>,<fct>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


## Funciones básicas para trabajar con cadenas de caracteres

In [18]:
substr("Ciencia de Datos", 2, 5)

In [19]:
substr("Ciencia de Datos", 12) # Error!

ERROR: Error in substr("Ciencia de Datos", 12): argument "stop" is missing, with no default


In [20]:
date()

In [21]:
c(date(), "hola mundo")

In [22]:
print(strsplit(c(date(), "hola mundo"), split=" "))

[[1]]
[1] "Fri"      "Oct"      ""         "3"        "14:16:44" "2025"    

[[2]]
[1] "hola"  "mundo"



In [23]:
class(strsplit(c(date(), "hola mundo"), split=" "))

In [24]:
print(strsplit(c("Esta es una frase", "Esta es otra linda frase"), split="a "))

[[1]]
[1] "Est"   "es un" "frase"

[[2]]
[1] "Est"    "es otr" "lind"   "frase" 



In [25]:
print(strsplit(c("Esta es una frase", "Esta es otra frase"), split=c(" ", "e")))

[[1]]
[1] "Esta"  "es"    "una"   "frase"

[[2]]
[1] "Esta "       "s otra fras"



## Ejemplo

In [26]:
files <- list.files()
print(files)

 [1] "cadenas_de_caracteres_R_base.r" "Data_types.ipynb"              
 [3] "ejercicios_data_frames.r"       "ejercicios_factores.r"         
 [5] "ejercicios_gráficos.r"          "ejercicios_listas.r"           
 [7] "ejercicios_matrices_y_arrays.r" "ejercicios_tidyverse.r"        
 [9] "ejercicios_vectores.r"          "Graphs with ggplot.ipynb"      
[11] "Strings.ipynb"                  "Tidyverse.ipynb"               


In [27]:
print(strsplit(files, split="."))

[[1]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""
[26] "" "" "" "" ""

[[2]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[3]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[4]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[5]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[6]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[7]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""
[26] "" "" "" "" ""

[[8]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[9]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[10]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""

[[11]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" ""

[[12]]
 [1] "" "" "" "" "" "" "" "" "" "" "" "" "" "" ""



In [28]:
print(strsplit(files, split="\\."))

[[1]]
[1] "cadenas_de_caracteres_R_base" "r"                           

[[2]]
[1] "Data_types" "ipynb"     

[[3]]
[1] "ejercicios_data_frames" "r"                     

[[4]]
[1] "ejercicios_factores" "r"                  

[[5]]
[1] "ejercicios_gráficos" "r"                  

[[6]]
[1] "ejercicios_listas" "r"                

[[7]]
[1] "ejercicios_matrices_y_arrays" "r"                           

[[8]]
[1] "ejercicios_tidyverse" "r"                   

[[9]]
[1] "ejercicios_vectores" "r"                  

[[10]]
[1] "Graphs with ggplot" "ipynb"             

[[11]]
[1] "Strings" "ipynb"  

[[12]]
[1] "Tidyverse" "ipynb"    



In [29]:
print(unlist(strsplit(files, split="\\.")))

 [1] "cadenas_de_caracteres_R_base" "r"                           
 [3] "Data_types"                   "ipynb"                       
 [5] "ejercicios_data_frames"       "r"                           
 [7] "ejercicios_factores"          "r"                           
 [9] "ejercicios_gráficos"          "r"                           
[11] "ejercicios_listas"            "r"                           
[13] "ejercicios_matrices_y_arrays" "r"                           
[15] "ejercicios_tidyverse"         "r"                           
[17] "ejercicios_vectores"          "r"                           
[19] "Graphs with ggplot"           "ipynb"                       
[21] "Strings"                      "ipynb"                       
[23] "Tidyverse"                    "ipynb"                       


In [30]:
matrix(unlist(strsplit(files, split="\\.")), ncol=2, byrow=TRUE)

0,1
cadenas_de_caracteres_R_base,r
Data_types,ipynb
ejercicios_data_frames,r
ejercicios_factores,r
ejercicios_gráficos,r
ejercicios_listas,r
ejercicios_matrices_y_arrays,r
ejercicios_tidyverse,r
ejercicios_vectores,r
Graphs with ggplot,ipynb


## Expresiones regulares

* Una expresión regular es una especie de comodín. 
* Es una forma abreviada de especificar distintas clases de cadenas de caracteres.
* En R, debes prestar atención a este punto cuando uses las funciones `grep`, `grepl`, `regexpr`, `gregexpr`, `sub`, `gsub` y `strsplit`. 

In [31]:
date()

In [32]:
print(strsplit(date(), split="[0-9]+"))

[[1]]
[1] "Fri Oct  " " "         ":"         ":"         " "        



In [33]:
print(files)

 [1] "cadenas_de_caracteres_R_base.r" "Data_types.ipynb"              
 [3] "ejercicios_data_frames.r"       "ejercicios_factores.r"         
 [5] "ejercicios_gráficos.r"          "ejercicios_listas.r"           
 [7] "ejercicios_matrices_y_arrays.r" "ejercicios_tidyverse.r"        
 [9] "ejercicios_vectores.r"          "Graphs with ggplot.ipynb"      
[11] "Strings.ipynb"                  "Tidyverse.ipynb"               


In [36]:
grep("z", files)

In [38]:
files[grep("r", files)]

In [39]:
donde <- grep("[ia]", c("Ciencia","de","Datos"))
donde

In [40]:
c("Ciencia","de","Datos")[donde]

In [41]:
grep("e.", c("Ciencia","de","Datos"))

In [42]:
print(strsplit("a.b.c", "."))

[[1]]
[1] "" "" "" "" ""



In [43]:
print(strsplit("a.b.c", "\\."))

[[1]]
[1] "a" "b" "c"



In [44]:
print(strsplit("a.b.c", "[.]")) # ¡Cuidado!

[[1]]
[1] "a" "b" "c"



## Ejemplo

Anonimización de datos

In [45]:
data

var_1,var_2,var_3,var_4
<chr>,<chr>,<fct>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


In [46]:
ncolumn <- paste(tolower(substr(data$var_1, 1, 1)), 
                 tolower(substr(data$var_2, 1, 1)), sep = "")
ncolumn

In [47]:
paste(colnames(data)[1:2], collapse="_and_")

In [48]:
data$var_1 <- ncolumn
colnames(data)[1] <- paste(colnames(data)[1:2], collapse="_and_")
data <- data[,-2]
data

var_1_and_var_2,var_3,var_4
<chr>,<fct>,<dbl>
sw,F,23
gg,M,46
as,F,32
lx,F,90
dr,M,53


More info in: [R Manual](https://stat.ethz.ch/R-manual/R-devel/library/base/html/regex.html)

## Ejercicios strings (1ra parte)
1. Crea un vector de cadenas de caracteres con tu nombre y apellidos (por ejemplo, ["Rocío", "Romero", Zaliz"]). A partir de el crea una nueva cadena de caracteres con la inicial de tu nombre, un punto y tus apellidos (por ejemplo, "R. Romero Zaliz").
2. Dado un vector de cadenas de caracteres que representan fechas (por ejemplo, ["2005-11-28", "2015-10-18", "2000-01-01"], utilizando el formato AÑO-MES-DÍA), mostrar sólo las correspondientes a los meses impares.
3. Dada una cadena de caracteres con varias palabras (por ejemplo, "Esta es una frase, pero no cualquier frase.") crea un vector con cada una de las palabras de la cadena (por ejemplo, ["Esta", "es", "una", "frase", "pero", "no", "cualquier", "frase"]). Tenga en cuenta todos los caracteres de puntuación posibles.
4. Busca en un vector de cadenas de caractees aquellas que incluyan sólo vocales "a" y/o "e" o ninguna (comprueba mayúsculas y minúsculas, considera á, é, Á y É como otros caracteres y no los que buscas).
5. Dados tres vectores numéricos que representan días, meses y años, crea un vector nuevo con fechas (sólo si son válidas, si la fecha es inválida ignorarla) (Sugerencia: investigue la función `as.Date`).

# Manipulación de cadenas de caracters usando Tidyverse

## Cheat sheets

* https://github.com/rstudio/cheatsheets/raw/main/strings.pdf

In [49]:
library(tidyverse)
#library(stringr)

data <- data.frame(name = c("Susan", "Greg", "Amy", "Laura", "David"), lastname = c("Wilson", "Gray", "Sanders", "Xeon", "Rogers"), gender = factor(c("F", "M", "F", "F", "M")), age = c(23, 46, 32, 90, 53))
data

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.1     [32m✔[39m [34mstringr  [39m 1.5.2
[32m✔[39m [34mggplot2  [39m 4.0.0     [32m✔[39m [34mtibble   [39m 3.3.0
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.1.0     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


name,lastname,gender,age
<chr>,<chr>,<fct>,<dbl>
Susan,Wilson,F,23
Greg,Gray,M,46
Amy,Sanders,F,32
Laura,Xeon,F,90
David,Rogers,M,53


La función <s>`nchar`</s> `str_length` indica la longitud de la cadena de caracteres.

In [50]:
data %>% pull(lastname) %>% str_length

La función <s>`paste`</s> `str_c` concatena varias cadenas de caracteres.

In [51]:
print(data$name %>% str_c(collapse = ", "))

[1] "Susan, Greg, Amy, Laura, David"


In [52]:
print(str_c(data$name, data$lastname, sep = " - "))

[1] "Susan - Wilson" "Greg - Gray"    "Amy - Sanders"  "Laura - Xeon"  
[5] "David - Rogers"


In [None]:
?unite

In [53]:
data %>% unite("Full_name", c(name, lastname), sep = " - ")

Full_name,gender,age
<chr>,<fct>,<dbl>
Susan - Wilson,F,23
Greg - Gray,M,46
Amy - Sanders,F,32
Laura - Xeon,F,90
David - Rogers,M,53


In [54]:
data %>% unite("Full_name", c(name, lastname), remove = FALSE, sep = " - ")

Full_name,name,lastname,gender,age
<chr>,<chr>,<chr>,<fct>,<dbl>
Susan - Wilson,Susan,Wilson,F,23
Greg - Gray,Greg,Gray,M,46
Amy - Sanders,Amy,Sanders,F,32
Laura - Xeon,Laura,Xeon,F,90
David - Rogers,David,Rogers,M,53


In [55]:
data %>% unite("Full_name", c(name, lastname), remove = FALSE, sep = " - ") %>%
    separate(Full_name, c("x", "y"), sep = " - ")

x,y,name,lastname,gender,age
<chr>,<chr>,<chr>,<chr>,<fct>,<dbl>
Susan,Wilson,Susan,Wilson,F,23
Greg,Gray,Greg,Gray,M,46
Amy,Sanders,Amy,Sanders,F,32
Laura,Xeon,Laura,Xeon,F,90
David,Rogers,David,Rogers,M,53


La función <s>`substr(x, inicio, parada)`</s> `str_sub(x, inicio, parada)` devuelve la subcadena en el rango de posiciones de caracteres dado inicio:parada para la cadena x. 

In [56]:
data$name %>% str_sub(2, 3)

## Expresiones regulares

La función `str_detect` indica si hay alguna coincidencia con el patrón indicado.

In [57]:
data[1,]

Unnamed: 0_level_0,name,lastname,gender,age
Unnamed: 0_level_1,<chr>,<chr>,<fct>,<dbl>
1,Susan,Wilson,F,23


In [58]:
data[1,] %>% str_detect("[ae]+")

In [59]:
data$name

In [60]:
data$name %>% str_detect("[aeiou]")

La función `str_subset` extrae los componentes que han coincidido.components

In [61]:
data$name %>% str_subset("[aeiou]")

La función `str_count` cuenta la cantidad de veces que coincide.

In [62]:
data$name %>% str_count("[aeiou]")

La función `str_extract` extrae el texto de la coincidencia.

In [63]:
print(data$name %>% str_extract("[aeiou]"))

[1] "u" "e" NA  "a" "a"


In [64]:
print(data$name %>% str_extract_all("[aeiou]"))

[[1]]
[1] "u" "a"

[[2]]
[1] "e"

[[3]]
character(0)

[[4]]
[1] "a" "u" "a"

[[5]]
[1] "a" "i"



La función `str_match` extrae partes de la coincidencia definida entre paréntesis.

In [67]:
print(data$name)

data$name %>% str_match("(.)[aeiou](..)")

[1] "Susan" "Greg"  "Amy"   "Laura" "David"


0,1,2
Susa,S,sa
,,
,,
Laur,L,ur
Davi,D,vi


In [68]:
print(data$name %>% tolower %>% str_match_all("[aeiou](.)"))

[[1]]
     [,1] [,2]
[1,] "us" "s" 
[2,] "an" "n" 

[[2]]
     [,1] [,2]
[1,] "eg" "g" 

[[3]]
     [,1] [,2]
[1,] "am" "m" 

[[4]]
     [,1] [,2]
[1,] "au" "u" 

[[5]]
     [,1] [,2]
[1,] "av" "v" 
[2,] "id" "d" 



La función `str_replace` reemplaza las coincidencias por una nueva cadena de caracteres.

In [69]:
data$name %>% str_replace("[aeiou]", "*")

In [70]:
data$name %>% str_replace_all("[aeiou]", "*")

La función <s>`strsplit`</s>`str_split` divide una cadena de caracteres en trozos.

In [71]:
print(data$name %>% str_split("[aeiou]"))

[[1]]
[1] "S" "s" "n"

[[2]]
[1] "Gr" "g" 

[[3]]
[1] "Amy"

[[4]]
[1] "L" ""  "r" "" 

[[5]]
[1] "D" "v" "d"



## Ejemplo

In [None]:
#install.packages("ISLR")
library("ISLR")
College

In [None]:
college.names <- rownames(College)
college.names

1. Obtener un vector que contenga todas las universidades con `Texas` en su nombre. ¿Cuántas hay?

In [None]:
college.names %>% str_count("Texas") %>% sum

2. Obtener un vector de todas las filas del conjunto de datos College que contengan el término "University" (HINT: `str_which`).

In [None]:
college.names %>% str_which("University")

3. ¿Cuántas "University" hay en el conjunto de datos frente a "College"?

In [None]:
college.names %>% str_count("University") %>% sum

In [None]:
college.names %>% str_count("College") %>% sum

In [None]:
345+406 == length(college.names)

In [None]:
pos_c <- college.names %>% str_which("College")
pos_u <- college.names %>% str_which("University")

college.names[setdiff(1:length(college.names), c(pos_c, pos_u))]

In [None]:
college.names[!str_detect(college.names, "Coll|Univ")]

## Ejercicios string (2da parte)

Lo mismo que en la parte 1 pero usando las funciones de `stringr`.

1. Crea un vector de cadenas de caracteres con tu nombre y apellidos (por ejemplo, ["Rocío", "Romero", Zaliz"]). A partir de el crea una nueva cadena de caracteres con la inicial de tu nombre, un punto y tus apellidos (por ejemplo, "R. Romero Zaliz").
2. Dado un vector de cadenas de caracteres que representan fechas (por ejemplo, ["2005-11-28", "2015-10-18", "2000-01-01"], utilizando el formato AÑO-MES-DÍA), mostrar sólo las correspondientes a los meses impares.
3. Dada una cadena de caracteres con varias palabras (por ejemplo, "Esta es una frase, pero no cualquier frase.") crea un vector con cada una de las palabras de la cadena (por ejemplo, ["Esta", "es", "una", "frase", "pero", "no", "cualquier", "frase"]). Tenga en cuenta todos los caracteres de puntuación posibles.
4. Busca en un vector de cadenas de caractees aquellas que incluyan sólo vocales "a" y/o "e" o ninguna (comprueba mayúsculas y minúsculas, considera á, é, Á y É como otros caracteres y no los que buscas).
5. Dados tres vectores numéricos que representan días, meses y años, crea un vector nuevo con fechas (sólo si son válidas, si la fecha es inválida ignorarla) (Sugerencia: investigue la función `as.Date`).

# References

* Gaston Sanchez. Handling and Processing Strings in R. https://www.gastonsanchez.com/Handling_and_Processing_Strings_in_R.pdf
* R-tutorials. http://r-tutorials.com
* Norman Matloff. 2011. The Art of R Programming: A Tour of Statistical Software Design (1st ed.). No Starch Press, San Francisco, CA, USA.
* Patrick Burns. 2011. The R Inferno.