# `R` básico -  control de flujo y funciones

Los programas (sobre todo procedurales) como los que haremos en R son diseñados a partir de bloques comunes, **constructs**. Tres básicos son: secuencia (el orden en que ocurrirán las instrucciones), selección (que determina en qué ruta se ejecutan, siguiendo declaraciones condicionales) e iteración (que ejecuta una secuencia de forma repetida, que puede ser definido o indefinido).

El control de flujo lo usamos para escribir declaraciones condicionales utilizando `if()` y `else()`, y para hacer que algo suceda un número determinado de veces usamos ciclos (o bucles) `for()`. El control de flujo sirve para establecer bajo qué condiciones, por cuánto número de veces, o ambas, puede suceder algo.

Comenzamos con los constructs `if()` y `else()`, después con seguimos con los ciclos `for()` y `while()` (para iteraciones definidas e indefinidas, respectivamente). La bola extra son las funciones, que se pueden declarar usando `function()`.

In [7]:
# asignar un valor a un vector "a"
a <- 4
if (a > 5) {
  # si TRUE, imprimir en consola "mayor a 5", y restar a-1
  print("mayor a 5")
  a <- a - 1
} else {
  # si FALSE, imprimir "menor a 5" y sumar a+1
  print("menor a 5")
  a <- a + 1
}

[1] "menor a 5"


Si solo se escribe 

```R
if (condicion){
  <expresion>
}
```

se evalúa la expresión `<expresión>` *solo* la `condicion` es verdadera, de lo contrario no se evalúa. Se agrega `else` para evaluar cuando la condición en `if()` es falsa.

Si se tiene un vector con más de 1 elemento, `if()` arroja un `Error` en la versión 4.2.0 de R, pero en versiones anteriores (<=4.1.2) solo toma el primero para hacer la comparación y arroja un `Warning`. La actualización en 4.2.0 constituye una mejora dado que previene errores inesperados (por ejemplo, al automatizar).

In [8]:
a <- c(5, 2, 3)
if (a >= 5) {
  print("mayor a 5")
} else {
  print("menor a 5")
}

ERROR: Error in if (a >= 5) {: the condition has length > 1


Si se quiere saber si *todos* los valores sean mayores a 5, usar `all()`

In [6]:
a <- c(5, 2, 3)
all(a > 5) # lo que obviamente es falso, ningún elemento es mayor que 5

In [None]:
# pero esto es verdadero
a <- 6:10
all(a > 5)

La función `any()` permite saber si al menos un elemento en un vector cumple una condición.

In [None]:
a <- c(3, 4, 6)
any(a > 5)

La función 

```R
ifelse(condicion, <x> si TRUE, <y> si FALSE)
``` 

es una forma *vectorizada* de `if, else` que permite comparar todos los elementos de un vector con una condición dada, y para cada elemento arroja un valor lógico: para cada valor `TRUE` se aplica `x`, y para cada valor `FALSE` se aplica `y`.

In [1]:
# evaluar qué elementos de a son mayors a 5; imprimir 'yes' cuando lo sean y 'no' cuando no lo sean
a <- 1:10
b <- ifelse(a > 5, "yes", "no")
b

In [5]:
# evaluar qué elementos del vector 'num' son pares usando %% (la operación módulo, x mod y)
# la operación módulo regresa el residuo de la división de x/y; e.g., 5 mod 4 retorna 1, 
# que es equivalente a 5-4*round(4/5).
num <- 1:8
ifelse(num %% 2 == 0, "Par", "Non")

Notar que la comparación `num %% 2 == 0` solo es verdad cuando `num` es divisible entre 2, sin residuos.

In [4]:
num %% 2

Un posible uso de `ifelse()` es para verificar qué valores de una columna no cumplen con una condición, y reemplazar esos valores *in situ*  por los valores correctos. Por ejemplo, en el siguiente `data.frame` se codificó la variable `sexo` de forma inconsistente: en ocasiones como `M` y en ocasiones como `Hombre`. Esto puede inducir a errores cuando se analice (e.g., creando la apariencia de que la variable `sexo` es un factor de tres niveles).

In [7]:
df_tmp <- data.frame(
  sexo = c("M", "F", "Hombre")
)
# la tercera fila tiene Hombre en vez de M
df_tmp

sexo
<chr>
M
F
Hombre


In [8]:
# corregir reemplazando en su posición Hombre por M
df_tmp$sexo <- ifelse(df_tmp$sexo == "Hombre", "M", df_tmp$sexo)
df_tmp

sexo
<chr>
M
F
M


Tip:
Hay formas más eficientes de reemplazos como el anterior. Por ejemplo, creando un vector *nombrado* (named vector) con los elementos correctos, y con nombres de posibles variaciones incorrectas.

In [13]:
df_tmp <- data.frame(
  sexo = c("M", "F", "Hombre")
)
vec_correct <- c("M", "F", "M")
# nombres de posibles variaciones
nombres <- c("M", "F", "Hombre")
# asignar los nombres de las posibles variaciones a vec_correct
# notar que para M -> M, F -> F, Hombre -> M
names(vec_correct) <- nombres
# vec_correct[df_tmp$sexo] retorna los valores de vec_correct
# para todas las variaciones
df_tmp$sexo <- vec_correct[df_tmp$sexo]
df_tmp

sexo
<chr>
M
F
M


## Ciclos for y while

Los *bucles* `for` permiten realizar una o más operaciones por cada elemento en un vector. Su estructura típica es como sigue

```R
for(elemento in vector) {
  operacion_por_cada_elemento
}
```

El `vector` puede ser un vector de enteros consecutivos, por ejemplo

```R
vector <- 1:10
for(i in vector) {
  print(i)
}
```

El elemento `i` irá tomando los valores 1 al 10 de `vector` de forma consecutiva. Dentro del ciclo for, la expresión `print(i)` imprimirá cada valor `i` que se vaya tomando.

El vector puede tener otros valores, o incluso ser una lista. Por ejemplo

In [14]:
countries <- c("Mex", "Col", "Chi", "Arg")
for(country in countries) {
  print(country)
}

[1] "Mex"
[1] "Col"
[1] "Chi"
[1] "Arg"


El código

```R
countries <- c("Mex", "Col", "Chi", "Arg")
for(country in countries){
  print(country)
}
```

Imprime de forma iterativa cada país en el vector `countries`. Notar que `country` podría ser cualquier cosa, como la letra `i`, y toma los valores de `countries` de forma iterativa. Si queremos hacer operaciones mas complejas con cada elemento, `country` tomará otro valor de `countries` solo al terminar todas las operaciones. Por ejemplo, a cada elemento de `countries` agregarle un guión y un número al final que vaya desde 0 hasta el último elemento.

In [16]:
countries <- c("Mex", "Col", "Chi", "Arg")
val <- 0
for(country in countries) {
  new_country <- paste(country, val, sep = "-")
  val <- val + 1
  print(new_country)
}

[1] "Mex-0"
[1] "Col-1"
[1] "Chi-2"
[1] "Arg-3"


Notar que en el código anterior, el resultado de las operaciones se pierde, solo queda en la memoria el valor del último elemento `country`:

In [17]:
country

Si queremos conservar el resultado de las operaciones dentro de un bucle `for` debemos pre-asignar espacio a un objeto (vector, lista, data frame, etc) de la misma longitud de las operaciones que se quieren conservar. En cada vuelta del bucle se guardará el resultado en una posición pre-asignada. Por ejemplo, si queremos guardar el resultado de `paste(country, val, sep = "-")` en un vector `new_country` en cada posición que `country` vaya tomando, podemos hacer algo como lo siguiente

In [18]:
countries <- c("Mex", "Col", "Chi", "Arg")
# preasignar new_country con 0s, de longitud length(countries)
new_country <- numeric(length = length(countries))
# en vez de tomar los valores de countries, tomaremos sus *índices*
# usando seq_along, que irá de 1, 2, 3 y 4
for(i in seq_along(countries)) {
  # asignar el i-th a country
  country <- countries[i]
  # i-1 comienza en 0 y termina en length(countries) - 1,
  # esta nueva cadena de caracteres la asignamos a new_country
  # en la posición i
  new_country[i] <- paste(country, i - 1, sep = "-")
  # imprimir el i-th new_country
  print(new_country[i])
}

[1] "Mex-0"
[1] "Col-1"
[1] "Chi-2"
[1] "Arg-3"


In [19]:
# verificar que se guardó correctamente 
new_country

In [None]:
# Otro ejemplo
# definir dos vectores
a <- 1:10
b <- 1:10

# pre-reservar espacio en un vector vacío
res <- numeric(length = length(a))
# otra alternativa es usar un vector con NAs
res <- rep(NA, length(a))

for (i in seq_along(a)) {
  res[i] <- a[i] + b[i]
}

# claro que lo anterior es más sencillo de forma vectorizada
a + b

In [20]:
# se pueden hacer cosas más complejas; por ejemplo, guardar en una carpeta
# diferentes archivos csv, en este caso generados por una variable aleatoria
# normal con media 1+i^2 y desviación estándar 2

df_vacio <- data.frame()
# este folder ya debe existir en el directorio de trabajo, ver getwd()
parent_folder <- "archivos_csv/"

for (i in 1:5){
  # crear objeto temporal
  data_tmp <- rnorm(100, 1 + i * 2, 2)
  # asignar a data frame temporal, para cada 100 valores de rnorm
  # se le asigna una letra de letters para identificarlos
  df_tmp <- data.frame(
    columna1 = data_tmp,
    columna2 = letters[i]
  )
  # unir en filas el dataframe temporal al data.frame vacío creado anteriormente
  # rbind(X, Y) une a Y en la última fila de X; debe tenerse cuidado
  # de que X y Y tengan las mismas columnas con los mismos nombres.
  df_vacio <- rbind(df_vacio, df_tmp)
  # escribir cada df_tmp (temporal) en la carpeta parent_folder, con el nombre
  # de archivo "data_letters[i].csv", cuando i es igual a 1, el nombre
  # será data_a.csv, cuando sea 2, data_b.csv, etc
  write.csv(df_tmp,
    file = paste0(parent_folder, "data_", letters[i], ".csv")
  )
}

# recordar cómo se forman los data.frames, que son en esencia datos
# tabulares, en donde cada columna es un vector, y todas las columnas
# pueden tener diferentes tipos de datos
# las columnas se declaran colocando el nombre de la columna
df_ejemplo <- data.frame(
  a = 1:10,
  b = letters[1:10]
)
str(df_ejemplo)


“no fue posible abrir el archivo 'archivos_csv/data_a.csv': No existe el fichero o el directorio”


ERROR: Error in file(file, ifelse(append, "a", "w")): no se puede abrir la conexión


## Funciones

En `R` podemos abstraer rutinas que hacemos frecuentemente como funciones. Por ejemplo, estar cambiando frecuentemente entre unidades en Fahrenheit, Celcius y Kelvin:

In [23]:
# hacer una función que convierta fahrenheit a Celsius
# argumento: temp_F, temperatura en fahrenheit
# resultado: temperatura en centigrados
fahrenheit_to_celsius <- function(temp_F) {
  temp_C <- (temp_F - 32) * 5 / 9
  return(temp_C)
}
# usar la función, cambiar de 100 F a grados celcius
fahrenheit_to_celsius(100)

Otro ejemplo es si frecuentemente tenemos datos de entrada `x,y` y necesitamos un gráfico de dispersión para cada mes y luego guardarlo en un directorio específico. Podemos abstraer esa rutina en una función de la siguiente manera

In [52]:
# Argumentos:
#           x: vector de valores de x
#           y: vector valores de y
#           month: cadena de caracteres del mes en que se tomaron x,y
#           dir_plot_save: cadena de la dirección (folder) donde se guardará
#                          el gráfico. Puede ser relativo al getwd() o absoluto
plot_monthly <- function(x, y, month, dir_plot_save) {
  # guardaremos el archivo con la funcion png() de R, ver argumentos con ?png
  # creamos el argumento 'filename' que debe tener el directorio y el nombre
  # del grafico
  file_name <- paste0(
    # el directorio
    dir_plot_save,
    # el nombre del plot
    "plot_xy_",
    # el mes
    month,
    # la extensión
    ".png"
  )
  # e.g., 'monthly_plots/plot_xy_febrero.png'
  png(
    # nombre de archivo creado antes
    filename = file_name,
    # ancho y largo en pixeles; se puede cambiar las unidades con, e.g.,
    # units = 'in' para unidades en pulgadas
    width = 500,
    height = 500,
    # resolución en dpi
    res = 90
  )
  # usamos la función plot que viene por defecto en R
  plot(
    # valores de x,y en ese orden
    x, y,
    # xlab y ylab son los títulos de los ejes x,y
    xlab = "x values",
    ylab = "y values",
    # main es el argumento para el título del gráfico
    main = paste0("Month: ", month)
  )
  # cerramos la conexión abierta con png usando dev.off(); con esto termina
  # el ejercicio. Si no se escribe dev.off el gráfico no se guardará
  dev.off()
}

In [53]:
# asignar valores a argumentos
month <- "Febrero"
x <- rnorm(100, mean = 10)
y <- x * 2
# para el directorio usamos uno relativo al working directory, getwd()
dir_plot_save <- paste0(getwd(), "/plots/")
plot_monthly(x, y, month = month, dir_plot_save = dir_plot_save)

## Combinar control de flujo y funciones

1. Verificar si los argumentos `a, b, media, desv_est` y `n` son numéricos.
2. Verificar si `desv_est` es positiva.
3. Para reproducibilidad, `seed` por defecto `TRUE`, de otra manera cada vez que se corra `rnorm` dará valores diferentes.

In [55]:
# Argumentos
#         a: intercepto real
#         b: pendiente real
#         media: media del error normal
#         desv_est: desviación estándar del error normal
#         n: cantidad de datos x,y a agregar
#         seed: lógico, ¿fijar semilla?; TRUE por defecto
lm_plot_sim <- function(a, b, media, desv_est, n = 100, seed = TRUE) {
  # a, b, media numéricos; usamos ! para negar la conjunción
  # todos deben ser numéricos para que sea verdad, de lo contrario arroja error
  if(!(is.numeric(a) & is.numeric(b) & is.numeric(media) & is.numeric(desv_est))) {
    stop('Error: arguments a, b, media and desv_est should be numeric.')
  }
  # Parar y mostrar error si desv_est es negativo
  if (desv_est <= 0) {
    stop("Error: argument desv_est should greater than 0")
  }
  # declarar x con valores equidispersos entre 0 y 100
  x <- seq(0, 100, len = n)
  # usar eq de la recta
  y <- a + b * x

  # fijar semilla para reproducibilidad
  if (seed) {
    set.seed(123)
  }
  # crear error normal
  error <- rnorm(n = n, mean = media, sd = desv_est)
  # añadir error a y
  y <- y + error
  # graficar
  plot(x, y, pch = 21, col = 'red', bg = 'gray80')
  # regresion linear ols
  lm1 <- lm(y ~ x)
  # extraer coeficientes
  coeficientes <- coef(lm1)
  # añadir recta de regresion; a es intercepto, b pendiente
  abline(a = coeficientes[1], b = coeficientes[2], lwd = 2)
  # imprimir coeficientes y summary
  print(summary(lm1))
} 
# esto da error; b no es numérico
lm_plot_sim(a = 5, b = "10", media = 0, desv_est = 40)
# para corregirlo
lm_plot_sim(a = 5, b = 10, media = 0, desv_est = 40)


ERROR: Error in lm_plot_sim(a = 5, b = "10", media = 0, desv_est = 40): Error: arguments a, b, media and desv_est should be numeric.
