# **<p align="center"><font size=5 color=#006600>Diplomado en Ciencia de Datos**

# **<p align="center"><font size=5 color=#FF0033>Introducción a R**

# **<font size=5 color=#0000FF>Profesores**

* Álvaro  Montenegro, PhD, <ammontenegrod@unal.edu.co>
* Campo Elías Pardo, PhD, <cepardot@unal.edu.co>
* Daniel  Montenegro, Msc, <dextronomo@gmail.com>
* Camilo José Torres Jiménez, Msc, <cjtorresj@unal.edu.co>

## <span style="color:#4361EE">Asesora Medios y Marketing digital</span>

* Maria del Pilar Montenegro, pmontenegro88@gmail.com
* Jessica López Mejía, jelopezme@unal.edu.co

# **<font size=5 color=#0000FF>Asistentes (estudiantes auxiliares)**

* Jessica López Mejía, jelopezme@unal.edu.co
* Camilo Chitivo, cchitivo@unal.edu.co

## <span style="color:#4361EE">Fuentes principales</span>

* Manual de Introducción a R [An Introduction to R](https://cran.r-project.org/doc/manuals/r-release/R-intro.html)
* Cuadernos sobre programación en Python.

##  <span style="color:#4361EE">¿Qué es R?</span>

R es un lenguaje de programación y entorno computacional distribuido de manera gratuita, a través de la Licencia Pública General de GNU, por lo que es software libre y de código abierto. 

R es una herramienta muy poderosa para el trabajo en Estadística. Una persona especializada en esta encuentra lo que necesita para su trabajo.

Leer también en [Wikipedia](https://es.wikipedia.org/wiki/R_(lenguaje_de_programaci%C3%B3n)).

## <span style="color:#4361EE">Breve historia de R</span>

En el prefacio de la cuarta edición de 
[Modern Applied Statistics with S-Plus](https://www.researchgate.net/publication/224817420_Modern_Applied_Statistics_With_S), los autores presentan el **S** como un lenguage y ambiente para análisis de datos, desarrollado en *Bell Laboratories*, con dos implementaciones: una comercial **S-Plus** y la otra **R**, como un sistema de código abierto escrito por un equipo de voluntarios.


El libro mencionado se puede considerar como un manual de Estadística y análisis de datos utilizando  R. El paquete *MASS* (iniciales del libro) es una de las librerias recomendadas de R, que complementa el libro. Los paquetes recomendados quedan instalados junto con el R, pero hay que cargarlos en cada sesión de trabajo cuando se use alguna de sus funciones. Una de sus funciones es *lda{MASS}* para realizar análisis lineal discriminante (un método estadístico para clasificación supervisada):

In [4]:
#install.packages("MASS") 
library(MASS) # carga MASS en la sección de trabajo
# Ver ayuda de lda (quitar el comentario del siguiente comando
#?lda
#nótese que el libro es a su vez referencia de la función.

Por otro lado  [Ihaka y Gentleman (1996) -PDF-](https://www.stat.auckland.ac.nz/~ihaka/downloads/R-paper.pdf) presentan *R* como un lenguaje de computador nuevo para el análisis estadístico, basado de *S* y *Scheme*. Le dan ese nombre por tener como predecesor a *S* y a la inicial de sus nombres (Ross y Robert} para destacar también su contribución.

En todo caso esos dos grupos: el de Bell Laboratories y la Univesity de Auckland en Nueva Zelanda, se consideran los creadores y desarrolladores de R. Ross Ihaka, Robert Gentleman y John Chambers (creador de S en Bell Laboratories) forman parte del *core* de *R*, lo mismo que Brian Ripley (coautor del libro *MASS*):

In [2]:
#contributors() #para verlos quite el primer comentario 

## <span style="color:#4361EE">Características generales del lenguaje R</span>

En el artículo *Facets of R* [(Chambers 2009)](https://journal.r-project.org/archive/2009-1/RJournal_2009-1_Chambers.pdf) el autor presenta las características de R en 6 facetas que son también una cronología del desarrollo de R. Aquí se presenta un resumen:

### **Una interfaz interactiva**

**1.** Una interfaz de procedimientos computacionales de muchos tipos.

**2.** Interactivo: se ejecuta en tiempo real.

- Una mejor interfaz para los procedimientos computacionales nuevos para el análisis de datos científicos, por lo general implementados como subrutinas Fortran, luego también en C y otros lenguajes. Por ejemplo [*Linear Algebra PACKage LACPAC*](http://www.netlib.org/lapack/)
- La investigación estadística de Bell Labs había recogido y escrito una variedad procedimientos en Fortran.
- Se publicaban algoritmos para muchas de las técnicas computacionales esenciales.
- Estos procedimientos fueron la esencia de los análisis de datos reales.
- La interfaz tenía que ser interactiva.
- Un lenguaje usado para que el analista de datos se pueda comunicar en tiempo real con el software.

### **Funcional en su modelo de programación y orientado a objetos, "todo es un objeto"**

**3.** Funcional en su modelo de programación.

**4.** Orientado a objetos: todo es un objeto.

- Los procedimientos son funciones.
- La interfaz de procedimiento se define como funciones que proveen una interfaz para subrutinas en Fortran o C.
- Se incluyen clases de objetos y métodos que hacen que las funciones específicas funcionen de acuerdo a las clases de sus argumentos. 
- Los objetos tienen un atributo que define su clase.
- S4 provee definiciones formales de las clases.
- Definiciones formales de métodos asociados con funciones genéricas.

### **Modular, construido a partir de piezas estandarizadas**

**5.** Modular: construido en piezas estandarizadas.

**6.** Colaborativo: un esfuerzo mundial de código abierto. 

 - Colaboración: un esfuerzo de código abierto en todo el mundo.
 - Funciones y paquetes.
 - Entorno (*environment*)
 - Funciones comparten ambiente, mecanismo *Namespace*.
 - Un paquete R es un módulo que combina funciones de R, su documentación y posiblemente datos y código en otros lenguajes.
 - R está disponible libremente como un sistema de código abierto: tanto el programa núcleo como la mayoría de los paquetes, que son el resultado de nuevas investigaciones estadísticas y sus aplicaciones. Actualmente (octubre de 2022) hay más de 18 mil paquetes en el CRAN de R.
 - Las herramientas para la administración de paquetes juegan un papel esencial de colaboración.
 - R generalmente es capaz de incorporar otros softwares de código abierto o relacionarse con ellos, por ejemplo:
     - [LATEX](http://www.latex-project.org/)
     - [xfig](http://www.xfig.org/)

## <span style="color:#4361EE">Instalar R</span>

Desde el *[CRAN](https://cran.r-project.org/): The Comprehensive R Archive Network*. Ahí se archivan todas las versiones de R base, así como todos los paquetes para R que han pasado por un proceso de revisión riguroso, realizado por el *CRAN Team*, que se encarga de asegurar su correcto funcionamiento.

El archivo instalador de R para Windows o Mac se baja y se ejecuta. Se recomienda dejar las opciones por defecto que propone el instalador. Al instalar R queda disponible en su interior toda su documentación principal. R se puede arrancar básicamente con 3 opciones:

1. Desde la consola.
2. Desde el RGui, una ayuda gráfica sencilla para ejecutar los procedimientos especiales.
3. Desde in *IDE* como RStudio y Jupyter.

Desde un entorno Jupyter, como el de este cuaderno, los trozos de código son casi como los de la consola, lo que no funciona es la interacción. Para lograr que nuestro R local quede disponible en Jupyter, hay que ejecutar dos o tres instruciones, unas en la consola del sistema operativo y otras desde R local. Preguntar a los estudiantes auxiliares y ver con cuidado el siguiente apartado:


Abrir el terminal de Anaconda Prompt bajo la opción de ejecutar como administrador.Una vez abierto escriba lo siguiente:

Una vez instalado escriba **yes**


Debemos buscar la ubicación del ejecutable de R, por ejemplo: **C:\Program Files\R\R-3.5.0\bin**

Cambiamos el directorio de trabajo de la ventana Anaconda Prompt con el comando: **cd C:\Program Files\R\R-3.5.0\bin**

Luego corremos R: **R.exe**

Esto inicia una sesión de R, desde donde ejecutaremos los siguientes comandos:

Finalizamos escribiendo q() para cerrar la sesión de R y a la pregunta de si desea guardar la imagen de trabajo escribimos **yes** y cerramos el terminal. Una vez cerrado corremos el cuaderno en JupyterLab y seleccionamos el kernel correspondiente a R. Más detalles ([aquí](https://www.youtube.com/watch?v=_d6ZUwl20Js))

**Lo que sigue trata de hacer un paralelo con lo visto en Python (cuadernos) y hace uso sobre todo del Manual de Introducción a R ([An Introduction to R](https://cran.r-project.org/doc/manuals/r-release/R-intro.html))**

## <span style="color:#4361EE">Hola Mundo</span>

El primer ejemplo clásico de programación es saludar, o sea, decirle al computador que muestre un saludo. Para esto, se usa la función de R llamada *cat()*. Para colocar un saludo (o un **texto cualquiera**), se debe colocar entre **comillas dobles o sencillas** dentro del comando *cat()*. Entonces, para que el computador muestre un saludo, por ejemplo **Hola, Mundo**, debemos escribir en ambiente de código como sigue:

In [3]:
cat("Hola mundo")

Hola mundo

In [4]:
cat("Hola\nMundo")

Hola
Mundo

### <span style="color:#4CC9F0">Ejercicio</span>


Escriba un código que le diga a R que devuelva el texto:
*****
>*Sólo sé ...*  
*... que nada sé.*
 ***

In [5]:
# Escriba el código aqui
cat("Sólo sé ...\n...nada se")  

Sólo sé ...
...nada se

## <span style="color:#4361EE">La consola de R es mi calculadora personal</span>

Fui a la tienda. La siguiente es la revisión de mi tiquete (en miles de pesos): carne 20.5, leche 4.2, vino 54, queso 22.5. El total de la compra fue:

In [5]:
20.5+4.2+54+22.5

* ¿Cuántos dólares puedo comprar con 10 millones de pesos a un cambio de 3950 pesos/dolar?

* ¿Cuántos dólares puedo comprar con 10 millones de pesos a un cambio de 3950 pesos/dolar? (mis cálculos siguen siendo en miles de pesos)

In [7]:
10000/3.95

* ¿Cuánto pesos debo adicionar para completar 2535 dolares?

In [6]:
2535*3.95-10000

**Es decir $ 13250 pesos más.**

##   <span style="color:#4361EE">Variables en R</span>

La estructura más pequeña de R es un vector donde una variable, en el sentido de Python, es un vector de una dimensión.

In [9]:
# Asignamos 1,2 o 3 a la variable x
x = 1
# Imprimimos por pantalla
cat("El valor de la variable x es", x)
x <- 2
cat("\nEl valor de la variable x es", x)
3 -> x
cat("\nEl valor de la variable x es", x)

El valor de la variable x es 1
El valor de la variable x es 2
El valor de la variable x es 3

In [10]:
# Asignamos "¡Vamos a programar!" a la variable y
y <- "¡Vamos a programar!"
# Imprimimos por pantalla
cat("El valor de la variable y es", y)

El valor de la variable y es ¡Vamos a programar!

Para que un número sea entero se agrega L al final del número

In [11]:
x = 1234L
cat('\nx es número un entero:', x)
class(x)
x = 5.6
cat('\nx es ahora un número real:', x)
class(x)
x = '25 de mayo'
cat('\nEn cambio ahora x es un string:', x)
class(x)


x es número un entero: 1234


x es ahora un número real: 5.6


En cambio ahora x es un string: 25 de mayo

##   <span style="color:#4361EE">Asignación dinámica en R</span>

##   <span style="color:#4361EE">Reglas para la creación de variables</span>

* El nombre de una variable **debe comenzar** con una letra.
* El nombre de una variable **no puede comenzar** con un número.
* El nombre de una variable tiene **sensibilidad** a **mayúsculas** y **minúsculas** (x es diferente de X).
* El nombre de una variable puede tener números, puntos, _ (raya al piso).

### <span style="color:#4CC9F0">Ejercicio</span>

Escriba un código que le diga a R que devuelva el texto: **Tengo `my.age` años**, donde `my_age` es una variable que tenga asignada su edad.

In [12]:
# Escriba aquí


##   <span style="color:#4361EE">Manual de introducción a R</span>

Al instalar R quedan  disponibles varios documentos en el computador. Uno de ellos es el 
Manual de introducción a R ([An Introduction to R](https://cran.r-project.org/doc/manuals/r-release/R-intro.html)). 
Para avanzar en R se recomienda leerlo detalladamente ejecutando los comandos escribiéndolos desde la consola. Al documentar en Jupyter cada trozo de código es una entrada a la consola de R. En esta introducción a R se toman algunos apartes del manual, tratando de hacer un paralelo de lo que ya se ha visto en Python.

##   <span style="color:#4361EE">Estructuras de datos en R</span>
[Vectores](https://cran.r-project.org/doc/manuals/r-release/R-intro.html#Vectors-and-assignment)

La estructura más simple en R es un vector, particularmente un vector número. En ese sentido un escalar  (número real) es un vector de una demensión.

###   <span style="color:#4361EE">Vectores numéricos y asignación</span>

Ver la sección [Vectores](https://cran.r-project.org/doc/manuals/r-release/R-intro.html#Vectors-and-assignment) del manual *Introduction to R*.

Vector **x**$=(10.4, 5.6, 3.1, 6.4, 21.7)$

In [17]:
x <- c(10.4, 5.6, 3.1, 6.4, 21.7)
cat("Vector x = [",x,"]\n")
assign("x", c(10.4, 5.6, 3.1, 6.4, 21.7))
cat("Vector x = [",x,"]\n")


Vector x = [ 10.4 5.6 3.1 6.4 21.7 ]
Vector x = [ 10.4 5.6 3.1 6.4 21.7 ]


De ahora en adelante utilizaremos preferiblemente el signo igual (=) para asignar valores a variables, aunque esta no la única manera de 
hacerlo.

####   <span style="color:#4361EE">Aritmética de vectores numéricos</span>

Cada una de las operaciones se realizan elemento por elemento. Los vectores en cada expresión no necestian ser de la misma longitud, pero hay que tener
cuidado cuando no lo son. El resultado es de longitud del más largo y los más cortos se repiten total o parcialmente hasta completar el mayor. 
Si uno de los operadores es un número este se repite tantas veces como los elementos del más largo.

El orden de prioridad de las operaciones es la misma de Python.

In [18]:
y = c(x, 0, x)

In [19]:
 v <- 2*x + y + 1

"longitud de objeto mayor no es múltiplo de la longitud de uno menor"


In [20]:
cat("Vector x = [",x,"]\n")
cat("Vector y = [",y,"]\n")
cat("Vector v = [",v,"]\n")


Vector x = [ 10.4 5.6 3.1 6.4 21.7 ]
Vector y = [ 10.4 5.6 3.1 6.4 21.7 0 10.4 5.6 3.1 6.4 21.7 ]
Vector v = [ 32.2 17.8 10.3 20.2 66.1 21.8 22.6 12.8 16.9 50.8 43.5 ]


In [17]:
cat("Longitud de x =",length(x),"\n")
cat("Longitud de y =",length(y),"\n")
cat("Longitud de v =",length(v),"\n")

Longitud de x = 5 
Longitud de y = 11 
Longitud de v = 11 


Nótese que v[11] es igual a:

In [21]:
2*10.4 + 21.7 + 1

La advertencia es para corroborar si esa es la operación que queremos.

####   <span style="color:#4361EE">Generación de secuencias regulares</span>

In [22]:
seq(-5, 5, by=.2) -> s3
cat("Valores desde -5 hasta 5, con incrementos de .2\n")
s3  
cat("Longitud de s3 =",length(s3))

Valores desde -5 hasta 5, con incrementos de .2


Longitud de s3 = 51

In [20]:
# La misma asignación
s4 = seq(length=51, from=-5, by=.2)
s4

**Otras maneras de asignar secuencias**

Repetir 5 veces el vector x:

In [23]:
s5 <- rep(x, times=5)
x
s5

Repetir 5 veces cada elemento del vector x:

In [24]:
s6 = rep(x, each=5)
s6

###   <span style="color:#4361EE">Números complejos</span>

In [25]:
z = 3.4 + 4i
cat(z)
class(z)

3.4+4i

$\sqrt{-5}$ produce error (NaN) pero $\sqrt{-5+0i}$ da un número complejo

In [26]:
sqrt(-5)
sqrt(-5+0i)

"Se han producido NaNs"


In [27]:
res = 3+(-4+0i)**(1/2) 
print(res)

[1] 3+2i


#### <span style="color:#4361EE">Operadores aritméticos y redondeo</span>

Mediante el uso de operadores podemos utilizar Python para hacer cálculos que haríamos con una calculadora. Por ejemplo, podemos ejecutar operaciones muy sencillas teniendo en cuenta la siguiente tabla:

| **Operador** | **Descripción** |
| :---: | :---: |
|`+`|Suma|
|`-`|Resta|
|`*`|Multiplicación|
|`/`|División|
|`^`|Potencia|
|`%%`|Módulo (residuo)|
|`%/%`|División entera (cociente)|


In [28]:
cociente = 20 %/% 3
cat(cociente)

6

In [29]:
residuo = 20 %% 3
cat(residuo)

2

La función *round()* permite redondear números reales:

In [30]:
x
round(x) # redondeo a enteros
round(x,1) # redondeo con una cifra decimal

### <span style="color:#4CC9F0">Ejercicio</span>


Use la función *round()* para redondear el número $\pi$ con 6 cifras decimales. $\pi$ está disponible como la constante *pi* en R:

In [31]:
pi

###   <span style="color:#4361EE">Vectores lógicos</span>

Toman valores TRUE o FALSE  

In [32]:
x
temp = x > 13
temp

#### <span style="color:#4361EE">Operadores de comparación</span>

| **Operador** | **Descripción** |**Ejemplo**|**Resultado**|
| :---: | :---: |:---: |:---: |
|`==`|Prueba si dos valores son iguales| `3==3` | `TRUE`|
|`!=`|Prueba si dos valores no son iguales entre si| `2!=3` | `TRUE` |
|`<`|Prueba si el valor de la izquierda es menor que el de la derecha| `4<3`|`FALSE`|
|`>`|Prueba si el valor de la izquierda es mayor que el de la derecha| `4>3`|`TRUE`|
|`<=`|Prueba si el valor de la izquierda es menor o igual que el de la derecha|`4<=3`|`FALSE`|
|`>=`|Prueba si el valor de la izquierda es mayor igual que el de la derecha|`4>=3`|`TRUE`|

In [33]:
3==3; 2!=3; 4<3; 4<=3; 4>=3

## <span style="color:#4361EE">Operadores lógicos</span>

| **Operador** | **Descripción** |**Ejemplo**|**Resultado**|
| :---: | :---: |:---: |:---: |
|`&`|Regresa verdadero si el valor de las izquierda y el de la derecha son verdaderos| `(3<4)and(5>1)`|`True`|
|`\|`|Regresa verdadero si uno de los dos valores a(izquierda o derecha es verdadero, o ambos| `(3>4)or(5<1)`|`False`|
|`!`|Regresa verdadero si el valor que se está evaluando es falso|`not(3>2)`|`False`|

In [34]:
(3<4)&(5>1); (3>4)|(5<1); !(3>2)

## <span style="color:#4361EE">Valores faltantes</span>

Los valores faltantes se identifican con *NA*, la función para identificarlos es *is.na()*

In [35]:
NA
is.na(NA)
z=c(1,3,NA,7,NA,8)
z
is.na(z)
(z == NA)

*x==NA* no tiene sentido, genera un vector lógico de la longitud de *z*, con todos los elementos iguales a *NA*

In [36]:
z == NA

*NaN* (*Not a Number*) identifica valores faltantes origindados en operaciones 
aritméticas no definidas: 

In [37]:
0/0; Inf - Inf

Nótese que:

In [38]:
5/0; -5/0

La función *is.nan(xx)* es TRUE solamente para NaNs:

In [39]:
is.nan(c(NA,5,NaN,6))

## <span style="color:#4361EE">Vectores de caracteres (*string*)</span>

Las cadenas son variables que representan una secuencia de caracteres, es decir que en ellas se puede almacenar cualquier texto. Para escribir un texto en R usamos comillas simples: `'...'` o comillas dobles: `"..."`.

In [40]:
a = 'Texto simple escrito entre comillas simples'
cat(a)

Texto simple escrito entre comillas simples

In [41]:
b = "Texto simple escrito entre comillas dobles"
cat(b)

Texto simple escrito entre comillas dobles

In [42]:
c = 'Texto simple escrito entre comillas simples que necesita "adentrico" comillas dobles'
cat(c)

Texto simple escrito entre comillas simples que necesita "adentrico" comillas dobles

In [43]:
d = "Texto simple escrito entre comillas dobles que necesita 'adentro' comillas simples"
cat(d)

Texto simple escrito entre comillas dobles que necesita 'adentro' comillas simples

Como vimos, la función *cat* es la que nos permite imprimir estos mensajes. La secuencia de control `\n` indica una nueva línea en el texto:

In [44]:
cat("Una línea\nOtra línea")

Una línea
Otra línea

No obstante, a veces necesitamos escribir  \n en un mensaje:

In [45]:
cat('La ruta del archivo es C:"\nombres\archivo.ipynb"')

La ruta del archivo es C:"
ombresrchivo.ipynb"

En este caso la aparición del símbolo `\`  daño el mensaje. Una solución es usar la función *print*: 

In [46]:
print('La ruta del archivo es C:\nombres\archivo.ipynb')

[1] "La ruta del archivo es C:\nombres\archivo.ipynb"


Podemos recorrer los valores de la cadena de texto de la siguiente forma (no olvidar que en R, los índices de los vectores empiezan en 1 y en Python en 0, y que en R es incluyé el valor del último índice):

In [47]:
texto="cuidado_con_el_orden"
cat(texto)

cuidado_con_el_orden

Extrayendo el primer primer caracter del texto, en R se puede usar la función *substr* poque en R *texto* es un vector de dimensión 1 y no un vector cuyos elementos sean los caracteres.

In [48]:
cat(substr(texto,1,1)) #subtexto empezando en 1 y terminando en 1

c

Extrayendo el segundo caracter:

In [49]:
substr(texto,2,2) #subtexto empezando en 2 y termiando en 2

Extrayendo el elemento seis hasta el elemento 9 del texto:

In [50]:
substr(texto,5,9) 

### <span style="color:#4CC9F0">Variables no asignadas</span>

Igual que en Python, toda variable debe ser incializada, es decir, debe tener algún valor asignado antes se de ser utilizada. Observe el siguiente ejemplo. 

In [51]:
n # Variable sin asignar

ERROR: Error in eval(expr, envir, enclos): objeto 'n' no encontrado


El error ocurre porque la variable *n* no ha sido asignada.

### <span style="color:#4CC9F0">Eliminación de variables</span>

Una variable y en general un objeto puede ser eliminado del entorno actual con la función *rm()*. Por ejemplo:

In [52]:
w = 1
rm(w)
cat(w)

ERROR: Error in eval(expr, envir, enclos): objeto 'w' no encontrado


### <span style="color:#4CC9F0">Ejercicio</span>

Por favor, mediante el uso de comentarios, describa lo sucedido en el último ejemplo.

In [53]:
# 
w = 1
# 
rm(w)
# 
cat(w)

ERROR: Error in eval(expr, envir, enclos): objeto 'w' no encontrado


### <span style="color:#4CC9F0">Objetos disponibles en una sección de trabajo de R</span>

Se obtienen con la función *ls()* sin parámetros.

In [54]:
ls()

Para borrarlos todos se puede utilizar el comando:

In [55]:
rm(list=ls())

In [56]:
ls()

In [57]:
a

ERROR: Error in eval(expr, envir, enclos): objeto 'a' no encontrado


### <span style="color:#4CC9F0">Ejercicio: ¿Qué pasó?</span>

### <span style="color:#4CC9F0">Continuaremos la introducción a R en el ambiente de R Studio</span>

Para lograr un funcionamiento adecuado en Windows se recomienda instalar los programas en el orden siguiente:

**1.** MikTeX: LaTeX libre para Windows.

**2.** R

**3.** RStudio

Esto se debe a las rutas de los programas. Algunas funciones de R usan LaTeX y RStudio es un *IDE* (ambiente integrado para desarrollo) que utiliza el R previamente instalado). 
   

**Fin de este cuaderno**