# Introducción a ![](https://www.r-project.org/Rlogo.png)

**R** Es un lenguaje estadístico *Open Source*, potente, flexible y extensible. 

Es utilizado por muchas empresas (Google, Microsoft, Facebook, BBVA, etc...) y universidades.

Empleado por Estadísticos y Data Scientists en el desarrollo de software.

A diferencia de las hojas de cálculo tradicionales, en R se escriben sentencias de  programación en lugar de las clásicas fórmulas. Es necesario conocer la estructura de los datos.

Se pueden hacer prototipos con pocas líneas de código.

## Historia de R

R es una implementación del lenguaje estadístico S (combinado con el lenguaje de
programación Scheme).

S fue desarrollado en los laboratorios de AT&T por John Chambers a finales de los 70.

Las dos principales implementaciones de S son:
+ R
+ S+ (S-PLUS)

Suele haber varias releases al año (normalmente la más importante en Abril):
+ 3.1.0 (Spring Dance) 10/04/2014
…
+ 3.2.0 (Full of Ingredients) 16/04/2015
…
+ 3.5.0 (Joy in Playing) 23/04/2018

## Ventajas de R

R es un gran software para resolver problemas de análisis de datos. Existen gran cantidad
de paquetes para tratamiento de datos, modelización estadística, data mining y gráficos.

Existe una comunidad de usuarios creando paquetes (extendiendo R). Gran parte de estos  paquetes están implementados en el propio R.

R es muy útil para hacer gráficos, analizar datos y obtener modelos estadísticos con datos  que caben en la memoria RAM del PC. Existen limitaciones, desde el punto de vista de la  memoria, con grandes volúmenes de datos.

Es muy común utilizar otro lenguaje de programación para preparar los datos:
+ Volúmenes pequeños o medianos: Python, Julia, Perl…
+ Volúmenes grandes: Hadoop, Pig, Hive…

## ¿A qué nos referimos por R?

Por R nos solemos referir a:
+ El lenguaje de programación.
+ El interprete que ejecuta el código escrito en R.
+ El sistema de generación de gráficos de R.
+ Al IDE de programación en R, o también conocido como RStudio (incluye el interprete  de R, sistema de gráficos, gestor de paquetes e interfaz de usuario).

## Instalación de R

Proyecto R: https://www.r-project.org/

Existen instaladores binarios para Windows, Linux y Mac: http://cran.es.r-project.org/

En Linux, lo más cómodo es utilizar el gestor de paquetes:

`
 sudo apt-get install r-base
 sudo yum install r-base
`

## Console Mode

Para abrir la consola de R, ejecutamos desde la línea de comandos:

`$>R`

Se abre la consola, la cual permite escribir comandos de forma interactiva. Cada uno de  estos comandos recibe el nombre de expresiones.

El interprete de R lee estas expresiones y responde con el resultado o con un mensaje de  error.

La interfaz de comandos almacenará los pasos seguidos al analizar los datos.

Puede ser una forma conveniente de afrontar un nuevo problema.

Con el comando history() se muestra el historial de los comandos que se han introducido
durante la sesión de R.

Para obtener la documentación y ayuda sobre un comando/función: `?comando`
Por ejemplo: `?history`

Los nombres de variables, paquetes, directorios, etc. se autocompletan usando tabulador.

Si se escribe en la consola el nombre de una función se muestra su código.
Por ejemplo: `history`

In [3]:
?history

In [4]:
history

### Algunos Ejemplos para comenzar

In [6]:
# Ejemplos para comenzar
# Creación de un vector de enteros
c(43, 42, 12, 8, 5)

In [8]:
 c(1, 2, 3) -> edades

In [9]:
edades

In [10]:
# Creación y asignación de una variable
edades <- c(43, 42, 12, 8, 5)

In [11]:
c(12, 18, 26) -> edades_2

In [12]:
edades_2

In [13]:
# Para ver el contenido de una variable
edades

In [14]:
# Algunas funciones
sum(edades)

In [15]:
mean(edades)

In [16]:
range(edades)

In [17]:
# Operaciones básicas
1+2+3

In [18]:
1+2*3

In [19]:
(1+2)*5

In [20]:
c(0, 1, 1, 2, 3, 5, 8)

In [21]:
1:20

In [22]:
?seq

## Console Mode + GUI = RGUI

Haciendo en terminal: `$>RGUI`
![GUI](imgs/00_01.png)

## Batch Mode

Los comandos interactivos ejecutados en la consola son muy útiles para una exploración
rápida o un análisis ad-hoc.

Si hay que repetir los cálculos n veces, la consola no es práctica.

Para ejecutar en modo batch:
+ Crear un fichero R con el código. Por ejemplo: `calcula_resultados.R`
+ Invocar el fichero con el comando Rscript. Por ejemplo:
`
Rscript calcula_resultados.R 2017
`
Puede recibir parámetros. Por ejemplo: `2017`

Mediante el comando `source(input_path_file)` cargamos el código fuente de otro fichero R.

## RStudio

IDE de programación para desarrollar proyectos en R: https://www.rstudio.com/

Existen dos versiones:
+ RStudio Desktop
+ RStudio Server (interfaz de RStudio Desktop en versión web)

Ambas versiones tienen versión open source (gratuita) y comercial (con soporte incluido).

Permite la gestión completa de un proyecto de software:
+ Consola R
+ Gestión de ficheros
+ Ayuda
+ Gestión de paquetes (instalación, actualización, etc.)
+ Revisión del historial de comandos

![RStudio](imgs/00_02.png)

## Y, finalmente Jupyter notebooks

En la propia distribución de Anaconda viene Jupyter instalado. Jupyter no es exclusivo de python. De hecho se pensó para tres lenguajes: Julia, python y R, de ahí el nombre.

Para trabajar con Jupyter en R basta con instalar un R kernel desde un terminal:

`$>conda install -c r r-irkernel`

Desde este momento si abrimos un `jupyter notebook` podremos elegir el kernel de R.

Los notebooks tienen la ventaja de intercalar texto formateado según código HTML y MarkDown, además de imágenes y fórmulas ($\LaTeX$) con celdas de código **interactivas**.

Esto también se consigue con el formato RMarkdown (.Rmd) donde además las opciones de formateo son muchas más y más variadas. Como contrapartida en RMarkdown el código es estático, no se puede modificar, existe un paso previo para publicar un RMarkdown que es el proceso de `knitr` donde se preejecutan tanto las celdas de texto como las de código. 

# R Basics



## Expresiones, Objetos y Símbolos

El código R está compuesto de expresiones (expressions). Algunos ejemplos de expresiones:
+ Asignaciones
+ Sentencias condicionales
+ Operaciones aritméticas
…

Las expresiones se componen de objetos y funciones. Cada expresión se separa de otra  mediante una nueva línea o un punto y coma (;).

El código R manipula objetos (objects). Algunos ejemplos de objetos:
+ Vectores
+ Listas
+ Funciones
…


Formalmente los nombres de las variables en R se llaman símbolos (symbols). Es decir,
asignamos el objeto a un símbolo del entorno actual.

El entorno está formado por el conjunto de símbolos presentes en un cierto contexto.

Los objetos en R tienen modo, clase, y tipo:
+ Modo (mode): indica el modo de un objeto por R (como es almacenado según Becker,  Chambers & Wilks, 1988).
+ Tipo (typeof): indica el tipo “interno” de un objeto R (como es almacenado). Es una  versión actualizada del modo. Tipo y modo suelen coincidir pero no siempre es así.
+ Clase (class): indica la clase de un objeto R.

Cuando se cambia el modo/tipo de un objeto se denomina coerción. Puede cambiar el  modo/tipo, pero no necesariamente la clase. Es lo que usualmente se denomina casting en  otros lenguajes de programación.

## Tipos de datos básicos en R

![Basic_types](imgs/00_03.png)

## Objetos comunes en R

![Common](imgs/00_04.png)

## Naturaleza de los objetos

![NAture](imgs/00_05.png)

## Valores no numéricos

Existen ciertos valores especiales para representar situaciones determinadas:
+ **NULL**: se utiliza para indicar que una variable no contiene ningún objeto.
+ **NA**: valor especial para indicar que no hay datos en un determinado lugar (vector,  matriz, data frame…)
+ **Inf**: infinito positivo.
+ **-Inf**: infinito negativo.
+ **NaN**: Not a Number.

Tip: se puede tener una lista de NULLs pero no un vector de NULLs. En cambio sí se puede  tener un vector de NAs.

In [24]:
a = NA

In [26]:
a

In [25]:
b = NaN

In [27]:
b

In [28]:
a == b

## Operadores Básicos

![Operator](imgs/00_06.png)

![Operator2](imgs/00_07.png)

In [1]:
5 %in% c(1, 2, 3, 5)

![Operator3](imgs/00_08.png)

In [2]:
!(TRUE)

![Operator4](imgs/00_09.png)

In [31]:
###########################
# Operadores relacionales #
###########################
TRUE == TRUE

In [32]:
TRUE == FALSE

In [34]:
"hello" == "goodbye"

In [35]:
3 == 2

In [36]:
TRUE != TRUE

In [37]:
TRUE != FALSE

In [38]:
"hello" != "goodbye"

In [39]:
3 != 2

In [40]:
3 < 5

In [41]:
3 > 5

In [42]:
"hello" > "goodbye" # Orden alfabético

In [43]:
TRUE < FALSE # TRUE coerciona a 1 y FALSE a 0

In [44]:
5 >= 3

In [45]:
3 >= 3

In [46]:
##########################################
# Operadores relacionales sobre vectores #
##########################################
a <- c(16, 9, 13, 5, 2, 17, 14)
a

In [47]:
a > 10

In [48]:
b <- c(17, 7, 5, 16, 8, 13, 14)
a <= b

In [49]:
######################
# Operadores lógicos #
######################
x <- 12
x > 5 & x < 15

In [50]:
x <- 17
x > 5 & x < 15

In [51]:
y <- 4
y < 5 | y > 15

In [52]:
y <- 14
y < 5 | y > 15

In [53]:
!(x < 5)

In [54]:
is.numeric(5)

In [55]:
!is.numeric(5)

In [56]:
is.numeric("5")

In [57]:
!is.numeric("5")

In [58]:
#####################################
# Operadores lógicos sobre vectores #
#####################################
c(TRUE, TRUE, FALSE) & c(TRUE, FALSE, FALSE)

In [65]:
c(TRUE, FALSE, TRUE) && c(TRUE, FALSE, FALSE)

In [66]:
c(TRUE, TRUE, FALSE) | c(TRUE, FALSE, FALSE)

In [67]:
c(TRUE, TRUE, FALSE) || c(TRUE, FALSE, FALSE)

## Sentencias Condicionales

In [68]:
############################
# Sentencias condicionales #
############################
x <- -3
if (x < 0) {
  print("x es un número negativo")
}

[1] "x es un número negativo"


In [69]:
x <- 5
if (x < 0) {
  print("x es un número negativo")
} else {
  print("x es un número postivo o cero")
}

[1] "x es un número postivo o cero"


In [70]:
x <- 5
if (x < 0) {
  print("x es un número negativo")
} else if (x == 0) {
  print("x es cero")
} else {
  print("x es un número postivo o cero")
}

[1] "x es un número postivo o cero"


In [71]:
ifelse(x > 0, "x es número positivo", "x es un número negativo")

In [75]:
x <- "red"

switch(x, red = "cloth", size = 5, name = "table")

In [73]:
?switch

## Bucles

In [76]:
##########
# Bucles #
##########
ctr <- 1
while (ctr <= 7) {
  print(paste("ctr vale", ctr))
  ctr <- ctr + 1
}

[1] "ctr vale 1"
[1] "ctr vale 2"
[1] "ctr vale 3"
[1] "ctr vale 4"
[1] "ctr vale 5"
[1] "ctr vale 6"
[1] "ctr vale 7"


In [77]:
ctr <- 1
while (ctr <= 7) {
  if (ctr %% 5 == 0)
    break
  print(paste("ctr vale", ctr))
  ctr <- ctr + 1
}

[1] "ctr vale 1"
[1] "ctr vale 2"
[1] "ctr vale 3"
[1] "ctr vale 4"


In [78]:
cities <- c("New York", "Paris", "London", "Tokyo", "Rio de Janeiro", "Cape Town")
for (city in cities) {
  print(city)
}

[1] "New York"
[1] "Paris"
[1] "London"
[1] "Tokyo"
[1] "Rio de Janeiro"
[1] "Cape Town"


In [80]:
cities <- c("New York", "Paris", "London", "Tokyo", "Rio de Janeiro", "Cape Town")
for (city in cities) {
  if (nchar(city) == 6)
    next
  print(city)
}

[1] "New York"
[1] "Paris"
[1] "Tokyo"
[1] "Rio de Janeiro"
[1] "Cape Town"


In [81]:
cities <- c("New York", "Paris", "London", "Tokyo", "Rio de Janeiro", "Cape Town")
for (i in 1:length(cities)) {
  print(paste(cities[i], "está en la posición", i, "del vector de ciudades."))
}

[1] "New York está en la posición 1 del vector de ciudades."
[1] "Paris está en la posición 2 del vector de ciudades."
[1] "London está en la posición 3 del vector de ciudades."
[1] "Tokyo está en la posición 4 del vector de ciudades."
[1] "Rio de Janeiro está en la posición 5 del vector de ciudades."
[1] "Cape Town está en la posición 6 del vector de ciudades."


## Control de Errores

In [82]:
######################
# Control de errores #
######################
inputs = list(1, 2, 4, -5, "oops", 0, 10)

for(input in inputs) {
  print(paste("log of", input, "=", log(input)))
}

[1] "log of 1 = 0"
[1] "log of 2 = 0.693147180559945"
[1] "log of 4 = 1.38629436111989"


"Se han producido NaNs"

[1] "log of -5 = NaN"


ERROR: Error in log(input): non-numeric argument to mathematical function


In [83]:
for(input in inputs) {
  try(print(paste("log of", input, "=", log(input))))
}

[1] "log of 1 = 0"
[1] "log of 2 = 0.693147180559945"
[1] "log of 4 = 1.38629436111989"


"Se han producido NaNs"

[1] "log of -5 = NaN"
[1] "log of 0 = -Inf"
[1] "log of 10 = 2.30258509299405"


In [84]:
inputs

In [85]:
inputs

In [90]:
for(input in inputs) {
  tryCatch(print(paste("log of", input, "=", log(input))),
           warning = function(w) { print(paste("negative argument", log(-input))) },
           error = function(e) { print(paste("non-numeric argument", NaN))})
}

[1] "log of 1 = 0"
[1] "log of 2 = 0.693147180559945"
[1] "log of 4 = 1.38629436111989"
[1] "negative argument 1.6094379124341"
[1] "non-numeric argument NaN"
[1] "log of 0 = -Inf"
[1] "log of 10 = 2.30258509299405"


In [91]:
?tryCatch

## Constantes Built-In

![Constant](imgs/00_10.png)

In [92]:
#######################
# Constantes built-in #
#######################
LETTERS

In [93]:
typeof(LETTERS)

In [94]:
letters

In [95]:
month.abb

In [96]:
month.name

In [97]:
pi

In [98]:
a <- c(1, 2, 3)

In [99]:
b <- 'A'

In [100]:
c <- c(a, b)

In [101]:
c

## Inspección de objetos

![See](imgs/00_11.png)

![Is](imgs/00_12.png)

![Oth](imgs/00_13.png)

![Ls](imgs/00_14.png)

## Ejercicio



In [104]:
###################################
# Basics: operadores aritméticos  #
###################################

# Suma 5 + 5
5+5

In [124]:
# Resta 5 - 5
5 - 5

In [125]:
# Multiplica 3 * 5
3 * 5

In [126]:
# Suma 5 +5 y divide el resultado entre 2
(5 + 5 ) / 2

In [127]:
# Calcula 2 elevado a 5
2^5

In [128]:
# Calcula modulo de 28 entre 6
28 %% 6

In [130]:
###################################
# Basics: asignación de variables #
###################################

# Asgina el valor 5 a la variable my_apples
my_apples <- 5

In [131]:
# Muestra el contenido de la variable my_apples
my_apples

In [132]:
# Asgina el valor 6 a la variable my_pears
my_pears = 6

In [140]:
# Muestra el contenido de la variable my_pears
my_pears

In [141]:
# Suma peras con manzanas: crea una nueva variable my_fruit con la suma
my_fruit = my_apples + my_pears

In [142]:
# Muestra el número total de piezas de fruta
my_fruit

In [143]:
###################################
# Basics: tipos básicos           #
###################################

# Declara una variable numérica, my_numeric, con el valor 42
my_numeric = 42

In [144]:
# Declara una variable de tipo texto, my_character, con el valor "forty-two"
my_character = "forty_two"

In [145]:
# Declara una variable booleana, my_logical, con el valor FALSE
my_logical = FALSE

In [146]:
# ¿De qué tipo son?
typeof(my_numeric)
typeof(my_character)
typeof(my_logical)

In [147]:
# ¿De qué clase son?
class(my_numeric)
class(my_character)
class(my_logical)

In [148]:
# ¿Cuál es su modo?
mode(my_numeric)
mode(my_character)
mode(my_logical)

In [152]:
rm(d)

In [153]:
d

ERROR: Error in eval(expr, envir, enclos): objeto 'd' no encontrado


In [160]:
my_func <- function(){d <<- -5}

In [161]:
my_func()

In [162]:
d