# ÍNDICE
# **ISDI MDA**
# [Guía] Introducción a R
# N1: R Base
---

### ÍNDICE DE CONTENIDO
1. IMPORTAR LIBRERÍAS
2. INSTALAR Y UTILIZAR LIBRERÍAS
3. DEFINIR UN OBJETO
4. TIPOS DE OBJETO
5. ESTRUCTURAS DE DATOS
6. OPERADORES
7. (OPCIONAL) BÁSICOS DE PROGRAMACIÓN

### Profesor: Juan Martin Bellido (jmbelldo@isdi.education)



# IMPORTAR LIBRERÍAS
---
R es un lenguaje de programación *open-source* y *colaborativo*. Por tanto, está abierto a que cualquier persona cree y comparta nuevas funcionalidades. Las funcionalidades están agrupadas en *paquetes* o *librerías* que debemos instalar (una única vez) e importar cada vez que querramos utilizarlas.

Muchas librerías populares suelen estar pre-instaladas en nuestros entornos, por tanto únicamente necesitamos importarlas. Para importar una librería, utilizamos la función 

```
require(library)
```
De forma alternativa, podemos utilizar la función


```
library(library)
```

In [None]:
# Importamos la libraría de nombre "dplyr". A partir de ahora, podremos utilizar sus funcionalidades. 
# Si la librería no estuviera instalada, obtendríamos un error 
require(dplyr)
library(dplyr) # alternativamente, podríamos utilizar la función "library()"

# INSTALAR Y UTILIZAR LIBRERÍAS
---
En alginas casos, necesitaremos utilizar librerías que no están disponibles por defecto en nuestro entorno. Para hacerlo, utilizaremos la función

```
install.packages("library")
```



In [None]:
# Utilizamos la función install.packages() para instalar nueva librería
install.packages("data.table") # observar que el nombre de la librería debe ir entre comillas

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
# Ahora que la librería está instalada, podremos importarla sin problema
require(data.table) # observar que en este caso no es necesario comentar (incluir comillas) el nombre de la librería

Loading required package: data.table



### Importar dataframe
---

Una vez importamos una librería, podremos utilizar las funciones que incluya. Una función muy utilizada dentro de la librería "data.table" es *fread()*, que permite importar una tabla de datos (*dataframe*) de forma sencilla.

```
fread("path to dataframe")
```


In [None]:
# Utilizamos la función fread() para importar una tabla de datos (dataframe) que contiene información sobre películas de James Bond
fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv") # especificamos como parámetro el URL donde se encuentra depositado el dataframe
# Nota: si ejectutáramos este código desde un entorno local (no en el cloud, como lo estamos haciendo ahora), podríamos también especificar una ruta a un objeto local

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


Al utilizar una función, podríamos también especificar a qué librería pertenece. Esto es particularmente útil para evitar errores cuando dos o más funciones propias de distintas librarías reciben el mismo nombre.
Para especificar a qué librería pertenece una función, utilizamos la siguente sintaxis

```
library::function()
```



In [None]:
# Importaremos el mismo dataframe utilizando la función fread(), en este caso especificaremos a qué librería pertenece
data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


### Exportar dataframe
---


De la misma forma, podemos utilizar la función fwrite() para guardar un dataframe en nuestro entorno local.

```
fwrite(object, path + name)
```
*Nota: este método únicamente funciona al utilizarlo en nuestro entorno local, no funcionará al ejecutarlo desde Colab*


In [None]:
# Importamos un dataframe       
data(USArrests)

# Exportamos el dataframe (USArrests) como un archivo CSV
fwrite(USArrests, "USArrests.csv") 
# Nota: aquí, como segundo parámetro, hemos únicamente especificado el nombre (sin especificar path). 
## de este modo, el archivo se almacenará automáticamente en nuestro "working directory"

El *working directory* es el *path* que se utiliza para trabajar por defecto. Podremos consultarlo utilizando la siguiente función,

```
getwd()
```



# DEFINIR UN OBJETO
---
Al igual que la mayoría de lenguajes de programación modernos, R es un lenguaje orientado a objetos. Esto significa que podemos definir objetos (o *variables*) que se almacenarán en nuestro entorno de forma temporal y para ser luego invocados a lo largo de nuestro código. Los objetos que definamos se perderán únicamente al explícitamente eliminarlos o al reiniciar nuestro entorno.

Para definir un objeto utilizamos la siguiente sintaxis,


```
new_object = content
```
De forma alternativa, podemos definir un objeto utilizando la siguiente sintaxis,

```
new_object <- content
```



In [None]:
# creamos dos objetos que contienen valores numéricos
objeto_1 = 10
objeto_2 = 2

objeto_1 * objeto_2

In [None]:
# importamos el dataset de James Bond, pero esta vez lo guardaremos en un objeto. De esta forma, salvo que lo invoquemos, no lo veremos ejecutado como output
 df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")

In [None]:
# invocamos el objeto con el dataset de James Bond
df_james_bond

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


Para eliminar un objeto utilizamos la siguiente sintaxis,
```
remove(object)
```



In [None]:
# eliminamos el objeto que contiene el data frame de James Bond
remove(df_james_bond)

“object 'df_james_bond' not found”


ERROR: ignored

In [None]:
df_james_bond # tras haberlo eliminado, ahora no podremos invocalo (nos dará error)

ERROR: ignored

Podemos consultar los objetos que tengamos definidos en nuestro entorno utilizando la función ls()

```
ls()
```

In [None]:
# consultamos los objetos que estén disponibles en nuestro entorno
ls()

# TIPOS DE OBJETO
---
R reconoce varios tipos de objetos,
*   Numéricos (números)
*   Alfanuméricos (texto)
*   Lógicos (verdadero/ falso)


### Variables numéricas
---



In [None]:
numeric_value = 10        # defino un nuevo objeto con un valor numérico 
class(numeric_value)      # compruebo la clase/ tipo de objeto

In [None]:
numeric_value = 2.5       # defino un nuevo objeto con un valor numérico 
class(numeric_value)      # compruebo la clase/ tipo de objeto

### Variables alfanuméricas/ texto
---



In [None]:
text_value = "mi texto"   # defino un nuevo objeto con un valor texto 
class(text_value)         # compruebo la clase/ tipo de objeto

### Variables lógicas
---


In [None]:
logic_value = FALSE       # defino un nuevo objeto con un valor lógico 
class(logic_value)        # compruebo la clase/ tipo de objeto

# ESTRUCTURAS DE DATOS
---
R contempla en su estructura base distintos formatos de almacenamiento de datos, cada uno de ellos con características y tratamiento propio. 

Las estructuras de datos básicos son cuatro,
*   *Vectores*
*   *Data Frames*
*   *Factores*
*   *Listas*



### Vectores
---
Se trata de la estructura más elemental en R, unidimensional e indexada que permite almacenar distintos tipos de objetos. 

Para definir un vector utilizamos la siguiente sintaxis,

```
c(1,2,3,4,5)
```

In [None]:
# definimos un vector y lo guardamos en un objeto
my_vector = c(1,"a",3,TRUE,5)
my_vector # invocamos el objeto

In [None]:
# para consultar el valor de un elemento en concreto, utilizamos la posición del elemento dentro del vector
# nota: R indexa al 1 (el 1 es el primer elemento)
my_vector[2]

### Data Frames


---


Un data frame es una tabla de datos, una estructura de dos dimensiones formada por filas y columnas. Se trata de la estructura de datos más utilizada para el análisis de datos.

*Nota: Data Frames vs. Matrices*


---


R incluye matrices como estructuras de datos. Estas también son estructuras de dos dimensiones pero, a diferencia de un *data frame*, una *matriz* únicamente permite un mismo tipo de variable. No son útiles para el análisis de datos, por tanto no serán abordadas en el curso.

In [None]:
# comenzamos definiendo tres vectores, cada uno de ellos almacenará un único tipo de objeto
col_1 = c("a","b","c","d","e")
col_2 = c(1,2,3,4,5)
col_3 = c(TRUE,TRUE,TRUE,FALSE,FALSE)

# utilizamos la función data.frame() para convertir cada vector en una columna del data frame
my_data_frame = data.frame(col_1,col_2,col_3) 
my_data_frame

col_1,col_2,col_3
<chr>,<dbl>,<lgl>
a,1,True
b,2,True
c,3,True
d,4,False
e,5,False


In [None]:
# a continuación, consultaremos el valor de uno de los elementos almacenados
# al tratarse de una estructura de dos dimmensiones, utilizaremos dos parámtros (fila y columna, en ese órden)
my_data_frame[3,2]

### Factores
---
Los factores son vectores que contienen variables categóricas, es decir, aquellas con valores únicos limitados. Definimos factores a partir de vectores.

```
factor(vector)
```



In [None]:
my_vector = c('a','a','a','b','b') # creamos un vector
my_factor = factor(my_vector) # transformamos vector en factor
my_factor # invocamos factor

In [None]:
summary(my_factor) # podemos ver los valores únicos de nuestro factor

### Listas


---


Se trata de una estructura poco utilizada para el análisis de datos, más utilizada en programación. Una lista es un contenedor de elementos ordenados, podemos incluir cualquier tipo de varible o estructuras y luego invocarlo según su posición en el índice.

```
list()
```



In [None]:
# creamos una lista
my_list = list(
  "abc"           # el primer elemento es texto
  ,2.5            # el segundo elemento es numérico
  ,TRUE           # el tercer elemento es lógico
  ,c(1,2,3)       # el cuarto elemento es un vector
)

my_list # invocamos la lista

In [None]:
my_list[2] # invocamos el segundo elemento dentro de la lista

# OPERADORES
---
En programación, los operadores son símbolos específicos que permiten hacer comparaciones y realizar manipulaciones.

*   Operadores aritméticos: permiten realizar operaciones matemáticas
*   Operadores lógicos: permiten realizar pruebas lógicas, de resultado (true/false)





### Operadores aritméticos
---


| Operator 	|   Description  	|
|----------	|:--------------:	|
| +        	| addition       	|
| -        	| subtraction    	|
| *        	| multiplication 	|
| /        	| division       	|
| ^ or **  	| exponentiation 	|



In [None]:
# Operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# Test 1
obj_1/obj_2

In [None]:
# Test 2
obj_1-obj_2

### Operadores lógicos
---

| Operator  	|        Description       	|
|-----------	|:------------------------:	|
| <         	| less than                	|
| <=        	| less than or equal to    	|
| >         	| greater than             	|
| >=        	| greater than or equal to 	|
| ==        	| exactly equal to         	|
| !=        	| not equal to             	|
| !x        	| Not x                    	|
| x \| y    	| x OR y                   	|
| x & y     	| x AND y                  	|
| isTRUE(x) 	| test if X is TRUE        	|

In [None]:
# Operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# Test 1
## comprobar si objeto 1 es mayor a 8
obj_1 > 8

In [None]:
# Test 2
## comprobar si objeto 1 es igual a objeto 2
obj_1 == obj_2

In [None]:
# Test 3
## comprobar si se cumple alguna de las dos condiciones
obj_1 > 8 | obj_2 > 8 # "objeto 1 es mayor a 8 u objeto 2 es mayor a 8"

In [None]:
# Test 3
## comprobar si se cumplen ambas condiciones
obj_1 > 8 & obj_2 > 8 # "objeto 1 es mayor a 8 y objeto 2 es mayor a 8"

# (OPCIONAL) BÁSICOS DE PROGRAMACIÓN
---
Existen ciertas funcionalidades básicas presentes en todo lenguaje de programación. Su uso no es estrictamente necesario para el análisis de datos, pero resulta útil para la automatización de procesos,
*   *Expresiones condicionales*
*   *Loops (bucles)*


### Expresiones condicionales
---
Una expresión condicional es una serie de pruebas lógicas con respuestas predefinidas. Se componen siempre de al menos una condición lógica, pero pueden tener tantas como se desee.

Sintaxis básica,
```
if(condición lógica){
  respuesta si se cumple
}
```

Sintaxis completa,
```
if(condición lógica){
  respuesta si se cumple
} else if(condición lógica adicional){
  respuesta si se cumple
} else(condición lógica si ninguna otra se cumple){
  respuesta si ninguna otra condición se cumple
}
```

In [None]:
# Creamos una condición IF que nos permite comprobar si un número (depositado en un objeto) es positivo
obj = 10 # definimos un objeto

if(obj > 0){                        # condición 1: si el objeto es positivo
  print("El número es positivo")    # la función print() permite desplegar texto
} 

## no hemos establecido respuesta en caso de que la condición no se cumpla

[1] "El número es positivo"


In [None]:
# Creamos una condición IF que nos permite comprobar si un número (depositado en un objeto) es positivo, negativo o cero
obj = -10 # definimos un objeto

if(obj > 0){                        # condición 1: si el objeto es positivo
  print("El número es positivo")    # la función print() permite desplegar texto
} else if(obj == 0){                # condición 2: si el objeto es cero
  print("El número es cero")
} else{                             # condición 3: si el resto no se cumple
  print("El número es negativo")
}

[1] "El número es negativo"


### Loops (bucles)
---

*   *For loop*: el bucle se repetirá tantas veces como elementos en un vector predefinido
*   *Do while*: el bucle se repetirá siempre y cuando se cumpla una condición


En un *for loop*, establecemos una respuesta que se repetirá tantas veces como elementos en un vector determinado. La variable que definamos en el loop adoptará el valor de cada elemento en el vector.

Sintaxis básica,
```
for(i in vector){
  respuesta
}  
```

In [None]:
my_vector = c(1,2,3,4,5) # definimos un vector

for (var in my_vector){ # creamos una variable "var" que tomará el valor de cada elemento en el vector
  print(paste("El número es", var)) # la función paste() nos permite concatenar texto
}

[1] "El número es 1"
[1] "El número es 2"
[1] "El número es 3"
[1] "El número es 4"
[1] "El número es 5"


In [None]:
my_vector = c("a","b","c","d","e") # definimos un vector

for (letra in my_vector){ # creamos una variable "letra" que tomará el valor de cada elemento en el vector
  print(paste("La letra es", letra))
}

[1] "La letra es a"
[1] "La letra es b"
[1] "La letra es c"
[1] "La letra es d"
[1] "La letra es e"


En un *while loop*, establecemos una condición y una respuesta que se repetirá siempre y cuando la condición se mantega se mantenga verdadera. 

```
while (condición){respuesta}
```
Nota: debemos tener cuidado no crear while loops infinitos, en tal caso tendremos que reiniciar el entorno.


In [None]:
my_object = 10 # definimos un objeto

while (my_object <= 25){      # la condición es que el valor del objeto se mantenga menor o igual a 25
  print(my_object)            # desplegamos el valor del objeto en cada repetición
  my_object = my_object + 1   # sumamos 1 al valor del objeto
}

[1] 10
[1] 11
[1] 12
[1] 13
[1] 14
[1] 15
[1] 16
[1] 17
[1] 18
[1] 19
[1] 20
[1] 21
[1] 22
[1] 23
[1] 24
[1] 25
