# **Introducción a R para Análisis de Datos**
## Capítulo 1: R Base
---
**Autor:** Juan Martin Bellido  

**Descripción**  
En este capítulo inicial, daremos los primeros pasos con R. Exploraremos operaciones disponibles en el lenguaje de forma nativa, es decir, sin importar ninguna librería externa.

**¿Feedback? ¿comentarios?** Por favor compártelo conmigo escribiéndome por [LinkedIn](https://www.linkedin.com/in/jmartinbellido/)  



## INDICE
---
1. Introducción a objetos en R
2. Estructuras de datos
3. Operadores
4. Básicos de programación
5. Ejercicios


Convenciones utilizadas en este documento
> 👉 *Esto es una nota u observación*

> ⚠️ *Esto es una advertencia*

# 1. Introducción a objetos en R
---



### Comentar código

Los lenguajes de programación suelen contener opciones para *comentar código*. Esto es, que permiten añadir texto al código a modo de anotaciones sin que esto afecte la ejecución del mismo.

> 👉 Hablamos de *comentar código* cuando incorporemos notas en una celda de tipo código. En un entorno de tipo Jupyter Notebook, también tenemos la opción de crear celdas de tipo texto. En entornos de tipo IDEs (la alternativa a Jupyter Notebook), esto no es posibole y comentar código es la única forma de añadir anotaciones.  

Para comentar código en R, simplemente añadimos un símbolo de # (almohadilla). Cualquier caracter después de # y en la misma línea de código quedará comentado y dejará de tenerse en cuenta en la ejecución de nuestro código.

> 👉 Observar cómo el texto cambia automáticamente de color al detectase que se trata de una anotación. Esto es un recurso propio del entorno y orientado a mejorar la legibilidad de nuestro código.


In [None]:
# esto es una anotación
1 + 1 # esto también es una anotación, a partir de la # (pero no antes)

### Declarar e invocar objetos
R es un lenguaje orientado a objetos. Esto significa que podemos definir objetos (*variables*) que se almacenarán en nuestro entorno de forma temporal para ser luego invocados a lo largo de nuestro código. Los objetos que definamos se perderán únicamente al explícitamente eliminarlos o al reiniciar nuestro entorno.

Para definir un objeto utilizamos una de las siguientes opciones:

``` my_object = content ```   
``` my_object <- content ```




In [None]:
# creamos un primer objeto
my_obj = 'R course'

In [None]:
# de forma alternativa, podríamos haber utilizado la siguiente sintaxis
my_obj <- 'R course'

In [None]:
# invocamos el objeto
my_obj

### Consultar objetos declarados
La función ``` ls() ``` nos permite consultar todos los objetos declarados en nuestro entorno.

In [None]:
# consultamos los objetos declarados
ls()

### Eliminar objetos
Utilizamos la finción ``` remove(object) ``` para eliminar un objeto declarado.

In [None]:
# eliminamos el objeto
remove(my_obj)

In [None]:
# volvemos a consultar objetos declarados para confirmar que hemos eliminado el objeto
ls()

### Tipos de datos
R reconoce los siguientes tipos de datos de forma nativa.

*   Numéricos (números con capacidad de decimal)
*   Enteros (números sin decimal)
*   Texto
*   Lógicos (verdadero/ falso)


#### Numéricos (*numeric*)





In [None]:
numeric_obj = 10        # defino un nuevo objeto con un valor numérico 
class(numeric_obj)      # compruebo la clase/ tipo de objeto

In [None]:
numeric_obj = 2.5       # defino un nuevo objeto con un valor numérico 
class(numeric_obj)      # compruebo la clase/ tipo de objeto

#### Enteros (*integer*)

In [None]:
integer_obj = 10L       # utilizamos la L final para especificar que se trata de un entero

In [None]:
class(integer_obj)      # compruebo la clase/ tipo de objeto

#### Texto (*character*)




In [None]:
text_obj = "R course"   # utilizamos comillas simples o dobles para establacer texto
class(text_obj)         # compruebo la clase/ tipo de objeto

#### Variables lógicas (*logical*)



In [None]:
logic_obj = FALSE       # defino un nuevo objeto con un valor lógico 
class(logic_obj)        # compruebo la clase/ tipo de objeto

# Estructuras de datos
---
R contempla en su estructura base distintos formatos de almacenamiento de datos, cada uno de ellos con características y tratamiento propio. 

Las estructuras de datos básicos son cuatro,
*   *Vectors*
*   *Data Frames*
*   *Factors*
*   *Lists*



### Vectors
Se trata de la estructura más elemental en R, unidimensional e indexada que permite almacenar distintos tipos de objetos. 

Para definir un vector utilizamos la siguiente sintaxis:

```
c(1,2,3,4,5)
```

In [None]:
# definimos un vector y lo guardamos en un objeto
my_vector = c(1L,"R course",20.5,TRUE,5)
my_vector # invocamos el objeto

In [None]:
# para consultar el valor de un elemento en concreto, utilizamos la posición del elemento dentro del vector
# nota: R indexa al 1 (el 1 es el primer elemento)
my_vector[2]

In [None]:
# al tratarse de una estructura indexada, podemos también modificar elementos específicos dentro de la estructura según su posición
my_vector[2] = 'R intro course'

In [None]:
# volvemos a invocar el segundo elemento
my_vector[2]

### Data Frames
Un *data frame* es simplemente una tabla de datos, una estructura de dos dimensiones formada por filas y columnas. Se trata de la estructura de datos más utilizada en análisis de datos.

*Nota: Data Frames vs. Matrices*
> 👉 R incluye matrices como estructuras de datos. Estas también son estructuras de dos dimensiones pero, a diferencia de un *data frame*, una *matriz* únicamente permite un mismo tipo de variable.

In [None]:
# comenzamos definiendo tres vectores, cada uno de ellos almacenará un único tipo de objeto
col_1 = c("a","b","c","d","e")
col_2 = c(1,2,3,4,5)
col_3 = c(TRUE,TRUE,TRUE,FALSE,FALSE)

# utilizamos la función data.frame() para convertir cada vector en una columna del data frame
my_data_frame = data.frame(col_1,col_2,col_3) 
my_data_frame

col_1,col_2,col_3
<chr>,<dbl>,<lgl>
a,1,True
b,2,True
c,3,True
d,4,False
e,5,False


In [None]:
# a continuación, consultaremos el valor de uno de los elementos almacenados
# al tratarse de una estructura de dos dimmensiones, utilizaremos dos parámtros (fila y columna, en ese órden)
my_data_frame[3,2]

### Factors
Los factores son estructuras indexadas que almacenan valores únicos.

```
factor(vector)
```



In [None]:
my_vector = c('a','a','a','b','b')  # creamos un vector
my_factor = factor(my_vector)       # transformamos vector en factor
my_factor                           # invocamos factor

In [None]:
summary(my_factor)                  # podemos ver los valores únicos de nuestro factor

### Lists
Se trata de un formato semi-estructurado que aporte mucha flexibilidad, ya que permite almacenar cualquier tipo de variables y estructuras. 

```
list()
```



In [None]:
# creamos una lista
my_list = list(
  "abc"                             # el primer elemento es texto
  ,2.5                              # el segundo elemento es numérico
  ,TRUE                             # el tercer elemento es lógico
  ,c(1,2,3)                         # el cuarto elemento es un vector
)

my_list                             # invocamos la lista

In [None]:
my_list[2] # invocamos el segundo elemento dentro de la lista

# Operadores
---
En programación, los operadores son símbolos específicos que permiten hacer comparaciones y realizar manipulaciones.

*   *Operadores aritméticos*: permiten realizar operaciones matemáticas
*   *Operadores lógicos*: permiten realizar pruebas lógicas, de resultado (true/false)





### Operadores aritméticos

| Operator 	|   Description  	|
|----------	|:--------------:	|
| +        	| addition       	|
| -        	| subtraction    	|
| *        	| multiplication 	|
| /        	| division       	|
| ^ or **  	| exponentiation 	|



In [None]:
# operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# test 1
obj_1/obj_2

In [None]:
# test 2
obj_1-obj_2

### Operadores lógicos

| Operator  	|        Description       	|
|-----------	|:------------------------:	|
| <         	| less than                	|
| <=        	| less than or equal to    	|
| >         	| greater than             	|
| >=        	| greater than or equal to 	|
| ==        	| exactly equal to         	|
| !=        	| not equal to             	|
| !x        	| Not x                    	|
| x \| y    	| x OR y                   	|
| x & y     	| x AND y                  	|
| isTRUE(x) 	| test if X is TRUE        	|

In [None]:
# operadores aritméticos
## definimos dos objetos numéricos
obj_1 = 10
obj_2 = 5

In [None]:
# test 1
## comprobar si objeto 1 es mayor a 8
obj_1 > 8

In [None]:
# test 2
## comprobar si objeto 1 es igual a objeto 2
obj_1 == obj_2

In [None]:
# test 3
## comprobar si se cumple alguna de las dos condiciones
obj_1 > 8 | obj_2 > 8 # "objeto 1 es mayor a 8 u objeto 2 es mayor a 8"

In [None]:
# test 4
## comprobar si se cumplen ambas condiciones
obj_1 > 8 & obj_2 > 8 # "objeto 1 es mayor a 8 y objeto 2 es mayor a 8"

# Básicos de programación
---
Existen ciertas funcionalidades básicas presentes en todo lenguaje de programación. Su uso no es estrictamente necesario para el análisis de datos, pero resulta útil particularmente para la automatización de procesos:
*   *Expresiones condicionales*
*   *Loops (bucles)*


### Expresiones condicionales

Una expresión condicional es una serie de pruebas lógicas con respuestas predefinidas. Se componen siempre de al menos una condición lógica, pero pueden tener tantas como se desee.

Sintaxis básica,
```
if(condición lógica){
  respuesta si se cumple
}
```

Sintaxis completa,
```
if(condición lógica){
  respuesta si se cumple
} else if(condición lógica adicional){
  respuesta si se cumple
} else(condición lógica si ninguna otra se cumple){
  respuesta si ninguna otra condición se cumple
}
```

In [None]:
# creamos una condición IF que nos permite comprobar si un número (depositado en un objeto) es positivo
obj = 10 # definimos un objeto

if(obj > 0){                        # condición 1: si el objeto es positivo
  print("El número es positivo")    # la función print() permite desplegar texto
}

## no hemos establecido respuesta en caso de que la condición no se cumpla

[1] "El número es positivo"


In [None]:
# creamos una condición IF que nos permite comprobar si un número (depositado en un objeto) es positivo, negativo o cero
obj = -10 # definimos un objeto

if(obj > 0){                        # condición 1: si el objeto es positivo
  print("El número es positivo")    # la función print() permite desplegar texto
} else if(obj == 0){                # condición 2: si el objeto es cero
  print("El número es cero")
} else{                             # condición 3: si el resto no se cumple
  print("El número es negativo")
}

[1] "El número es negativo"


### Loops (bucles)

*   *For loop*: el bucle se repetirá tantas veces como elementos en un vector predefinido
*   *Do while*: el bucle se repetirá siempre y cuando se cumpla una condición


En un *for loop*, establecemos una respuesta que se repetirá tantas veces como elementos en un vector determinado. La variable que definamos en el loop adoptará el valor de cada elemento en el vector.

Sintaxis básica,
```
for(i in vector){
  respuesta
}  
```

In [None]:
my_vector = c(1,2,3,4,5)              # definimos un vector

for (var in my_vector){               # creamos una variable "var" que tomará el valor de cada elemento en el vector
  print(paste("El número es", var))   # la función paste() nos permite concatenar texto
}

[1] "El número es 1"
[1] "El número es 2"
[1] "El número es 3"
[1] "El número es 4"
[1] "El número es 5"


In [None]:
my_vector = c("a","b","c","d","e")    # definimos un vector

for (letra in my_vector){             # creamos una variable "letra" que tomará el valor de cada elemento en el vector
  print(paste("La letra es", letra))
}

[1] "La letra es a"
[1] "La letra es b"
[1] "La letra es c"
[1] "La letra es d"
[1] "La letra es e"


En un *while loop*, establecemos una condición y una respuesta que se repetirá siempre y cuando la condición se mantega se mantenga verdadera. 

```
while (condición){respuesta}
```
Nota: debemos tener cuidado no crear while loops infinitos, en tal caso tendremos que reiniciar el entorno.


In [None]:
my_object = 10                      # definimos un objeto

while (my_object <= 25){            # la condición es que el valor del objeto se mantenga menor o igual a 25
  print(my_object)                  # desplegamos el valor del objeto en cada repetición
  my_object = my_object + 1         # sumamos 1 al valor del objeto
}

[1] 10
[1] 11
[1] 12
[1] 13
[1] 14
[1] 15
[1] 16
[1] 17
[1] 18
[1] 19
[1] 20
[1] 21
[1] 22
[1] 23
[1] 24
[1] 25
