# Clase 15 - Introducción a datos en R, funciones y operadores


### Corte 3 - Introducción a la programación en R
* Primeros pasos en R ✅
* Introducción a datos, funciones y operadores en R ✅

# Introducción a R

### ¿Qué es R?

Para comprender mejor R y algunos términos del lenguaje a utilizar, haremos uso de la interfaz gráfica que nos proporciona R por medio de R Studio. Para ello vamos a ver las diferencias entre un IDE y una GUI y por qué son importantes.

**¿Qué es un GUI?** (Graphical user interface): Programa que permite interactuar con un sistema de manera gráfica, evitando así, trabajar desde consola.  

**¿Qué es un IDE?** (Integrated development enviroment): Programa que facilita el desarrollo de código, constando de editor, compilación y depuración

### El entorno de R

R a nivel de software cuenta con un conjunto integrado de paquetes y módulos para la manipulación de datos, cálculos y visualización de gráficas permitiendo:

- Instalación eficaz de manejo y almacenamiento de datos
- Conjunto de operadores para cálculos en matrices
- Amplia colección coherente e integrada de herramientas intermedias para el análisis de datos
- Facilidades gráficas para el análisis de datos y visualización en pantalla o en papel
- R se puede vincular con lenguajes de programación C o C++ para realizar tareas de computación intesiva

Utilizar R Studio, nos ofrece diversas ventajas:

- Facilidad en la escritura de código
- Facilidad de visualización del código
- Facilidad de acceso de donde se almacenan los datos y librerías
- Facilidad en la publicación y visulización de los resultados

R nos permite leer grandes cantidades de datos, por lo que es posible procesar datos provenientes de archivos con los siguientes formatos `xls, csv, sql, html, txt`

### Conceptos básicos

- **Entorno**: Espacio de trabajo donde se edita y se crea software
- **Workspace**: Espacio aislado ¿donde el programador puede realizar sus actividades
- **Comando**: Directiva que permite realizar una acción u operación
- **Operador**: Ejecuta una acción asociada a un cálculo específico
- **Compilar**: Código interpretado por una máquina y es ejecutado

## Configuración básica de R studio


En R studio contaremos con un espacio de trabajo y directorio para acceder a la información y almacenar los datos. 

**Workspace**: Permite trabajar sobre un espacio temporal, guardando elementos, características y comportamientos (definiciones, variables). Todo esto se almacena sobre el archivo de respaldo .Rdata. Sin embargo el workspace puede ser almacenado cuando se guarda el proyecto de manera global, lo que evita que los datos temporales se pierdan.

**Directorio**: Carpetas donde se almacenan los archivos ya sean multimedia o de código.

Cuando se crea un proyecto en R, se recomienda almacenar los archivos en carpetas, teniendo en cuenta la siguiente estructura:

`Carpeta principal -> datos -> codigo -> resultados`

### Creando mi primer programa en R

- Abrir R Studio, luego ir a la opción file en el panel superior para elegir new file. Es importante escoger la ubicación del archivo en un directorio conocido.
- En el nuevo script creado, escribir nuestro primer hola mundo
`mensaje<- "Hola Mundo"
print(mensaje)`

![Screenshot_197.png](attachment:Screenshot_197.png)

Para ejecutar el código se tienen dos opciones:

- Presionar el botón Run en caso de ejecutar solo el fragmento de código seleccionado ![Screenshot_199.png](attachment:Screenshot_199.png)

- Presionar el botón source para ejecutar el script en su totalidad ![Screenshot_200.png](attachment:Screenshot_200.png)

R cuenta con la consola, esta nos mostrará el resultado del script ejecutado o a su vez nos permitirá crear cálculos "desechables" que no necesitan ser almacenados y que sean validaciones rápidas.

![Screenshot_206.png](attachment:Screenshot_206.png)

#### Importante antes de empezar a desarrollar 

Tenga en cuenta que antes de empezar a desarrollar en R, sus script y configuración debe ubicarse en la ruta correcta o esperada.

- El comando para validar la posición actual dentro del ide del R es `getwd()`. Si la ubicación es distinta a la esperada y no está apuntando a la que se espera, ejecutar los siguientes comandos:  

- Definir ubicación de los datos que usará el programa:  
`setwd("C:/Users/erika/OneDrive/Desktop/Clases-Eafit/Introduccion-a-la-programacion/Clase 14/practica1/datos")`  

- Definir ubicación del script con el código:  
`setwd("C:/Users/erika/OneDrive/Desktop/Clases-Eafit/Introduccion-a-la-programacion/Clase 14/practica1/codigo")`  

- Ubicación de los resultados para mostrarlos en pantalla o en gráficas:  
`setwd("C:/Users/erika/OneDrive/Desktop/Clases-Eafit/Introduccion-a-la-programacion/Clase 14/practica1/resultados")`   

- **R** es diferente (≠) de **RStudio**, ya que R es el lenguaje de programación y RStudio es el motor o IDE de desarrollo  

- Al igual que Python R reconoce entre mayúsculas y minúsculas  

- R tiene un lenguaje para marcado y ordenar los documentos con los resultados de las operaciones, este es R markdown: https://rmarkdown.rstudio.com/lesson-1.html  

![Screenshot_201.png](attachment:Screenshot_201.png)

## Definiendo tipos de datos en R

Al igual que el lenguaje de programación Python, R cuenta con tipos de datos que nos permite analizarlo de manera detallada y avanzada.

- float
- int
- string
- boolean

R también cuenta con estructuras de datos como:

- vectores
- listas
- matrices
- arreglos
- factores
- dataframes

Los tipos de datos **Vectores** Son los objetos más simples que se pueden encontrar en el lenguaje de programación R. Este tiene como subtipos a:

- lógicos (true / false)
- númericos (decimales)
- integer (no decimales, ID, enteros)
- complejos (números imaginarios)
- caracter (texto)
- raw (bytes)

Las **Listas** es un tipo de estructura de dato que consta de un vector con múltiples elementos, por ejemplo:

`c(elemento1, elemento2, elemento3, elemento4)`

Una lista puede almacenar cualquier tipo de objeto.

Las **Matrices** son un conjunto de datos de 2 dimensiones filas / columnas. Los objetos deben ser todos del mismo tipo.

`M <- matrix(c('x','y','z','a','b','c'), nrow=2, ncol=3, byrow=TRUE)`

Un error muy común es confundir una matriz con un dataframe, además hay una relación entre gráficas de dispersión y matrices

Los **Arreglo** son una estructura de datos que contiene varias dimensiones, con comportamiento similar al de una matriz.

`A <- array(c('virus', 'bacteria', 'virus'), dim=c(3,3,1))`

Los tipos de objetos como **Factores** y **Dataframes** tiene comportamientos que permiten operar datos complejos.


**Factores**: Tipos de objetos que se utilizan para categorizar datos e información, clasifican la información y permiten filtrar por columnas. Estos tipos de datos son utilizados para el modelado y análisis de datos.

- No confunir con listas sencillas
- Columna de tipo factor no permite realizar operaciones

**Dataframes:** Este tipo de dato, define una estructura en forma de tabla similar a una matriz pero permitiendo operar y almacenar diferentes tipos de datos. El número de columnas debe ser igual al número de filas, se usan encabezados para identificar cada columna y se usan nombres únicos para los renglones. (Son como hojas de cálculo en excel)

### Ejemplos de usos de variables en R

`#Variables en R
x <- 56
y <- "Hola mundo"
z <- x>10
a <- 45.7`

`#Datos de tipo vector
materias <- c('Biología', 'Matemáticas', 'Química')
numeros <- c(1,2,3,4,5,6,7,8,9,10)
numeros_automaticos <- (1:100)
vector_variables <- c(x,y,z)`

`#Datos de tipo Lista
nombre_materias <- c("Biología", "Matemáticas", "Química")
notas_materias <- matrix(c(4.3,4.2,4.1, 3.9, 2.3, 4.5, 4.1, 3.8, 2.0), nrow=3, ncol=3)
lista_final <- list(nombre_materias, notas_materias)`

`#Datos de tipo matrix
m <- matrix( c('x', 'y', 'z', 'a', 'b', 'c'), nrow=2, ncol=3, byrow=TRUE)
m2 <- matrix( c('x', 'y', 'z', 'a', 'b', 'c'), nrow=2, ncol=3, byrow=FALSE)
mn <- matrix( c(10,20,03,15,12,20,08,19,18,19), nrow=5, ncol=2)`

`disney <- c(11,13,11,8,12)
warner <- c(20,20,16,17,22)
peliculas <- matrix(c(warner,disney), nrow=5, ncol=2)
colnames(peliculas) <- c('warner', 'disney')
rownames(peliculas) <- c('2017','2018', '2019', '2020', '2021')`

`#Datos de tipo arreglo
a <- array(c('perros', 'gatos'), dim = c(3,4,2))`

### Operadores en R

Lo operadores que pueden ser utilizados en R son aquellos que ya hemos utilizado en Python, sin embargo en R contamos con operadores adicionales que facilitan las operaciones.

- (+) suma
- (-) resta
- (*) multiplicación
- (/) división
- (%%) módulo
- (%/%) división entera
- (^2) potenciación

### Creando funciones en R

Al igual que Python, en R es posible llevar a cabo la construcción de funciones para asi encapsular y optimizar código, hacer reúso y mejorar nuestros análisis de datos 

`nombre_funcion <- function(var1, var2) {
    operacion1 <- operacion
    operacion2 <- operacion
    resultado = oepracion1 + operacion2
    return(resultado)
}`

R también cuenta con sus propias funciones integradas para hacer cálculos estadísticos sin necesidad de partir de cero.

- Media (mean)
- Raíz cuadrada (sqrt)
- Logaritmo (log(num,base))
- Valor absoluto (abs)
- Exponencial (exp)

### Ejercicios con datos precargados en R Studio

R tiene librerías que permite facilitar el análisis de datos como por ejemplo:

- `tidyr` que permite manipular datos y operarlos 
- `ggplot2` para gráficas en R
- `readxl` leer archivos de excel
- `dplyr`permite operar dataframes

Ejecutamos estos comandos desde el script o desde consola para iniciar la instalación

`install.packages("ggplot2")
install.packages("readxl")
install.packages("tidyr")
install.packages("dplyr")`

Para activar los comando ejecuta desde el script o desde consola

`library(ggplot2)
ibrary(readxl
library(tidyr)
library(dplyr)`

### Interactuando con las librerías

Para importar desde excel a R usa el comando

`data_excel<-read_excel("nombre_archivo")`

Aquí es importante validar la ubicación de la ruta en la que se encuentra la consola antes de importar los datos

Ahora para graficar datos del excel cargado usar la siguiente instrucción:

`ggplot(data=data_excel) +
geom_point(mapping = aes(x=columna, y = columna))`

Para filtrar datos utiliza el siguiente comando2

`variable<-filter(data_excel, columna==valor)`

La función de R que nos permite extraer información de la tabla (Dataframe) es `summarise()`

Ejemplo de operar la media con summarise()

`summarise(data_excel, mean(columna))`

`summarise(data_excel, var(columna))`

`summarise(data_excel, mean=mean(columna), variance=var(columna))`

## Ejercicios de práctica

1. Crea una función que te permita hacer operaciones básicas (Suma, resta, multiplicación y división)
2. Carga un excel con información creada de 10 usuarios ficticios donde pongas nombre, edad, profesion, años de experiencia, ciudad, país, y salario
3. Realiza una gráfica donde se visualice el ingreso mensual según los años de experiencia
4. Captura en una variable todos los usuarios que tengan + de 10 años de experiencia
5. Obten la media (tendencia) de edades de usuarios trabajadores y la varianza

#### Referencias

The R Project for Statistical Computing: https://www.r-project.org/  
R tutorial: https://www.w3schools.com/r/  
R para principiantes: https://bookdown.org/jboscomendoza/r-principiantes4/