# Curso de R


Este curso esta diseñado para que de manera introductoria quien lo lea entienda R y todo su potencial.

R es un lenguaje de programación y ambiente de desarrollo para estadísticas y gráficos.

La manera en como funciona es a través del **desarrollo colaborativo**, por lo cual se maneja mucho en "paquetes" o **librerías**.

Cada librería es desarrollada por conocedores del tema o personas interesadas en desarrollar herramientas para uso personal y público, que deciden compartir sus avances.

A raíz de esto, R suele ser complicado de entender ya que no todo está disponible a simple vista como otro software (SPSS, STATA, Minitab).

Adicionalmente, R necesita que el usuario sepa de **manejo de datos** o tenga una noción de ello, ya que hace mucho uso (y es una de sus fortalezas) de data frames.



Existen diversas maneras de conseguir R, una de ellas es a través del portal de CRAN:

https://www.r-project.org/

Pero se han hecho esfuerzos por hacer más amigable al usuario la plataforma que ofrece R, por lo cual tambíen se cuenta con RStudio:

https://www.rstudio.com/products/rstudio/download/#download

El cual cuenta con diversas versiónes de las cuales solo una es gratuita.

Para este curso, si bien vamos a usar R, se recomienda instalar Anaconda, que es un paquete que incluye diversos software y lenguajes de programación como Python, Jupyter (donde esta hecho este documento), RStudio, entre otros.

https://www.anaconda.com/download/

Anaconda fue específicamente diseñado para lo que se conoce como **data science** o ciencias de datos, a lo cual le daremos énfasis en este curso.


# Instalación

1. Bajar Anaconda

Se baja como cualquier otro software.

2. Instalar Anaconda

se instala como cualquier otro software siguiendo el tutorial.

3. Instalar RStudio

Anaconda dentro de su plataforma ofrece la posiblidad de actualizar los paquetes que se usan tanto en R como en Python, así como agregar otras soluciones como RStudio.

![Pantalla Inicial de Anaconda Navigator](anaconda-inicio.png)

Vienen diferentes Apps de inicio como spyder o jupyter, pero es necesario instalar RStudio, lo cual haremos.

![Software instalado y no instalado](anaconda-apps.png)



# R y RStudio

RStudio es un Integrated Development Enviromnet o IDE. Este tipo de software ayuda a que los desarrolladores tengan más a la mano información sobre lo que hacen al ofrecer diversas herramientas en el mismo entorno.
![](rstudio-general.png)


La parte principal es Console y donde se desarrollan Scripts. Los scripts son archivos con instrucciones que se corren y son interpretados por la maquina, en este caso a través de R y su lenguaje de programación.

Los Scripts nos ayudan a organizar algoritmos, archivos, programas, clases, entre otros.
![](rstudio-script.png)

La consola es la parte central de R y de cualquier otro lenguaje de programación, se pueden mandar instruccines linea por linea, lo cual lo hace más complicado de seguir a lo cual la solución son los scripts.

![](rstudio-console.png)

Para darle solución al manejo de scripts, variables, funciones, clases y data frames, existe la ventana de Environment:
![](rstudio-environment.png)

En History se tiene un registro de todo los comandos que ha corrido console, así de todos los mensajes de error y advertencias:
![](rstudio-history.png)

RStudio ofrece la posiblidad de trabajar en base a proyectos, los cuales implican que se manejen diferentes carpetas, archivos, scripts, etc. Para poder administrarlos de manera más eficiente existe la ventana de Files:
![](rstudio-files.png)

También dentro de la misma ventana, por default, vienen las pestañas de Plot, Packages, Help y Viewer, los cuales veremos a lo largo del curso.

# Datos

Una de las fortalezas de R es que puede manejar datos de diversas maneras y manipularlos de acuerdo a como los interpreta, así como a organizarlos según su naturaleza.


## Vectores

Los vectores son la unidad más básica de datos, ya sea que sean de $1 x N$ o $N x 1$ o escalar de $1 x 1$, R reconoce los vectores según lo que contengan, ya sea números enteros $N$, números de punto flotante, decimales, caractéres o valores booleanos (TRUE o FALSE).

In [2]:
a <- c(1,2,3,4,5)
b <- c("Ana","Daniel","Victor", "Ivan")
c <- c(TRUE, FALSE, TRUE)

a
b
c

## Matrices

Las matrices son vectores de tamaño $M x N$, a diferencia del dataframe, todos los valores dentro de una matríz deben de ser de la misma naturaleza (numero, carácter, booleano, etc).

In [9]:
m1 <- matrix(1:20, nrow = 4, ncol = 5)

m1

0,1,2,3,4
1,5,9,13,17
2,6,10,14,18
3,7,11,15,19
4,8,12,16,20


## Arrays

Los arrays son similares a las matrices, solo que contienen más dimensiones, como los cubos de $N x M x P$

## Data Frames

Los data frames son las más usadas dentro de R, ya que ayudan a organizar los datos de diversas maneras, con diferentes valores, así como aplicarles operaciones en conjunto.

In [7]:
a <- c(1,2,3,4)
b <- c("Ana", "Daniel","Victor","Iván")
c <- c("Indicadores Sociodemográficos","Indicadores Económicos","Programación","Investigación Estratégica")

df <- data.frame(a,b,c)
names(df) <- c("id","Nombre","Puesto")

df

id,Nombre,Puesto
1,Ana,Indicadores Sociodemográficos
2,Daniel,Indicadores Económicos
3,Victor,Programación
4,Iván,Investigación Estratégica


## Listas o Lists

Las listas son un conjunto ordenado o no ordenado de *cosas*, sin importar que sean o cual sea su naturaleza.

In [10]:
lista <- c(a, df, m1)

lista

[[1]]
[1] 1

[[2]]
[1] 2

[[3]]
[1] 3

[[4]]
[1] 4

$id
[1] 1 2 3 4

$Nombre
[1] Ana    Daniel Victor Iván  
Levels: Ana Daniel Iván Victor

$Puesto
[1] Indicadores Sociodemográficos Indicadores Económicos       
[3] Programación                  Investigación Estratégica    
4 Levels: Indicadores Económicos ... Programación

[[8]]
[1] 1

[[9]]
[1] 2

[[10]]
[1] 3

[[11]]
[1] 4

[[12]]
[1] 5

[[13]]
[1] 6

[[14]]
[1] 7

[[15]]
[1] 8

[[16]]
[1] 9

[[17]]
[1] 10

[[18]]
[1] 11

[[19]]
[1] 12

[[20]]
[1] 13

[[21]]
[1] 14

[[22]]
[1] 15

[[23]]
[1] 16

[[24]]
[1] 17

[[25]]
[1] 18

[[26]]
[1] 19

[[27]]
[1] 20


## Factores

Los factores, más que un tipo de dato, es una forma de organizarlos de tal manera que las variables nominales sean interpretadas por R como números o factores.

Por ejemplo, al usar género como carácter, el usuarío tendría que considerarlas como tal.


In [12]:
gen <- c(rep("hombre",20), rep("mujer", 30)) 

gen
    

In [13]:
gen.factor <- factor(gen)

gen.factor

In [15]:
summary(gen)

   Length     Class      Mode 
       50 character character 

In [16]:
summary(gen.factor)

# Empezando R

Una de las mayores ventajas de R es su capacidad para manejar datos a gran escala y su facilidad para crear gráficas a partir de ellos. Pero esto viene a un costo para el usuario, haciendolo complejo de aprender por su manera de hacer las cosas en base a comandos  (ya que es un lenguaje de programación basado en C/C++) y al manejo de las diferentes partes en archivos o scripts.

Para ev