# Variables, operadores y funciones en R

In [33]:
Sys.setlocale("LC_ALL", 'en_US.UTF-8')

## Uso de variables tipo escalar

En R existen múltiples manera de asignar valores a una variable

In [1]:
x = 10
x

In [2]:
x <- 10
x

El operador = puede ser usado como instrucción a nivel del prompt o como subexpresión dentro de una lista. Eso sí, no puede ser evaluada como parámetro dentro de una función.

In [16]:
y=10
y

{
    y=20
    y
}

In [18]:
median(y = 1:10)
y

ERROR: Error in median(y = 1:10): unused argument (y = 1:10)


El operador <- puede ser usado como instrucción en cualquier nivel. Sí puede ser evaluado como parámetro dentro de una función.

In [13]:
y <- 10
y

{
    y <- 20
    y
}

In [14]:
median(y <- 1:10)
y

Operadores de comparación lógica

* < para menor que
* \> para mayor que
* <= para menor o igual que
* \>= para mayor o igual que
* == para verificar si variables son iguales
* != no son iguales entre ellas

In [24]:
10 > 5

In [26]:
10 < 5

## Uso de variables tipo vector

El análisis de datos en R se hace generalmente usando vectores, matrices y dataframes

Para definir un vector en R usamos la función combine, la cual se llama con c()

In [27]:
edad = c(35, 37, 30, 45, 40, 36, 45, 32, 52, 42, 30, 48 )
edad

Una vez definido el vector, uno puedo aplicar funciones estadísiticas tales como:

- `mean`: Promedio
- `median`: Mediana
- `sd`: Desviación estándar

In [30]:
mean(edad)
median(edad)
sd(edad)

## Uso de variables tipo matriz

Las variables tipo escalar y vector son útiles a la hora de analizar situaciones con pocos datos. Como iremos viendo a lo largo del curso, la mayoría de los proyectos de análsis de datos requieren usar bases de datos o tablas que contienen múltiples columnas y filas. Una manera de manipular este tipo de datos es usando matrices.

In [113]:
region = c("Arica y Parinacota","Tarapacá","Antofagasta","Atacama","Coquimbo","Valparaíso","Metropolitana de Santiago","Libertador General Bernardo O'Higgins","Maule","Biobío","La Araucanía","Los Ríos","Los Lagos","Aisén del General Carlos Ibáñez del Campo","Magallanes y de la Antártica Chilena")
poblacion = c(308271,205566,551627,292054,714856,1859312,7150480,903248,1073635,2025995,933537,380618,835829,106893,158828)
superficie = c(17446.20,41632.60,126048.80,74806.30,40967.80,12646.28,15547.00,16583.30,30340.30,37068.70,31842.30,18577.60,48583.30,107449.40,1392783.70)

In [114]:
class(region)
class(poblacion)
class(superficie)

In [115]:
chile = matrix(c(poblacion,superficie), ncol=2, byrow=FALSE)
chile

0,1
308271,17446.2
205566,41632.6
551627,126048.8
292054,74806.3
714856,40967.8
1859312,12646.28
7150480,15547.0
903248,16583.3
1073635,30340.3
2025995,37068.7


In [116]:
class(chile)

In [117]:
colnames(chile)=c("poblacion","superficie")
rownames(chile)=region
chile

Unnamed: 0,poblacion,superficie
Arica y Parinacota,308271,17446.2
Tarapacá,205566,41632.6
Antofagasta,551627,126048.8
Atacama,292054,74806.3
Coquimbo,714856,40967.8
Valparaíso,1859312,12646.28
Metropolitana de Santiago,7150480,15547.0
Libertador General Bernardo O'Higgins,903248,16583.3
Maule,1073635,30340.3
Biobío,2025995,37068.7


Una vez que los datos están ordenados en forma matricial, es mucho más fácil responder preguntas tales como

- ¿Cuáles son las regiones con mayor población?
- ¿Cuáles son las regiones más pequeñas en superficie?
- ¿Cuáles son las regiones con la mayor densidad de población por $km^2$?

In [118]:
chile[order(chile[,"poblacion"],decreasing=TRUE),]

Unnamed: 0,poblacion,superficie
Metropolitana de Santiago,7150480,15547.0
Biobío,2025995,37068.7
Valparaíso,1859312,12646.28
Maule,1073635,30340.3
La Araucanía,933537,31842.3
Libertador General Bernardo O'Higgins,903248,16583.3
Los Lagos,835829,48583.3
Coquimbo,714856,40967.8
Antofagasta,551627,126048.8
Los Ríos,380618,18577.6


In [119]:
chile[order(chile[,"superficie"],decreasing=FALSE),]

Unnamed: 0,poblacion,superficie
Valparaíso,1859312,12646.28
Metropolitana de Santiago,7150480,15547.0
Libertador General Bernardo O'Higgins,903248,16583.3
Arica y Parinacota,308271,17446.2
Los Ríos,380618,18577.6
Maule,1073635,30340.3
La Araucanía,933537,31842.3
Biobío,2025995,37068.7
Coquimbo,714856,40967.8
Tarapacá,205566,41632.6


La densidad de población se define como el número de personas por unidad de superficie. En nuestro caso, sería simplemente dividir la columna `poblacion` por `superficie`.

In [120]:
chile[,'poblacion']/chile[,'superficie']

In [121]:
densidad = poblacion/superficie
densidad

Para agregar columnas a una matriz usaremos la función `cbind()`

In [122]:
chile <- cbind(chile, densidad)
chile

Unnamed: 0,poblacion,superficie,densidad
Arica y Parinacota,308271,17446.2,17.6698078
Tarapacá,205566,41632.6,4.937621
Antofagasta,551627,126048.8,4.3762971
Atacama,292054,74806.3,3.9041364
Coquimbo,714856,40967.8,17.4492162
Valparaíso,1859312,12646.28,147.0244214
Metropolitana de Santiago,7150480,15547.0,459.926674
Libertador General Bernardo O'Higgins,903248,16583.3,54.4673256
Maule,1073635,30340.3,35.3864332
Biobío,2025995,37068.7,54.6551403


¿Qué sucede si queremos agregar una nueva columna que tiene datos mixtos, digamos numéricos y caractéres?

In [123]:
codigo_region <- c("XV","I","II","III","IV","V","XIII","VI","VII","VIII","IX","XIV","X","XI","XII")
class(codigo_region)

In [124]:
chile <- cbind(chile, codigo_region)
chile

Unnamed: 0,poblacion,superficie,densidad,codigo_region
Arica y Parinacota,308271,17446.2,17.6698077518313,XV
Tarapacá,205566,41632.6,4.93762099892872,I
Antofagasta,551627,126048.8,4.37629711667227,II
Atacama,292054,74806.3,3.90413641631788,III
Coquimbo,714856,40967.8,17.4492162137093,IV
Valparaíso,1859312,12646.28,147.024421410881,V
Metropolitana de Santiago,7150480,15547.0,459.92667395639,XIII
Libertador General Bernardo O'Higgins,903248,16583.3,54.4673255624634,VI
Maule,1073635,30340.3,35.3864332257756,VII
Biobío,2025995,37068.7,54.65514032054,VIII


In [125]:
class(chile)

¿Que tal si queremos volver a calcular la densidad de población usando las columnas poblacion y superficie?

In [126]:
chile[,'poblacion']/chile[,'superficie']

ERROR: Error in chile[, "poblacion"]/chile[, "superficie"]: non-numeric argument to binary operator


¿Porqué falló la división si antes funcionaba? ¿Habrá sido porque incluimos la columna codigo_region la cual contenia tipos de datos mixtos?

Partamos imprimiendo los tipos de clase de las columnas poblacion y superficie

In [128]:
class(chile[,'poblacion'])
class(chile[,'superficie'])

¿Qué sucedió?

La columna `codigo_region` es un vector que contiene datos de tipo caracter, y al ser incluida a la matriz todos los datos fueron convertidos al tipo de datos más general entre los tipos númerico y caracter: caracter.

Aquí vemos una gran limitación del tipo de datos matriz: No puede almacenar tipos de datos mixtos.

## Uso de listas

Una lista es un vector genérico que puede contener otro tipo de objectos. Una lista puede contener escalares, caracterés, vectores numéricos, etc.

In [138]:
region <- c("Arica y Parinacota","Tarapacá")
poblacion <- c(308271,205566,551627)
superficie <- c(17446.20,41632.60,126048.80)
codigo_region <- c("XV","I","II")

chile = list(region=region, poblacion=poblacion, superficie=superficie, codigo_region=codigo_region)
chile

In [139]:
chile["region"]

In [140]:
chile[c("region","poblacion")]

¿Que tal si queremos calcular la densidad de población?

In [141]:
chile["poblacion"]/chile["superficie"]

ERROR: Error in chile["poblacion"]/chile["superficie"]: non-numeric argument to binary operator


La razón por la cual falla es porque `chile[2]` sigue siendo una lista, y nosotros en verdad queremos acceder directamente al vector numérico. Para ello usamos llave cuadrada doble `[[]]` .

In [142]:
chile[["poblacion"]]/chile[["superficie"]]

Como podemos ver, las listas son un tipo de objeto que puede contener diferentes tipos de datos. La f

## Uso de Data Frame

Un data frame es un tipo de objeto que comparte propiedades entre una lista y una matriz.   data frame is the most common way of storing data in R, and if used systematically makes data analysis easier. Under the hood, a data frame is a list of equal-length vectors. This makes it a 2-dimensional structure,  shares properties of both the matrix and the list. This means that a data frame has names(), colnames(), and rownames(), although names() and colnames() are the same thing. The length() of a data frame is the length of the underlying list and so is the same as ncol(); nrow() gives the number of rows.