## Vectores y matrices

Las estructuras de datos de R, pueden ser organizadas por su *dimensión (1d, 2d o nd)* y si  son **homógeneas ** (todo el contenido debe ser del mismo tipo) o **heterógeneas** (el contenido puede ser de diferente tipo). A partir de esta organización surgen cinco tipos de datos que son usados en el *análisis de datos*.



|          | Homogéneos |  Heterogéneos |
| :------- | :------:   |  -----:       |
| 1d       |  Vector    |  Lista        |
| 2d       |  Matriz    | Data Frame    |
|nd        |  Array     | 


Se debe tener  en cuenta que en R  ningún objeto o estructura tiene dimensión cero . Números o cadenas individuales son  en realidad son vectores de longitud uno. Dado un objeto, la mejor manera de entender su  estructura   es la  utilizar las funciones **str ()**. 

**str ()** es la abreviatura de *estructura* y proporciona  una compacta descripción, legible de cualquier estructura de datos en  R. Mayor información es utilizando `help(str)`.


## Vectores en R

La estructura más común en R es el  **vector**. Los vectores vienen de dos formas: *vectores atómicos y listas*, cada uno de ellos  tienen tres propiedades comunes:

 * Tipo, `typeof()`, (que es).
 * Longitud, `length()`, (cuántos elemento contiene).
 * Atributos, `attributes()` (metadata adicional).

El tipo de dato que debe contener un *vector atómico* debe ser del mismo tipo, los vectores  pueden ser lógicos, numéricos o de caracter. Si mezclamos  datos, R **coerce** los datos a un único tipo. Las *listas* que pueden tener diferentes tipos.

Si usamos la función `is.vector()` retorna el valor booleano  `TRUE` sólo si el objeto es un vector, sin atributos aparte de su nombre. Se debes usar `is.atomic(x) || is.list(x)` para probar si un objeto es un vector.

Los *vectores atómicos* tiene ciertas características interesantes:
    
* Recycling es el alargamiento automatico de vectores de distinta longitud.
* Filtering  es la extracción de subconjuntos de vectores.
* Vectorización se da cuando las funciones son aplicadas componente a componente.


In [3]:
# Ejemplos 
# Se usa la funcion c() para volver un conjunto de elementos como un vector
x <- c(1) # x es un vector de 1 elemento: {1}
print(x)
# Además c() concatena vector con elemento o vector con vector
y <- c(2)
print(y)
z <- c(x,y)
print(z)

[1] 1
[1] 2
[1] 1 2


Dado un vector se puedes determinar su tipo usando `typeof` o verificar si es un tipo específico, con las funciones

* `is.character()`
* `is double()`
* `is.integer()`
* `is.logical()`

o más generalmente con la función  `is.atomic()`.

In [6]:
# Ejemplos
doubles <- c(1.2,2.3,4.5)
is.double(doubles)
integers <- 1:5
is.double(integers)
is.integer(integers)
logicals <- c(T,F,T,F)
is.logical(logicals)

In [8]:
# Agregando y eliminando elementos de los vectores
# Se puede concatenar para agregar elementos
V <- c(1,2,3)
V
V <- c(V,4,5,6)
V
# Se pueden quitar determinados elementos con la funcion setdiff si se sabe los elementos en particular que se deben quitar
Vector <- c(1:10)
Quitar <- c(2*(1:10))
VectorReducido <- setdiff(Vector,Quitar)
VectorReducido
# Para quitar elementos conociendo solo sus índices se puede usar la siguiente sintaxis
Indices <- c(1,2,4,5)
VectorSinIndex <- Vector[-Indices]
VectorSinIndex

In [1]:
# Obteniendo la longitud de un vector
V <- c(1,2,3,4,5,10)
length(V)
# NULL no aumenta el tamaño de los vectores
V <- c(V,NULL)
length(V)
# Los valores no determinados como NA o NaN sí tienen tamaño 1
V <- c(V,NA,NaN)
length(V)

### Recycling

Sea el siguiente ejemplo:

In [5]:
1:5 + 1
1 + 1:5

Qué está pasando con el vector de menor longitud, en el code anterior?.

R, está haciendo **recycling** de manera que la operación continue y se realice . En este ejemplo 
agregamos unos de la longitud del vector ` 1 1 1  1 1 + 1 2 3 4 5`.


In [3]:
# ejemplo
# Se puede dar el recycling correctamente entre los vectores u,v si y solo si length(u) = k*length(v) o k*length(u) = length(v), k es un entero 
# Si no es el caso, se completa y arroja un mensaje de advertencia
1:2 + 2:4

In 1:2 + 2:4: longer object length is not a multiple of shorter object length

In [4]:
# ejemplos
# Los valores boleanos se coercen a enteros
c(T,F) + c(1:10)

In [5]:
#ejemplos
# La funcion de suma '+' no está definida para cadenas. ERROR
c("Hola","GG") + c(" Mundo"," WP")

ERROR: Error in c("Hola", "GG") + c(" Mundo", " WP"): non-numeric argument to binary operator


### Operaciones con vectores

Al ser R un lenguaje de tipo funcional, cada operador incluyendo `+, <-`  es una función y satisface muchas operaciones aritméticas:

In [2]:
# ejemplos
2.4 + 3
"+"(2.4,3) # La suma es una funcion de solo 2 argumentos numericos
# Se pueden sumar vectores elemento por elemento (incluso si es necesario, con recycling)
v <- c(1,2,3,4)
v + c(4,3,2,1)
v

In [3]:
# ejemplos 
# La multiplicacion, division y modulo/residuo se da elemento a elemento
v <- c(1:4)
u <- c(2,3,5,7)
v * c(11,2,4,5)
u / c(2,3,5,6)
u %% c(2:5)

In [11]:
#ejemplos

### Vectorización 

Una de las maneras más eficaces de  alcanzar una mejor velocidad en el código R es el uso de operaciones que están **vectorizadas **. Esto se traduce en que si una función se aplica a un vector en R, en realidad  se aplica individualmente a cada elemento de ese vector. Una interesante lectura de esto es [vectorization in R](http://www.noamross.net/blog/2014/4/16/vectorization-in-r--why.html).


In [12]:
# Ejemplos 

In [13]:
# Ejemplos

In [14]:
# Ejemplos

In [15]:
#Ejemplos

`NA`: Es una constante lógica de longitud 1, el cual contiene un indicador de valores *pérdidos*  que puede ser usado con coerción a otro tipo de vector, que  evaluado en una expresión produce `NA`. Hay constantes `NA_integer_, NA_real_, NA_complex_ y NA_character_ ` de otras estructuras que soportan *valores perdidos*. Todas estas constantes son palabras reservadas de R.

`NULL`: representa el objeto nulo en R: es una palabra reservada. `NULL`` es a menudo devuelto por expresiones y funciones cuyos valores son indefinidos.

In [16]:
# Ejemplos

In [17]:
# ejemplos

In [18]:
# ejemplos

### Filtrado

Una  característica que refleja la naturaleza de lenguaje funcional de R es el del  **filtrado**, que nos permite extraer elementos de un vector que satisfacen ciertas condiciones. 

El filtrado es una de las operaciones más comunes en R, y de uso importante en  análisis de datos que a menudo se centra en  datos que satisfagan ciertas  condiciones:

In [19]:
# Ejemplo

In [20]:
# Ejemplo

## Data frames

Un data frame  es la forma más común de almacenamiento de datos en R, y si se utiliza sistemáticamente en  el análisis de datos como se explica el artículo [datos ordenadados de Hadley Wickman](http://vita.had.co.nz/papers/tidy-data.pdf).

Los data frame  son  una lista de vectores de la misma longitud,  que hace que sea una estructura de dos dimensiones,  que comparte propiedades tanto de las matrices y  de las listas. Esto significa que un data frames  tenga las funciones `names()`, `colnames()` y `rownames()`. La `length()` de una data frame  es la longitud de la lista subyacente y así es el mismo valor  que produce `ncol()`.  `nrow()` da el número de filas.

Se puede tener parte   de un data frame como una estructura de una dimensión (que se comporta como una lista), o una estructura de dos dimensiones (que se comporta como una matriz).


Se puede crear un data frame usando la función `data.frame()` de la siguiente manera:

In [21]:
help(data.frame)
df <- data.frame(x = 1:3, y = c("Python", "R", "C"))
str(df)

'data.frame':	3 obs. of  2 variables:
 $ x: int  1 2 3
 $ y: Factor w/ 3 levels "C","Python","R": 2 3 1


In [22]:
df <- data.frame(
  x = 1:3,
  y = c("Python", "R", "C"),
  stringsAsFactors = FALSE)
str(df)

'data.frame':	3 obs. of  2 variables:
 $ x: int  1 2 3
 $ y: chr  "Python" "R" "C"


Debido a que un `data.frame` es una clase S3, su tipo refleja el vector subyacente utilizado para su construcción: **la lista**. Para comprobar si un objeto es un data.frame, usamos `class()` o una  prueba explícita con `is.data.frame()`:

In [23]:
typeof(df)
class(df)
is.data.frame(df)

Puesto que un data frame es una lista de vectores, es posible para un data frame tener una columna que es una lista:


In [26]:
df <- data.frame(x = 1:3)
df$y <- list(1:2, 1:3, 1:4)
df

x,y
1,"1, 2"
2,"1, 2, 3"
3,"1, 2, 3, 4"


##  Estructuras de programación en R

En R, al igual que en otros lenguajes , hay muchos casos en los que es posible que se  desee ejecutar código de forma condicional o ejecutar código similar repetidamente.

La ejecución condicionada vectorizada a través de la función `ifelse` es también parte de R. Vamos a ver estas estructuras condicionales  así como los tres bucles más simples (`for`, `while` y `repeat`), que de nuevo deben ser razonablemente familiares de otros lenguajes. Debido a la naturaleza vectorizada de R y algunas alternativas más estéticas, estos bucles son menos utilizados en R de lo que se pueda  esperar.

###  Flujo de control

Hay muchas ocasiones en las que no sólo se desea ejecutar una declaración tras otra: se necesita controlar el flujo de ejecución. Normalmente esto significa que sólo desea ejecutar algún código si se cumple una condición, para ello existen algunas formas de control, que pasamos a desarrollar:

### if y else 

La forma más simple de control de flujo es la ejecución condicional usando `if`. `if` toma un valor lógico (más precisamente, un vector lógico de longitud uno) y ejecuta la siguiente instrucción sólo si ese valor es `TRUE`:

In [6]:
# Ejemplo
x <- 5
if(x %% 2 == 0){
    print("Par")
} else{
    print("Impar")
}

[1] "Impar"


###  Vectorizado if

La instrucción estándar `if` toma un único valor lógico. Si pasas un vector lógico con una longitud de más de uno (!no lo hagas!), R te advertirá que has dado varias opciones y sólo se usará la primera:

In [1]:
if(c(TRUE, FALSE)) message("dos opciones")

In if (c(TRUE, FALSE)) message("dos opciones"): the condition has length > 1 and only the first element will be useddos opciones


Dado que gran parte de R es vectorizada, también es vectorizado el control de flujo, en forma de la función `ifelse`. `ifelse` toma tres argumentos. El primero es un vector lógico de condiciones. El segundo contiene valores que se devuelven cuando el primer vector es `TRUE`. El tercero contiene valores que se devuelven cuando el primer vector es `FALSE`. En el siguiente ejemplo, `rbinom` genera números aleatorios de una distribución binomial para simular el lanzamiento de una  moneda :

In [30]:
# Ejemplos

In [31]:
# Ejemplos

###  Bucles

Hay tres tipos de bucles en R: `repeat`, `while`, y `for` y aunque la  vectorización  muestra que nos los necesita tanto en R como en otros lenguajes, todavía pueden ayudar en la ejecución repetida del código.

###  El bucle repeat

El bucle más fácil de dominar en R es `repeat`. Todo lo que hace es ejecutar el mismo código una y otra vez hasta que le diga que se detenga.  En general, si queremos que nuestro código se complete antes del final del universo, es necesario incluir una sentencia `break`.

In [32]:
# Ejemplo

### Bucle while

Los bucles `while` es el bucle `repeat` pero  hacia atrás. En lugar de ejecutar algún código y luego comprobar si el bucle debe terminar, verifica  primero el código  y luego (tal vez) se  ejecuta. Dado que la comprobación ocurre al principio, es posible que el contenido del bucle nunca se ejecute (a diferencia del bucle  `repeat`). El ejemplo siguiente se comporta de forma similar al ejemplo anterior con `repeat`:

In [33]:
# Ejemplo

### Bucle for 

El tercer tipo de bucle se utiliza cuando se sabe exactamente cuántas veces desea que el código se repita. El bucle `for` acepta una variable de iteración y un vector.  La sintaxis  para el bucle `for` es 

```
for (nombre in valores ) expresion
```

El bucle `for`, iteraciona a través de los componentes `nombre` de `valores` uno a la vez. `nombre` toma el valor de cada elemento sucesivo de `valores`, hasta que  se complete sus componentes. 

In [34]:
# Ejemplos

## Ejercicios de clases

1 . La función `sd` calcula la desviación estándar. Cálcula la desvación estándar de los números del `0` al `100`.

In [1]:
# solucion
V <- c(0:100)
ans <- sd(V)
ans

2 . Muestra la demostración de los símbolos matemáticos en los gráficos. Usa la función `demo(plotmath)`.

In [36]:
# solucion

3 . Calcula la tangente inversa de los recíprocos de todos los enteros desde el `1` al `1000`.

In [37]:
# solucion
V <- c(1:1000)
ans <- atan(1/V)
ans

4 . Asigna los números del `1` al `1000` a la variable `x`. Calcula la inversa de la tangente de los recíprocos de `x` como en el ejercicio anterior. Ahora realiza el proceso inverso, calculando el recíprocos de la tangente de `y` y asignando a la variable `z`.

In [38]:
# solucion
x <- c(1:1000)
temp <- atan(1/x)
temp
z <- 1/atan(x)

5 .Compara los variables `x` y `z`, usando `==, identical` y `all.equal`.

In [8]:
# Solucion
x <- c(1:1000)
temp <- atan(1/x)
z <- 1/atan(x)
if(x == z){
    print("Son iguales")
} else{
    print("No son iguales")
}
if(identical(x,z)){ # Compara los valores y su igualdad exacta
    print("Son iguales")
} else{
    print("No son iguales")
}
veredicto <- all.equal(x,z) # Puede devolver una cadena con las diferencias o TRUE si son iguales en el margen de la tolerancia aceptada
veredicto
if(veredicto == TRUE){
    print("Son iguales")
} else{
    print("No son iguales")
}

In if (x == z) {: the condition has length > 1 and only the first element will be used

[1] "No son iguales"
[1] "No son iguales"


[1] "No son iguales"


6 .Encuentra la clase, tipo, modo, y modo de almacenamiento de los siguientes  valores: `Inf, NA, NaN, ""`.

In [1]:
# solucion
class(Inf)
typeof(Inf)
class(NA)
typeof(NA)
class(NaN)
typeof(NaN)
class("")
typeof("")

7 .El n-ésimo número triangular es dado por `n(n -1)/2`. Crea una secuencia de los primero `20` número triangulares. Nombra los elementos del vector que tus has creado con `20` letras del alfabeto. Selecciona los números triángulares donde el nombre es una vocal. Usa la función `letter()` de R.

In [3]:
# solucion
x <- mapply(function(x){return (x*(x-1))/2},c(1:20))
letras <- sample(letters,20,replace=F)
names(x) <- letras
vocales <- c('a','e','i','o','u')
x[intersect(vocales,names(x))]

8 .La función `diag` tiene varios usos, uno de los cuales es tomar un vector como entrada y crea una matriz cuadrada con ese vector en la diagonal. Crear una matriz  `21x21` con la secuencia de `10` a `0` a `11`.

In [42]:
# solucion
v <- c(10:0,1:11)
diag(v)

9 .Al pasar dos argumentos adicionales a `diag`,  se puede especificar las dimensiones de la salida. Crea una matriz de `20x21` con unos en la diagonal principal. Ahora agrega una fila de ceros por encima de esta para crear una matriz cuadrada  `21 x21`, donde los unos se desplazan una fila debajo de la diagonal principal.

In [4]:
# solucion
v <- rep(1,20)
M <- diag(v,nrow=20,ncol=21)
M <- rbind(0,M)
M

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
0,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,1,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,1,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,1,0,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,0,1,0,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,1,0,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,1,0,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,1,0,0,⋯,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,1,0,⋯,0,0,0,0,0,0,0,0,0,0


10 .Crea una variable lista que contenga todos los números cuadrados en el rango de `0` a `9` en el primer elemento, en el rango de `10` a `19 `en el segundo elemento  y así sucesivamente, hasta alcanzar los números cuadrados en el rango de `90` a `99`. Elementos sin números cuadrados deben ser incluidos.

In [44]:
# solucion

11 .R  viene con varios conjuntos de datos integrados, incluyendo conjunto de datos `iris`  recopilados por Anderson y analizados por Fisher . Escribe `iris` para ver el conjunto de datos. Cree un data frame  que consiste de columnas numéricas del conjunto de datos  `iris`  y calcule las medias de sus columnas.

In [45]:
# solucion

12 . Sea el siguiente texto en inglés:

In [46]:
sea_shells <- c(
"She", "sells", "sea", "shells", "by", "the", "seashore",
"The", "shells", "she", "sells", "are", "surely", "seashells",
"So", "if", "she", "sells", "shells", "on", "the", "seashore",
"I'm", "sure", "she", "sells", "seashore", "shells"
)

Utiliza la función `nchar` para calcular el número de letras en cada palabra. Ahora utilize un bucle  sobre las longitudes de palabras posibles, mostrando un mensaje acerca de qué una palabra tienen una longitud dada.

In [3]:
help(all.equal)

0,1
all.equal {base},R Documentation

0,1
target,R object.
current,"other R object, to be compared with target."
...,"Further arguments for different methods, notably the following two, for numerical comparison:"
tolerance,numeric ≥ 0. Differences smaller than tolerance are not reported. The default value is close to 1.5e-8.
scale,numeric scalar > 0 (or NULL). See ‘Details’.
check.attributes,logical indicating if the attributes of target and current (other than the names) should be compared.
use.names,logical indicating if list comparison should report differing components by name (if matching) instead of integer index. Note that this comes after ... and so must be specified by its full name.
all.names,logical passed to ls indicating if “hidden” objects should also be considered in the environments.
check.names,logical indicating if the names(.) of target and current should be compared.
