# Vectores

Los vectores en Python son secuencias de objetos del mismo tipo (p.e., números). Las columnas de una tabla son, de hecho, vectores (p.e., `iris.petal_length`). Pero no tienen que ser usados exclusivamente como miembros de ellas. En esta sección veremos cómo crear vectores, inspeccionarlos y operar con y sobre ellos.

Hay que tener en cuenta que en Python existen (al menos, y para nuestro interés) tres tipos de vectores distintos:
* Los vectores de Python, que suelen denominarse listas.
* Los vectores de `numpy`, que son arrays unidimensionales.
* Los vectores de `pandas`, i.e, los que componen las columnas de las tablas.

El motivo de esta heterogeneidad es histórica y tiene que ver con `numpy`. `numpy` es un paquete de Python que permite usarlo como un clon de Matlab: introduce vectores, matrices, operaciones matriciales, etc. y es la base de muchas librerías de uso científico en Python. Las listas tradicionales de Python eran inadecuadas para los fines a los que aspiraba `numpy` y, por eso, se desarrollaron estructuras de datos alternativas entre las que hay vectores (o arrays unidimensionales). 

Las matrices (o arrays) de `numpy` son insuficientes para su uso en ciencia de datos: las matrices no son tablas propiamente dichas porque tienen que contener datos homogéneos, mientras que en las tablas puede haber mezcla de columnas de distinto tipo (numéricas, categóricas, etc.). Las tablas de `pandas` son extensiones de los arrays multidimensionales de `numpy` y, en particular, las columnas de las tablas de `pandas` son unas extensiones de los arrays unidimiensionales de `numpy` que se denominan `Series`.

A pesar de esta heterogeneidad, existen operaciones comunes y compartidas por los tres tipos de vectores. Aunque siempre es importante tener en mente estas diferencias.

## Listas en Python

Las listas de Python son colecciones ordenadas e indexadas de elementos simples (p.e., números o cadenas de texto, aunque también pueden ser tablas de Pandas). Pueden contener elementos heterogéneos, pero lo más común es usarlos con elmentos del mismo tipo.

Las operaciones más comunes con listas y que aprenderemos en esta sección son:
* Contar los elementos de un alista
* Acceder a sus elementos
* Añadir y modificar elementos de una lista
* Filtrar listas (es decir, crear listas derivadas con una subselección de sus elementos)
* Aplicar una función a los elementos de una lista



XXX: meter algo parecido a la sección 3.2 de https://physics.nyu.edu/pine/pymanual/html/chap3/chap3_arrays.html

XXX: Introducir los list-comprehensions.

### Creación de listas




### Selección

### Ordenación

### Comprensiones de listas

## Arrays de numpy

XXX estudiar lo común y hacer hincapié en lo diferente

## Series de pandas

XXX estudiar lo común y hacer hincapié en lo diferente

## Creación de vectores

El código siguiente crea dos vectores, uno numérico y otro categórico (del tipo `factor`, que veremos más adelante).

```{r, eval = FALSE}
x <- 1:10
y <- iris$Species
```

Una vez creados estos vectores, aparecerán en el panel de RStudio o si ejecutas `ls()`.

```{block, type='ej'}
Crea el vector que numera las filas de iris (es decir, que contenga los números del 1 hasta el número de filas de `iris`). Nota: este es un ejercicio muy importante sobre el que abundaremos más adelante.
```

Previamente hemos usado el operador `:` para crear secuencias de números enteros. Para construir vectores arbitrarios, podemos usar la función de concatenación, `c`:

```{r, eval = FALSE}
1:5
5:1
c(1:5, 5:1) 
c(1, 5, -1, 4)
c("uno", "dos", "tres")
```

En realidad, `:` es una abreviatura de `seq`:

```{r}
seq(1, 4)
```

Esta función está estrechamente emparentada con `rep`:

```{r}
rep(1:4, 4)
rep(1:4, each = 4)
```

```{block, type='ej'}
Crea el patrón 1, 1.1, 1.2,..., 2. Existen varias maneras de hacerlo. Una de ellas es utilizar el argumento `by` de `seq`.
```

Los siguientes ejemplos ilustran cómo crear patrones más complejos usando `rep`:
```{r, eval = FALSE}
rep(1:4, 2) 
rep(1:4, each = 2)
rep(1:4, c(2,2,2,2))
rep(1:4, times = 4:1)
rep(1:4, c(2,1,2,1)) 
rep(1:4, each = 2, len = 4) 
rep(1:4, each = 2, len = 10) 
rep(1:4, each = 2, times = 3) 
```

```{block, type='ej'}
Selecciona las columnas 1, 2 y 5 de `iris`.
```

```{block, type='ej'}
Selecciona las filas `1:4` y `100:104` de `iris`.
```

```{block, type='ej'}
Usa un vector de texto para seleccionar las columnas `Wind` y `Temp` de `airquality`.
```

```{block, type='ej'}
Crea una tabla que sea la primera fila de `iris` repetida 100 veces. 
```


## Inspección de vectores

Las siguientes funciones, algunas de ellas ya conocidas, sirven para inspeccionar el contenido de un vector:
```{r, eval = FALSE}
plot(x)
length(x)
table(y)         # ¡muy importante!
summary(y)
head(x)
tail(x)
```

La función `table` cuenta los elementos de un vector por valor. Es una función sumamente importante para examinar vectores categóricos:

```{r, eval = FALSE}
table(iris$Species)
```

`summary` ofrece un pequeño resumen del contenido de un vector. De hecho, cuando aplicábamos `summary` a una tabla, obteníamos el `summary` de cada una de sus columnas.

```{block, type='ej'}
En `CO2`, cuenta cuántas filas corresponden a cada tipo de planta. 
```

```{block, type='ej'}
Ejecuta e interpreta `table(table(CO2$conc))`. Nota: `table(table(x))` es una operación muy frecuente y útil.
```



## Selecciones

Para seleccionar elementos de un vector se usa el corchete `[]`. Pero, a diferencia de lo que ocurre con las tablas, como los vectores son objetos unidimensionales, sin coma: 
```{r, eval = FALSE}
x <- x^2
x[1:3] 
x[c(1,3)]
x[x > 25] 
x[3:1] 
x[-(1:2)] 
x[-length(x)]
```

Nótese en el ejemplo anterior el uso (y el efecto) del signo menos y de las condiciones lógicas dentro de `[]`.

```{block, type='ej'}
Selecciona todos los elementos de un vector menos menos los dos últimos.
```

```{block, type='ej'}
Implementa la función `diff` (las diferencias entre cada valor de un vector y el que lo precede) a mano. Nota: la función `diff` existe en R; pruébala en caso de duda.
```

Una propiedad muy importante del corchete es que permite, además de seleccionar, cambiar el contenido de los elementos seleccionados de un vector.
```{r}
z <- 1:10 
z[z < 5] <- 100 
z
```

Reemplazar subselecciones es muy útil: permitirá, por ejemplo, cambiar las edades negativas por un valor con sentido, sustituir los nulos por un determinado valor por defecto, reemplazar los valores que excedan un tope por dicho tope, etc.

El nombre de las columnas de una tabla también es un vector. Por eso, para cambiar el nombre de una columna podemos hacer lo siguiente:
```{r, eval = FALSE}
mi.iris <- iris   # una copia de iris
colnames(mi.iris)[5] <- "Especie"
```

```{block, type='ej'}
Cambia (en una sola expresión) los nombres de las dos primeras columnas de `mi.iris` por su traducción al español.
```

Frecuentemente se quiere muestrear un vector, es decir, obtener una serie de elementos al azar dentro de dicho vector. Para ello se utiliza la función `sample`:

```{r, eval = FALSE}
sample(x, 4) 
sample(x, 100)                  # ¡falla! 
sample(x, 100, replace = TRUE)  # manera correcta
```

La función `sample` trata el vector como una urna y a sus elementos como bolas contenidas en ella que va extrayendo al azar. Obviamente, es incapaz de extraer más elementos de los que contiene la urna. Pero existe el la opción de que el muestreo se realice _con reemplazamiento_, i.e., de modo que cada vez que `sample` extraiga una bola, la reintroduzca en la urna.


```{block, type='ej'}
Muestrea `iris`, es decir, extrae (p.e., 30) filas al azar de dicha tabla. Pista: recuerda que _ordenar_ era _seleccionar ordenadamente_; de igual manera, en una tabla, muestrear será...
```

```{block, type='ej'}
En una provincia la población activa es de un millón de personas. El 10% de ellas está en el paro. Periódicamente el INE hace una encuesta sobre 1000 personas para estimar la tasa de paro. Pero esta encuesta, por estar basada en 1000 personas, está sujeta a error. Puedes tratar de medir ese error de la siguiente manera: crea un vector de longitud 1M con cien mil valores iguales a 1 y el resto, a 0. Extrae una muestra de tamaño 1000 y calcula la proporción de unos. ¿Está cerca del 10%? 
```

```{block, type='ej'}
Repite el ejercicio anterior varias veces. ¿Cómo varían las estimaciones? ¿Qué pasa si encuestas a 10000 personas en lugar de a 1000? ¿Y si encuestas a 100?
```

```{block, type='ej'}
Lee la parte relevante de `?replicate`. ¿Para qué sirve esta función? ¿Puede ser útil para analizar el caso propuesto en los ejemplos anteriores? Nota: la página de ayuda de la función anterior documenta varias funciones relacionadas, pero puedes ignorar por el momento todo lo que no se refiera a la función en cuestión.
```

El muestreo de vectores es fundamental en diversos ámbitos. Por ejemplo, a la hora de realizar los llamados tests A/B^[[`https://es.wikipedia.org/wiki/Test_A/B`](https://es.wikipedia.org/wiki/Test_A/B)] y determinar qué observaciones van al grupo A y cuáles al B.

```{block, type='ej'}
Parte `iris` en dos partes iguales (75 observaciones cada uno) con las filas elegidas al azar (¡y complementarias!).
```


```{block, type='ej'}
Ejecuta `mean(sample(iris\$Sepal.Length, replace = T))` varias veces. Comprueba que obtienes números que se parecen a la media de `iris\$Sepal.Lenght`. Nota: esto es el fundamento de una técnica estadística muy poderosa, el [_bootstrap_](https://en.wikipedia.org/wiki/Bootstrapping_(statistics)), para estimar cómo puede variar una media (i.e., estimar la varianza de una media).
```

## Distribuciones de probabilidad

Es frecuente querer crear vectores que sigan una determinada distribución de probabilidad. Puede hacerse así:
```{r, eval = FALSE}
x.uniforme <- runif(10)
x.normal   <- rnorm(13)
```


```{block, type='ej'}
Casi todas las distribuciones admiten parámetros adicionales. Por ejemplo, la media y la desviación estándar para la distribución normal. Consulta la ayuda de `rnorm` para ver cómo muestrear una variable aleatoria normal con media 1 y desviación estándar 3. Extrae una muestra del 10000 elementos de ella y comprueba que lo has hecho correctamente usando las funciones `mean` y `sd`.
```

Para entender la forma de esas distribuciones, podemos construir el histograma de una muestra, como a continuación:
```{r, eval = FALSE}
hist(rnorm(1000))
hist(runif(1000))
hist(rpois(1000, 5))
```

```{block, type='ej'}
Busca cómo muestrear la distribución gamma.
```

```{block, type='ej'}
Consulta la ayuda de `rnorm`, `runif` y  `rpois`. ¿Qué tienen en común?
```

El ejercicio anterior debería poner de manifiesto cómo en R, asociada a cada distribución de probabilidad hay cuatro funciones cuyos nombres comienzan por las letras `r`, `p`, `d` y `q`. La función que comienza por `r` sirve para muestrear la distribución, como en los ejemplos anteriores.

La función que comienza por `d` es la densidad^[Los conceptos de función de densidad, de probabilidad, etc. son muy importantes, aunque no para lo que sigue en el libro; si estás familiarizado con ellos, te servirá lo que sigue. Si no, puedes ignorarlo en una primera lectura.] de la distribución. Por ejemplo, la función `dnorm` es la famosa campana de Gauss. Se puede representar con la función `curve`:

```{r}
curve(dnorm(x, 0, 2), -8, 8)
```

```{block, type='ej'}
Usa `curve` para representar la densidad de la distribución beta para diversos valores de sus parámetros. Lee `?curve` para averiguar cómo sobreimpresionar curvas y representa la densidad para diversas combinaciones de los parámetros con colores distintos. Puedes comparar el resultado con los gráficos que aparecen en la página de la distribución beta en la Wikipedia.
```

La función que comienza por `p` es la función de probabilidad, que es la integral de la densidad. En concreto, si la función de densidad es $f$, la función de probabilidad, $F$, es

$$ F(x) = \int_{-\infty}^x f(x) dx. $$

Como consecuencia, es una función que crece más o menos suavemente de 0 a 1.

```{r}
curve(pnorm(x, 0, 2), -8, 8)
```

Finalmente, la función cuyo nombre comienza por `q` es la que calcula los cuantiles. Es decir, es la inversa de la función de probabilidad. Por ejemplo, en el gráfico

```{r}
curve(dnorm(x, 0, 2), -8, 8)
abline(v = qnorm(0.1, 0, 2), col = "red")
```

la probabilidad que asigna la normal a la zona que queda a la izquierda de la recta vertical roja es del 10%, valor indicado por el primer argumento de `qnorm`, `0.1`.


## Ordenación

Existen tres funciones fundamentales relacionadas con la ordenación de vectores: `order`, `sort` y `rank`. `sort` ordena los elementos de un vector, i.e., crea una copia de dicho vector con sus elementos ordenados.

```{r}
x <- c(4, 5, 3, 2, 1, 2)
sort(x)           # ordena los elementos del vector
```

La función `order`, que ya vimos cuando ordenamos tablas, es tal que `sort(x)` es lo mismo que `x[order(x)]`. Es decir, devuelve los índices de los elementos del vector de menor a mayor:
```{r}
x
order(x)
x[order(x)]
```

El código anterior muestra cómo para ordernar `x` hay que tomar primero el elemento quinto elemento de `x`; luego, el cuarto; después, el sexto, etc.

La función `rank` indica la posición de los elementos de un vector: el primero, el segundo, etc.
```{r, eval = FALSE}
rank(x)
rank(x, ties = "first")
```

Si `x` contuviese los tiempos de los velocistas en los 100 metros lisos, `rank(x)` nos indicaría quién es el primero en llegar a la meta, quién es el segundo, etc.

```{block, type='nota'}
`rank(x)` es una transformación no lineal de `x` que puede ser útil para normalizar datos en algunos contextos.
```

```{block, type='ej'}
Si `x` contuviese el número de puntos obtenidos en la liga de fútbol por los distintos equipos, ¿cómo usarías `rank` para determinar cuál es el campeón?
```

```{block, type='ej'}
¿Qué otros tipos de _ties_ existen? ¿Qué hacen?
```


```{block, type='ej'}
Comprueba que `rank(x, ties = 'first')` es equivalente a `order(order(x))`.
```


```{block, type='ej'}
Comprueba que `order(order(order(x)))` es equivalente a `order(x)`.
```

```{block, type='ej'}
Ejecuta e interpreta `tail(sort(table(CO2$uptake)))`. ¿Qué utilidad le ves a la expresión anterior?
```


## Operaciones matemáticas y vectorización

R puede ser usado como una calculadora:
```{r}
2+2
x <- 4*(3+5)^2
x / 10
```

En R se puede operar sobre vectores igual que se opera sobre números. De hecho, en R, un número es un vector numérico de longitud 1:
```{r}
c(length(2), length(x))
```

Así que se pueden hacer cosas tales como:
```{r, eval = FALSE}
x <- 1:10
2*x 
2*x + 1
x^2 
x*x 
```

Operaciones como las anteriores están _vectorizadas_, i.e., admiten un vector como argumento y operan sobre cada uno de los elementos. Generalmente, las operaciones vectorizadas son muy rápidas en R. Muchos problemas de rendimiento en R se resuelven, de hecho, utilizando versiones vectorizadas del código ineficiente^[De hecho, uno de los errores más frecuentes de los novatos en R que tienen experiencia previa en lenguajes de programación tales como Java, C o Matlab es utilizar código no vectorizado: blucles `for` y similares. En R se prefiere casi siempre recurrir a la vectorización.].

```{block, type='ej'}
Comprueba que `log` es una función vectorizada aplicándosela a `x`.
```

```{block, type='ej'}
Calcula el valor medio de la longitud de los pétalos de `iris` usando `mean`.
```

```{block, type='ej'}
Repite el ejercicion anterior usando `sum` y `length`.
```

```{block, type='ej'}
Suma un millón de términos de la [fórmula de Leibniz](http://en.wikipedia.org/wiki/Leibniz_formula_for_%CF%80)] para aproximar $\pi$. Pista: crea primero un vector con los índices (del 0 al 1000000) y transfórmalo adecuadamente. 
```

```{block, type='ej'}
Si `x <- 1:10` e `y <- 1:2`, ¿cuánto vale `x * y`? ¿Qué pasa si `y <- 1:3`? 
```

La operación a la que se refiere el ejercicio anterior se denomina _reciclado de vectores_. Para aprender más sobre el reciclado de vectores, puede consultar, por ejemplo,  [`http://www.hep.by/gnu/r-patched/r-lang/R-lang_41.html`](http://www.hep.by/gnu/r-patched/r-lang/R-lang_41.html)].


## Digresión: una calculadora de hipotecas con R

Esta sección incluye una discusión que ilustra el uso de la vectorización en un contexto menos trivial que en los ejemplos de la sección anterior. Como tal, puede omitirse en una primera lectura.

Al cabo de 4 años, 1000 euros depositados al 3% valen
```{r, eval = FALSE}
1000 * (1 + 3 / 100)^4
```

Es sencillo deducir que para recibir 1000 euros dentro de 4 años hay que invertir 
```{r, eval = FALSE}
1000 / (1 + 3 / 100)^4
```
euros ahora al 3%. Esa cantidad es el llamado _valor presente neto_ de esos 1000 euros futuros. El valor presente neto de una determinada cantidad futura depende de tres factores: de la cantidad, del plazo y del tipo de interés. 

El precio actual de una casa es el _valor presente neto_ de todas las cantidades que se pagarán mensualmente a lo largo de la vida de la hipoteca. Si pagas 500 euros al mes durante treinta años y tu hipoteca está al 3%, su valor presente es

$$\sum_{i = 1}^{12*30} \frac{500}{(1 + 0.03 / 12)^i}.$$

En R,
```{r, eval = FALSE}
interes.mensual <- 3 / 12 / 100
meses <- 1:(12*30)
deflactor <- (1 + interes.mensual)^meses    # un vector
deflactor <- 1 / deflactor                  # otro vector
valor.actual <- sum(500 * deflactor)
```

En la expresión anterior hemos construido un vector de meses (desde `1` hasta `12 * plazo`), hemos operado vectorialmente sobre él para obtener los valores presentes de cada mensualidad y, finalmente, los hemos sumado. Técnicamente, es la suma de lo que en bachillerato se conoce como _progresión geométrica_. Ahora vamos a hacer lo contrario: dado un capital, un plazo y un interés, calcular la cuota.

```{r, eval = FALSE}
capital <- 100000 
anyos <- 20 
interes <- 3
interes.mensual <- interes / 12 / 100 
meses <- 1:(anyos*12)
cuota <- capital / sum(1 / (1+interes.mensual)^meses)
```

## Digresión: creación de funciones

En R hay miles de funciones que pueden aplicarse a un vector. Unas cuantas de las más comunes que pueden aplicarse a vectores númericos son:
```{r, eval = FALSE}
fivenum(x)   # los "cinco números característicos" de un vector 
mean(x) 
max(x) 
median(x) 
sum(x) 
prod(x)    
```

Sin embargo, por muchas funciones que tenga R para operar sobre vectores, seguramente falta aquella que resolvería un problema dado: por ejemplo, cómo sumar los cuadrados de unos números. Aunque forme parte de la programación en R, asunto que veremos más adelante, es conveniente adelantar cómo crear nuevas funciones en R. Por ejemplo:

```{r}
x <- 1:10
suma.cuadrados <- function(x) sum(x*x)
suma.cuadrados(x)
```

El código anterior crea una nueva función, `suma.cuadrados` que suma los cuadrados de un vector. La nueva función es un objeto más de R, que aparece en la pestaña `Environment` de RStudio y en los listados de `ls()`. Queda en memoria para ser utilizada posteriormente.

```{block, type='ej'}
Si no existiese `prod` se podría programar: usa `log`, `exp` y `sum` para crear una función, `mi.prod` que multiplique los elementos de un vector (de números, por el momento, $> 0$).
```

```{block, type='ej'}
Crea una función que cuente el número de valores negativos (<0) del vector que se le pase como argumento.
```

Por supuesto, a menudo queremos crear funciones que no se resuelvan en una única línea, como la de arriba. Cuando el _cuerpo_ de la función sea más complejo, hay que encerrarlo en llaves, `{}`.

```{r}
media <- function(x){
 longitud <- length(x)
 suma <- sum(x)
 suma / longitud
}
```


## La función tapply

La función `tapply` _aplica_ (de ahí parte de su nombre) una función a un vector en los subvectores que define otro _vector máscara_:
```{r}
tapply(iris$Petal.Length, iris$Species, mean)
```

En el ejemplo anterior, `tapply` aplica la función `mean` a un vector, la longitud del pétalo, pero de especie en especie. Responde por tanto a la pregunta de cuál es la media de la longitud del pétalo por especie. Es una operación similar a la conocida en SQL como `group by`.

```{block, type='ej'}
Calcula el valor medio de la temperatura en cada mes de Nueva York (usando `airquality`).
```

`tapply` es una de las llamadas funciones _de orden superior_ porque acepta como argumento otra función (`mean` en el caso anterior). Las funciones a las que llaman tanto `tapply` como el resto de las funciones de orden superior pueden tener parámetros adicionales. Por ejemplo, si el vector sobre el que se quiere calcular la media contiene `NA`, el resultado es `NA`. Pero `mean` admite el parámetro opcional `na.rm = TRUE` para ignorar los nulos. Para aplicar no la función `mean` sino `mean` con la opción `na.rm = TRUE` hay que cambiar la llamada a `tapply` así:
```{r, eval = FALSE}
tapply(iris$Petal.Length, iris$Species, mean, na.rm = TRUE)
```

Eso hace lo mismo (pero es mucho más simple) que:
```{r, eval = FALSE}
foo <- function(x) mean(x, na.rm = TRUE)
tapply(iris$Petal.Length, iris$Species, foo)
```

La particularidad de `tapply` y otras funciones de orden superior similares de R es que aquellas opciones adicionales que se incluyen en la llamada a `tapply` después de la función que aplican pasan a esta última.

```{block, type='ej'}
Calcula el valor medio del ozono en cada mes de Nueva York (usando `airquality`).
```

```{block, type='ej'}
Usando `mtcars`, calcula la potencia mediana según el número de cilindros del vehículo.
```

## Resumen y referencias

## Ejercicios adicionales