![imagenes](logo.png)

# C01. Matrices y tablas de datos

Las matrices y los dataframes (tablas de datos) son los objetos mas importantes con los cuales trabajamos en Estadística y Ciencia de Datos. Se trata de estructuras donde tenemos la información cruda acerca de nuestro fenómeno de estudio.

| Name     | Age | City          | Score |
|----------|-----|---------------|-------|
| Alice    | 24  | New York      | 88    |
| Bob      | 27  | Los Angeles   | 92    |
| Charlie  | 22  | Chicago       | 85    |
| David    | 32  | Houston       | 95    |
| Eve      | 29  | Phoenix       | 90    |


Para trabajar con ellas, tanto **R** como **Python** tienen *paqueterías especiales* con las cuales trabajar.

En **R** seguiremos estos pasos:

```r
install.packages("tidyverse")
library(tidyverse)
```

En **Python** seguiremos estos pasos:
```python
pip install numpy
pip install pandas
import numpy as np
import pandas as pd
```

![imagenes](im01.png)

## Vectores de R y listas de Python

La manera más sencilla de entender matrices desde cero es a través de vectores de R y listas de Python. Estos objetos no son otra cosa más que ordenamientos indexados de objetos en forma de *línea recta*.

Esto significa que colocamos datos en línea recta donde importa el orden: hay un primer dato; luego un segundo dato; etc...

Y además, el ser indexado significa que podemos mandar a llamar cada uno de los elementos por su posición en la recta: puedo mandar a llamar al primer elemento; puedo mandar a llamar al segundo elemento; etc...

En **R** la sintaxis para crear un vector de n elementos es 
```r
nombre_del_vector = c(elemento_1, elemento_2,...,elemento_n)
```

En **Python** la sintaxis para crear una lista de n elementos es 
```python
nombre_de_lista = [elemento_1, elemento_2,...,elemento_n]
```

Y podemos mandar a llamar a sus elementos mediante la posición que deseamos obtener junto con el nombre del vector o la lista.

En **R**
```r
nombre_del_vector[3] #nos devuelve el elemento en la posición 3 del vector
```

En **Python**
```python
nombre_de_lista[3] #nos devuelve el elemento en la posición 4 de la lista ya que python cuenta desde 0
```

**Ejemplo.**

En **R**, si quiero el tercer elemento de los nombres "Alicia","Juan","Rodrigo","Raúl","Ricardo":
```r
personas = c("Alicia","Juan","Rodrigo","Raúl","Ricardo","José")
personas[3] 
```

En **Python**, si quiero el tercer elemento de los nombres "Alicia","Juan","Rodrigo","Raúl","Ricardo":
```r
personas = ["Alicia","Juan","Rodrigo","Raúl","Ricardo","José"]
personas[2]
```

## Matrices

A diferencia de los vectores y las listas, las matrices son objetos de dos dimensiones. Es decir, tienen filas y columnas, tal como una tabla de datos con ciertas diferencias sutiles que iremos encontrando más adelante.

En **R** lo hacemos con la función ``matrix``
```r
nombre_matriz = matrix(vector_de_datos,nrow)  #nrow es el número de filas que quieres; también puedes utilizar ncol para indicar las columnas
```

En **Python** lo hacemos con la función ``np.array``
```python
nombre_matriz = np.array(lista_de_datos).reshape(nrow,ncol)  #nrow es el número de filas que quieres; también puedes utilizar ncol para indicar las columnas
```

**Ejemplo.**

En **R**
```r
matriz_nombres = matrix(personas,2)
```

En **Python**
```python
matriz_nombres = np.array(personas).reshape(3,2)
```

Hay dos características de gran importancia que nos van a interesar saber acerca de las matrices: de qué tipo son los datos que tiene, y cómo están acomodados (cuántas filas y columnas hay).

En **R**, lo hacemos así:
```r
typeof(nombre_matriz)
dim(nombre_matriz)
```

En **Python**, lo hacemos así:
```python
nombre_matriz.dtype
nombre_matriz.shape
```
**Ejemplo.**

En **R**
```r
typeof(matriz_nombres)
dim(matriz_nombres
```

En **Python**
```python
matriz_nombres.dtype
matriz_nombres.shape
```

### Indexado y selección en matrices

Como dijimos antes, las listas y vectores son colecciones *rectas* de elementos ordenados, de modo que podemos elegir a sus elementos utilizando un índice. Lo mismo sucede con las matrices. La diferencia fundamental es que, como las matrices tienen dos dimensiones, entonces utilizan doble índice: uno para indicar fila y otro para indicar columna.



Consideremos la siguiente matriz

|      |      |      |
|---------------|---------------|---------------|
|     1.2345    |     2.3456    |     3.4567    |
|     4.5678    |     5.6789    |     6.7890    |
|     7.8901    |     8.9012    |     9.0123    |
|    10.1234    |    11.2345    |    12.3456    |

```r
# En R:
matriz <- matrix(c(1.2345, 2.3456, 3.4567,4.5678, 5.6789, 6.7890,7.8901, 8.9012, 9.0123, 10.1234, 11.2345, 12.3456), 
  nrow = 4, byrow = TRUE)
```

```python
matriz = np.array([1.2345, 2.3456, 3.4567,
                   4.5678, 5.6789, 6.7890,
                   7.8901, 8.9012, 9.0123,10.1234, 11.2345, 12.3456]).reshape(4,3)
```

Tanto en **R** como en **Python**, para obtener un elemento de una matriz, SIEMPRE INDICAMOS PRIMERO EL NÚMERO DE FILA Y LUEGO EL NÚMERO DE COLUMNA. **Pero nuevamente, considera que en Python se comienza a contar desde 0**

**Ejemplo.** Obtengamos el valor 6.7890 de la matriz anterior mediante indexado. Esto significa obtener el elemento de la segunda fila y tercer columna

En **R**
```r
matriz[2,3]
```

En **Python**
```r
matriz[1,2]
```

También podemos extraer submatrices de la matriz original especificando límites: *quiero la submatriz formada por las filas desde tal hasta tal y las columnas desde cual hasta cual*

No obstante, nuevamente en Python, se debe tener cuidado: al límite hasta el que vas a llegar **siempre se le resta un 1**

**Ejemplo.** Obtén la siguiente submatriz

|      |      |      |
|---------------|---------------|---------------|
|     1.2345    |     2.3456    |     3.4567    |
|     **4.5678**    |     **5.6789**    |     6.7890    |
|     **7.8901**    |     **8.9012**    |     9.0123    |
|    **10.1234**    |    **11.2345**    |    12.3456    |



En **R**:
```r
matriz[2:4,1:2]
```

En **Python**
```python
matriz[1:4,0:2]
```

## Dataframes

Una vez que hemos entendido cómo se gestionan las matrices, podemos pasar a estudiar las tablas de datos: dataframes.

La diferencia principal entre las matrices y los dataframes radica en las columnas. Más explícitamente: en las matrices, todos los datos son del mismo tipo (texto, números, fechas); en tanto que en los dataframes, todos los datos de una misma columna son del mismo tipo. Por ejemplo, puedes tener una columna de textos, otra columna de fechas, otra columna de números, etc.

Es importante comentar que en **R**, podemos pensar a los dataframes como colecciones de columnas, donde las columnas son vectores como los que vimos al inicio del capítulo. Eso los vuelve muy fácil de manipular.

Por otra parte, **Python** es más complejo en ese sentido. Las columnas de los dataframes son llamadas *series*, que son un tipo especial de lista (como las que vimos al prinicipio).

En cualquier caso, las columnas, al ser vectores o listas especiales (series), son colecciones ordendas *en forma de línea recta* y por lo tanto admiten indexado.

Pero una gran y útil propiedad de los dataframes es que las columnas tienen nombre, y podemos utilizar dichos nombres para mandar a llamarlas.



### Creación de dataframes

Consideremos la siguiente tabla:

| Name     | Age | City          | Score |
|----------|-----|---------------|-------|
| Alice    | 24  | New York      | 88    |
| Bob      | 27  | Los Angeles   | 92    |
| Charlie  | 22  | Chicago       | 85    |
| David    | 32  | Houston       | 95    |
| Eve      | 29  | Phoenix       | 90    |

La manera más sencilla de crear un dataframe desde cero es indicando el nombre de la columna y luego la colección de datos que formarán dicha columna.

En **R**
```r
tabla <- data.frame("Name" = c("Alice", "Bob", "Charlie", "David", "Eve"),
                    "Age" = c(24, 27, 22, 32, 29),
                    "City" = c("New York", "Los Angeles", "Chicago", "Houston", "Phoenix"),
                    "Score" = c(88, 92, 85, 95, 90))
```

En **Python**
```python
tabla = pd.DataFrame({"Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
                      "Age": [24, 27, 22, 32, 29],
                      "City": ["New York", "Los Angeles", "Chicago", "Houston", "Phoenix"],
                      "Score": [88, 92, 85, 95, 90]})
```


Y como dijimos antes, podemos mandar a llamar columnas mediante su nombre: ``tabla["City"]``

O incluso mandar a llamar solo algunas columnas. Para ello, requerimos utilizar un vector de nombres de columnas o una lista de nombres de columnas:

En **R**
```r
tabla[c("City","Name")]
```

En **Python**
```python
tabla[["City","Name"]]
```
**Observación.**

En **Python**, cuando mandas a llamar una sola columna, podrás ver que te aparece información extra. Esto se debe a que las columnas de un dataframe son *series*. Esa información extra nos dice el tipo de datos que forman la columna (``int64`` para enteros, ``object`` para textos, etc).

```python
tabla["city"]
```

A su vez, las filas de un dataframe también pueden tener un nombre. Para verlo, observemos el dataframe tanto en **R** como en **Python**:

![imagenes](im02.png)

Observa que, en ambos casos, a la izquierda aparecen una serie de números. Esto es lo que se conoce como *índices* del dataframe. En cristiano: son los nombres de las filas.

Estos nombres pueden ser fácilmente modificados con vectores o listas.

En **R**
```r
rownames(tabla) = c("stu01","stu02","stu03","stu04","stu05")
```

En **Python**
```python
tabla.index = ["stu01","stu02","stu03","stu04","stu05"]
```

Observemos el resultado:

![imagenes](im03.png)