<img src="Archivos/miad4.png" width=800x>

# Librerías para manejo de datos: `numpy` y `pandas`

En programación, una librería es un conjunto de funcionalidades que ya están escritas y podemos llamar para utilizarlas en nuestros programas. La librería `numpy` nos ofrece la posibilidad de crear arreglos y matrices multidimensionales, lo cual nos permite estructurar datos, con el fin de analizarlos más adelante. Por otro lado, `pandas` es una librería de Python que ofrece la posibilidad de manipular y explorar datos que forma fácil y rápida.

En este tutorial establecemos nociones fundamentales sobre el uso de las librerías `numpy` y `pandas`, para integrarlos en procesos de análisis de datos.

## Requisitos

Para desarrollar este tutorial necesitarás:
* Utilizar estructuras de datos (listas, tuplas, diccionarios).
* Utilizar estructuras de control (`if`, `for`, `while`).

## Objetivos

Al final de este tutorial podrás:

**1.** Utilizar arreglos y operaciones básicas y vectorizadas en `numpy`. <br>
**2.** Crear, consultar y utilizar métodos para explorar y manipular objetos tipo `Series` y `DataFrame` en `pandas`.

## 1. Librería `numpy`
`numpy` es una librería de uso abierto para el lenguaje de Python que permite crear vectores (arreglos) y matrices multidimensionales. Esta librería nos ofrece la posibilidad de llevar a cabo operaciones matemáticas de alto nivel y con una gran velocidad.

Te recomendamos importar la libería `numpy` utilizando el nombre `np` (su alias más frecuentemente usado), como se muestra a continuación.

In [None]:
import numpy as np

### 1.1. Declaración, consulta y operaciones básicas con arreglos
Los arreglos son la estructura principal que nos provee `numpy`. Estos nos permiten guardar información en un contenedor para aplicar operaciones sobre ellos posteriormente. Los arreglos de `numpy` tienen más funcionalidades que las listas nativas de Python.

#### Declaración

Para declarar un arreglo utilizamos el método `array` del paquete `numpy`.

In [None]:
arreglo = np.array([1,2,3,4])

print(arreglo)

#### Consulta

Accedemos a un elemento en un arreglo con la misma sintaxis que consultamos listas. A continuación vemos un ejemplo de cómo acceder al primer elemento del arreglo `arreglo`.

In [None]:
elemento1 = arreglo[0]

print("El primer elemento del arreglo es " + str(elemento1) + ".")

#### Rebanado

Utilizamos la misma notación de las listas nativas de Python para acceder a una porción de un arreglo. A continuación vemos un ejemplo de cómo acceder a los últimos dos elementos del arreglo `arreglo`.

In [None]:
porcion_arreglo = arreglo[-2:]

print(porcion_arreglo)

#### Operaciones básicas con arreglos: agregar y eliminar elementos

Revisemos como añadir un elemento a un arreglo. Para esto, debemos especificar el arreglo y el elemento que queremos añadir al final del mismo.

In [None]:
arreglo = np.append(arreglo, 5)

print(arreglo)

Ahora, revisemos como eliminar un elemento de un arreglo. Para esto, debemos especificar el arreglo y la posición del elemento que queremos eliminar.

In [None]:
arreglo = np.delete(arreglo, 1)

print(arreglo)

### 1.2. Métodos comunes con arreglos en `numpy`

La ventaja de utilizar arreglos de `numpy` es que estos tienen un gran número de métodos que nos permiten llevar a cabo diversos tipos de análisis. A continuación, definiremos un arreglo de tipo numerico e implementaremos algunos de los métodos más utilizados. Recomendamos que revises la bibliografía para expandir el conocimiento acerca de otros métodos.

In [None]:
arreglo = np.array([1,2,3,4])

#### Suma
Calcula la suma de todos los elementos de un arreglo, siempre y cuando todos sean de tipo numerico.

In [None]:
suma = arreglo.sum()

print("La suma de todos los elementos es " + str(suma) + ".")

#### Promedio
Calcula el promedio de todos los elementos de un arreglo, siempre y cuando todos sean de tipo numerico.

In [None]:
promedio = arreglo.mean()

print("El promedio de todos los elementos es " + str(promedio) + ".")

#### Máximo y mínimo
Calcula el máximo y mínimo elemento dentro de un arreglo, respectivamente, siempre y cuando todos los elementos sean de tipo numerico.

In [None]:
maximo = arreglo.max()

print("El máximo elemento es " + str(maximo) + ".")

In [None]:
minimo = arreglo.min()

print("El minimo elemento es " + str(minimo) + ".")

#### Concatenar
Concatena dos o más arreglos en uno.

In [None]:
arreglo_1 = np.array([1,2,3,4])
arreglo_2 = np.array([5,6,7,8])

arreglo_concat = np.concatenate((arreglo_1, arreglo_2))

print(arreglo_concat)

### 1.3. Operaciones básicas sobre vectores con `numpy`

Otra gran funcionalidad que nos provee `numpy` es la posibilidad de realizar operaciones vectoriales de una manera sencilla y rápida. Para esto, veremos como crear matrices con `numpy`.

#### Matrices

`numpy` provee la posibilidad de crear matrices multidimensionales a las cuales les podemos aplicar múltiples operaciones. La forma de crearlas en `numpy` es la siguiente:

In [None]:
matriz = np.array( [ [1,2,3], [4,5,6] ] )
matriz

Creemos dos matrices para aplicarles algunas operaciones:

In [None]:
mat_1 = np.array([[1,2], [3,4]])
mat_1

In [None]:
mat_2 = np.array([[1,1], [4,4]])
mat_2

Ahora, procedamos a ver operaciones con matrices en `numpy`:

#### Suma término a término

Para sumar cada elemento de `mat_1` con el elemento ubicado en la misma posición de `mat_2`, utilizamos el operador `+`.

In [None]:
suma_matrices = mat_1 + mat_2
suma_matrices

#### Multiplicación término a término

Para multiplicar cada elemento de `mat_1` con el elemento ubicado en la misma posición de `mat_2`, utilizamos el operador `*`.

In [None]:
producto_matrices = mat_1 * mat_2
producto_matrices

#### Multiplicación matricial

Para realizar una multiplicación matricial en `numpy` utilizamos el método `dot()`.

In [None]:
mat_1_por_mat_2 = mat_1.dot(mat_2)
mat_1_por_mat_2

In [None]:
mat_2_por_mat_1 = mat_2.dot(mat_1)
mat_2_por_mat_1

#### Matriz transpuesta

Para transponer una matriz en `numpy` utilizamos el método `transpose()`.

In [None]:
trans_matriz = mat_1.transpose()
trans_matriz

#### Expresión lógica término a término

Podemos aplicar los operadores lógicos `&`, `|` y `~` (similares a `and`, `or` y `not`, respectivamente) a dos objetos tipo `array` de `numpy` (que contengan valores de tipo `bool`), con el fin de evaluar término a término la condición lógica.

In [None]:
arreglo_booleano = np.array([True, False, False]) | np.array([True, True, False])
arreglo_booleano

## 2. Librería `pandas`

`pandas` es una librería abierta de Python que permite llevar a cabo manipulación y exploración de datos de forma sencilla. Sus estructuras básicas son llamadas `Series` y `DataFrame`, y nos permiten almacenar, limpiar y analizar datos.

Te recomendamos importar la libería `pandas` utilizando el nombre `pd` (su alias más frecuentemente usado), como se muestra a continuación.

In [None]:
import pandas as pd

### 2.1. Objeto `Series`
Un `Series` es un objeto unidimensional similar a una columna de una matriz, en el cual podemos almacenar datos. Un `Series` esta compuesto por índices y datos almacenados.

| Índice | Datos |
|:-:|:-:|
| 1      | "A"   |
| 2      | "B"   |
| 3      | "C"   |
| 4      | "D"   |
| 5      | "E"   |

#### Declaración
Podemos declarar un `Series` a partir de diferentes estructuras de datos. A continuación, vemos un ejemplo de declaración a partir de una lista:

In [None]:
serie = pd.Series(['A','B','C','D','E'])

serie

También podemos usar diccionarios para declarar `Series`, a continuación vemos un ejemplo de cómo hacerlo:

In [None]:
serie = pd.Series({"Colombia":"Bogotá", "Argentina": "Buenos Aires", "Peru": "Lima", "Mexico": "Ciudad de Mexico"})

serie

Finalmente, veamos cómo darle valor a los índices y nombrar el `Series`:

In [None]:
serie = pd.Series(['A','B','C','D','E'], index = [10,20,30,40,50], name = "Mi_serie")

serie

#### Consulta

Para acceder a un elemento de un `Series` podemos hacer uso de su posición o del valor de su índice, utilizando los atributos `iloc` o `loc`, respectivamente. A continuación, veremos un ejemplo de cómo acceder al segundo elemento según su posición.

In [None]:
elem_2 = serie.iloc[1]
elem_2

También veremos un ejemplo de cómo acceder al segundo elemento según su índice.

In [None]:
elem_2 = serie.loc[20]
elem_2

#### Rebanado

De manera similar a cómo accedimos a un elemento, también podemos acceder a una porción de un `Series` utilizando los atributos `iloc` y `loc`, y la sintaxis que ya hemos aprendido anteriormente para rebanar. Veremos cómo obtener los primeros dos elementos del `Series` `serie` usando un rebanado por posición:

In [None]:
parte_serie = serie.iloc[0:2]

parte_serie

### 2.2. Objeto `DataFrame`

Un `DataFrame` es una estructura de datos mutable de dos dimensiones: filas y columnas. Usualmente utilizamos un `DataFrame` para registrar observaciones de variables o características. A cada observación le corresponde una fila y a cada característica una columna.

Esta convención no es exclusiva de Python, generalmente los programas para el análisis de datos se manejan de la misma manera.

Podemos ver en la siguiente tabla un ejemplo de como ordenamos observaciones en una tabla o `DataFrame`

|Índice| <center>Nombre</center>    | <center>Sexo</center>      | Estatura (metros) |
|---|:-----------:|-----------|:-------------------:|
| 0 | Alejandro | Masculino | 1.70              |
| 1 | Esteban   | Masculino | 1.75              |
| 2 | Manuela   | Femenino  | 1.69              |
| 3 | Diego     | Masculino | 1.60              |
| 4 | Alejandra | Femenino  | 1.65              |
| 5 | Paula     | Femenino  | 1.55              |

#### Declaración
Podemos declarar un `DataFrame` a partir de diferentes estructuras de datos. A continuación, vemos un ejemplo de declaración a partir de una listas:

In [None]:
l1 = ["Jorge", 28, "Bogotá"]
l2 = ["Laura", 37, "Lima"]

df = pd.DataFrame([l1,l2], index = ["Persona 1", "Persona 2"], columns = ["Nombre", "Edad", "Ciudad Residencia"])

df

También podemos declarar un `DataFrame` a partir de múltiples `Series`.

In [None]:
s1 = pd.Series({"Pais":"Colombia", "Capital": "Bogotá"})
s2 = pd.Series({"Pais": "Argentina", "Capital": "Buenos Aires"})
s3 = pd.Series({"Pais": "Peru", "Capital": "Lima"})

df = pd.DataFrame([s1,s2, s3], index = ["Pais 1", "Pais 2", "Pais 3"])

df

#### Consulta

De manera similar al filtrado por posiciones de un `Series`, para acceder a uno o más valores dentro de un `DataFrame`, podemos hacer uso de su posición, del nombre de su índice o del nombre de su columna.

Los atributos `loc` y `iloc` son estructuras iterables que nos permiten filtrar filas y columnas de manera simultánea.

Por ejemplo, podemos utilizar los objetos `filas` y `columnas` para indicar las posiciones deseadas, como se muestra a continuación:

```python
df.iloc[filas, columnas]
```

Si queremos seleccionar las primeras $n$ filas y las columnas de la $m$ en adelante, podemos hacerlo de la siguiente manera:

```python
df.iloc[ :n, m: ]
```

A continuación accedemos a los valores de la columna llamada `"Pais"`.

In [None]:
paises = df["Pais"]

paises

Veamos ahora como acceder a los valores de una fila utilizando su posición.

In [None]:
primer_pais = df.iloc[0]

primer_pais

También, podemos acceder a esta misma información utilizando el nombre del índice de la fila consultada.

In [None]:
primer_pais = df.loc["Pais 1"]

primer_pais

Finalmente, accedemos a un elemento en específico utlizando el nombre de su índice y su columna.

In [None]:
capital_pais_1 = df.loc["Pais 1", "Capital"]

capital_pais_1

#### Rebanado

De manera similar a cómo accedimos a un elemento, también podemos acceder a una porción de un `DataFrame` utilizando los atributos `iloc` y `loc`, y la sintaxis que ya hemos aprendido anteriormente para rebanar. Veremos cómo obtener las primeras dos filas del `DataFrame` `df` usando un rebanado por posición:

In [None]:
filas_df = df.iloc[0:2]

filas_df

A continuación mostramos como obtener la segunda columna del `DataFrame`.

In [None]:
columnas_df = df.iloc[:,1:2]

columnas_df

Además, veamos como obtener la porción que contiene únicamente la capital de los dos primero países.

In [None]:
porcion_df = df.iloc[0:2, 1:2]

porcion_df

Si las posiciones que queremos rebanar no son consecutivas, `pandas` nos permite indicarlas en una lista.
A continuación, vemos una manera de mostrar únicamente la primera y última fila de un `DataFrame`.

In [None]:
df.iloc[ [0, df.shape[0] - 1], : ]

### 2.3. Declaración de un `Series` o un `DataFrame` desde un archivo
Un `Series` y un `DataFrame` también pueden ser declarados a partir de archivos externos, tales como archivos de Excel (.xlsx), CSV (.csv), JSON (.json) y muchos más.
Para declarar un `DataFrame` a partir de un archivo de Excel usamos la siguiente sintaxis:

In [None]:
df = pd.read_excel("Archivos/ArchivoSoporteS3TU1.xlsx")

df

La forma en la que se leen otros tipos de archivos es completamente análoga a esta. Por ejemplo:

* CSV: `pd.read_csv("Nombre archivo")`
* JSON: `pd.read_json("Nombre archivo")`

### 2.4. Exploración de los objetos `Series` y `DataFrame`

A continuación, implementamos algunos de los métodos más utilizados para explorar `Series` y `DataFrame` utilizando la librería `pandas`. Recomendamos que revises la documentación oficial de `pandas` para expandir el conocimiento acerca de otros métodos.

* `head`:
muestra las primeras n filas.

In [None]:
df.head(5)

* `tail`:
muestra las últimas n filas.

In [None]:
df.tail(5)

* `columns`: muestra los nombres de las columnas del `DataFrame`.

In [None]:
df.columns

* `info`: muestra la información general del `DataFrame`.

In [None]:
df.info()

* `describe`: muestra medidas de tendencia de las columnas numéricas del `DataFrame`.

In [None]:
df.describe()

* `dtypes`: muestra el tipo de dato de cada columna del `DataFrame`.

In [None]:
df.dtypes

* `unique`: muestra los datos únicos de una columna del `DataFrame`.

In [None]:
df["Ciudad Residencia"].unique()

* `max`: muestra el valor máximo de una columna de un `DataFrame`.

In [None]:
df["Edad"].max()

* `min`: muestra el valor minimo de una columna de un `DataFrame`.

In [None]:
df["Edad"].min()

* `sum`: muestra la suma de todos los valores de una columna en específico.

In [None]:
df["Ingresos"].sum()

* `mean`: muestra el promedio de todos los valores de una columna en específico.

In [None]:
df["Ingresos"].mean()

### 2.5. Manipulación de `Series` y `DataFrame`

A continuación, implementaremos algunos de los métodos más utilizados para manipular `Series` y `DataFrame` utilizando la librería `pandas`. Recomendamos que revises la documentación oficial de `pandas` para expandir el conocimiento acerca de otros métodos. A continuación crearemos un `DataFrame` que contiene información personal de tres personas:

In [None]:
persona_1 = ["Jorge","Suaréz", 28, "Bogotá"]
persona_2 = ["Laura","Poveda", 37, "Lima"]
persona_3 = ["Pablo", "Goméz", 30, "Lima"]
df2 = pd.DataFrame([persona_1, persona_2, persona_3], columns=["Nombre", "Apellido", "Edad", "Ciudad"])

df2

* `set_index`: permite establecer una columna como índice de un `DataFrame`.

In [None]:
df2.set_index("Nombre")

* `drop`: permite eliminar filas o columnas de un `DataFrame`.

Eliminar filas por posición:

In [None]:
df2.drop([0,2])

Eliminar columnas por nombre:

In [None]:
df2.drop(columns = ["Ciudad"])

* `rename`: permite renombrar elementos de un `DataFrame`.

In [None]:
df2.rename(columns = {"Ciudad": "Residencia"})

## Créditos

__Autor(es)__: Camilo Falla Moreno, Juan David Reyes, Diego Alejandro Cely Gomez
 
__Fecha última actualización__: 06/08/2021