## Introducción a la manipulación de datos con Pandas (Parte I)

## Objetivos

Al final de esta sesión habrás:

**1.** Conocer las estructuras de datos en `pandas`. <br>
**2.** Comprender el uso de `pandas` para operaciones básicas. <br>

## 1. Librería `pandas`
`Pandas` es una librería abierta de Python que permite llevar a cabo manipulación y exploración de datos de forma sencilla. Sus estructuras básicas son llamadas `Series` y `DataFrame`, y nos permiten almacenar, limpiar y analizar datos.<br>
Es recomendable importar la libería `pandas` utilizando el nombre `pd` (su alias más frecuentemente usado), como se muestra a continuación.

In [1]:
import pandas as pd

### 1.1. Objeto `Series`
Un `Serie` es un objeto unidimensional similar a una columna de una matriz, en el cual podemos almacenar datos. Una `Serie` esta compuesta por índices y datos almacenados.


| Índice | Datos |
|:-:|:-:|
| 1      | "A"   |
| 2      | "B"   |
| 3      | "C"   |
| 4      | "D"   |
| 5      | "E"   |

#### Declaración
Podemos declarar una `Serie` a partir de diferentes estructuras de datos. A continuación, vemos un ejemplo de declaración a partir de una lista:

##### Ejemplo 1. Declaración basada en una lista

In [2]:
# Ejemplo 1
serie = pd.Series(['A','B','C','D','E'])
serie

0    A
1    B
2    C
3    D
4    E
dtype: object

##### Ejemplo 2. Declaración basada en un rango de datos

In [3]:
# Ejemplo 2
Numeros = range(50, 70, 2) 
Numeros_serie = pd.Series(Numeros)
Numeros_serie

0    50
1    52
2    54
3    56
4    58
5    60
6    62
7    64
8    66
9    68
dtype: int64

También podemos usar diccionarios para declarar `Series`, a continuación vemos un ejemplo de cómo hacerlo:

In [4]:
serie_1 = pd.Series({"Colombia":"Bogotá", "Argentina": "Buenos Aires", "Peru": "Lima", "Mexico": "Ciudad de Mexico", "Uruguay": "Montevideo"})
serie_1

Colombia               Bogotá
Argentina        Buenos Aires
Peru                     Lima
Mexico       Ciudad de Mexico
Uruguay            Montevideo
dtype: object

Finalmente, vemos cómo darle valor a los índices y nombrar la `Serie`:

In [5]:
serie_2 = pd.Series(['A','B','C','D','E'], index = [10,20,30,40,50], name = "Mi_serie")
serie_2

10    A
20    B
30    C
40    D
50    E
Name: Mi_serie, dtype: object

#### Componentes de un objeto 'Serie'
Los dos elementos que compoenen una `Serie` son, su índice (`index`) y sus valores (`values`).

In [6]:
# Índices
print(Numeros_serie.index)

# Valores
print(Numeros_serie.values)

RangeIndex(start=0, stop=10, step=1)
[50 52 54 56 58 60 62 64 66 68]


#### Modificación de Índice
Una de las grandes ventajas de una serie con respecto a un objeto de tipo `list` o `numpy array`, es la posibilidad de asignar un índice a la medida y gusto de quien lo esté construyendo. Incluso existen índices múltiples.

In [7]:
Numeros_en_texto = ['primero','segundo','tercero','cuarto','quinto','sexto','séptimo','octavo','noveno','décimo']
Numeros_serie_2 = pd.Series(Numeros,index=Numeros_en_texto)
Numeros_serie_2

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64

#### Consulta

Para acceder a un elemento de una `Serie` podemos hacer uso de su posición o del valor de su índice, utilizando los atributos `iloc` o `loc`, respectivamente. A continuación, veremos un ejemplo de cómo acceder al segundo elemento según su posición.

Documentación en Pandas:
- **iloc:** https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html 
- **loc:** https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html 

#### Ejemplo 1.  Llamado básico por índice

In [8]:
Numeros_serie_2['quinto']

58

#### Ejemplo 2.  Atributo `loc`

In [9]:
Numeros_serie_2.loc['quinto']

58

#### Ejemplo 3. Consulta por posiciones

A continuación, vemos un ejemplo de cómo acceder al segundo elemento según su posición.

In [10]:
# Recordamos la serie creada con anterioridad
serie = pd.Series(['A','B','C','D','E'], index = [10,20,30,40,50], name = "Mi_serie")
print(serie)
# Seleccionemos un elemento de la Serie a partir de su posición.
elem_2 = serie.iloc[1]
elem_2

10    A
20    B
30    C
40    D
50    E
Name: Mi_serie, dtype: object


'B'

También vemos un ejemplo de cómo acceder al segundo elemento según su índice.

In [11]:
elem_2 = serie.loc[20]
elem_2

'B'

#### Rebanado

De manera similar a cómo accedimos a un elemento, también podemos acceder a una porción de una `Serie` utilizando los atributos `iloc` y `loc`, y la sintaxis que ya hemos aprendido anteriormente para rebanar. Veremos cómo obtener los primeros dos elementos de la `Serie` usando un rebanado por posición:

In [12]:
parte_serie = serie.iloc[0:4]
parte_serie

10    A
20    B
30    C
40    D
Name: Mi_serie, dtype: object

### 1.2. Objeto `DataFrame`

Un `DataFrame` es una estructura de datos mutable de dos dimensiones: filas y columnas. Usualmente utilizamos un `DataFrame` para registrar observaciones de variables o características. A cada observación le corresponde una fila y a cada característica una columna.

Esta convención no es exclusiva de Python, generalmente los programas para el análisis de datos se manejan de la misma manera.

Podemos ver en la siguiente tabla un ejemplo de cómo ordenamos observaciones en una tabla o `DataFrame`

|Índice| <center>Nombre</center>    | <center>Sexo</center>      | Estatura (metros) |
|---|:-----------:|-----------|:-------------------:|
| 0 | Alejandro | Masculino | 1.70              |
| 1 | Esteban   | Masculino | 1.75              |
| 2 | Manuela   | Femenino  | 1.69              |
| 3 | Diego     | Masculino | 1.60              |
| 4 | Alejandra | Femenino  | 1.65              |
| 5 | Paula     | Femenino  | 1.55              |

#### Declaración
Podemos declarar un `DataFrame` a partir de diferentes estructuras de datos. A continuación, vemos un ejemplo de declaración a partir de una lista:

In [13]:
# Definimos las listas
l1 = ["Jorge", 28, "Bogotá"]
l2 = ["Laura", 37, "Lima"]

# Utilizamos pandas.DataFrame para tabular las listas declaradas
df = pd.DataFrame([l1,l2], index = ["Persona 1", "Persona 2"], columns = ["Nombre", "Edad", "Ciudad Residencia"])

df

Unnamed: 0,Nombre,Edad,Ciudad Residencia
Persona 1,Jorge,28,Bogotá
Persona 2,Laura,37,Lima


También podemos declarar un `DataFrame` a partir de múltiples `Series`:

In [14]:
# Declaramos diccionarios
s1 = pd.Series({"Pais":"Colombia", "Capital": "Bogotá"})
s2 = pd.Series({"Pais": "Argentina", "Capital": "Buenos Aires"})
s3 = pd.Series({"Pais": "Peru", "Capital": "Lima"})

df = pd.DataFrame([s1,s2, s3], index = ["Pais 1", "Pais 2", "Pais 3"])

df

Unnamed: 0,Pais,Capital
Pais 1,Colombia,Bogotá
Pais 2,Argentina,Buenos Aires
Pais 3,Peru,Lima


#### Consulta

De manera similar al filtrado por posiciones de una `Serie`, para acceder a uno o más valores dentro de un `DataFrame`, podemos hacer uso de su posición, del nombre de su índice o del nombre de su columna.

Los atributos `loc` y `iloc` son estructuras iterables que nos permiten filtrar filas y columnas de manera simultánea.

Por ejemplo, podemos utilizar los objetos `filas` y `columnas` para indicar las posiciones deseadas, como se muestra a continuación:

```python
df.iloc[filas, columnas]
```

Si queremos seleccionar las primeras $n$ filas y las columnas de la $m$ en adelante, podemos hacerlo de la siguiente manera:

```python
df.iloc[ :n, m: ]
```

A continuación accedemos a los valores de la columna llamada `"Pais"`.

In [15]:
paises = df["Pais"]
paises
df.abs

<bound method NDFrame.abs of              Pais       Capital
Pais 1   Colombia        Bogotá
Pais 2  Argentina  Buenos Aires
Pais 3       Peru          Lima>

Veamos ahora como acceder a los valores de una fila utilizando su posición:

In [16]:
primer_pais = df.iloc[0]
primer_pais

Pais       Colombia
Capital      Bogotá
Name: Pais 1, dtype: object

También, podemos acceder a esta misma información utilizando el nombre del índice de la fila consultada:

In [17]:
primer_pais = df.loc["Pais 1"]
primer_pais

Pais       Colombia
Capital      Bogotá
Name: Pais 1, dtype: object

Finalmente, accedemos a un elemento en específico utlizando el nombre de su índice y su columna:

In [18]:
capital_pais_1 = df.loc["Pais 1", "Capital"]
capital_pais_1

'Bogotá'

#### Rebanado

De manera similar a cómo accedimos a un elemento, también podemos acceder a una porción de un `DataFrame` utilizando los atributos `iloc` y `loc`, y la sintaxis que ya hemos aprendido anteriormente para rebanar. Veremos cómo obtener las primeras dos filas del `DataFrame` `(df)` usando un rebanado por posición:

In [19]:
filas_df = df.iloc[0:2]
filas_df

Unnamed: 0,Pais,Capital
Pais 1,Colombia,Bogotá
Pais 2,Argentina,Buenos Aires


A continuación, mostramos como obtener la segunda columna del `DataFrame`:

In [20]:
columnas_df = df.iloc[:,1:2]
columnas_df

Unnamed: 0,Capital
Pais 1,Bogotá
Pais 2,Buenos Aires
Pais 3,Lima


Además, veamos como obtener la porción que contiene únicamente la capital de los dos primero países:

In [21]:
porcion_df = df.iloc[0:2, 1:2]
porcion_df

Unnamed: 0,Capital
Pais 1,Bogotá
Pais 2,Buenos Aires


Si las posiciones que queremos rebanar no son consecutivas, `pandas` nos permite indicarlas en una lista.
A continuación, vemos una manera de mostrar únicamente la primera y última fila de un `DataFrame`:

In [22]:
df.iloc[ [0, df.shape[0] - 1], : ]

Unnamed: 0,Pais,Capital
Pais 1,Colombia,Bogotá
Pais 3,Peru,Lima


### 1.3. Operaciones con Objetos `Series` y  `Dataframe`

#### Transpuesta

La transposición, es la operación de cambiar las filas por las columnas y viceversa. En álgebra lineal, el corazón de la matemática y la estadísitca de la Ciencia de Datos, es una de las operaciones más comunes y simples.

In [23]:
#Llamamos a nuestro dataframe original
df

Unnamed: 0,Pais,Capital
Pais 1,Colombia,Bogotá
Pais 2,Argentina,Buenos Aires
Pais 3,Peru,Lima


In [24]:
# Dataframe transpuesto
df.T

Unnamed: 0,Pais 1,Pais 2,Pais 3
Pais,Colombia,Argentina,Peru
Capital,Bogotá,Buenos Aires,Lima


#### Funciones Vectorizadas

Al igual que con los arreglos vectoriales de la librería `numpy` es posible realizar operaciones entre objetos `Series` o `Dataframe`. Un aspecto relevante a mencionar es que los criterios para efectuar estos cálculos dependerán en gran medida de los índices.<br>

Veamos un ejemplo de construcción de Dataframe y su posterior uso conjunto a funciones vectorizadas:

In [25]:
# Datos originales en formato de lista
modelos = ['A4 3.0 Quattro 4dr manual',
           'A4 3.0 Quattro 4dr auto',
           'A6 3.0 4dr',
           'A6 3.0 Quattro 4dr',
           'A4 3.0 convertible 2dr']
peso    = [3583, 3627, 3561, 3880, 3814]
precios = ['$33,430', '$34,480', '$36,640', '$39,640', '$42,490']
largo   = [179, 179, 192, 192, 180]

# Creación de Series de peso y Precio
Autos_peso   = pd.Series(peso,index=modelos)
Autos_precio = pd.Series(precios,index=modelos)

# Creación de Dataframe a partir de objetos Series y List
Autos = pd.DataFrame({'Peso':peso,'Largo':largo },index=modelos)
Autos / Autos.iloc[0] * 100

Unnamed: 0,Peso,Largo
A4 3.0 Quattro 4dr manual,100.0,100.0
A4 3.0 Quattro 4dr auto,101.228021,100.0
A6 3.0 4dr,99.385989,107.26257
A6 3.0 Quattro 4dr,108.289143,107.26257
A4 3.0 convertible 2dr,106.447111,100.558659


#### Conservación de índices

Al igual que con los arreglos vectoriales de la librería `numpy` es posible realizar operaciones entre obejtos `Series` o `Dataframes`. Un aspecto relevante a mencionar es que los criterios para efectuar estos cálculos dependerán en gran medida de los índices.<br>

In [26]:
Numeros_en_texto = ['primero','segundo','tercero','cuarto','quinto','sexto','séptimo','octavo','noveno','décimo']
Numeros_serie_2 = pd.Series(Numeros,index=Numeros_en_texto)
Numeros_serie_2

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64

In [27]:
# Creamos una lista nueva de numeros
Numeros_3 = range(51,70,2)
Numeros_serie_3 = pd.Series(Numeros_3,index=Numeros_en_texto)
Numeros_serie_3

primero    51
segundo    53
tercero    55
cuarto     57
quinto     59
sexto      61
séptimo    63
octavo     65
noveno     67
décimo     69
dtype: int64

In [28]:
# Aplicamos una operación de suma
Numeros_serie_2 + Numeros_serie_3

primero    101
segundo    105
tercero    109
cuarto     113
quinto     117
sexto      121
séptimo    125
octavo     129
noveno     133
décimo     137
dtype: int64

En el ejercicio inmediatamente anterior es posible ver cómo se conservan los índices al realizar operaciones, sin embargo, ¿que sucedería si no tenemos índices compatibles o idénticos?. <br>
En el siguiente ejemplo se muestra que sucede si se toman dos objetos con índices que no coinciden:

In [29]:
# Rebanamos los objetos Series para obtener porciones de índices dispares.
Numeros_serie_2_porcion = Numeros_serie_2[4:7]
Numeros_serie_3_porcion = Numeros_serie_3[5:8]
print(Numeros_serie_3_porcion, Numeros_serie_2_porcion); print()

# Efectuamos la operación de suma con índices variables
print(Numeros_serie_2_porcion + Numeros_serie_3_porcion)

sexto      61
séptimo    63
octavo     65
dtype: int64 quinto     58
sexto      60
séptimo    62
dtype: int64

octavo       NaN
quinto       NaN
sexto      121.0
séptimo    125.0
dtype: float64


### 1.4. Introducción a valores faltantes o 'missing values'

Los valores faltantes representan secciones de los datos que carecen de información, bien sea por:
1. Errores de carga.
2. Omisión del encargado de la recoleción y dispersión.
3. Renuencia a compartir la información.
4. Disponibilidad.

En el día a día de un Científico de Datos, los valores faltantes siempre estarán presentes, es por esto que es importante conocer diversas herramientas que permitan manipular adecuadamante la información.

#### NaN == Not a Number

In [30]:
# Importamos la libreria correspondiente.
import numpy as np

valor_nan = np.nan
type(valor_nan)

float

Los valores NaN, tienen una particularidad, cualquier operación que se les aplique dará como resultado NaN. Por ejemplo:

In [31]:
2 * valor_nan

nan

Dado lo frecuente de los 'missing values' la mayoría de las funciones de las librerías incorporan métodos para tratar con datasets que tengan una proporción faltante.<br>
Para ilustrarlo, veamos como realizar la multiplicación anterior:

In [32]:
np.nanprod([2,valor_nan])

2.0

#### Procedimientos comunes con datos faltantes

Identificación para su posterior procesamiento o remoción.

Vemos a continuación, ejemplos muy sencillos de como tratar números 'nan':

In [40]:
# Tomamos como ejemplo la suma de series con índices dispares del ejemplo anterior
Numeros_nan = Numeros_serie_2_porcion + Numeros_serie_3_porcion

In [46]:
# Vemos qué valores de la lista son concretamente 'nan'.
Numeros_nan.isnull()

octavo      True
quinto      True
sexto      False
séptimo    False
dtype: bool

Imputación o Reemplazo

In [44]:
# Reemplazamos valores nan por 'cero'.
Numeros_nan.fillna(0)

octavo       0.0
quinto       0.0
sexto      121.0
séptimo    125.0
dtype: float64

Eliminación

In [45]:
# Eliminamos de la lista los valores nan correspondientes.
Numeros_nan.dropna()

sexto      121.0
séptimo    125.0
dtype: float64