# PROGRAMACIÓN EN PYTHON

## 4. NUMPY Y PANDAS

### 4. 1 NumPy

<div class="alert alert-block alert-info">
<b>Créditos:</b> Se sigue de cerca el tutorial de Justin Johnson, profesor de la Universidad de Michigan.
</div>


Numeric Python - NumPy es la biblioteca central para la computación científica en Python. Proporciona un objeto `array` **multidimensional** de alto rendimiento y herramientas para trabajar con estos arrays.

Para usar NumPy necesitamos importar su librería:

In [None]:
import numpy as np

(nótese que `as` crea un alias para la librería importada)

### Arrays

Un array numpy es una cuadrícula de valores, todos del mismo tipo, y está indexada por una tupla de enteros no negativos. El número de dimensiones es el rango del array; la forma de un array es una tupla de números enteros que dan el tamaño del array a lo largo de cada dimensión. 

Podemos inicializar arrays numpy a partir de listas de Python y acceder a sus elementos usando corchetes. Noten el uso de `shape` (forma) y que con un solo elemento solo entra la longitud del único elemento en la tupla -en Python una tupla no sería (,3):

In [None]:
a = np.array([1, 2, 3])  # Crea un array de rango 1
print(type(a))
print(a.shape)
print(a[0], a[1], a[2])
a[0] = 5                 # Cambia un elemento del array
print(a)                  

Con más de una fila, corchetes rodean las filas...

In [None]:
b = np.array([[1,2,3],[4,5,6]])   # Crea un array de rango 2
print(b)
print(b.shape)

Numpy provee algunas funciones para crear arrays, noten los dobles paréntesis cuando tuplas son argumentos:

In [None]:
a = np.zeros((2,2))  # Crea un array de zeros
print(a)

In [None]:
b = np.ones((1,2))   # Crea un array de unos
print(b)

In [None]:
c = np.full((2,2), 7) # Create a un array lleno de 7
print(c)

In [None]:
d = np.eye(2)        # Crea un array identidad
print(d)

In [None]:
e = np.random.random((2,2)) # Crea un array de números aleatorios (uniforme 0-1)
print(e)

¿Por qué molestarnos en crear arrays si podríamos generar algo similar utilizando listas? De acuerdo a NumPy: "NumPy trae el poder computacional de lenguajes como C y Fortran a Python, un lenguaje mucho más fácil de aprender y usar". Comparemos tiempos de ejecución de una suma de números con un array vs. una lista.

Noten también otra generación de números aleatorios, esta vez enteros. También el uso de `sum` diferenciado entre array y lista.

In [None]:
# Para pruebas
np.random.seed(123) # permite que los números (pseudo) aleatorios no cambien
un_array = np.random.randint(0, 100, 10000)
una_lista = list(un_array)
print(un_array)
print(un_array.sum())

In [None]:
%%timeit
un_array.sum()

In [None]:
%%timeit
sum(una_lista)

Wow, muchísimo más rápido. Y nuevamente notemos que si bien la diferencia es pequeña, el ejemplo es pequeño. Mientras más grande la tarea, más tiempo ahorrado.

### Index en arrays

Numpy ofrece varias formas de trabajar con index en arrays. Por ejemplo se puede operar de la misma forma que con listas, con la diferencia de que se especifique un índice para cada dimensión del array. Recordemos que al usar rangos el límite inferior es inclusivo y el superior exclusivo.

In [None]:
import numpy as np

# Creamos el siguiente array
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

# Podemos usar lo que sabemos de listas para extraer solo este array de a
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

In [None]:
print(b[0, 0], b[0, 1], b[1, 0])

Ojo: Hemos definido `b` en relación a `a`, por tanto modificar `b` también modificará a `a` cuando estemos trabajando con arrays. Esto es importante pues diferencia a los arrays de otros tipos de contenedores (listas, strings, etc.) de Python, debemos tener cuidado. 

In [None]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] son los datos de a[0, 1]
print(a[0, 1]) 

Si no queremos que esto suceda, podemos usar el método `copy` (pero usa el doble de memoria). 

In [None]:
print(a[0, 1])
b = np.copy(a[:2, 1:3])
b[0, 0] = 44
print(a[0, 1])

Imaginemos que queremos extraer la segunda fila de `a`. Hay varias opciones para conseguirlo y estas afectan la forma del array:

In [None]:
fila2_1 = a[1, :]       
fila2_2 = a[1:2, :]  
fila2_3 = a[[1], :]    # Usar dos corchetes preserva la forma  
print(fila2_1, fila2_1.shape)
print(fila2_2, fila2_2.shape)
print(fila2_3, fila2_3.shape)

In [None]:
# Podemos hacer la misma distinción con columnas:
col1_1 = a[:, 1]
col1_2 = a[:, 1:2]
print(col1_1, col1_1.shape)
print()
print(col1_2, col1_2.shape)

Otra forma de extraer elementos de un array es mediante condiciones lógicas (boolean array indexing):

In [None]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # Encuentra los elementos de a que son mayores a 2;
                    # esto retorna un array de datos lógicos con la forma de a,
                    # verdadero o falso

print(bool_idx)

In [None]:
# Usamos este array para extraer los elementos mayores a 2
print(a[bool_idx])

# Ahora que ya conocemos el proceso, esta es la forma abreviada de hacerlo:
print(a[a > 2])
print(a[a > 2].shape)

NumPy intenta adivinar el tipo de dato de cada array, pero podemos especificarlo explícitamente.

In [None]:
x = np.array([1, 2])  # Deja a NumPy escoger
y = np.array([1.0, 2.0])  # Deja a Numpy escoger
z = np.array([1, 2], dtype=np.int64)  # Especifica tipo de dato

print(x.dtype, y.dtype, z.dtype)

Generalmente esto no será necesario pero puedes revisar los distintos tipos de datos en la documentación de NumPy https://numpy.org/doc/stable/user/basics.types.html. 

### Matemática de arrays

Las operaciones matemáticas básicas sobre arrays se ejecutan elemento por elemento, tienen contrapartes como métodos de NumPy:

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print()
print(y)

In [None]:
# Suma elemento por elemento
print(x + y)
print(np.add(x, y))

In [None]:
# No parece muy útil el método de NumPy, pero puede serlo
print([1,2] + [3]) # Une las listas en vez de sumarlas
print(np.add([1,2],[3]))

In [None]:
# Diferencia elemento por elemento
print(x - y)
print(np.subtract(x, y))

In [None]:
# Producto elemento por elemento (diferente a producto de matrices)
print(x * y)
print(np.multiply(x, y))

In [None]:
# División elemento por elemento
print(x / y)
print(np.divide(x, y))

In [None]:
# Raíz cuadrada elemento por elemento
print(np.sqrt(x))

¿Qué pasa si no quisieramos multiplicar los arrays elemento por elemento, y en vez quisiéramos multiplicarlas como si fueran matrices? Usamos `@`.

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

print(v @ w)
print(x @ v)

Mmm eso es extraño. No deberíamos poder multiplicar `v` y `w` dado que las dimensiones no son compatibles. NumPy logra el resultado correcto de lo que sucedería si las matrices fueran compatibles, 219. No obstante llegados a este punto nos puede resultar más natural trabajar con matrices, para las cuales NumPy tiene soporte. Volvamos a multiplicar pero esta vez declarando matrices, notando además que ahora sí podemos usar `*` para hacer la multiplicación.

In [None]:
v = np.matrix([9,10])
w = np.matrix([11, 12])

print(v * w)

Ahora sí, la multiplicación es imposible por la incompatibilidad de dimensiones como esperaríamos en algebra lineal.

Desafortunadamente no nos conviene explorar más las matrices de NumPy, pues la documentación explica que esta clase probablemente se removerá en el futuro. En cambio, la documentación recomienda utilizar arrays, por tanto volvamos a los arrays.

¿Cómo se computaría la inversa de un array?

In [None]:
np.linalg.inv(y)

Hay otras útiles funciones precedidas por `np.linalg` para algebra lineal, como ser el cálculo de eigenvalores con `np.linalg.eigvals`  o el determinante con `np.linalg.det`. Intentemos por ejemplo volver a nuestro ejemplo de la multiplicación de arrays con una de estas funciones, `np.dot`, que es algo más general que el operador `@` que vimos que está más enfocado a multiplicación de matrices. Este es más flexible en función a los argumentos proporcionados (por ejemplo puede multiplicar un escalar por un array).

In [None]:
v = np.array([9,10])
w = np.array([11, 12])
np.dot(v, w)

Funcionó de nuevo sin problemas (lo que puede ser chocante). Recordemos que las dimensiones son tuplas, y que una tupla de un solo elemento en Python siempre será solo `(x,)`, no `(,x)` por lo cual no se generan conflictos de dimensiones en este caso de arrays unidimensionales. Da lo mismo si transponemos o no el segundo array (`.T`). Cabe tomarlo en cuenta al momento de definir programas donde no queremos incompatibilidad de dimensiones en arrays.

In [None]:
np.dot(v, w.T)

NumPy provee varias funciones matemáticas, una que ya vimos es`sum`, ahora veamos algunas opciones:

In [None]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Suma todos los elementos
print(np.sum(x, axis=0))  # Suma las dos filas
print(np.sum(x, axis=1))  # Suma las dos columnas

Algunas de las operaciones que vimos en la librería `math` también están en NumPy, por ejemplo `exp`:

In [None]:
print(np.exp(x))

### Broadcasting

Broadcasting es un mecanismo poderoso que permite a NumPy trabajar con arrays de diferentes formas al realizar operaciones aritméticas. Con frecuencia tenemos un array más pequeño y uno más grande, y queremos usar el más pequeño varias veces para realizar alguna operación en el array más grande.

Por ejemplo, suponga que queremos sumar un vector constante a cada fila de un array. Podríamos hacerlo así:

In [None]:
# Añadiremos el vector v a cada fila del array x,
# guardando el resultado en el array y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Crea un objeto vacío igual a x

# Sumar el vector v a cada fila del array x con un bucle
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

Esto funciona; sin embargo, cuando `x` es muy grande, calcular un bucle en Python podría ser lento. Tenga en cuenta que sumar el vector v a cada fila del array `x` es equivalente a formar una matriz` vv` apilando varias copias de `v` verticalmente, luego realizando la suma de elementos de` x` y `vv`. Podríamos implementar este enfoque así:

In [None]:
vv = np.tile(v, (4, 1))  # Apilamos 4 copias de v horizantales y 1 (sin copia) vertical
print(vv)                

In [None]:
y = x + vv  # Sumamos x y vv elemento por elemento
print(y)

El broadcasting nos permite hacer esto de forma más directa:

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v
print(y)

`y = x + v` funciona pese a que `x` tiene forma `(4, 3)` y `v` tiene forma `(3,)` debido al broadcasting que hace NumPy internamente. No siempre será tan sencillo, por lo que debemos conocer cómo funciona...

Al hacer broadcasting entre dos arrays se siguen las siguientes reglas:

1. Si los arrays no tienen el mismo rango, toma el arreglo de menor forma (shape) y agrega 1’s por la izquierda a la forma para hacerlos compatibles. Ej. Shapes `(2,3,4)` y `(3,4)` → `(2,3,4)` y `(1,3,4)`. 
2. Se dice que dos arrays son compatibles en una dimensión si tienen el mismo tamaño en esa dimensión (ej. la segunda y tercera dimensión de `(2,3,4)` y `(1,3,4)`) , o si uno de los arrays tiene tamaño 1 en esa dimensión (ej. la primera dimensión de `(2,3,4)` y `(1,3,4)`).
3. Se puede hacer broadcasting si dos arrays son compatibles en todas las dimensiones.
4. De ser necesario, el broadcasting replica las dimensiones con tamaño 1 (como en el ejemplo de `x + v`), hasta que alcance el tamaño de la dimensión del otro array.

Algunas aplicaciones más del broadcasting:

In [None]:
# Sumar un vector a cada columna del array

x = np.array([[1,2,3], [4,5,6]])
w = np.array([4,5])

# x es (2, 3) y w es (2,).
# Recordemos que el (2,) de w es como (1,2) 
# Si transponemos x se vuelve (3, 2) y podemos usar broadcasting
# Transponer el resultado nos lleva a la forma final (2, 3)

print(x)
print(w)
print((x.T + w).T)

In [None]:
# Otra solución es llevar w a la forma (2, 1);
# luego podemos usar broadcast para hacer la suma.
print(x + np.reshape(w, (2, 1)))

In [None]:
# Multiplicar una matriz por una constante:
# x tiene forma (2, 3). Numpy trata a los escalares como con forma ();
# el broadcast detrás de cámaras nos permite llegar facilmente a:
print(x * 2)

Broadcasting suele hacer que el código sea más conciso y rápido, por lo que deben usarlo siempre que sea posible.

### Integer overflow

NumPy utiliza enteros al estilo de C, por tanto se puede dar el caso de que un entero llegue a ser tan grande que genere problemas. Debemos tener cuidado con esto.

In [None]:
a = np.array([2**63 - 1, 2**63 - 1])
print(a)
print(a.dtype)

El tipo de dato puede contener enteros hasta $2^{63} - 1$. Sumar 1 hace que surja el siguiente problema.

In [None]:
a + 1

Un ejemplo menos obvio.

In [None]:
a.sum()

La solución es cambiar el tipo de dato usado en la declaración (perdiendo algo de precisión).

In [None]:
a = np.array([2**63 - 1, 2**63 - 1], dtype=float)
print(a)
print(a+1)
print(a.sum())

### 4.2. PANDAS

<div class="alert alert-block alert-info">
<b>Créditos:</b> Se sigue de cerca la adaptación de la guía del usuario de Pandas de la plataforma de datos abiertos del Gobierno de Argentina.
</div>

Pandas -cuyo nombre viene de "panel data", datos de panel en español-  nació en una empresa de inversiones en 2008, luego se volvió open source. "Busca proporcionar gran parte de la funcionalidad de análisis y manipulación de datos por que las personas usan R". En particular, así como el `array` es el corazón de la librería `numpy`, el `DataFrame` (junto a `Series`) es el corazón de la librería `pandas`. Si alguien ya sabe R esta sección de la documentación de pandas les puede resultar útil https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html. Esta página también incluye documentación para usuarios de Stata, SQL, SAS y hojas de cálculo que quieren aprender Python.

Un `DataFrame` es un objeto de dos dimensiones (piensen en una tabla, cómo guardaría alguien datos en Excel), a diferencia de los `array` que eran multidimensionales. Pandas utiliza NumPy. Al estar centrado en tablas, la librería está más especializada en manejo de datos.

Comenzamos importando las librerías necesarias (exploraremos tangencialmente matplotlib).

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### SERIES
Se puede construir un objeto `Series` con cualquier serie de valores. Las `Series` pueden entenderse como listas con **funcionalides adicionales**. Nótese el uso de `NaN` ("Not a Number").

In [None]:
s = pd.Series([1,3,5,np.nan,6,8])
print(s)

Sumamos los valores de la serie (noten que se ignoró el `NaN`...volveremos a este tema más adelante). 

In [None]:
print("Suma:", s.sum(), "/ Cantidad de valores:", s.count())

Las operaciones sobre `Series` son distintas que las operaciones sobre listas.

In [None]:
s * 2

In [None]:
list(s) * 2

Las `Series` pueden tener índices, además del mero índice posicional. Por ejemplo, se puede especificar un **índice temporal** con `pd.date_range`.

In [None]:
# En este caso elegimos crear una serie de tiempo
s2 = pd.Series([1,3,5,np.nan,6,8], pd.date_range("20161123", "20161128"))
s2

Todos los valores de las `Series` son del mismo **tipo de dato**. Pandas interpreta los valores de la `Series` para determinar el tipo de dato que mejor se ajuste a su contenido. Se puede **forzar un tipo de datos** distinto del interpretado por `pandas`.

In [None]:
s3 = pd.Series([1,3,5,np.nan,6,8], pd.date_range("20161123", "20161128"), dtype=str)
s3

### DATAFRAME
Un `DataFrame` es una estructura de datos de dos dimensiones. Noten que al definirla estamos introduciendo distintos tipos de objetos en cada columna.

In [None]:
df = pd.DataFrame({
        "serie_2": s2, 
        "serie_3": s3,
        "serie_4": [4, 3, 2, 23, 15, 30],
        "serie_5": np.array([300] * 6, dtype='int32')
    })
df

Hay muchas formas de crear un `DataFrame`. `Pandas` tiene toda una serie de **funciones para leer distintos tipos de archivos tabulares** y cargarlos en un `DataFrame`.

In [None]:
df_personas = pd.read_csv(r"C:\Mickey\pro\docencia\Curso Programación en Python\titanic.csv")
df_personas

Las **columnas y las filas pueden utilizarse individualmente como series**. En el caso de las columnas, si no se utilizan espacios en los encabezados, incluso se pueden llamar como cualquier otro atributo de un `DataFrame`.

In [None]:
df_personas.Sex

In [None]:
df_personas.Sex.unique()

Una forma útil para obtener un resumen estadístico es `describe`

In [None]:
df_personas.describe()

Podemos inspeccionar un dataframe con los comandos `head` y `tail`.

In [None]:
# Ver las primeras 3 filas
df_personas.head(3)

Puedes familiarizarte con los tipos de datos usando `dtypes`.

In [None]:
df_personas.dtypes

Los dataframes se pueden transponer como arrays con `.T`

### Ordenar un DataFrame
Podemos ordenar un `DataFrame` **por los valores de sus columnas**.

In [None]:
df_personas.sort_values('Name')

In [None]:
df_personas.sort_values('PassengerId')

Podemos ordenar un `DataFrame` **por los valores de sus índices**, por ejemplo para retornar al orden original.

In [None]:
# Ordena las filas
df_personas.sort_index(axis=0)

In [None]:
# Ordena las columnas
df_personas.sort_index(axis=1, ascending=True)

### Seleccionar elementos en un DataFrame
Los objetos de tipo `DataFrame` soportan funcionalidades extendidas para los operadores **[ ]**. Estos **permiten seleccionar filas, columnas o combinaciones de éstas** dentro del `DataFrame`.

Para selccionar una columna, equivalente a `df_personas.Sex`

In [None]:
df_personas['Sex']

Para seleccionar **varias columnas al mismo tiempo**. Noten los dobles corchetes como cuando trabajamos a partir de más de un elemento como hacíamos con arrays:

In [None]:
df_personas[['Sex', 'Name']]

Selección por número de filas

In [None]:
df_personas[0:2]

Selección por etiqueta (índice) de fila

In [None]:
df["20161124":"20161126"]

Estas formas de selección son intuitivas, pero la documentación de Pandas recomienda el uso del método optimizado `.loc`, `.iloc`. 

Si se define una combinación de etiquetas (índices) de columna y fila, resulta equivalente a seleccionar una única celda.

In [None]:
df.loc["20161124", "serie_3"]

Si se define una combinación de varias etiquetas, resulta en un subconjunto de valores

In [None]:
df.loc["20161124":"20161125", ["serie_3", "serie_5"]]

Es posible **seleccionar una posición especifica** mediante su índice de fila y columna

In [None]:
df.iloc[1, 3]

Y al especificar rangos de valores se selecciona un subjconjunto de celdas

In [None]:
df.iloc[1:3, 2:4]

Si el subconjunto de celdas que se desea seleccionar no es contiguo, se pueden especificar a mano sus índices

In [None]:
df.iloc[[1, 2, 5], [2, 3]]

#### Selección por expresión booleana

Los operadores nativos de Python usados para hacer comparaciones booleanas funcionan lugar a lugar dentro de una `Series`

In [None]:
df_personas.Sex == 'male'

**Esto permite hacer consultas facilmente.** Por ejemplo, para seleccionar a las personas de sexo masculino dentro del `DataFrame` se usa un comparador booleano para la selección.

In [None]:
df_personas[df_personas.Sex == 'male']

Este tipo de comparaciones booleanas tambien pueden hacerse para un `DataFrame`

In [None]:
df = df[['serie_2', 'serie_4', 'serie_5']]
df > 3

Este tipo de comparaciones tambien pueden hacerse para **visualizar consultas dentro de un dataframe**.

In [None]:
df[df > 3] # máscara sobre todos los valores del DataFrame

La utilización de comparadores puede ser tan compleja como se desee. 

In [None]:
df[(df > 3) & (df < 300)]

### Setear elementos en un DataFrame
Setear una nueva columna automáticamente ubica los elementos en el lugar que le corresponden según el índice de la serie y del DataFrame. Los elementos que exceden el índice del DataFrame no se incorporan.

In [None]:
s4 = pd.Series([4, 3, 2, 6, 7, 5], index=pd.date_range('20161126', periods=6))
s4

In [None]:
df['serie_6'] = s4
df

También podemos agregar columnas en función a los valores de otras columnas con `np.where` como método más compacto y eficiente en la mayoría de los casos (noten que es diferente que el método del mismo nombre de Pandas). La sintaxis es `np.where(condicion, valor si es verdadero, valor si es falso`).

In [None]:
df['serie_7'] = np.where(df['serie_4'] >= 4, '>=4', '<4')
df

In [None]:
# Podemos remover las columnas creadas con el método drop
df = df.drop(columns='serie_7')
df

Nota: También se pueden eliminar filas por número de fila especificando dicho número de fila (ej.`df.drop([1, 2])`) o su etiqueta omitiendo el argumento columns (ej. `df.drop('2016-11-23')`). Se pueden eliminar valores duplicados de un DataFrame con el método drop duplicates, digamos si queremos tener datos únicos de personas de un dataframe `x`, podemos borrar duplicados usando el carnet con `x.drop_duplicates(subset=['carnet'])`.

**Los mismos atributos que permiten seleccionar valores, permiten setear valores**.

In [None]:
df.loc[:, "serie_5"] = 500
df

In [None]:
df.loc["20161126", "serie_5"] = 900
df

In [None]:
df.iloc[:, 3] = 'arbol'
df

### Agrupar por categorías

In [None]:
df_personas

In [None]:
df_personas.groupby('Sex')

Queremos calcular el promedio de los precios de tickets al Titanic por género.

In [None]:
df_personas.groupby('Sex')['Fare'].mean()

Para asignar los valores de la tabla resultante a un DataFrame, existen algunas complicaciones adicionales pues requeriremos el uso de la función `transform` de forma que se mantenga el número original de filas. Por ejemplo digamos que queremos tener la suma por sexo de cada individuo del pago de boletos en una columna a parte.

In [None]:
df_personas['boletos'] = df_personas.groupby('Sex')['Fare'].sum()
df_personas

No es lo que esperábamos, esto por la incompatibilidad de estructuras. Ahora probemos con `transform`.

In [None]:
df_personas['boletos'] = df_personas.groupby('Sex')['Fare'].transform('sum')
df_personas

El resultado ahora sí es el correcto. Si necesitamos una función más compleja en lugar de `sum` u otra de las predeterminadas (o ponerle argumentos a las funciones), podemos apoyarnos con una función lambda.

### Datos faltantes

Pandas utiliza principalmente el valor `np.nan`/`NaN` para representar los datos faltantes (otros son `None` y `NaT`, experimentalmente se tiene `pd.NA`/`<NA>`). Por defecto, no se incluye en los cálculos. Esto nos obliga a ser extremadamente cuidadosos en el análisis de los datos para evitar computar estadísticos con problemas de "sesgo de selección", omitir valores que deberían ser cero u otros (ej. promedio).

In [None]:
df

In [None]:
df['serie_2'].mean()

In [None]:
# Imaginemos que los datos faltantes en realidad deberían ser ceros
# Ej. Un error en el llenado de encuestas
# Noten el uso de fillna
promedio_serie2 = df['serie_2'].mean()
df['serie_2'] = df['serie_2'].fillna(value=promedio_serie2)
df['serie_2'].mean()

La presencia de datos faltantes también hace confusas a las comparaciones con operadores, la cual debemos entender bien. Notemos que comparaciones con `NaN` siempre serán falsas.

In [None]:
df['serie_2'] = s2

In [None]:
df['serie_2'] > 3

In [None]:
df['serie_2'] <= 3

El único caso en el que los valores faltantes son tomados en cuenta en los cálculos en vez de omitirse es con operaciones aritméticas simples (afortunadamente).

In [None]:
df['serie_2'] + df['serie_5']

Además de `fillna`, tenemos a `dropna`, `notna` y `isna` como métodos útiles para datos faltantes.

In [None]:
# Nos dice si hay valores faltantes
df['serie_2'].isna()

In [None]:
# Nos dice si no hay valores faltantes
df['serie_2'].notna()

In [None]:
# Elimina valores faltantes
df['serie_2'].dropna()

In [None]:
# CUIDADO
# Aplicado a todo df, dropna elimina toda la fila, incluso si otras variables tienen info
df.dropna()

In [None]:
# Para que solas las filas llenas de NA se borren:
df.dropna(how="all")

A veces nos puede interesar explotar la información de otras columnas o filas para tratar de predecir los valores faltantes (puede ser el mejor camino). Para estos casos podemos utilizar el método `interpolate` u otros. Analizarlo a profundidad requeriría teoría estadística, pero veremos un ejemplo simple. Favor no utilizar este predeterminado en sus futuras experiencias con Python, porque hay múltiples métodos además del lineal (default) y cada uno puede ser el adecuado para un tipo de contexto.

In [None]:
s = pd.Series([0, 1, np.nan, 3])
s

In [None]:
s.interpolate()

### Unir `DataFrame`s
#### Concatenar
Vamos a extender la información de un dataframe concatenándolo con otro que tiene **nuevas filas**. Aprovecharemos la ocasión para ver como leer datos de Excel (como dato adicional, para exportar un dataframe a Excel pueden usar el método `.to_excel` de forma idéntica).

In [None]:
df_personas = pd.read_excel(r"C:\Mickey\pro\docencia\Curso Programación en Python\personas.xlsx")
df_personas

In [None]:
df_personas2 = pd.DataFrame({
        "numero": [400],
        "nombre_apellido": ["Ignacio Heredia"],
        "sexo": ["M"]
    })
df_personas2

In [None]:
# Concatena dataframes "uno arriba del otro"
df_personas_concat = pd.concat([df_personas, df_personas2], ignore_index=True)
df_personas_concat

Vamos a extender la información de un dataframe concatenándolo con otro que tiene **nuevas columnas**.

In [None]:
df_personas3 = pd.DataFrame({"profesion": ["programador"]*3 + ["artista"]*2})

# axis = 1 para concatenar dataframes "uno al lado del otro"
pd.concat([df_personas_concat, df_personas3], axis=1)

### Merge
Vamos a mergear un dataframe con otro que contiene el nombre de los días de la semana, utilizando el índice de tiempo que tienen los dos.

In [None]:
df

In [None]:
date_range = pd.date_range("20161120", periods=10)

In [None]:
df_dia_semana_ingles = pd.DataFrame({"dia_semana_ingles": date_range.day_name()}, index=date_range)
df_dia_semana_ingles

Vamos a mergear utilizando las etiquetas del index donde están las fechas.

In [None]:
# "left": el dataframe principal es el de la izquierda
merged_dia_semana = pd.merge(
    df, df_dia_semana_ingles, left_index=True, right_index=True, how="left")
merged_dia_semana

In [None]:
# "right": el dataframe principal es el de la derecha
pd.merge(df, df_dia_semana_ingles, left_index=True, right_index=True, how="right")

Vamos a **mergear dos dataframes utilizando una columna que tienen en común**, para traducir los días de la semana al español.

In [None]:
traduccion_dia_semana = pd.DataFrame({
    "dia_semana_ingles": ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"],
    "dia_semana_español": ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo"]
})
traduccion_dia_semana

En este caso utilizamos la opción "on" en vez de las opciones "left_index" y "right_index".

In [None]:
pd.merge(merged_dia_semana, traduccion_dia_semana, on="dia_semana_ingles", how="left")

Además de las opciones "left" y "right" tenemos las opciones "outer" e "inner". Una sintésis de las cuatro se puede ver abajo (el gráfico de full corresponde a "outer").
<img src="https://www.ionos.es/digitalguide/fileadmin/DigitalGuide/Screenshots_2018/Outer-Join.jpg" width="666">

### 4.3. INTRODUCCIÓN A MATPLOTLIB

Los objetos de `pandas` tienen un atributo `plot` que es un **wrapper sobre matplotlib, que simplifica la creación de gráficos**. `matplotlib` por default grafica en una ventana independiente a la consola que ejecuta los scripts. Para que jupyter grafique dentro de la celda de ouput existe el comando magic `%matplotlig.inline` 

In [None]:
df

In [None]:
%matplotlib inline
plt.style.use("ggplot") # como el paquete de R

In [None]:
df.serie_4.plot.line()

In [None]:
df.serie_4.plot.hist(bins=2)

In [None]:
df.plot.scatter("serie_4", "serie_2")

In [None]:
df.plot.bar()