# 2.3. Introducción a Pandas II.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

### Aritmética con estructuras de pandas

- Las  operaciones se aplican cuando hay "coincidencia" de índices en ambas estructuras (series, dataframes). introduciendo NaN en los resultados, cuando no hay coincidencia de claves. 
- Para solucionar este problema, pandas nos ofrece algunas varias funciones básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.
- En un numpy, para poder hacer operaciones, los arrays debían tener las mismas dimensiones. 
- En pandas, los dataframe pueden tener cualquier dimensión (no tienen porqué coincidir). Lo que se va a buscar en la coincidencia de índices, sobre los que realizar la operación.

<center>
<img src="imgs/pd6.png"  alt="drawing" width="400"/>
</center>

Veamos algún ejemplo sobre series

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s2

Como podemos ver, no coinciden exáctamente los índices. ¿Qué ocurre si intentamos hacer una suma?

In [None]:
s1 + s2

Que se generan NaN. Si utilizamos el método add pasa lo mismo.

In [None]:
s1.add(s2)

Sin embargo este método, tiene un parámetro de relleno que podemos especificar.

In [None]:
s1.add(s2, fill_value=0)

Veamos ahora algún ejemplo para dataframes:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), 
                   columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                   columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df2

Como podemos ver, no coinciden exáctamente ninguno de los dos índices (ni filas, ni columnas). ¿Qué ocurre entonces si intentamos hacer una suma?

In [None]:
df1 + df2

Que el DF resultante está repleto de NaN

De hecho, podemos llegar al absurdo de que no coincida nada.

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print("")
print(df2)
df1 - df2

Por lo que establecer un método de relleno, puede ser interesante.

In [None]:
df1.sub(df2)

Fijaros bien en la diferencia de comportamiento entre poner y no poner el valor de relleno por defecto. ¿Qué creéis que va a salir?

In [None]:
df1.sub(df2, fill_value=0)

In [None]:
df1.add(df2, fill_value=0)

### Visualización Básica

Aunque veremos la visualización en el módulo 4. Es el momento de aprender un poco sobre visualización básica, y lo sencillo que es hacer un gráfico de un dataframe.

In [None]:
data_dict = {
    'population': np.random.randint(100, 300, 10),
    'PIB': np.random.randint(10000, 30000, 10),
}
data = pd.DataFrame(data_dict)
data

Recuerda importar la librería que nos permite graficar: import matplotlib as plt

- Una simple instrucción nos permite graficar el DF
- Pero la diferencia entre datos no nos permite una visualización correcta, en este caso

In [None]:
data.plot()

Podemos graficar una columna por separado de una manera muy sencilla.

In [None]:
data.population.plot()

Podemos agregar un índice desde una lista y volver a graficar para apreciar los cambios.

In [None]:
data.index = list('abcdefghij')
data

In [None]:
data.population.plot()

Cambiar de gráfico es tan sencillo como conocer las tipologías existentes.

In [None]:
data.plot.bar()

Es importante conocer los inputs de cada gráfico. Un grafico de quesitos, por ejemplo, solo permite graficar una serie (columna).

In [None]:
data.PIB.plot.pie()

Histogramas

In [None]:
data.population.plot.hist()

Scatterplots: gráficos de dispersión de una variable contra otra.

In [None]:
data.plot.scatter('PIB','population')

___
# Ejercicios

**2.3.1.** Usando los siguientes daframe:

In [None]:
df_a = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(1, 11))
df_a

In [None]:
df_b = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(0, 10))
df_b

Calcula la resta de ambos y explica la diferencia entre usar un relleno = 0 o no.