# 3.2. Introducción a Pandas II.

In [None]:
import pandas as pd
import numpy as np
import matplotlib as plt

## Funcionalidad Básica

### Reindexing

- Pueden existir ocasiones en las que se desee modificar el índice de una estructura tras haberla creado. 
- En este caso no se trata de cambiar los índices asignados sino de reordenaciones, eliminación o adición de índices. 
- Para ello, pandas nos ofrece el método <b>reindex</b>. 
- Lo que obtendremos será una nueva estructura (copia) con el índice seleccionado. <br/><br/>

En el caso de que con el nuevo índice se generen nuevos elementos, estos  se rellenarán a NaN. Para evitarlo, disponemos de los siguientes parámetros:<br/>
<ul>
<li><b>fill_value:</b> Relleno a un valor fijo establecido.</li>
<li><b>method:</b> Relleno según un método definido.
<ul>
<li>ffill: Relleno mediante la observación de los últimos valores rellenos.</li>
<li>bfill: Relleno mediante la observación de los próximos valores rellenos.</li>
<li>nearest: Relleno mediante la observación del valor más próximo.</li>
</ul>
</li>
</ul>

Generamos un dataframe

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

Reindex reordena el contenido del DF y genera una observación nueva, para la que no tenemos valores (por lo que nacerá con NaN).

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

Ojo, porque es una copia. Si modifico el obj2, ¿también estaré modificando obj?

In [None]:
obj2.loc['c'] = 100
print(obj2)
print("")
print(obj)

No. Precísamente porque es una copia.

Veamos ahora ejemplos de métodos de relleno

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

- ffill: Relleno mediante la observación de los últimos valores rellenos.

In [None]:
obj3.reindex(range(6), method='ffill')

- bfill: Relleno mediante la observación de los próximos valores rellenos.

In [None]:
obj3.reindex(range(6), method='bfill')

- nearest: Relleno mediante la observación del valor más próximo.

In [None]:
obj3.reindex(range(6), method='nearest')

Reindex con generación de índices no existentes

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Generamos una observación nueva (línea)

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Generamos una variable nueva (columna) y eliminamos una existente a la vez.

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

### Aritmética con estructuras de pandas

- Las  operaciones se aplican cuando hay "coincidencia" de índices en ambas estructuras (series, dataframes). introduciendo NaN en los resultados, cuando no hay coincidencia de claves. 
- Para solucionar este problema, pandas nos ofrece varias funciones básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.
- IMPORTANTE: En un numpy, para poder hacer operaciones, los arrays debían tener las mismas dimensiones. 
- IMPORTANTE: En pandas, los dataframe pueden tener cualquier dimensión (no tienen porqué coincidir). Lo que se va a buscar en la coincidencia de índices, sobre los que realizar la operación.

<center>
<img src="imgs/pd6.png"  alt="drawing" width="400"/>
</center>

Veamos algún ejemplo sobre series

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s2

Como podemos ver, no coinciden exáctamente los índices. ¿Qué ocurre si intentamos hacer una suma?

In [None]:
s1 + s2

Que se generan NaN. Si utilizamos el método add pasa lo mismo.

In [None]:
s1.add(s2)

Sin embargo este método, tiene un parámetro de relleno que podemos especificar.

In [None]:
s1.add(s2, fill_value=0)

Veamos ahora algún ejemplo para dataframes:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), 
                   columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                   columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

df2

Como podemos ver, no coinciden exáctamente ninguno de los dos índices (ni filas, ni columnas). ¿Qué ocurre entonces si intentamos hacer una suma?

In [None]:
df1 + df2

Que el DF resultante está repleto de NaN

De hecho, podemos llegar al absurdo de que no coincida nada.

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
print(df1)
print("")
print(df2)
df1 - df2

Por lo que establecer un método de relleno, puede ser interesante.

In [None]:
df1.sub(df2)

Fijaros bien en la diferencia de comportamiento entre poner y no poner el valor de relleno por defecto. ¿Qué creéis que va a salir?

In [None]:
df1.sub(df2, fill_value=0)

In [None]:
df1.add(df2, fill_value=0)

### Visualización Básica

Aunque veremos la visualización en el módulo 4. Es el momento de aprender un poco sobre visualización básica, y lo sencillo que es hacer un gráfico de un dataframe.

In [None]:
data_dict = {
    'population': np.random.randint(100, 300, 10),
    'PIB': np.random.randint(10000, 30000, 10),
}
data = pd.DataFrame(data_dict)
data

- Una simple instrucción nos permite graficar el DF
- Pero la diferencia entre datos no nos permite una visualización correcta, en este caso

In [None]:
data.plot()

Podemos graficar una columna por separado de una manera muy sencilla.

In [None]:
data.population.plot()

Podemos agregar un índice desde una lista y volver a graficar para apreciar los cambios.

In [None]:
data.index = list('abcdefghij')
data

In [None]:
data.population.plot()

Cambiar de gráfico es tan sencillo como conocer las tipologías existentes.

In [None]:
data.plot.bar()

Es importante conocer los inputs de cada gráfico. Un grafico de quesitos, por ejemplo, solo permite graficar una serie (columna).

In [None]:
data.PIB.plot.pie()

Histogramas

In [None]:
data.population.plot.hist()

Scatterplots: gráficos de dispersión de una variable contra otra.

In [None]:
data.plot.scatter('PIB','population')

___
# Ejercicios

**3.2.1.** Seleciona los datos en las filas 3, 4 y 8 y en las columnas  animal y age.

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df

**3.2.2.** Reindexa el dataframe usando números sequenciales empezando por el cero.

**3.2.3.** Seleciona las filas donde el número de vistas es mayor que 2.

**3.2.4.** Usando los siguientes daframe:

In [None]:
df_a = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(1, 11))
df_a

In [None]:
df_b = pd.DataFrame(np.random.randint(1, 10, 10),
                    index=np.arange(0, 10))
df_b

Calcula la resta de ambos y explica la diferencia entre usar un relleno = 0 o no.