### 1.) Gestión de datos (combinar y unir)

Las operaciones de *merge* o *join* combinan conjuntos de datos al vincular filas usando una o más claves. Estas operaciones son fundamentales para las bases de datos relacionales (por ejemplo, basadas en SQL). La función *merge* en pandas es el principal punto de entrada para usar estos algoritmos en sus datos.

In [None]:
import pandas as pd
import numpy as np

**merge**

In [None]:
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"], "data1": range(7)})
df2 = pd.DataFrame({"key": ["a", "b", "d"], "data2": range(3)})

df1

In [None]:
df2

Este es un ejemplo de una unión de many-to-one (muchos a uno); los datos en df1 tienen múltiples filas etiquetadas como
a y b, mientras que df2 tiene solo una fila para cada valor en la columna clave. La función *merge* arroja:

Si los nombres de las columnas son diferentes en cada objeto, puede especificarlos por separado:

In [None]:
df3 = pd.DataFrame({"lkey": ["b", "b", "a", "c", "a", "a", "b"],"data1": range(7)})
df4 = pd.DataFrame({"rkey": ["a", "b", "d"],"data2": range(3)})

df3

In [None]:
df4

In [None]:
pd.________(df3, df4, _______="lkey", _______="rkey")

Puede notar que los valores "c" y "d" y los datos asociados faltan en el resultado. Por defecto, merge hace una unión "interna"; las claves en el resultado son la intersección, o el conjunto común que se encuentra en ambas tablas. Otras opciones posibles son "izquierda", "derecha" y "exterior". La unión exterior toma la unión de las llaves, combinando las
efecto de aplicar combinaciones izquierda y derecha:

In [None]:
df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"], "data1": range(6)})
df2 = pd.DataFrame({"key": ["a", "b", "a", "b", "d"], "data2": range(5)})

df1

In [None]:
df2

In [None]:
pd._________(df1, df2, on="key", _________)

Como eran tres filas "b" en el DataFrame izquierdo y dos en el derecho, hay seis filas "b" en el resultado. El método de combinación solo afecta a los distintos valores clave que aparecen en el resultado:

In [None]:
pd.merge(df1, df2, _________)

Para fusionar con varias claves, pase una lista de nombres de columna:

In [None]:
left = pd.DataFrame({"key1": ["foo", "foo", "bar"],"key2": ["one", "two", "one"],"lval": [1, 2, 3]})
right = pd.DataFrame({"key1": ["foo", "foo", "bar", "bar"],"key2": ["one", "one", "one", "two"],"rval": [4, 5, 6, 7]})

left

In [None]:
right

In [None]:
pd.merge(left, right, _________, _________)

In [None]:
pd.merge(left, right, _________)

In [None]:
pd.merge(left, right, on="key1", _________)

El merge también se puede realizar por índice y no por nombre de columna (como se ha visto hasta el momento)

In [None]:
left1 = pd.DataFrame({"key": ["a", "b", "a", "a", "b", "c"], "value": range(6)})
right1 = pd.DataFrame({"group_val": [3.5, 7]}, index=["a", "b"])

left1

In [None]:
right1

In [None]:
pd.merge(left1, right1, _________, _________)

In [None]:
pd.merge(left1, right1, left_on="key", _________, _________)

**concat**

Otro tipo de operación de combinación de datos se conoce indistintamente como concatenaciónn, encuadernación o apilamiento. La función concatenar de NumPy puede hacer esto con  matrices:

In [None]:
arr = np.arange(12).reshape((3, 4))
arr

In [None]:
np._________([arr, arr], axis=1)

In [None]:
s1 = pd.Series([0, 1], index=["a", "b"])
s2 = pd.Series([2, 3, 4], index=["c", "d", "e"])
s3 = pd.Series([5, 6], index=["f", "g"])

pd._________([s1, s2, s3])

In [None]:
pd._________([s1, s2, s3], _________)

In [None]:
pd.concat([s1, s2, s3], _________, _________)

In [None]:
df1 = pd.DataFrame(np.random.randn(3, 4), columns=["a", "b", "c", "d"])
df2 = pd.DataFrame(np.random.randn(2, 3), columns=["b", "d", "a"])

df1

In [None]:
df2

In [None]:
pd._________([df1, df2])

In [None]:
pd._________([df1, df2], _________)

Combinar datos con superposición. Hay otra situación de combinación de datos que no se puede expresar como una combinación
o operación de concatenación. Puede tener dos conjuntos de datos cuyos índices se superponen por completo o en parte. Como ejemplo motivador, considere la función where de NumPy, que realiza el equivalente orientado a matrices de una expresión if-else:

In [None]:
a = pd.Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan], index=["f", "e", "d", "c", "b", "a"])
b = pd.Series(np.arange(len(a), dtype=np.float64), index=["f", "e", "d", "c", "b", "a"])
b[-1] = np.nan

a

In [None]:
b

In [None]:
np._________(pd._________, b, a)

In [None]:
a._________(b)

In [None]:
df1 = pd.DataFrame({"a": [1., np.nan, 5., np.nan], "b": [np.nan, 2., np.nan, 6.], "c": range(2, 18, 4)})
df2 = pd.DataFrame({"a": [5., 4., np.nan, 3., 7.], "b": [np.nan, 3., 4., 6., 8.]})

df1

In [None]:
df2

In [None]:
df1._________(df2)

### 2.) Reformar y pivotar

Hay una serie de operaciones básicas para reorganizar datos tabulares. Estas son conocidas como operaciones de cambio de forma o de pivote. 
    
- **stack:** 
This “rotates” or pivots from the columns in the data to the rows
- **unstack:**
This pivots from the rows into the columns

In [None]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)), index=pd.Index(["Ohio", "Colorado"], name="state"), 
                    columns=pd.Index(["one", "two", "three"], name="number"))
data

In [None]:
result = data._________
result

In [None]:
result._________

In [None]:
result._________

Cambio de formato "largo" a "ancho"

Una forma común de almacenar múltiples series de tiempo en bases de datos y CSV es en los llamados largos o formato apilado. Carguemos algunos datos de ejemplo y hagamos una pequeña cantidad de series de tiempo disputas y otra limpieza de datos:

In [None]:
data = pd.read_csv("https://raw.githubusercontent.com/BrambleXu/pydata-notebook/master/examples/macrodata.csv")
data.head()

In [None]:
_________

In [None]:
periods = pd._________(year=_________, quarter=_________, name="date")
columns = pd.Index(["realgdp", "infl", "unemp"], name="item")

periods

In [None]:
data = data._________(columns=columns) 
data.index = periods._________("D")

ldata = data._________._________._________(columns={0: "value"})

In [None]:
ldata[:10]

Este es el llamado formato largo para múltiples series de tiempo u otros datos de observación. con dos o más claves (aquí, nuestras claves son date e item). Cada fila de la tabla representa envía una única observación.

Los datos se almacenan con frecuencia de esta manera en bases de datos relacionales como MySQL, ya que un esquema fijo (nombres de columna y tipos de datos) permite que la cantidad de valores distintos en la columna del elemento cambie a medida que se agregan datos a la tabla. En el ejemplo anterior, la fecha y el elemento suelen ser las claves principales (en el lenguaje de la base de datos relacional), lo que ofrece integridad relacional y uniones más sencillas. En algunos casos, puede ser más difícil trabajar con los datos en este formato; es posible que prefiera tener un DataFrame que contenga una columna por valor de elemento distinto indexado por marcas de tiempo en la columna de fecha. 

El método de pivote de Frame realiza exactamente esta transformación:

In [None]:
pivoted = ldata._________("date", "item", "value")
pivoted

Suponga que tiene dos columnas de valor que desea remodelar simultáneamente:

In [None]:
ldata["value2"] = np.random.randn(len(ldata))
ldata[:10]

In [None]:
pivoted = ldata._________("date", "item")
pivoted

In [None]:
pivoted["value"][:5]

In [None]:
unstacked = ldata.set_index(["date", "item"])._________
unstacked[:7]

##### Pivoting “Wide” to “Long” Format

In [None]:
df = pd.DataFrame({"key": ["foo", "bar", "baz"], "A": [1, 2, 3], "B": [4, 5, 6], "C": [7, 8, 9]})
df

La columna "clave" puede ser un indicador de grupo, y las otras columnas son valores de datos. Al usar pandas.melt, debemos indicar qué columnas (si las hay) son indicativas de grupo. Usemos "clave" como el único indicador de grupo aquí:

In [None]:
melted = pd._________(df, ["key"])
melted

In [None]:
reshaped = melted._________("key", "variable", "value")
reshaped

In [None]:
reshaped._________

In [None]:
pd._________(df, id_vars=["key"], _________)

In [None]:
pd._________(df, _________)


In [None]:
pd._________(df, _________)

### 3.) Visualización

Para todos los temas relacionados a visualización, la librería principal va a ser matplotlib. Por suerte, cuenta con una documentación extensa que puede ser consultada [AQUÍ](https://matplotlib.org/).

In [None]:
%matplotlib notebook

In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

x = np.linspace(0, 10, 100)

plt.____(x, np.sin(x))
plt.____(x, np.cos(x))

plt.show()

Una cosa a tener en cuenta: el comando plt.show() debe usarse solo una vez por sesión de Python, y se ve con mayor frecuencia al final del script. Múltiples comandos show() pueden conducir a un comportamiento impredecible dependiente del backend y, en su mayoría, deben evitarse.

In [None]:
fig = plt.figure()

plt.____(x, np.sin(x), ____)
plt.____(x, np.cos(x), ____);

In [None]:
fig.____("my_figure.png")

In [None]:
from IPython.display import ____
____("my_figure.png")

In [None]:
fig.____.get_supported_filetypes()

Los gráficos en matplotlib residen dentro de un objeto Figure. Puedes crear una nueva figura con plt.figure:

In [None]:
fig = plt.figure()

In [None]:
ax1 = fig.____(2, 2, 1)
ax2 = fig.____(2, 2, 2)

In [None]:
ax3 = fig.____(2, 2, 3)

In [None]:
plt.plot(np.random.randn(50).cumsum(), ____);

Cuando ejecuta un comando de trazado como plt.plot([1.5, 3.5, -2, 1.6]), matplotlib se basa en la última figura y la subtrama utilizada (creando una si es necesario)

In [None]:
hist = ax1.____(np.random.randn(100), bins=20, ____, ____)

In [None]:
ax2.____(np.arange(30), np.arange(30) + 3 * np.random.randn(30));

Otra forma posible de crear subplots es: 

In [None]:
plt.figure()

plt.____(2, 1, 1)
plt.____(x, np.sin(x))

plt.____(2, 1, 2)
plt.____(x, np.cos(x));

La interfaz orientada a objetos está disponible para estas situaciones más complicadas y para cuando quieras tener más control sobre tu figura. En lugar de depender de alguna noción de una figura o ejes "activos", en la interfaz orientada a objetos, las funciones de trazado son métodos de objetos explícitos de Figura y Ejes. Para volver a crear el gráfico anterior utilizando este estilo de trazado, puede hacer lo siguiente

In [None]:
fig, ax = plt.____(2)

____.plot(x, np.sin(x))
____.plot(x, np.cos(x));

Establecer colores

In [None]:
x

In [None]:
plt.figure()

plt.plot(x, np.sin(x - 0), color="blue") 
plt.plot(x, np.sin(x - 1), color="g")
plt.plot(x, np.sin(x - 2), color="0.75")
plt.plot(x, np.sin(x - 3), color="#FFDD44")
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3))
plt.plot(x, np.sin(x - 5), color="chartreuse");

Establecer estilo

In [None]:
plt.figure()

plt.plot(x, x + 0, linestyle="solid")
plt.plot(x, x + 1, linestyle="dashed")
plt.plot(x, x + 2, linestyle="dashdot")
plt.plot(x, x + 3, linestyle="dotted");

plt.plot(x, x + 4, linestyle=____) 
plt.plot(x, x + 5, linestyle=____)
plt.plot(x, x + 6, linestyle=____)
plt.plot(x, x + 7, linestyle=____);

In [None]:
plt.figure()

plt.plot(x, x + 0, ____)
plt.plot(x, x + 1, ____)
plt.plot(x, x + 2, ____)
plt.plot(x, x + 3, ____);

Ajustes del plot

In [None]:
plt.figure()

plt.plot(x, np.sin(x))

plt.____(10, 0)
plt.____(1.2, -1.2);

El método plt.axis() le permite establecer los límites x e y con una sola llamada, pasando una lista que especifica [xmin, xmax, ymin, ymax]

In [None]:
plt.plot(x, np.sin(x))
plt.____([-1, 11, -1.5, 1.5]);

In [None]:
plt.figure()

ax = plt.axes()
ax.plot(x, np.sin(x))
ax.set(xlim=(0, 10), ylim=(-2, 2),
xlabel="x", ylabel="sin(x)",
title="A Simple Plot");