<div style="background-color: #0070C0; height: 60px; color:white;padding: 0 0 0 0%; font-size:2rem; margin-right: 40%"> Data Wrangling. Transformando los datos para darles sentido. </div>

Explorar un conjunto de datos no es una operación trivial, requiere modificar la estructura de los datos, transformarlos, filtrarlos e interrogarlos hasta poder extraer información relevante para un problema en cuestión.

Estos procesos de data wrangling no son ajenos a la visualización de datos, de hecho, para poder crear algunas gráficas es necesario transformar los datos. Además, si consideramos que al momento de crear gráficas es necesario iniciar con una pregunta, los procesos de data wrangling nos ayudarán a transformar nuestros datos y lograr acercarnos a graficar algo que nos ayudará a contestar esas preguntas.

En el siguiente notebook encontrarás alguno de los comandos más usados en data wrangling y python, además de ejemplos de cómo visualizar datos a partir de estas transformaciones.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
df = pd.read_csv("../datasets/raw/20222703 Causes Of Death Clean Output V2.0.csv")
df

In [None]:
pd.DataFrame(df[df["Entity"]=="Mexico"]["Causes name"].value_counts())

# Seleccionar columnas.

¿Cuáles son las causas de defunción contenidas en el dataset?

In [None]:
df["Causes name"]

In [None]:
print(f'¿Cuáles son las causas de defunción contenidas en el dataset? \n {df["Causes name"].unique()}')

In [None]:
print(f'¿Cuántas son las causas de defunción contenidas en el dataset? \n {df["Causes name"].nunique()}')

# Filtrar

¿Cuántas muertes ocurrieron en el último año?

In [None]:
df[df["Year"] == 2019]

In [None]:
df2019 = df[df["Year"] == 2019]

df2019["Death Numbers"].sum()

¿Cuántas muertes se registraron en años previos al 2019?

In [None]:
df_rest = df[df["Year"] != 2019]
df_rest["Death Numbers"].sum()

# Agregados.

## Agrupar y sumar.

¿Cuál ha sido la tendencia de defunciones por año?

In [None]:
df.groupby("Year")["Death Numbers"].sum().plot()

In [None]:
dth_by_year = df.groupby("Year",as_index=False)["Death Numbers"].sum()

fig = plt.figure(figsize=(13.333,7.5))

plt.plot(dth_by_year["Year"], dth_by_year["Death Numbers"])

plt.show()

In [None]:
dth_by_year = df.groupby("Year",as_index=False)["Death Numbers"].sum()

fig = plt.figure(figsize=(13.333,7.5))

plt.bar(dth_by_year["Year"], dth_by_year["Death Numbers"])

plt.show()

¿Cuál es el promedio de defunciones por año?

In [None]:
dth_by_year = df.groupby("Year",as_index=False)["Death Numbers"].mean()

fig = plt.figure(figsize=(13.333,7.5))

plt.plot(dth_by_year["Year"], dth_by_year["Death Numbers"])

plt.show()

¿Cuál es la mayor causa de defunción registrada en el dataset?

In [None]:
df.groupby("Causes name")["Death Numbers"].mean().sort_values().plot.barh()

In [None]:
dth_by_causes = df.groupby("Causes name", as_index=False)["Death Numbers"].mean().sort_values(by="Death Numbers")

fig = plt.figure(figsize=(7.5,13.333))

plt.barh(dth_by_causes["Causes name"], dth_by_causes["Death Numbers"])

plt.show()


# Pivot.

¿Cuál ha sido la tendencia del número de defunciones por causa de fallecimiento?

In [None]:
df.pivot_table(index="Year", columns="Causes name", values="Death Numbers", aggfunc="sum")

In [None]:
df2 = df.pivot_table(index="Year", columns="Causes name", values="Death Numbers", aggfunc="sum")

In [None]:
fig, ax = plt.subplots(1, figsize=(13.333,6.5))

df2.plot(ax=ax)

plt.show()

In [None]:
df2.reset_index().melt(value_vars=df2.columns, id_vars="Year")

In [None]:
df3 = df2.reset_index().melt(value_vars=df2.columns, id_vars="Year")

px.line(x="Year", y="value", color="Causes name", data_frame=df3)

In [None]:
df3 = df2.reset_index().melt(value_vars=df2.columns, id_vars="Year")

px.line(x="Year", y="value", color="Causes name", data_frame=df3, width=1280, height=720)

In [None]:
fig = px.imshow(df2.T, width=900, height=720)
fig.show()