# Reshaping your data using melt

El proceso de **fusión(Melting)** nos permite convertir columnas de nuestro conjunto de datos en filas. Supongamos el siguiente conjunto de datos.

In [11]:
import pandas as pd
import numpy as np

#Cargamos el conjunto de datos airquality.csv
df = pd.read_csv('airquality.csv')

#Mostramos las primeras observaciones
print(df.head())

   Ozone  Solar.R  Wind  Temp  Month  Day
0   41.0    190.0   7.4    67      5    1
1   36.0    118.0   8.0    72      5    2
2   12.0    149.0  12.6    74      5    3
3   18.0    313.0  11.5    62      5    4
4    NaN      NaN  14.3    56      5    5


Podriamos almacenar las variables **Ozone**, **Solar.R**, **Wind** y **Temp** en una única columna junto con sus respectivos valores. Debemos tener claro que en función de como estén representados nuestros datos deberemos de redimensionar nuestro conjunto de datos de forma diferente. Para realizar este tipo de operaciones disponemos del método **melt()** dentro de la librería Pandas. Existen dos parámetros que deberíamos de indicar: **id_vars**, **value_vars**. El valor del argumento **id_vars** corresponde con el nombre de las columnas que no deseamos fusionar, mientras que el argumento **value_vars** indicamos aquellas columnas que deseamos fusionar. Sino indicamos un valor a **value_vars**, por defecto las columnas no indicadas en **id_vars** serán fusionadas.

In [2]:
#Fusionamos nuestro conjunto de datos
df_melt = pd.melt(df, id_vars = ['Month', 'Day'])

#Mostramos el resultado
print(df_melt.head())

   Month  Day variable  value
0      5    1    Ozone   41.0
1      5    2    Ozone   36.0
2      5    3    Ozone   12.0
3      5    4    Ozone   18.0
4      5    5    Ozone    NaN


# Customizing melted data

Una vez fusionado nuestro conjunto de datos, es posible que queramos renombrar las dos nuevas columnas que tomen nombres más representativos. Para ello el método **melt()** dispone del parámetro **var_name** donde indicamos el nombre de la nueva columna que es la fusión de las columnas indicadas y el parámetro **value_name** donde incamos el nombre de la columna que toma los valores tras la fusión.

In [3]:
#Fusionamos y renombramos columnas
df_melt = pd.melt(df, id_vars = ['Month', 'Day'], var_name = 'measurement', value_name = 'reading')

#Mostramos el resultado 
print(df_melt.head())

   Month  Day measurement  reading
0      5    1       Ozone     41.0
1      5    2       Ozone     36.0
2      5    3       Ozone     12.0
3      5    4       Ozone     18.0
4      5    5       Ozone      NaN


# Pivot data

El método **pivot_table** hace la operación opuesta al método **melt()**. Al método **pivot()** le debemos pasar el argumento **index** mediante el cual podemos indicar las columnas que no deseamos pivotar. El siguiente parámetro que debemos de indicar es el parámetro **columns** que indicamos las columnas que deseamos pivotar. Finalmente debemos de indicar en el parámetro **values** la columna que corresponde con los valores que deseamos pivotar.

In [7]:
#Pivotamos df_melt el dataframe fusionado anteriormente
df_pivot = df_melt.pivot_table(index = ['Month', 'Day'], columns = 'measurement', values = 'reading')

#Mostramos el resultado
print(df_pivot.head())

measurement  Ozone  Solar.R  Temp  Wind
Month Day                              
5     1       41.0    190.0  67.0   7.4
      2       36.0    118.0  72.0   8.0
      3       12.0    149.0  74.0  12.6
      4       18.0    313.0  62.0  11.5
      5        NaN      NaN  56.0  14.3


# Resetting the index of a DataFrame

Para obtener el DataFrame original, debemos de realizar un reseteo de índices, para ello contamos con el método **reset_index()**.

In [9]:
#Reseteamos índices
df_pivot = df_pivot.reset_index()

#Vemos el resultado 
print(df_pivot.head())

measurement  Month  Day  Ozone  Solar.R  Temp  Wind
0                5    1   41.0    190.0  67.0   7.4
1                5    2   36.0    118.0  72.0   8.0
2                5    3   12.0    149.0  74.0  12.6
3                5    4   18.0    313.0  62.0  11.5
4                5    5    NaN      NaN  56.0  14.3


# Pivoting duplicate values

Supongamos que estamos tratando en una situación en la cual disponemos de datos duplicados, es decir, supongamos el siguiente conjunto de datos.

In [10]:
#Cargamos los datos
df_duplicate = pd.read_csv('duplicate.csv')

#Mostramos el resultado
print(df_duplicate.head())

         date element  value
0  2010-01-30    tmax   27.8
1  2010-01-30    tmin   14.5
2  2010-02-02    tmax   27.3
3  2010-02-02    tmin   14.4
4  2010-02-02    tmin   16.4


Podemos ver que para la fecha 2010-02-02, disponemos de dos valores de tmin, si intentamos realizar un pivot, Python dará un error. El método **pivot_table()** dispone del argumento **aggfunc** que nos permite agregar funciones de forma que nos podemos evitar el problema de los duplicados.

In [12]:
#Agregamos por la media y pivotamos
df_duplicate_pivot = df_duplicate.pivot_table(index = 'date', columns = 'element', values = 'value', aggfunc = np.mean)

#Mostramos el resultado
print(df_duplicate_pivot.head())

element     tmax  tmin
date                  
2010-01-30  27.8  14.5
2010-02-02  27.3  15.4


# Splitting a column with .str

Supongamos el siguiente conjunto de datos

In [15]:
#Cargamos los datos 
df_tb = pd.read_csv('tb.csv')

#Vemos las primeras observaciones
print(df_tb.head())

  country  year  m014  m1524  m2534  m3544  m4554  m5564   m65  mu  f014  \
0      AD  2000   0.0    0.0    1.0    0.0    0.0    0.0   0.0 NaN   NaN   
1      AE  2000   2.0    4.0    4.0    6.0    5.0   12.0  10.0 NaN   3.0   
2      AF  2000  52.0  228.0  183.0  149.0  129.0   94.0  80.0 NaN  93.0   
3      AG  2000   0.0    0.0    0.0    0.0    0.0    0.0   1.0 NaN   1.0   
4      AL  2000   2.0   19.0   21.0   14.0   24.0   19.0  16.0 NaN   3.0   

   f1524  f2534  f3544  f4554  f5564   f65  fu  
0    NaN    NaN    NaN    NaN    NaN   NaN NaN  
1   16.0    1.0    3.0    0.0    0.0   4.0 NaN  
2  414.0  565.0  339.0  205.0   99.0  36.0 NaN  
3    1.0    1.0    0.0    0.0    0.0   0.0 NaN  
4   11.0   10.0    8.0    8.0    5.0  11.0 NaN  


Las columnas **m014** representa el número de hombres entre 0 y 14 año, la columna **f3544** representa el número de mujeres entre 35 y 44 años etc. Ahora supongamos que queremos crearnos una columna llamada **gender** que tome el valor de **m** en caso de masculino y el valor de **f** en caso de femenino. Además deseamos crearnos una columna denominada **agegroup** que contenga el rango de edad. Para realizar esto podemos hacerlo en dos pasos:

* En primer lugar hacemos uso de melt, fusionando todas las columnas menos country y year.

* Tras esto hacemos uso de la función str.

In [16]:
#Fusionamos nuestro conjunto de datos
df_tb_melt = pd.melt(df_tb, id_vars = ['country', 'year'])

#Mostramos el resultado
print(df_tb_melt.head())

  country  year variable  value
0      AD  2000     m014    0.0
1      AE  2000     m014    2.0
2      AF  2000     m014   52.0
3      AG  2000     m014    0.0
4      AL  2000     m014    2.0


In [17]:
#Nos generamos la columna gender
df_tb_melt['gender'] = df_tb_melt.variable.str[0]

#Nos generamos la columna agegroup
df_tb_melt['age_group'] = df_tb_melt.variable.str[1:]

#Observamos el resultado
print(df_tb_melt.head())

  country  year variable  value gender age_group
0      AD  2000     m014    0.0      m       014
1      AE  2000     m014    2.0      m       014
2      AF  2000     m014   52.0      m       014
3      AG  2000     m014    0.0      m       014
4      AL  2000     m014    2.0      m       014


# Splitting a column with .split() and .get()

Otra forma de almacenar múltiples variables en una sola columna es mediante un separador. Supongamos el siguiente conjunto de datos

In [18]:
#Cargamos los datos
df_ebola = pd.read_csv('ebola.csv')

#Mostramos las primeras observaciones 
print(df_ebola.head())

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0    1/5/2015  289        2776.0            NaN            10030.0   
1    1/4/2015  288        2775.0            NaN             9780.0   
2    1/3/2015  287        2769.0         8166.0             9722.0   
3    1/2/2015  286           NaN         8157.0                NaN   
4  12/31/2014  284        2730.0         8115.0             9633.0   

   Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
0            NaN            NaN                 NaN          NaN         NaN   
1            NaN            NaN                 NaN          NaN         NaN   
2            NaN            NaN                 NaN          NaN         NaN   
3            NaN            NaN                 NaN          NaN         NaN   
4            NaN            NaN                 NaN          NaN         NaN   

   Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
0         1786.0          

En este caso nuestro conjunto muestra el número de muertos por ebola en distintos países. Podemos observar que la columna **Cases_Guinea** indica el número de muertos en Guinea. Es decir, podríamos crearnos una columna que fuese **country** y otra que llamada **deaths**. Para esto deberemos de seguir una serie de pasos, en primer vamos a realizar un melt, fusionando por todas las columnas menos las columnas **Date** y **Day**.

In [21]:
#Fusionamos nuestras columnas
df_ebola_melt = pd.melt(df_ebola, id_vars = ['Date', 'Day'], var_name = 'type_country', value_name = 'deaths')

#Mostramos el resultado
print(df_ebola_melt.head())

         Date  Day  type_country  deaths
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3    1/2/2015  286  Cases_Guinea     NaN
4  12/31/2014  284  Cases_Guinea  2730.0


Ahora una vez tenemos esto, debemos crearnos la columna **country**, para esto disponemos del método **split()** este método nos permite separar un string por el separador que le indiquemos como parámetro, por defecto separa por espacio en blanco, esto nos retorna una lista.

In [29]:
#Nos creamos la columna spliteada
df_ebola_melt['split'] = df_ebola_melt.type_country.str.split('_')

#Observamos el resultado
print(df_ebola_melt.head())

         Date  Day  type_country  deaths            split
0    1/5/2015  289  Cases_Guinea  2776.0  [Cases, Guinea]
1    1/4/2015  288  Cases_Guinea  2775.0  [Cases, Guinea]
2    1/3/2015  287  Cases_Guinea  2769.0  [Cases, Guinea]
3    1/2/2015  286  Cases_Guinea     NaN  [Cases, Guinea]
4  12/31/2014  284  Cases_Guinea  2730.0  [Cases, Guinea]


In [32]:
#Nos creamos la columna country
df_ebola_melt['country'] = df_ebola_melt.split.str.get(1)

#Observamos el resultado
print(df_ebola_melt.head())

         Date  Day  type_country  deaths            split country
0    1/5/2015  289  Cases_Guinea  2776.0  [Cases, Guinea]  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  [Cases, Guinea]  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  [Cases, Guinea]  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  [Cases, Guinea]  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  [Cases, Guinea]  Guinea


In [35]:
#Eliminamos las columnas innecesarias
df_ebola_melt = df_ebola_melt.drop(['type_country', 'split'], axis = 1)

#Vemos el resultado
print(df_ebola_melt.head())

         Date  Day  deaths country
0    1/5/2015  289  2776.0  Guinea
1    1/4/2015  288  2775.0  Guinea
2    1/3/2015  287  2769.0  Guinea
3    1/2/2015  286     NaN  Guinea
4  12/31/2014  284  2730.0  Guinea
