# Redimensionamiento de tablas 


Se verá como usar 
* Melt & Pivot
* Stack & Unstack
* Tablas dinámicas


## Inicializemos los dataframes 

Usaremos un dataset con datos sobre flores iris, con información de que especie es, tamaños (width y length) de su petalo y sepalo

In [1]:
import pandas as pd 

data = "dataset/iris.csv"

df_iris = pd.read_csv(data)

display(df_iris.head(), df_iris.shape)

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


(150, 5)

## Melt & Pivot


Para la identificación de cada caso especifico vamos a crear una nueva columna llamada id

In [2]:
df_iris["id"] = list(range(150))
df_iris.head()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species,id
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,2
3,4.6,3.1,1.5,0.2,setosa,3
4,5.0,3.6,1.4,0.2,setosa,4


In [4]:
iris_melt = pd.melt(
    df_iris,
    id_vars="id",
    var_name="Variables",
    value_name="Values"
)
display(iris_melt.head(), iris_melt.tail())

Unnamed: 0,id,Variables,Values
0,0,sepal_length_cm,5.1
1,1,sepal_length_cm,4.9
2,2,sepal_length_cm,4.7
3,3,sepal_length_cm,4.6
4,4,sepal_length_cm,5.0


Unnamed: 0,id,Variables,Values
745,145,species,virginica
746,146,species,virginica
747,147,species,virginica
748,148,species,virginica
749,149,species,virginica


La función pivot se puede ver como una función inversa a la función melt

In [5]:
iris_melt.pivot(
    index="id",
    columns="Variables",
    values="Values"
).head()

Variables,petal_length_cm,petal_width_cm,sepal_length_cm,sepal_width_cm,species
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,1.4,0.2,5.1,3.5,setosa
1,1.4,0.2,4.9,3.0,setosa
2,1.3,0.2,4.7,3.2,setosa
3,1.5,0.2,4.6,3.1,setosa
4,1.4,0.2,5.0,3.6,setosa


## pivot_table()

In [9]:
#Calculemos la media de la altura del petalo según la especie
df_iris.groupby("species")["petal_length_cm"].mean()

species
setosa        1.462
versicolor    4.260
virginica     5.552
Name: petal_length_cm, dtype: float64

Este cálculo se puede hacer de manera equivalente usando pivot_table()

In [None]:
df_iris.pivot_table(values="petal_length_cm", index="species") #pivot_table() tiene como función de agregación predeterminada la media

Unnamed: 0_level_0,petal_length_cm
species,Unnamed: 1_level_1
setosa,1.462
versicolor,4.26
virginica,5.552


Entreguemosle otra función de agregación a pivot_table()

In [14]:
df_iris.pivot_table(
    values="petal_length_cm",
    index="species",
    aggfunc=["max", "min", "mean"]
)

Unnamed: 0_level_0,max,min,mean
Unnamed: 0_level_1,petal_length_cm,petal_length_cm,petal_length_cm
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
setosa,1.9,1.0,1.462
versicolor,5.1,3.0,4.26
virginica,6.9,4.5,5.552


También podemos ver todos los valores de una columna y qué valor tiene otra columna para ese valor especifico


In [15]:
df_iris.pivot_table(
    values="petal_length_cm",
    index="species",
    columns="sepal_length_cm"
).head()

sepal_length_cm,4.3,4.4,4.5,4.6,4.7,4.8,4.9,5.0,5.1,5.2,...,6.8,6.9,7.0,7.1,7.2,7.3,7.4,7.6,7.7,7.9
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
setosa,1.1,1.333333,1.3,1.325,1.45,1.58,1.45,1.45,1.5625,1.466667,...,,,,,,,,,,
versicolor,,,,,,,3.3,3.4,3.0,3.9,...,4.8,4.9,4.7,,,,,,,
virginica,,,,,,,4.5,,,,...,5.7,5.4,,5.9,5.966667,6.3,6.1,6.6,6.6,6.4


## Stack & Unstack

El método stack() nos retorna un panda series con el valor de cada columna para cada registro

In [19]:
df_iris.stack().head(10)

0  sepal_length_cm       5.1
   sepal_width_cm        3.5
   petal_length_cm       1.4
   petal_width_cm        0.2
   species            setosa
   id                      0
1  sepal_length_cm       4.9
   sepal_width_cm        3.0
   petal_length_cm       1.4
   petal_width_cm        0.2
dtype: object

El método unstack() hace la operación inversa, toma un panda series stack() y lo transforma en un dataframe 

In [21]:
df_iris.stack().unstack().head()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,species,id
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,2
3,4.6,3.1,1.5,0.2,setosa,3
4,5.0,3.6,1.4,0.2,setosa,4


## Tablas dinámicas

Para el ejemplo crearemos un nuevo dataframe

In [22]:
df = pd.DataFrame(
    {
        "key1": ["a", "a", "b", "b", "c", "c"],
        "key2": ["A", "B", "A", "B", "A", "B"],
        "values1": [1, 2, 3, 4, 5, 6],
        "values2": [7, 8, 9, 10, 11, 12],
    }
)
df

Unnamed: 0,key1,key2,values1,values2
0,a,A,1,7
1,a,B,2,8
2,b,A,3,9
3,b,B,4,10
4,c,A,5,11
5,c,B,6,12


In [23]:
pd.pivot_table(
    df,
    index=["key1", "key2"],
    values=["values1", "values2"]
)

Unnamed: 0_level_0,Unnamed: 1_level_0,values1,values2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,1.0,7.0
a,B,2.0,8.0
b,A,3.0,9.0
b,B,4.0,10.0
c,A,5.0,11.0
c,B,6.0,12.0


## Método pivot()

In [24]:
df = pd.DataFrame(
    {
        "foo": ["one", "one", "one", "two", "two", "two"],
        "bar": ["A", "B", "C", "A", "B", "C"],
        "baz": [1, 2, 3, 4, 5, 6],
        "zoo": ["x", "y", "z", "q", "w", "t"],
    }
)
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [25]:
df.pivot(
    index="foo",
    columns="bar",
    values="baz"
)

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


Ahora no indiquemos la columna values

In [26]:
df.pivot(
    index="foo",
    columns="bar"
)

Unnamed: 0_level_0,baz,baz,baz,zoo,zoo,zoo
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,1,2,3,x,y,z
two,4,5,6,q,w,t


Ahora vamos a indicar todos los valores 

In [28]:
df.pivot(
    index="foo",
    columns="bar",
    values=["zoo", "baz"]
)

Unnamed: 0_level_0,zoo,zoo,zoo,baz,baz,baz
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,x,y,z,1,2,3
two,q,w,t,4,5,6
