# Mezclas, transformaciones, limpieza, redimensionamiento

La siguiente clase sirve para hacer display de varios dataframes en un mismo output en un Jupyter Notebook. Se puede usar para objetos que tengan el atributo de representación html, como los DataFrames (las series no):

In [1]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [2]:
import numpy as np
import pandas as pd

# Uniones

- `pd.concat` - Une DataFrames usando índices (no como np.concatenate que solapa simplemente).
- `pd.merge` - Unión basada en filas. Similar a la típica en las bases relacionales.
- `combine_first` - Método de una instancia DataFrame que permite unir otro DataFrame que se solapa rellenando valores faltantes entre sí. Se priorizan los valores de la instancia sobre el segundo DataFrame.

***
***
***
Opciones para Merge:

- `left` - DataFrame izquierdo. 
- `right` - DataFrame derecho.
- `how` -  Uno de 'inner', 'outer', 'left' or 'right' . 
    Hay cuatro tipos de formas mezclantes:
   - `inner` - El nuevo DataFrame sólo combina filas de los dos DataFrames que tengan el mismo valor de la columna clave. Modo por defecto.
   - `outer` - El nuevo DataFrame combina todas las filas de ambos DataFrames basándose en la columna clave, genera `NaN` si en alguno de los dos no existe el valor de la posición del otro en la columna clave.
   - `left` - La columna clave de la mezcla es la del DataFrame izquierdo.
   - `right` - Idem pero en la derecha.
- `left_on` - Columnas clave en la parte izquierda del DataFrame .
- `right_on` - Idem en el lado derecho. 
- `left_index` - Usar el índice de filas en el DataFrame izquierdo como su clave de unión. 
- `right_index` -   Idem pero en la derecha.
- `sort` - Ordenar los datos mezclados lexicográfiamente basándose en las columnas clave. 
- `suffixes` - Tupla de valores string para añadir a los nombres de columnas en caso de solapamiento.  
- `copy` - True por defecto.

In [3]:
# unimos dos series
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [4]:
#unimos dos series con índices en solapamiento:
ser3 = pd.Series(['D', 'E', 'F'], index=[3, 4, 5])

pd.concat([ser1, ser3])

1    A
2    B
3    C
3    D
4    E
5    F
dtype: object

### Comandos `merge`

In [5]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],'data2': range(3)})

dfmezcla=pd.merge(df1, df2)
#mezcla usando como clave la columna en común por defecto
display('df1','df2','dfmezcla')

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


Es mejor especificar explícitamente qué columnas se van a usar como clave para la mezcla, así se evitan confusiones. 

In [6]:
dfmezcla=pd.merge(df1, df2,on='key')
display('df1','df2','dfmezcla')

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


Se pueden establecer nombres de las columnas clave distintos en cada DataFrame en caso de que no coincidan.

In [7]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1': range(7)})
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'],'data2': range(3)})

dfmezcla=pd.merge(df3, df4, left_on='lkey', right_on='rkey',how='left')
display('df3','df3','dfmezcla')

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1.0,b
1,1,b,1.0,b
2,2,a,0.0,a
3,3,c,,
4,4,a,0.0,a
5,5,a,0.0,a
6,6,b,1.0,b


In [8]:
dfmezcla=pd.merge(df3, df4, left_on='lkey', right_on='rkey',how='right')
display('df3','df3','dfmezcla')

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey,data2,rkey
0,0.0,b,1,b
1,1.0,b,1,b
2,6.0,b,1,b
3,2.0,a,0,a
4,4.0,a,0,a
5,5.0,a,0,a
6,,,2,d


In [9]:
dfmezcla=pd.merge(df3, df4, left_on='lkey', right_on='rkey',how='outer')
display('df3','df3','dfmezcla')

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b

Unnamed: 0,data1,lkey,data2,rkey
0,0.0,b,1.0,b
1,1.0,b,1.0,b
2,6.0,b,1.0,b
3,2.0,a,0.0,a
4,4.0,a,0.0,a
5,5.0,a,0.0,a
6,3.0,c,,
7,,,2.0,d


Se puede mezclar basándose en varias columnas clave:

In [10]:
left = pd.DataFrame({'key1': ['foo', 'foo', 'bar'],'key2': ['one', 'two', 'one'],
                  'lval': [1, 2, 3]})
right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                      'key2': ['one', 'one', 'one', 'two'],'rval': [4, 5, 6, 7]})

dfmezcla=pd.merge(left, right, on=['key1', 'key2'], how='outer')
display('left','right','dfmezcla')
#observamos que se han usado ambas columnas con todos los valores posibles 
#de ambas

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3

Unnamed: 0,key1,key2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


Mezcla basada en índices:

In [11]:
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],'value': range(6)})
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])

dfmezcla=pd.merge(left1, right1, left_on='key', right_index=True)
display('left1','right1','dfmezcla')

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5

Unnamed: 0,group_val
a,3.5
b,7.0

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


Con multiíndices, esta opción de establecer las claves en los índices se complica:

In [12]:
lefth = pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'key2': [2000, 2001, 2002, 2001, 2002],'data': np.arange(5.)})
righth = pd.DataFrame(np.arange(12).reshape((6, 2)),
                      index=[['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                             [2001, 2000, 2000, 2000, 2001, 2002]],
                      columns=['event1', 'event2'])

dfmezcla=pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)
display('lefth','righth','dfmezcla')

Unnamed: 0,data,key1,key2
0,0.0,Ohio,2000
1,1.0,Ohio,2001
2,2.0,Ohio,2002
3,3.0,Nevada,2001
4,4.0,Nevada,2002

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4,5
0,0.0,Ohio,2000,6,7
1,1.0,Ohio,2001,8,9
2,2.0,Ohio,2002,10,11
3,3.0,Nevada,2001,0,1


In [13]:
pd.merge(lefth, righth, left_on=['key1', 'key2'],right_index=True, how='outer')

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4.0,5.0
0,0.0,Ohio,2000,6.0,7.0
1,1.0,Ohio,2001,8.0,9.0
2,2.0,Ohio,2002,10.0,11.0
3,3.0,Nevada,2001,0.0,1.0
4,4.0,Nevada,2002,,
4,,Nevada,2000,2.0,3.0


El método `join` de las instancias DataFrame mezcla por defecto las columnas clave establecidas del DataFrame el índice del nuevo DataFrame aportado, se usa `left` por defecto en el tipo:

In [14]:
lefth.join(righth,on=['key1', 'key2']) 

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4.0,5.0
0,0.0,Ohio,2000,6.0,7.0
1,1.0,Ohio,2001,8.0,9.0
2,2.0,Ohio,2002,10.0,11.0
3,3.0,Nevada,2001,0.0,1.0
4,4.0,Nevada,2002,,


Si no indicamos nada, la mezcla se realiza índice a índice:

In [15]:
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'],
                  columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                   index=['b', 'c', 'd', 'e'], columns=['Missouri', 'Alabama'])
dfmezcla1=left2.join(right2)
dfmezcla2=right2.join(left2)

display('left2','right2','dfmezcla1','dfmezcla2') 
#recordamos que se realiza con opción 'left' 

Unnamed: 0,Ohio,Nevada
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0

Unnamed: 0,Missouri,Alabama
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0

Unnamed: 0,Missouri,Alabama,Ohio,Nevada
b,7.0,8.0,,
c,9.0,10.0,3.0,4.0
d,11.0,12.0,,
e,13.0,14.0,5.0,6.0


### Concatenación de filas

Plantea las siguientes cuestiones:
- Si los objetos tienen diferentes índices en los ejes, ¿realizamos intersección ó unión?
- ¿ Necesitan los grupos ser identificados en el DataFrame resultante?
- ¿ Importa el eje de concatenación?


In [16]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])
print(s1 , '\n')
print(s2, '\n')
print(s3, '\n')

a    0
b    1
dtype: int64 

c    2
d    3
e    4
dtype: int64 

f    5
g    6
dtype: int64 



In [17]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

Si concatenamos respectoa a los ejes horizontales generamos un Dataframe con las Series por columnas:

In [18]:
pd.concat([s1, s2, s3],axis=1) 
#aparece NaN en las posiciones que alguna de las series no tiene

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


Si los índices se solapan se duplican en las Series

In [19]:
s4=pd.Series([2, 3, 4], index=['c', 'd', 'h'])
print(s4)
pd.concat([ s2, s4])

c    2
d    3
h    4
dtype: int64


c    2
d    3
e    4
c    2
d    3
h    4
dtype: int64

In [20]:
pd.concat([s1, s2, s3],axis=1)
#pintamos abajo para poder observar qué operaión se está haciendo

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [21]:
result = pd.concat([s1, s1, s3], keys=['one', 'two', 'three'])
result

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

¿Cómo ha generado esta concatenación previa?

In [22]:
result.unstack()

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0


In [23]:
#concatena por columnas , las claves son en este caso el nombre de las columnas
pd.concat([s1, s2, s3], axis=1, keys=['one', 'two', 'three'])

Unnamed: 0,one,two,three
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


Concatenamos varios DataFrames, genera un DataFrame con las filas de todos:

In [24]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                     index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                     'B': ['B4', 'B5', 'B6', 'B7'],
                     'C': ['C4', 'C5', 'C6', 'C7'],
                     'D': ['D4', 'D5', 'D6', 'D7']},
                      index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])


result = pd.concat([df1, df2, df3])

display('df1','df2','df3','result')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [25]:
#concatenamos por columnas creando multiíndice para estas para diferenciarlas:
pd.concat([df1, df2, df3],axis=1, keys=['primero','segundo','tercero'])

Unnamed: 0_level_0,primero,primero,primero,primero,segundo,segundo,segundo,segundo,tercero,tercero,tercero,tercero
Unnamed: 0_level_1,A,B,C,D,A,B,C,D,A,B,C,D
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [26]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'],
                columns=['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'],
                columns=['three', 'four'])
dfmezcla=pd.concat([df1, df2], axis=1, keys=['level1', 'level2'])

display('df1','df2','dfmezcla')

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5

Unnamed: 0,three,four
a,5,6
c,7,8

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


Otra alternativa para establecer los niveles multiíndice es usar un diccionario:

In [27]:
pd.concat({'level1': df1, 'level2': df2}, axis=1)

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


Se pueden indicar nombres en los multiíndices en la concatenación:

In [28]:
hor=pd.concat([df1, df2], axis=1, keys=['level1', 'level2'],
          names=['upper', 'lower'])
ver=pd.concat([df1, df2], axis=0, keys=['level1', 'level2'],
          names=['upper', 'lower'])


display('df1','df2','hor','ver',)

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5

Unnamed: 0,three,four
a,5,6
c,7,8

upper,level1,level1,level2,level2
lower,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0

Unnamed: 0_level_0,Unnamed: 1_level_0,four,one,three,two
upper,lower,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
level1,a,,0.0,,1.0
level1,b,,2.0,,3.0
level1,c,,4.0,,5.0
level2,a,6.0,,5.0,
level2,c,8.0,,7.0,


Un caso en el que es irrelevante la indexación de filas en el que ignoramos el índice:

In [29]:
df1 = pd.DataFrame(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.random.randn(2, 3), columns=['b', 'd', 'a'])
dfmezcla=pd.concat([df1, df2], ignore_index=True)

display('df1','df2','dfmezcla')

Unnamed: 0,a,b,c,d
0,0.952395,0.630876,-0.02949,-0.269201
1,2.427787,-1.421493,2.530457,-0.431061
2,-0.447601,-1.039543,-0.561289,2.183058

Unnamed: 0,b,d,a
0,0.743076,0.385106,1.591836
1,-2.524834,-0.542787,0.657652

Unnamed: 0,a,b,c,d
0,0.952395,0.630876,-0.02949,-0.269201
1,2.427787,-1.421493,2.530457,-0.431061
2,-0.447601,-1.039543,-0.561289,2.183058
3,1.591836,0.743076,,0.385106
4,0.657652,-2.524834,,-0.542787


# Combinación de datos con solapamiento

El método `combine_first` sirve para trabajar con datos cuyos índices se solapan en su totalidad ó en parte.

In [30]:
a = pd.Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan],
              index=['f', 'e', 'd', 'c', 'b', 'a'])
b = pd.Series(np.arange(len(a), dtype=np.float64),
           index=['f', 'e', 'd', 'c', 'b', 'a'])
print(a,'\n')
print(b)

f    NaN
e    2.5
d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64 

f    0.0
e    1.0
d    2.0
c    3.0
b    4.0
a    5.0
dtype: float64


In [31]:
b[:-2].combine_first(a[2:])

a    NaN
b    4.5
c    3.0
d    2.0
e    1.0
f    0.0
dtype: float64

In [32]:
df1 = pd.DataFrame({'a': [1., np.nan, 5., np.nan],
                    'b': [np.nan, 2., np.nan, 6.],
                    'c': range(2, 18, 4)})
df2 = pd.DataFrame({'a': [5., 4., np.nan, 3., 7.],
                    'b': [np.nan, 3., 4., 6., 8.]})

dfmezcla1=df1.combine_first(df2)
dfmezcla2=df2.combine_first(df1)

display('df1','df2','dfmezcla1','dfmezcla2')

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14

Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,

Unnamed: 0,a,b,c
0,5.0,,2.0
1,4.0,3.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


# Redimensionamiento

Ya hemos visto las dos herramientas de redimensionamiento son
- `stack` - Pasa el índice de fila más bajo a columna.
- `unstack` - Pasa el índice de columna más bajo a fila.

Si al hacer la operación vaciamos los valores de las columnas ó índices, el objeto pasa a ser una `Series`

In [33]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(['Ohio', 'Colorado'], name='state'),
                    columns=pd.Index(['one', 'two', 'three'], name='number'))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [34]:
result = data.stack()
result # las columnas pasan a ser índices de fila

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

In [35]:
data.unstack() # el índice de fila pasa a ser índice de columna

number  state   
one     Ohio        0
        Colorado    3
two     Ohio        1
        Colorado    4
three   Ohio        2
        Colorado    5
dtype: int64

Se puede hacer stack y unstack seleccionando qué niveles pasan de una tipo a otro:

In [36]:
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

Seleccionamos qué nivel del índice pasa a ser columna

In [37]:
display('result.unstack(0)','result.unstack(1)')

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [38]:
result.unstack('state')

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


Al hacer stack y unstack se pueden generar valores faltantes. Se puede aplicar la opción `dropna` para que estos elementos sean eliminados.

In [39]:
s1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
print(s1,'\n')
print(s2)

a    0
b    1
c    2
d    3
dtype: int64 

c    4
d    5
e    6
dtype: int64


In [40]:
data2 = pd.concat([s1, s2], keys=['one', 'two'])
data2

one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64

In [41]:
data2.unstack()

Unnamed: 0,a,b,c,d,e
one,0.0,1.0,2.0,3.0,
two,,,4.0,5.0,6.0


In [42]:
data2.unstack().stack()

one  a    0.0
     b    1.0
     c    2.0
     d    3.0
two  c    4.0
     d    5.0
     e    6.0
dtype: float64

In [43]:
data2.unstack().stack(dropna=False)

one  a    0.0
     b    1.0
     c    2.0
     d    3.0
     e    NaN
two  a    NaN
     b    NaN
     c    4.0
     d    5.0
     e    6.0
dtype: float64

In [44]:
df = pd.DataFrame({'left': result, 'right': result + 5},
               columns=pd.Index(['left', 'right'], name='side'))

df1=df.unstack('state')
df2=df.unstack('state').stack('side')

display('df','df1','df2')

Unnamed: 0_level_0,side,left,right
state,number,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,one,0,5
Ohio,two,1,6
Ohio,three,2,7
Colorado,one,3,8
Colorado,two,4,9
Colorado,three,5,10

side,left,left,right,right
state,Ohio,Colorado,Ohio,Colorado
number,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
one,0,3,5,8
two,1,4,6,9
three,2,5,7,10

Unnamed: 0_level_0,state,Ohio,Colorado
number,side,Unnamed: 2_level_1,Unnamed: 3_level_1
one,left,0,3
one,right,5,8
two,left,1,4
two,right,6,9
three,left,2,5
three,right,7,10


# Transformaciones

### Eliminar duplicados

In [45]:
data = pd.DataFrame({'k1': ['one'] * 3 + ['two'] * 4,
                     'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [46]:
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

El método `drop_duplicates` tiene tres opciones en el parámetro `keep`, por defecto su valor es `'first'`:
- `'first'` - mantiene el primer elemento encontrado.
- `'last'` - mantiene el último elemento encontrado.
- `False` - elimina todas las posiciones que tienen duplicados.

In [47]:
drop1=data.drop_duplicates()
drop2=data.drop_duplicates(keep='last')
drop3=data.drop_duplicates(keep=False)
drop4=data.drop_duplicates('k2') #mira sólo la columna k2 para observar duplicados

display('drop1','drop2','drop3','drop4')

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4

Unnamed: 0,k1,k2
1,one,1
2,one,2
4,two,3
6,two,4

Unnamed: 0,k1,k2
2,one,2

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


### Aplicando funciones

Hemos visto algunos ejemplos, vemos alguno más para ampliar:

In [48]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami',
                           'corned beef', 'Bacon', 'pastrami', 'honey ham','nova lox'],
                  'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [49]:
meat_to_animal = {
'bacon': 'pig',
'pulled pork': 'pig',
'pastrami': 'cow',
'corned beef': 'cow',
'honey ham': 'pig',
'nova lox': 'salmon'
}

Transformamos la columna de `'food'` usando el diccionario: 

In [50]:
data['food'].map(lambda x: meat_to_animal[x.lower()] , )

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### Reemplazar valores

El método `replace` reemplaza valores en un DataFrame

In [51]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [52]:
data.replace(to_replace=['bacon','pastrami'],value=['cerdo','perro'])

Unnamed: 0,food,ounces
0,cerdo,4.0
1,pulled pork,3.0
2,cerdo,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,perro,3.0
7,honey ham,5.0
8,nova lox,6.0


In [53]:
s=pd.Series([1,2,-999,'#',40,-999])
s

0       1
1       2
2    -999
3       #
4      40
5    -999
dtype: object

In [54]:
s.replace(to_replace=['#',-999],value=np.nan,inplace=True)
s

0     1.0
1     2.0
2     NaN
3     NaN
4    40.0
5     NaN
dtype: float64

### Renombrar ejes

Con el método `rename` se pueden renombrar ejes

In [55]:
data2=data.rename(index={0:'aaaa',3:'dddd'},columns={'food':'alimento'})
display('data','data2')

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0

Unnamed: 0,alimento,ounces
aaaa,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
dddd,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


### Discretización

Se pueden partir variables contínuas en trozos:

In [56]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [57]:
bins = [18, 25, 35, 60, 100]

In [58]:
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, object): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [59]:
type(cats)

pandas.core.categorical.Categorical

In [61]:
cats.codes # lista con la categoría a la que pertenece cada elemento

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [64]:
cats.categories #categorías

Index(['(18, 25]', '(25, 35]', '(35, 60]', '(60, 100]'], dtype='object')

In [66]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

Se pueden generar categorías basadas en cuantiles en lugar de equidistribuídamente.

In [71]:
np.random.seed(0)
a=np.random.randint(0,200,1000)
cortesq=pd.qcut(a, [0, 0.1, 0.5, 0.9, 1.]) #aportamos la Series y la lista de cuantiles
cortesq

[(102, 180], (22, 102], (102, 180], (180, 199], (22, 102], ..., (22, 102], (180, 199], (102, 180], (22, 102], (22, 102]]
Length: 1000
Categories (4, object): [[0, 22] < (22, 102] < (102, 180] < (180, 199]]

In [73]:
cortesq.categories

Index(['[0, 22]', '(22, 102]', '(102, 180]', '(180, 199]'], dtype='object')

### Permutaciones y muestreo aleatorio

Se pueden reordenar parte ó todas las filas de un DataFrame. También se pueden realizar muestreos aleatorios de las filas y barajarlas.

In [82]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


Para poder barajar un índice es importante transformarlo previamente en lista , esto se debe  a que los índices son inmutables:

In [83]:
ind=list(data.index)
np.random.shuffle(ind)
a

[4, 5, 3, 8, 2, 6, 0, 7, 1]

In [84]:
#índices barajados
data.take(ind)

Unnamed: 0,food,ounces
3,Pastrami,6.0
8,nova lox,6.0
6,pastrami,3.0
4,corned beef,7.5
5,Bacon,8.0
0,bacon,4.0
2,bacon,12.0
7,honey ham,5.0
1,pulled pork,3.0


In [86]:
#podemos tomar una muestra aleatoria de 5 elementos con numpy.choice
#esta función se puede usar para cualquier tipo de índices
data.take(np.random.choice(ind,5))

Unnamed: 0,food,ounces
2,bacon,12.0
5,Bacon,8.0
8,nova lox,6.0
0,bacon,4.0
5,Bacon,8.0


### Variables *dummy*

Se pueden transformar variables categóricas y ordinales en vectores binarios. Así una columna con $k$ categorías distintas se transforma en $k$ columnas con 0s y 1s.

In [91]:
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],'data1': range(6)})
df

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,b


In [92]:
pd.get_dummies(df['key']) #generamos las variables dummy

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [102]:
dfdummy=pd.get_dummies(df['key'])
dfdummy.join(df['data1'])

Unnamed: 0,a,b,c,data1
0,0,1,0,0
1,0,1,0,1
2,1,0,0,2
3,0,0,1,3
4,1,0,0,4
5,0,1,0,5
