## Pandas (Combining Datasets - Concat y Append)

Normalmente en el análisis y estudio de los datos, se hace necesario combinar datos de distintas fuentes.

La combinación puede ser tan sencilla como concatenar dos datasets o series o añadir información del mismo tipo a este, a más compleja, como realizar cruces entre datasets.

Pandas se ha diseñado pensando en esto y ofrece distintos métodos para realizar este tipo de operativas.

In [1]:
import numpy as np
import pandas as pd 

In [2]:
pd.__version__ #versión de pandas

'0.23.0'

### Concat y Append

Son las formas más sencillas de combinar dos fuentes de datos. La concatenación se realizar a partir de nombres de columnas e índices compartidos entre los datasets.


In [7]:
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind]
           for c in cols}
    print(data)
    
    return pd.DataFrame(data, ind)    

In [8]:
make_df('ABC', range(3))

{'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2'], 'C': ['C0', 'C1', 'C2']}


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


#### Recordatorio: Concatenación de Arrays Numpy

En Numpy se utiliza la función np.concatenate

In [9]:
x= [1,2,3,4]
y= [5,6,7,8]
z= [9,10,11,12]

In [12]:
np.concatenate([x, y, z]) # se le pasa una lista o tupla de arrays

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [16]:
x= (1,2,3,4)
y= (5,6,7,8)
z= (9,10,11,12)

In [17]:
np.concatenate([x, y, z])

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [18]:
a = np.concatenate([x, y, z])

In [20]:
a

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [21]:
a[3] = 34

In [22]:
a

array([ 1,  2,  3, 34,  5,  6,  7,  8,  9, 10, 11, 12])

In [23]:
x = [[1,2],
     [3,4]]

In [24]:
np.concatenate([x,x], axis=1) #seleccionamos el eje de concatenación

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [25]:
np.concatenate([x,x], axis=0) #seleccionamos el eje de concatenación

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

### Concatenación simple con pd.concat

In [28]:
ser1 = pd.Series(['A','B','C'], index=[1,2,3])
ser2 = pd.Series(['D','E','F'], index=[4,5,6])

In [29]:
pd.concat([ser1, ser2]) # concatenamos las series

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [30]:
df1 = make_df('AB',[1,2])
df2 = make_df('AB',[3,4])

{'A': ['A1', 'A2'], 'B': ['B1', 'B2']}
{'A': ['A3', 'A4'], 'B': ['B3', 'B4']}


In [31]:
pd.concat([df1,df2]) # concatena filas

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [32]:
df1 = make_df('AB',[1,2])
df2 = make_df('CD',[1,2])

{'A': ['A1', 'A2'], 'B': ['B1', 'B2']}
{'C': ['C1', 'C2'], 'D': ['D1', 'D2']}


In [38]:
# concatena columnas
pd.concat([df1, df2], axis='columns')

Unnamed: 0,A,B,C,D
1,A1,B1,C1,D1
2,A2,B2,C2,D2


### Indices Duplicados

La concatenación de Series y DataFrames puede dar lugar a índices duplicados

In [39]:
df1 = make_df('AB',[0,1])
df2 = make_df('AB',[2,3])

{'A': ['A0', 'A1'], 'B': ['B0', 'B1']}
{'A': ['A2', 'A3'], 'B': ['B2', 'B3']}


In [42]:
df1.index.values

array([0, 1])

In [44]:
df2.index.values

array([2, 3])

In [45]:
df2.index = df1.index

In [46]:
df2.index.values

array([0, 1])

In [49]:
# Concatena con índices duplicados
pd.concat([df1, df2])

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


### Tratar índices duplicados

Aunque un DataFrame es capaz de manejar índices duplicados, lo normal es que no queramos tenerlos, para evitar problemas indeseados en el análisis de la información

Existen diferentes formas de manejarlos

##### verify_integrity

Capturando las repeticiones como un error. Si al concatenar se encuentra índices duplicados, este produce un error.


In [50]:
pd.concat([df1, df2], verify_integrity=True)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')

##### ignore_index

A veces el índice asignado no nos importa y lo que preferimos es ignorarlo. En estos casos usando esta opción, se creará un nuevo índice para el resultado de la concatenación

In [51]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


##### añadiendo Multindex Keys

Otra alternativa es utilizar índices multindexados.

In [52]:
pd.concat([df1, df2], keys=['x', 'y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


### Concatenación con Joins

Cuando realizamos una concatenación de dos datasets que tiene información que no es compartida o igual entre ambos, los datos que no están disponibles son rellenos con NA values

In [55]:
df1 = make_df('AB',[0,1])
df2 = make_df('CDE',[2,3,4])

{'A': ['A0', 'A1'], 'B': ['B0', 'B1']}
{'C': ['C2', 'C3', 'C4'], 'D': ['D2', 'D3', 'D4'], 'E': ['E2', 'E3', 'E4']}


In [56]:
pd.concat([df1,df2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,E
0,A0,B0,,,
1,A1,B1,,,
2,,,C2,D2,E2
3,,,C3,D3,E3
4,,,C4,D4,E4


#### join and join_axes

Para cambiar este comportamiento, podemos utilizar los argumentos join y join_axes de pd.concat().

Por defecto, cuando se realiza una concatenación, esta se realiza como una unión de ambos datasets (join="outer")



In [57]:
pd.concat([df1,df2], join="outer")

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,E
0,A0,B0,,,
1,A1,B1,,,
2,,,C2,D2,E2
3,,,C3,D3,E3
4,,,C4,D4,E4


Podemos cambiar esta unión por la intersección, usando join="inner"

In [58]:
pd.concat([df1,df2], join="inner") #sale vacío, no hay nada en común

0
1
2
3
4


In [59]:
df1 = make_df('AB',[0,1])
df2 = make_df('BCD',[2,3,4])

{'A': ['A0', 'A1'], 'B': ['B0', 'B1']}
{'B': ['B2', 'B3', 'B4'], 'C': ['C2', 'C3', 'C4'], 'D': ['D2', 'D3', 'D4']}


In [61]:
pd.concat([df1,df2], join="outer")

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
2,,B2,C2,D2
3,,B3,C3,D3
4,,B4,C4,D4


In [60]:
pd.concat([df1,df2], join="inner") # sólo mostramos la columna B

Unnamed: 0,B
0,B0
1,B1
2,B2
3,B3
4,B4


In [62]:
df5 = make_df('ABC',[1,2])
df6 = make_df('BCD',[3,4])

{'A': ['A1', 'A2'], 'B': ['B1', 'B2'], 'C': ['C1', 'C2']}
{'B': ['B3', 'B4'], 'C': ['C3', 'C4'], 'D': ['D3', 'D4']}


In [63]:
df5

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


In [64]:
df6

Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


#### join_axes 

Permite especificar las columnas que seleccionamos al realizar
la concatenación.

In [65]:
pd.concat([df5, df6], join_axes=[df5.columns])

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,,B3,C3
4,,B4,C4


### Append

Crea un nuevo objeto con la combinación de los datos. Esto no es muy eficiente ya que construye un nuevo índice y un buffer de datos nuevo para almacenar en memoria esta información.

Lo más eficiente sería pasar una lista de DataFrames o Series y usar la función pd.concat()


In [66]:
df1 = make_df('AB',[1,2])
df2 = make_df('AB',[3,4])

{'A': ['A1', 'A2'], 'B': ['B1', 'B2']}
{'A': ['A3', 'A4'], 'B': ['B3', 'B4']}


In [67]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [68]:
df2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4


In [69]:
df1.append(df2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


#### Pruebas

In [70]:
a = pd.Series(['a', 'b', 'c', 'd'])

In [71]:
a

0    a
1    b
2    c
3    d
dtype: object

In [73]:
a.name ='rpeua'

In [74]:
a


0    a
1    b
2    c
3    d
Name: rpeua, dtype: object

In [78]:
a.index.name = 'indexa'

In [79]:
a

indexa
0    a
1    b
2    c
3    d
Name: rpeua, dtype: object

In [80]:
a.values

array(['a', 'b', 'c', 'd'], dtype=object)

In [81]:
a.index

RangeIndex(start=0, stop=4, step=1, name='indexa')

In [82]:
a.dtype


dtype('O')

In [83]:
a

indexa
0    a
1    b
2    c
3    d
Name: rpeua, dtype: object

In [84]:
a[2]

'c'

In [85]:
a.index = (['z','w','x','y'])


In [86]:
a

z    a
w    b
x    c
y    d
Name: rpeua, dtype: object

In [87]:
a['z']

'a'

In [89]:
a.index

Index(['z', 'w', 'x', 'y'], dtype='object')

In [90]:
a[a > 'b']

x    c
y    d
Name: rpeua, dtype: object

In [91]:
a[a.index > 'y']

z    a
Name: rpeua, dtype: object

In [92]:
a

z    a
w    b
x    c
y    d
Name: rpeua, dtype: object

In [96]:
'c' in a.values # en los valores

True

In [94]:
'z' in a # valor del índice

True