



# Combinación de conjuntos de datos

Pandas proporciona funciones para [combinar diferentes conjuntos de datos](http://pandas.pydata.org/pandas-docs/stable/merging.html) basadas en el [álgebral relacional](https://en.wikipedia.org/wiki/Relational_algebra).


Para ello usamos 4 métodos, **concat**, **append**,  **merge** y  **join**

In [1]:
import pandas as pd
import numpy as np



Creamos unos dataframes de ejemplo

In [2]:
df1 = pd.DataFrame(np.random.randn(5, 2),
                   columns=['A', 'B'],
                   index=np.arange(5))
df2 = pd.DataFrame(np.random.randn(3, 3),
                   columns=['A', 'B', 'C'],
                   index=np.arange(3, 6))

In [3]:
df1

Unnamed: 0,A,B
0,-0.804768,-1.069883
1,2.464441,-0.132796
2,0.168774,-1.129348
3,0.024503,1.015369
4,-0.330019,0.398536


In [4]:
df2

Unnamed: 0,A,B,C
3,0.777726,-0.976657,1.557306
4,0.546989,-0.745527,0.640262
5,0.019166,0.293479,-1.123




La función **concat** permite 'unir' estructuras de datos pandas usando filas o columnas.



Unimos los datos a lo largo del eje de las filas

In [5]:
new = pd.concat([df1, df2], axis=0, join='inner')
new

Unnamed: 0,A,B
0,-0.804768,-1.069883
1,2.464441,-0.132796
2,0.168774,-1.129348
3,0.024503,1.015369
4,-0.330019,0.398536
3,0.777726,-0.976657
4,0.546989,-0.745527
5,0.019166,0.293479




Unimos los datos a lo largo del eje de las columnas

In [6]:
new = pd.concat([df1, df2], axis=1, join='inner')
new

Unnamed: 0,A,B,A.1,B.1,C
3,0.024503,1.015369,0.777726,-0.976657,1.557306
4,-0.330019,0.398536,0.546989,-0.745527,0.640262




En los dos ejemplos anteriores hemos realizado la unión mediante un inner join, es decir solo obtenemos la intersección de los dos DFs. Si queremos obtener la unión recurrimos al parámetro outer.



Realizamos la unión de los dos dfs, a lo lardo de las columnas, devolviendo tanto los valores que 
intersectan como los que no, es decir su unión.

In [7]:
new = pd.concat([df1, df2], axis=1, join='outer')
new

Unnamed: 0,A,B,A.1,B.1,C
0,-0.804768,-1.069883,,,
1,2.464441,-0.132796,,,
2,0.168774,-1.129348,,,
3,0.024503,1.015369,0.777726,-0.976657,1.557306
4,-0.330019,0.398536,0.546989,-0.745527,0.640262
5,,,0.019166,0.293479,-1.123




Mediante el método **append** podemos agregar los registros de una DF a otro. 

In [8]:
df1.append(df2)

Unnamed: 0,A,B,C
0,-0.804768,-1.069883,
1,2.464441,-0.132796,
2,0.168774,-1.129348,
3,0.024503,1.015369,
4,-0.330019,0.398536,
3,0.777726,-0.976657,1.557306
4,0.546989,-0.745527,0.640262
5,0.019166,0.293479,-1.123




Para unir dos `DataFrame`s usando **valores de columnas** podemos también utilizar la función **merge**. Este método permite realizar las uniones de forma similar a un join en SQL, mediante las opciones del parámetro 'how': {left', 'right', 'outer', 'inner'}.




<center><img src="img/joins.png"></center>


Vemos unos ejemplos de cada tipo.


In [9]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col', 'B'])

In [10]:
df1

Unnamed: 0,A,col,B
0,1,3,10
1,2,3,20
2,3,2,30
3,4,1,40
4,5,3,50


In [11]:
df2

Unnamed: 0,A,col,B
0,11,3,100
1,12,3,200
2,13,3,300
3,14,3,400
4,15,3,500




Obtenemos la intersección

In [12]:
pd.merge(df1, df2, on=['col'], how='inner')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,11,100
1,1,3,10,12,200
2,1,3,10,13,300
3,1,3,10,14,400
4,1,3,10,15,500
5,2,3,20,11,100
6,2,3,20,12,200
7,2,3,20,13,300
8,2,3,20,14,400
9,2,3,20,15,500




Obtenemos la unión

In [13]:
pd.merge(df1, df2, on=['col'], how='outer')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,11.0,100.0
1,1,3,10,12.0,200.0
2,1,3,10,13.0,300.0
3,1,3,10,14.0,400.0
4,1,3,10,15.0,500.0
5,2,3,20,11.0,100.0
6,2,3,20,12.0,200.0
7,2,3,20,13.0,300.0
8,2,3,20,14.0,400.0
9,2,3,20,15.0,500.0




Obtenemos el left join

In [14]:
pd.merge(df1, df2, on=['col'], how='left')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,11.0,100.0
1,1,3,10,12.0,200.0
2,1,3,10,13.0,300.0
3,1,3,10,14.0,400.0
4,1,3,10,15.0,500.0
5,2,3,20,11.0,100.0
6,2,3,20,12.0,200.0
7,2,3,20,13.0,300.0
8,2,3,20,14.0,400.0
9,2,3,20,15.0,500.0




Obtenemos el right join

In [15]:
pd.merge(df1, df2, on=['col'], how='right')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,11,100
1,2,3,20,11,100
2,5,3,50,11,100
3,1,3,10,12,200
4,2,3,20,12,200
5,5,3,50,12,200
6,1,3,10,13,300
7,2,3,20,13,300
8,5,3,50,13,300
9,1,3,10,14,400




En estos ejemplos teníamos la misma columna (columna 'col') en ambos DF, pero esto no siempre es así. Para realizar estas uniones recurrimos a los parámetros `left_on/right_on`.



Tenemos ahora dos columnas col_1 y col_2 en lugar de col

In [16]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col_1', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col_2', 'B'])

In [17]:
df1

Unnamed: 0,A,col_1,B
0,1,1,10
1,2,3,20
2,3,2,30
3,4,1,40
4,5,1,50


In [18]:
df2

Unnamed: 0,A,col_2,B
0,11,2,100
1,12,3,200
2,13,2,300
3,14,2,400
4,15,2,500


In [19]:
df1.merge(df2, left_on='col_1', right_on='col_2', how='inner')

Unnamed: 0,A_x,col_1,B_x,A_y,col_2,B_y
0,2,3,20,12,3,200
1,3,2,30,11,2,100
2,3,2,30,13,2,300
3,3,2,30,14,2,400
4,3,2,30,15,2,500




## Combinando usando el método `join`



El método **join** permite unir las columnas de 2 dataframes, de forma similar al método merge, pero con menos parámetros. Al igual que el método merge permite usar el parámetro `how` para controlar la forma del join ({'left', 'right', 'outer', 'inner'})

In [20]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [21]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [22]:
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [23]:
result = left.join(right, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3




Obtenemos el mismo resultado usando un merge

In [24]:
result = pd.merge(left, right, left_index=True, right_index=True, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3




# Ejercicios



Dados los siguientes datos:

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}




- a. Cree un DF por cada set de datos.
- b. Una los 2 primeros DF de modo que genere una lista con todos los usuarios.
- c. Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.
- d. Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id



Cree un DF por cada set de datos.

In [25]:
# Respuesta

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

In [26]:
data1 = pd.DataFrame(raw_data_1, columns = ['subject_id', 'first_name', 'last_name'])
data2 = pd.DataFrame(raw_data_2, columns = ['subject_id', 'first_name', 'last_name'])
data3 = pd.DataFrame(raw_data_3, columns = ['subject_id','test_id'])

data3.head()

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16




Una los 2 primeros DF de modo que genere una lista con todos los usuarios.

In [27]:
# Respuesta

all_data = pd.concat([data1, data2])
all_data

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan




Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.

In [28]:
# Respuesta

pd.merge(all_data, data3, on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15




Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

In [29]:
# Respuesta

pd.merge(data1, data2, on='subject_id', how='inner')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black
