

# Combinación de conjuntos de datos

Pandas proporciona funciones para [combinar diferentes conjuntos de datos](http://pandas.pydata.org/pandas-docs/stable/merging.html) basadas en el [álgebral relacional](https://en.wikipedia.org/wiki/Relational_algebra).


Para ello usamos 4 métodos, **concat**, **append**,  **merge** y  **join**

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Creamos unos dataframes de ejemplo 

df1 = pd.DataFrame(np.random.randn(5, 2),
                   columns=['A', 'B'],
                   index=np.arange(5))
df2 = pd.DataFrame(np.random.randn(3, 3),
                   columns=['A', 'B', 'C'],
                   index=np.arange(3, 6))

In [3]:
df1

Unnamed: 0,A,B
0,0.825254,-0.743498
1,-0.3235,-0.584359
2,0.743907,-1.165409
3,1.223081,-0.284531
4,-1.735772,0.597433


In [4]:
df2

Unnamed: 0,A,B,C
3,-0.84676,0.096472,-0.094835
4,-1.0864,0.646303,0.671372
5,0.267365,2.240195,-2.033595


La función **concat** permite 'unir' estructuras de datos pandas usando filas o columnas.

In [5]:
# Unimos los datos a lo largo del eje de las filas

new = pd.concat([df1, df2], axis=0, join='inner')
new

Unnamed: 0,A,B
0,0.825254,-0.743498
1,-0.3235,-0.584359
2,0.743907,-1.165409
3,1.223081,-0.284531
4,-1.735772,0.597433
3,-0.84676,0.096472
4,-1.0864,0.646303
5,0.267365,2.240195


In [6]:
# Unimos los datos a lo largo del eje de las columnas

new = pd.concat([df1, df2], axis=1, join='inner')
new

Unnamed: 0,A,B,A.1,B.1,C
3,1.223081,-0.284531,-0.84676,0.096472,-0.094835
4,-1.735772,0.597433,-1.0864,0.646303,0.671372


En los dos ejemplos anteriores hemos realizado la unión mediante un inner join, es decir solo obtenemos la intersección de los dos DFs. Si queremos obtener la unión recurrimos al parámetro outer.

In [7]:
# Realizamos la unión de los dos dfs, a lo lardo de las columnas, devolviendo tanto los valores que 
# intersectan como los que no, es decir su unión.

new = pd.concat([df1, df2], axis=1, join='outer')
new

Unnamed: 0,A,B,A.1,B.1,C
0,0.825254,-0.743498,,,
1,-0.3235,-0.584359,,,
2,0.743907,-1.165409,,,
3,1.223081,-0.284531,-0.84676,0.096472,-0.094835
4,-1.735772,0.597433,-1.0864,0.646303,0.671372
5,,,0.267365,2.240195,-2.033595


Mediante el método **append** podemos agregar los registros de una DF a otro. 

In [8]:
df1.append(df2)

Unnamed: 0,A,B,C
0,0.825254,-0.743498,
1,-0.3235,-0.584359,
2,0.743907,-1.165409,
3,1.223081,-0.284531,
4,-1.735772,0.597433,
3,-0.84676,0.096472,-0.094835
4,-1.0864,0.646303,0.671372
5,0.267365,2.240195,-2.033595


Para unir dos `DataFrame`s usando **valores de columnas** podemos también utilizar la función **merge**. Este método permite realizar las uniones de forma similar a un join en SQL, mediante las opciones del parámetro 'how': {left', 'right', 'outer', 'inner'}.




<center><img src="img/joins.png"></center>


Vemos unos ejemplos de cada tipo.


In [9]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col', 'B'])

In [10]:
df1

Unnamed: 0,A,col,B
0,1,1,10
1,2,3,20
2,3,1,30
3,4,1,40
4,5,1,50


In [11]:
df2

Unnamed: 0,A,col,B
0,11,3,100
1,12,3,200
2,13,1,300
3,14,2,400
4,15,1,500


In [12]:
# Obtenemos la intersección

pd.merge(df1, df2, on=['col'], how='inner')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,1,10,13,300
1,1,1,10,15,500
2,3,1,30,13,300
3,3,1,30,15,500
4,4,1,40,13,300
5,4,1,40,15,500
6,5,1,50,13,300
7,5,1,50,15,500
8,2,3,20,11,100
9,2,3,20,12,200


In [13]:
# Obtenemos la unión

pd.merge(df1, df2, on=['col'], how='outer')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1.0,1,10.0,13,300
1,1.0,1,10.0,15,500
2,3.0,1,30.0,13,300
3,3.0,1,30.0,15,500
4,4.0,1,40.0,13,300
5,4.0,1,40.0,15,500
6,5.0,1,50.0,13,300
7,5.0,1,50.0,15,500
8,2.0,3,20.0,11,100
9,2.0,3,20.0,12,200


In [14]:
# Obtenemos el left join

pd.merge(df1, df2, on=['col'], how='left')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,1,10,13,300
1,1,1,10,15,500
2,2,3,20,11,100
3,2,3,20,12,200
4,3,1,30,13,300
5,3,1,30,15,500
6,4,1,40,13,300
7,4,1,40,15,500
8,5,1,50,13,300
9,5,1,50,15,500


In [15]:
# Obtenemos el right join

pd.merge(df1, df2, on=['col'], how='right')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1.0,1,10.0,13,300
1,3.0,1,30.0,13,300
2,4.0,1,40.0,13,300
3,5.0,1,50.0,13,300
4,1.0,1,10.0,15,500
5,3.0,1,30.0,15,500
6,4.0,1,40.0,15,500
7,5.0,1,50.0,15,500
8,2.0,3,20.0,11,100
9,2.0,3,20.0,12,200


En estos ejemplos teníamos la misma columna (columna 'col') en ambos DF, pero esto no siempre es así. Para realizar estas uniones recurrimos a los parámetros `left_on/right_on`.

In [16]:
# Tenemos ahora dos columnas col_1 y col_2 en lugar de col


df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col_1', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col_2', 'B'])

In [17]:
df1

Unnamed: 0,A,col_1,B
0,1,3,10
1,2,2,20
2,3,3,30
3,4,3,40
4,5,2,50


In [18]:
df2

Unnamed: 0,A,col_2,B
0,11,1,100
1,12,2,200
2,13,3,300
3,14,3,400
4,15,2,500


In [19]:
df1.merge(df2, left_on='col_1', right_on='col_2', how='inner')

Unnamed: 0,A_x,col_1,B_x,A_y,col_2,B_y
0,1,3,10,13,3,300
1,1,3,10,14,3,400
2,3,3,30,13,3,300
3,3,3,30,14,3,400
4,4,3,40,13,3,300
5,4,3,40,14,3,400
6,2,2,20,12,2,200
7,2,2,20,15,2,500
8,5,2,50,12,2,200
9,5,2,50,15,2,500


## Combinando usando el método `join`

El método **join** permite unir las columnas de 2 dataframes, de forma similar al método merge, pero con menos parámetros. Al igual que el método merge permite usar el parámetro `how` para controlar la forma del join ({'left', 'right', 'outer', 'inner'})

In [20]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [21]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [22]:
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [23]:
result = left.join(right, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


Obtenemos el mismo resultado usando un merge

In [24]:
result = pd.merge(left, right, left_index=True, right_index=True, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


# Ejercicios

## Ejercicio 1 


- a. Cree 3 Series diferentes de longitud 100 de este modo:

    1. La primera debe estar compuesta por números aleatorios de 1 a 4.
    2. La segunda debe estar compuesta por números aleatorios de 1 a 3.
    3. La tercera debe estar compuesta por números aleatorios de 10000 a 30000

- b. Cree un DF uniendo por columnas las 3 Series anteriores.
- c. Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

Cree 3 Series diferentes...

In [3]:
# Respuesta
import pandas as pd
import numpy as np

s1 = pd.Series(np.random.randint(1, high=5, size=100, dtype='l'))
s2 = pd.Series(np.random.randint(1, high=4, size=100, dtype='l'))
s3 = pd.Series(np.random.randint(10000, high=30001, size=100, dtype='l'))

print(s1, s2, s3)

0     3
1     2
2     3
3     3
4     2
5     3
6     3
7     4
8     2
9     3
10    3
11    1
12    3
13    2
14    2
15    1
16    2
17    1
18    3
19    3
20    1
21    1
22    1
23    1
24    3
25    4
26    1
27    2
28    1
29    4
     ..
70    2
71    2
72    1
73    2
74    2
75    2
76    4
77    4
78    3
79    3
80    3
81    1
82    1
83    3
84    1
85    1
86    1
87    1
88    2
89    3
90    4
91    2
92    3
93    3
94    4
95    1
96    1
97    4
98    4
99    1
Length: 100, dtype: int64 0     2
1     2
2     2
3     2
4     1
5     3
6     3
7     3
8     1
9     3
10    3
11    1
12    1
13    1
14    1
15    1
16    3
17    3
18    1
19    1
20    3
21    3
22    2
23    3
24    2
25    1
26    3
27    3
28    3
29    1
     ..
70    1
71    3
72    1
73    1
74    3
75    3
76    3
77    2
78    3
79    3
80    3
81    3
82    3
83    3
84    2
85    1
86    1
87    3
88    3
89    3
90    1
91    3
92    3
93    3
94    1
95    1
96    3
97    2
98    1
99    

Cree un DF uniendo por columnas las 3 Series anteriores

In [26]:
# Respuesta

housemkt = pd.concat([s1, s2, s3], axis=1)
housemkt.head()

Unnamed: 0,0,1,2
0,3,2,25233
1,3,1,20631
2,1,3,13804
3,1,2,22652
4,2,3,22371


Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

In [27]:
# Respuesta

housemkt.rename(columns = {0: 'bedrs', 1: 'bathrs', 2: 'price_sqr_meter'}, inplace=True)
housemkt.head()

Unnamed: 0,bedrs,bathrs,price_sqr_meter
0,3,2,25233
1,3,1,20631
2,1,3,13804
3,1,2,22652
4,2,3,22371


## Ejercicio 2 


Dados los siguientes datos:

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}


- a. Cree un DF por cada set de datos.
- b. Una los 2 primeros DF de modo que genere una lista con todos los usuarios.
- c. Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.
- d. Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

Cree un DF por cada set de datos.

In [28]:
# Respuesta

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

In [29]:
# Respuesta

data1 = pd.DataFrame(raw_data_1, columns = ['subject_id', 'first_name', 'last_name'])
data2 = pd.DataFrame(raw_data_2, columns = ['subject_id', 'first_name', 'last_name'])
data3 = pd.DataFrame(raw_data_3, columns = ['subject_id','test_id'])

data3.head()

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16


Una los 2 primeros DF de modo que genere una lista con todos los usuarios.

In [30]:
# Respuesta

all_data = pd.concat([data1, data2])
all_data

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.

In [31]:
# Respuesta

pd.merge(all_data, data3, on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

In [32]:
# Respuesta

pd.merge(data1, data2, on='subject_id', how='inner')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black
