In [0]:
SANDBOX_NAME = 'fesc'
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/"





# Combinación de conjuntos de datos

Pandas proporciona funciones para [combinar diferentes conjuntos de datos](http://pandas.pydata.org/pandas-docs/stable/merging.html) basadas en el [álgebral relacional](https://en.wikipedia.org/wiki/Relational_algebra).


Para ello usamos 4 métodos, **concat**, **append**,  **merge** y  **join**

In [0]:
import pandas as pd
import numpy as np



Creamos unos dataframes de ejemplo

In [0]:
df1 = pd.DataFrame(np.random.randn(5, 2),
                   columns=['A', 'B'],
                   index=np.arange(5))
df2 = pd.DataFrame(np.random.randn(3, 3),
                   columns=['A', 'B', 'C'],
                   index=np.arange(3, 6))

In [0]:
df1

Unnamed: 0,A,B
0,0.257096,0.139621
1,-0.066269,1.215312
2,-2.212782,0.027273
3,1.163893,0.532023
4,0.174678,-1.201799


In [0]:
df2

Unnamed: 0,A,B,C
3,1.638527,-1.051694,0.015195
4,-0.680094,-0.921982,-1.109193
5,-1.638887,1.527227,-2.332059




La función **concat** permite 'unir' estructuras de datos pandas usando filas o columnas.



Unimos los datos a lo largo del eje de las filas

In [0]:
new = pd.concat([df1, df2], axis=0, join='inner')
new

Unnamed: 0,A,B
0,0.257096,0.139621
1,-0.066269,1.215312
2,-2.212782,0.027273
3,1.163893,0.532023
4,0.174678,-1.201799
3,1.638527,-1.051694
4,-0.680094,-0.921982
5,-1.638887,1.527227




Unimos los datos a lo largo del eje de las columnas

In [0]:
new = pd.concat([df1, df2], axis=1, join='inner')
new

Unnamed: 0,A,B,A.1,B.1,C
3,1.163893,0.532023,1.638527,-1.051694,0.015195
4,0.174678,-1.201799,-0.680094,-0.921982,-1.109193




En los dos ejemplos anteriores hemos realizado la unión mediante un inner join, es decir solo obtenemos la intersección de los dos DFs. Si queremos obtener la unión recurrimos al parámetro outer.



Realizamos la unión de los dos dfs, a lo lardo de las columnas, devolviendo tanto los valores que 
intersectan como los que no, es decir su unión.

In [0]:
new = pd.concat([df1, df2], axis=1, join='outer')
new

Unnamed: 0,A,B,A.1,B.1,C
0,0.257096,0.139621,,,
1,-0.066269,1.215312,,,
2,-2.212782,0.027273,,,
3,1.163893,0.532023,1.638527,-1.051694,0.015195
4,0.174678,-1.201799,-0.680094,-0.921982,-1.109193
5,,,-1.638887,1.527227,-2.332059




Mediante el método **append** podemos agregar los registros de una DF a otro. 

In [0]:
df1.append(df2)

Unnamed: 0,A,B,C
0,0.257096,0.139621,
1,-0.066269,1.215312,
2,-2.212782,0.027273,
3,1.163893,0.532023,
4,0.174678,-1.201799,
3,1.638527,-1.051694,0.015195
4,-0.680094,-0.921982,-1.109193
5,-1.638887,1.527227,-2.332059




Para unir dos `DataFrame`s usando **valores de columnas** podemos también utilizar la función **merge**. Este método permite realizar las uniones de forma similar a un join en SQL, mediante las opciones del parámetro 'how': {left', 'right', 'outer', 'inner'}.




<center><img src="img/joins.png"></center>


Vemos unos ejemplos de cada tipo.


In [0]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col', 'B'])

In [0]:
df1

Unnamed: 0,A,col,B
0,1,3,10
1,2,2,20
2,3,2,30
3,4,3,40
4,5,1,50


In [0]:
df2

Unnamed: 0,A,col,B
0,11,3,100
1,12,1,200
2,13,3,300
3,14,1,400
4,15,1,500




Obtenemos la intersección

In [0]:
pd.merge(df1, df2, on=['col'], how='inner')

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,11,100
1,1,3,10,13,300
2,4,3,40,11,100
3,4,3,40,13,300
4,5,1,50,12,200
5,5,1,50,14,400
6,5,1,50,15,500




Obtenemos la unión

In [0]:
pd.merge(df1, df2, on=['col'], how='outer')



Obtenemos el left join

In [0]:
pd.merge(df1, df2, on=['col'], how='left')



Obtenemos el right join

In [0]:
pd.merge(df1, df2, on=['col'], how='right')



En estos ejemplos teníamos la misma columna (columna 'col') en ambos DF, pero esto no siempre es así. Para realizar estas uniones recurrimos a los parámetros `left_on/right_on`.



Tenemos ahora dos columnas col_1 y col_2 en lugar de col

In [0]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col_1', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col_2', 'B'])

In [0]:
df1

In [0]:
df2

In [0]:
df1.merge(df2, left_on='col_1', right_on='col_2', how='inner')



## Combinando usando el método `join`



El método **join** permite unir las columnas de 2 dataframes, de forma similar al método merge, pero con menos parámetros. Al igual que el método merge permite usar el parámetro `how` para controlar la forma del join ({'left', 'right', 'outer', 'inner'})

In [0]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [0]:
left

In [0]:
right

In [0]:
result = left.join(right, how='outer')
result



Obtenemos el mismo resultado usando un merge

In [0]:
result = pd.merge(left, right, left_index=True, right_index=True, how='outer')
result



# Ejercicios



## Ejercicio 1 




- a. Cree 3 Series diferentes de longitud 100 de este modo:

    1. La primera debe estar compuesta por números aleatorios de 1 a 4.
    2. La segunda debe estar compuesta por números aleatorios de 1 a 3.
    3. La tercera debe estar compuesta por números aleatorios de 10000 a 30000

- b. Cree un DF uniendo por columnas las 3 Series anteriores.
- c. Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99)    1
dtype: int64

In [0]:
s1 = pd.Series(np.random.randint(1, high=5, size=100, dtype='l'))
s2 = pd.Series(np.random.randint(1, high=4, size=100, dtype='l'))
s3 = pd.Series(np.random.randint(10000, high=30001, size=100, dtype='l'))





Cree 3 Series diferentes...



Cree un DF uniendo por columnas las 3 Series anteriores

Unnamed: 0,0,1,2
0,2,2,27635
1,2,2,17228
2,2,3,24902
3,1,3,27952
4,1,1,24221


In [0]:
housemkt = pd.concat([s1, s2, s3], axis=1)
housemkt.head()



Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

Unnamed: 0,bedrs,bathrs,price_sqr_meter
0,2,2,27635
1,2,2,17228
2,2,3,24902
3,1,3,27952
4,1,1,24221


RangeIndex(start=0, stop=3, step=1)

In [0]:
housemkt.rename(columns = {0: 'bedrs', 1: 'bathrs', 2: 'price_sqr_meter'}, inplace=True)
housemkt.head()



## Ejercicio 2 




Dados los siguientes datos:

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}




- a. Cree un DF por cada set de datos.
- b. Una los 2 primeros DF de modo que genere una lista con todos los usuarios.
- c. Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.
- d. Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id



Cree un DF por cada set de datos.

In [0]:
raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

In [0]:
data1 = pd.DataFrame(raw_data_1, columns = ['subject_id', 'first_name', 'last_name'])
data2 = pd.DataFrame(raw_data_2, columns = ['subject_id', 'first_name', 'last_name'])
data3 = pd.DataFrame(raw_data_3, columns = ['subject_id','test_id'])

data3.head()



Una los 2 primeros DF de modo que genere una lista con todos los usuarios.

In [0]:
all_data = pd.concat([data1, data2])
all_data



Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.

In [0]:
pd.merge(all_data, data3, on='subject_id')



Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

In [0]:
pd.merge(data1, data2, on='subject_id', how='inner')