# Data Wrangling 



## Combinación de conjuntos de datos

Pandas proporciona funciones para [combinar diferentes conjuntos de datos](http://pandas.pydata.org/pandas-docs/stable/merging.html) basadas en el [álgebral relacional](https://en.wikipedia.org/wiki/Relational_algebra).


Para ello usamos 4 métodos, **concat**, **append**,  **merge** y  **join**

In [3]:
import pandas as pd
import numpy as np

In [4]:
# Creamos unos dataframes de ejemplo 

df1 = pd.DataFrame(np.random.randn(5, 2),
                   columns=['A', 'B'],
                   index=np.arange(5))
df2 = pd.DataFrame(np.random.randn(3, 3),
                   columns=['A', 'B', 'C'],
                   index=np.arange(3, 6))

In [5]:
df1

Unnamed: 0,A,B
0,-0.172481,-1.311581
1,-1.438551,-0.453031
2,-0.708571,-0.297362
3,-0.513721,-2.034865
4,0.021351,0.69347


In [6]:
df2

Unnamed: 0,A,B,C
3,1.243918,0.253228,-0.146642
4,0.077384,0.609625,0.18939
5,0.370073,1.168721,0.745756


## Combinando usando el método `concat`

La función **concat** permite 'unir' estructuras de datos pandas usando filas o columnas.

In [7]:
df3 = pd.concat([df1, df2], axis=0, join="inner")
df3

Unnamed: 0,A,B
0,-0.172481,-1.311581
1,-1.438551,-0.453031
2,-0.708571,-0.297362
3,-0.513721,-2.034865
4,0.021351,0.69347
3,1.243918,0.253228
4,0.077384,0.609625
5,0.370073,1.168721


In [8]:
df3 = pd.concat([df1, df2], axis=0, join="outer")
df3

Unnamed: 0,A,B,C
0,-0.172481,-1.311581,
1,-1.438551,-0.453031,
2,-0.708571,-0.297362,
3,-0.513721,-2.034865,
4,0.021351,0.69347,
3,1.243918,0.253228,-0.146642
4,0.077384,0.609625,0.18939
5,0.370073,1.168721,0.745756


En los dos ejemplos anteriores hemos realizado la unión mediante un inner join, es decir solo obtenemos la intersección de los dos DFs. Si queremos obtener la unión recurrimos al parámetro outer.

In [9]:
df3 = pd.concat([df1, df2], axis=1, join="inner")
df3

Unnamed: 0,A,B,A.1,B.1,C
3,-0.513721,-2.034865,1.243918,0.253228,-0.146642
4,0.021351,0.69347,0.077384,0.609625,0.18939


In [10]:
df3 = pd.concat([df1, df2], axis=1, join="outer")
df3

Unnamed: 0,A,B,A.1,B.1,C
0,-0.172481,-1.311581,,,
1,-1.438551,-0.453031,,,
2,-0.708571,-0.297362,,,
3,-0.513721,-2.034865,1.243918,0.253228,-0.146642
4,0.021351,0.69347,0.077384,0.609625,0.18939
5,,,0.370073,1.168721,0.745756


## Combinando usando el método `append`:

Mediante el método **append** podemos agregar los registros de una DF a otro. 

In [11]:
df1.append(df2)

Unnamed: 0,A,B,C
0,-0.172481,-1.311581,
1,-1.438551,-0.453031,
2,-0.708571,-0.297362,
3,-0.513721,-2.034865,
4,0.021351,0.69347,
3,1.243918,0.253228,-0.146642
4,0.077384,0.609625,0.18939
5,0.370073,1.168721,0.745756


In [12]:
df1.append?

## Combinando usando el método `merge`:

Para unir dos `DataFrame`s usando **valores de columnas** podemos también utilizar la función **merge**. Este método permite realizar las uniones de forma similar a un join en SQL, mediante las opciones del parámetro 'how': {left', 'right', 'outer', 'inner'}.




<center><img src="img/joins.png"></center>


Vemos unos ejemplos de cada tipo.


In [13]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col', 'B'])

In [14]:
df1

Unnamed: 0,A,col,B
0,1,3,10
1,2,1,20
2,3,1,30
3,4,1,40
4,5,2,50


In [15]:
df2

Unnamed: 0,A,col,B
0,11,2,100
1,12,2,200
2,13,1,300
3,14,1,400
4,15,3,500


In [16]:
pd.merge(df1, df2, on=["col"], how="inner")

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,15,500
1,2,1,20,13,300
2,2,1,20,14,400
3,3,1,30,13,300
4,3,1,30,14,400
5,4,1,40,13,300
6,4,1,40,14,400
7,5,2,50,11,100
8,5,2,50,12,200


In [17]:
pd.merge(df1, df2, on=["col"], how="outer")

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,15,500
1,2,1,20,13,300
2,2,1,20,14,400
3,3,1,30,13,300
4,3,1,30,14,400
5,4,1,40,13,300
6,4,1,40,14,400
7,5,2,50,11,100
8,5,2,50,12,200


In [18]:
pd.merge(df1, df2, on=["col"], how="left")

Unnamed: 0,A_x,col,B_x,A_y,B_y
0,1,3,10,15,500
1,2,1,20,13,300
2,2,1,20,14,400
3,3,1,30,13,300
4,3,1,30,14,400
5,4,1,40,13,300
6,4,1,40,14,400
7,5,2,50,11,100
8,5,2,50,12,200


In [19]:
pd.merge(df1[["col", "A"]], df2[["col", "B"]], on=["col"], how="right")

Unnamed: 0,col,A,B
0,2,5,100
1,2,5,200
2,1,2,300
3,1,3,300
4,1,4,300
5,1,2,400
6,1,3,400
7,1,4,400
8,3,1,500


En estos ejemplos teníamos la misma columna (columna 'col') en ambos DF, pero esto no siempre es así. Para realizar estas uniones recurrimos a los parámetros `left_on/right_on`.

In [20]:
df1 = pd.DataFrame(np.array([np.arange(1, 6),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 10]).T,
                   columns=['A', 'col_1', 'B'])

df2 = pd.DataFrame(np.array([np.arange(11, 16),
                             np.random.choice([1, 2, 3], size=5),
                             np.arange(1, 6) * 100]).T,
                   columns=['A', 'col_2', 'B'])

In [21]:
df1

Unnamed: 0,A,col_1,B
0,1,3,10
1,2,2,20
2,3,1,30
3,4,1,40
4,5,3,50


In [22]:
df2

Unnamed: 0,A,col_2,B
0,11,3,100
1,12,1,200
2,13,1,300
3,14,2,400
4,15,2,500


In [23]:
pd.merge(df1, df2, left_on='col_1', right_on='col_2', how='inner')

Unnamed: 0,A_x,col_1,B_x,A_y,col_2,B_y
0,1,3,10,11,3,100
1,5,3,50,11,3,100
2,2,2,20,14,2,400
3,2,2,20,15,2,500
4,3,1,30,12,1,200
5,3,1,30,13,1,300
6,4,1,40,12,1,200
7,4,1,40,13,1,300


In [24]:
df1.merge(df2, left_on='col_1', right_on='col_2', how='inner')

Unnamed: 0,A_x,col_1,B_x,A_y,col_2,B_y
0,1,3,10,11,3,100
1,5,3,50,11,3,100
2,2,2,20,14,2,400
3,2,2,20,15,2,500
4,3,1,30,12,1,200
5,3,1,30,13,1,300
6,4,1,40,12,1,200
7,4,1,40,13,1,300


## Combinando usando el método `join`

El método **join** permite unir las columnas de 2 dataframes, de forma similar al método merge, pero con menos parámetros. Al igual que el método merge permite usar el parámetro `how` para controlar la forma del join ({'left', 'right', 'outer', 'inner'})

In [25]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

In [26]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [27]:
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [28]:
result = left.join(right, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


Obtenemos el mismo resultado usando un merge

In [29]:
result = pd.merge(left, right, left_index=True, right_index=True, how='outer')
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


## Ejercicios

### Ejercicio 1 


- a. Cree 3 Series diferentes de longitud 100 de este modo:

    1. La primera debe estar compuesta por números aleatorios de 1 a 4.
    2. La segunda debe estar compuesta por números aleatorios de 1 a 3.
    3. La tercera debe estar compuesta por números aleatorios de 10000 a 30000

- b. Cree un DF uniendo por columnas las 3 Series anteriores.
- c. Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

In [31]:
series2=np.random.randint(1, 3, 100)
series1=np.random.randint(1, 4, 100)
series3=np.random.randint(10000, 30000, 100)


Cree 3 Series diferentes...

In [32]:

'''
df2= pd.DataFrame(series2,columns = ['series2'])
df2
df3= pd.DataFrame(series3,columns = ['series3'])
df3
'''
df1= pd.Series(series1)
df1
df2= pd.Series(series2)
df2
df3= pd.Series(series3)
df3

0     18001
1     20999
2     12332
3     26399
4     20432
      ...  
95    26548
96    26476
97    17890
98    27943
99    11724
Length: 100, dtype: int64

Cree un DF uniendo por columnas las 3 Series anteriores

In [33]:
df= pd.concat([df1,df2,df3], axis=1)
df

Unnamed: 0,0,1,2
0,3,2,18001
1,3,2,20999
2,2,2,12332
3,3,1,26399
4,2,2,20432
...,...,...,...
95,2,1,26548
96,2,2,26476
97,3,1,17890
98,3,2,27943


Cambie los nombres de las columnas a bedrs, bathrs, price_sqr_meter

In [34]:
df.columns=['bedrs', 'bathrs', 'price_sqr_meter']
df

Unnamed: 0,bedrs,bathrs,price_sqr_meter
0,3,2,18001
1,3,2,20999
2,2,2,12332
3,3,1,26399
4,2,2,20432
...,...,...,...
95,2,1,26548
96,2,2,26476
97,3,1,17890
98,3,2,27943


### Ejercicio 2 


Dados los siguientes datos:

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}


- a. Cree un DF por cada set de datos.
- b. Una los 2 primeros DF de modo que genere una lista con todos los usuarios.
- c. Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.
- d. Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

Cree un DF por cada set de datos.

In [35]:
raw_data_1 = { 'subject_id': ['1', '2', '3', '4', '5'], 'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = { 'subject_id': ['4', '5', '6', '7', '8'], 'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = { 'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'], 'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

In [36]:
data1=pd.DataFrame(raw_data_1, columns=['subject_id','first_name','last_name'])
data1

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


Una los 2 primeros DF de modo que genere una lista con todos los usuarios.

In [37]:
data2=pd.DataFrame(raw_data_2, columns=['subject_id','first_name','last_name'])
data2

Unnamed: 0,subject_id,first_name,last_name
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


Una el DF del apartado anterior con los datos de las notas (raw_data_3) de modo que a cada usuario se le asigne su nota.

In [38]:
data3=data1.append(data2)

Una los datos de raw_data_1 y raw_data_2 únicamente de los registros con igual subject_id

In [39]:
data3

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


In [40]:
data3.loc[:,'subject_id']=np.arange (1,11)

In [41]:
data3

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,6,Billy,Bonder
1,7,Brian,Black
2,8,Bran,Balwner
3,9,Bryce,Brice
4,10,Betty,Btisan


In [42]:
data4=pd.DataFrame(raw_data_3, columns=['subject_id','test_id'])
data4

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


In [43]:
data4.applymap(lambda x: int(x))

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


In [44]:
data4.loc[:,'subject_id']= data4.loc[:,'subject_id'].apply(lambda x: int(x))

In [45]:
data5=pd.merge(data3,data4, on='subject_id' ,how='inner') 

In [46]:
data5

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16
5,7,Brian,Black,14
6,8,Bran,Balwner,15
7,9,Bryce,Brice,1
8,10,Betty,Btisan,61
