## Unión de series y dataframes
Este apartado nos viene bien para estudiar cuando los datos están repartidos entre dos o más bloques y tenemos que unirlos.
### 1. Unión de series
#### 1.1 Función concat

In [1]:
import pandas as pd
import numpy as np

Unir dos series

In [2]:
s = pd.Series([1,2,3,4,5], index = ["a","b","c","d","e"])
r = pd.Series([10,20,30], index = ["f","g","h"])
t = pd.concat([s,r]) #Por defecto se usa el eje 0
t

a     1
b     2
c     3
d     4
e     5
f    10
g    20
h    30
dtype: int64

In [4]:
# Si usamos el eje 1
s = pd.Series([1,2,3,4,5], index = ["a","b","c","d","e"])
r = pd.Series([10,20,30], index = ["f","g","h"])
pd.concat([s,r], axis = 1, sort= True ) #El resultado es un dataframe

Unnamed: 0,0,1
a,1.0,
b,2.0,
c,3.0,
d,4.0,
e,5.0,
f,,10.0
g,,20.0
h,,30.0


#### 1.2 Método append
Es una versión simplificada del método concat. Sólo lo hace a lo largo del eje 0.

In [5]:
a = pd.Series([1,2,3,4,5], index = ["a","b","c","d","e"])
b = pd.Series([10,20,30], index = ["f","g","h"])
c = a.append(b) # Para ignorar las etiquetas c = a.append(b, ignore_index = True)
c

a     1
b     2
c     3
d     4
e     5
f    10
g    20
h    30
dtype: int64

### 2. Concatenación y Unión de dataframes

* Concat: permite concatenar dataframes a lo largo de un determinado eje.

* Merge: permite realizar uniones entre dataframes tal y como se realiza en las bases de datos.

* Append: es similar a concat pero sólo funciona para un eje.
#### 2.1 Función Concat

In [8]:
df1 = pd.DataFrame(np.arange(9).reshape([3,3]),
                  index = ["a","b","d"],
                  columns = ["A","B","C"])
df1

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
d,6,7,8


In [9]:
df2 = pd.DataFrame(np.arange(12).reshape([4,3]),
                  index = ["a","b","c","e"],
                  columns = ["B","C","D"])
df2

Unnamed: 0,B,C,D
a,0,1,2
b,3,4,5
c,6,7,8
e,9,10,11


In [10]:
pd.concat([df1,df2], sort=False)#eje 0

Unnamed: 0,A,B,C,D
a,0.0,1,2,
b,3.0,4,5,
d,6.0,7,8,
a,,0,1,2.0
b,,3,4,5.0
c,,6,7,8.0
e,,9,10,11.0


In [11]:
pd.concat([df1, df2], axis = 1, sort = False)

Unnamed: 0,A,B,C,B.1,C.1,D
a,0.0,1.0,2.0,0.0,1.0,2.0
b,3.0,4.0,5.0,3.0,4.0,5.0
d,6.0,7.0,8.0,,,
c,,,,6.0,7.0,8.0
e,,,,9.0,10.0,11.0


**Si especificamos join="Inner" los resultados pasan a considerarse solo las etiquetas comunes**

In [12]:
pd.concat([df1,df2], join = "inner")#eje 0

Unnamed: 0,B,C
a,1,2
b,4,5
d,7,8
a,0,1
b,3,4
c,6,7
e,9,10


In [13]:
pd.concat([df1,df2], axis = 1, join = "inner")#eje 1

Unnamed: 0,A,B,C,B.1,C.1,D
a,0,1,2,0,1,2
b,3,4,5,3,4,5


**El método append ofrece una funcionalidad similar a concat pero limitada:**
* No permite especificar el eje de concatenación.
* No permite especificar el tipo de join.

In [14]:
df1.append(df2, sort = False)

Unnamed: 0,A,B,C,D
a,0.0,1,2,
b,3.0,4,5,
d,6.0,7,8,
a,,0,1,2.0
b,,3,4,5.0
c,,6,7,8.0
e,,9,10,11.0


#### 2.2 Función merge
Permite realizar joins entre tablas.

In [18]:
df1 = pd.DataFrame({"Month": ["enero", "febrero", "marzo", "mayo"],
                    "Sales": [14,8,12,17]})
df2 = pd.DataFrame({"Month": ["febrero", "enero", "marzo", "abril"],
                    "Cost": [7,6,8,5]})
df1

Unnamed: 0,Month,Sales
0,enero,14
1,febrero,8
2,marzo,12
3,mayo,17


In [19]:
df2

Unnamed: 0,Month,Cost
0,febrero,7
1,enero,6
2,marzo,8
3,abril,5


In [20]:
pd.merge(df1, df2)

Unnamed: 0,Month,Sales,Cost
0,enero,14,6
1,febrero,8,7
2,marzo,12,8


Para considerar todas las etiquetas y no solo las comunes

In [21]:
pd.merge(df1, df2, how = "outer")

Unnamed: 0,Month,Sales,Cost
0,enero,14.0,6.0
1,febrero,8.0,7.0
2,marzo,12.0,8.0
3,mayo,17.0,
4,abril,,5.0


Join se realiza entre las columnas comunes. Esto es, sin embargo, controlable con el parámetro ON y especificando la columna o columnas a usar.

In [28]:
df1 = pd.DataFrame({
     "Month":["enero","enero","febrero","febrero"],
    "Product":["A","B","A","B"],
    "Sales":[14,8,12,17]
})
df1

Unnamed: 0,Month,Product,Sales
0,enero,A,14
1,enero,B,8
2,febrero,A,12
3,febrero,B,17


In [29]:
df2 = pd.DataFrame({
     "Month":["enero","enero","febrero","febrero"],
    "Product":["A","B","A","B"],
    "Sales":[7,6,8,5]
})
df2

Unnamed: 0,Month,Product,Sales
0,enero,A,7
1,enero,B,6
2,febrero,A,8
3,febrero,B,5


In [30]:
pd.merge(df1, df2)

Unnamed: 0,Month,Product,Sales


In [31]:
pd.merge(df1, df2, on = "Product")

Unnamed: 0,Month_x,Product,Sales_x,Month_y,Sales_y
0,enero,A,14,enero,7
1,enero,A,14,febrero,8
2,febrero,A,12,enero,7
3,febrero,A,12,febrero,8
4,enero,B,8,enero,6
5,enero,B,8,febrero,5
6,febrero,B,17,enero,6
7,febrero,B,17,febrero,5


Cuando no hay columnas comunes puede devolver un error, por ello se pueden usar left_on y right_on

In [32]:
df1 = pd.DataFrame({
     "Month":["enero","febrero","marzo","mayo"],
     "Sales":[14,8,12,17]
})
df1

Unnamed: 0,Month,Sales
0,enero,14
1,febrero,8
2,marzo,12
3,mayo,17


In [37]:
df2 = pd.DataFrame({
     "MonthName":["febrero","enero","marzo","abril"],
     "Cost":[7,4,6,8]
})
df2

Unnamed: 0,MonthName,Cost
0,febrero,7
1,enero,4
2,marzo,6
3,abril,8


In [38]:
pd.merge(df1, df2, left_on = "Month", right_on = "MonthName")

Unnamed: 0,Month,Sales,MonthName,Cost
0,enero,14,enero,4
1,febrero,8,febrero,7
2,marzo,12,marzo,6
