# Combinando DataSets. Concat y Append
pg 141

In [2]:
import pandas as pd
import numpy as np

Vamos a dejar esta función como auxiliar para crear DF.

In [3]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### Concatenación simple. pd.concat()

In [4]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

In [5]:
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [6]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

In [10]:
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [11]:
df2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4


In [12]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


Por defecto la concatenación es es por filas. Pero se puede modificar a columnas.

In [20]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
pd.concat([df3, df4], axis='columns')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


### Indices duplicados

In [22]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])

In [23]:
x

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [24]:
y

Unnamed: 0,A,B
2,A2,B2
3,A3,B3


In [25]:
y.index = x.index  # make duplicate indices!

In [26]:
y

Unnamed: 0,A,B
0,A2,B2
1,A3,B3


In [27]:
pd.concat([x, y])

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


Está permitido tener indices duplicados en un DF pero si no es lo que deseamos, Pandas tiene diferentes herramientas.

#### Identificar duplicados como error `verify_integrity`

In [28]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


#### Ignorar indices y crear uno nuevo. `ignore_index`

In [30]:
pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


#### Especificar keys para crear multiíndice `keys=`

In [31]:
pd.concat([x, y], keys=['x', 'y'])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


### Concatenación con joins

In [33]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])

In [34]:
pd.concat([df5, df6])

Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


Si concatenamos DF con las mismas columnas es sencillo pero si hay columnas diferentes (como suele ser habitual), el efecto es poner NaN en los valores que no existen.
Por defecto el comportamiento es `join='outer'`

In [36]:
pd.concat([df5, df6], join='inner')

Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


Se podía especificar tambien que indices queríamos con `join_axes` pero está deprecado desde 0.25

### método append() 

In [40]:
df1.append(df2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


Para concatenaciones simples se puede usar append. Pero crea un nuevo objeto. 
Es menos eficiente. Se recomienda pd.concat()