# Concat

In [18]:
import pandas as pd

import warnings

# Suppress all FutureWarnings
warnings.simplefilter(action='ignore', category=FutureWarning)

## [concat](https://pandas.pydata.org/docs/user_guide/merging.html)
- Taken from a good source: [concat](https://pandas.pydata.org/docs/user_guide/merging.html). Look here for visual
- Official Source: https://pandas.pydata.org/docs/user_guide/merging.html

In [19]:
# step1: concat - Official Source: https://pandas.pydata.org/docs/user_guide/merging.html
df1 = pd.DataFrame(
     {
         "A": ["A0", "A1", "A2", "A3"],
         "B": ["B0", "B1", "B2", "B3"],
         "C": ["C0", "C1", "C2", "C3"],
         "D": ["D0", "D1", "D2", "D3"],
    }, index=[0, 1, 2, 3],
)

df2 = pd.DataFrame(
     {
         "A": ["A4", "A5", "A6", "A7"],
         "B": ["B4", "B5", "B6", "B7"],
         "C": ["C4", "C5", "C6", "C7"],
         "D": ["D4", "D5", "D6", "D7"],
    }, index=[4, 5, 6, 7],
 )

df3 = pd.DataFrame(
     {
     "A": ["A8", "A9", "A10", "A11"],
     "B": ["B8", "B9", "B10", "B11"],
     "C": ["C8", "C9", "C10", "C11"],
     "D": ["D8", "D9", "D10", "D11"],
     }, index=[8, 9, 10, 11],
)

print("df1\n", df1)
print("df2\n", df2)
print("df3\n", df3)
# Here columns are same.

frames = [df1, df2, df3]

result =  pd.concat(frames)
print("result:\n", result)

df1
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
df2
     A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7
df3
       A    B    C    D
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11
result:
       A    B    C    D
0    A0   B0   C0   D0
1    A1   B1   C1   D1
2    A2   B2   C2   D2
3    A3   B3   C3   D3
4    A4   B4   C4   D4
5    A5   B5   C5   D5
6    A6   B6   C6   D6
7    A7   B7   C7   D7
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11


In [26]:
# step2: Lets redo above without index
df1 = pd.DataFrame(
     {
         "A": ["A0", "A1", "A2", "A3"],
         "B": ["B0", "B1", "B2", "B3"],
         "C": ["C0", "C1", "C2", "C3"],
         "D": ["D0", "D1", "D2", "D3"],
    }
)

df2 = pd.DataFrame(
     {
         "A": ["A4", "A5", "A6", "A7"],
         "B": ["B4", "B5", "B6", "B7"],
         "C": ["C4", "C5", "C6", "C7"],
         "D": ["D4", "D5", "D6", "D7"],
    }
)

df3 = pd.DataFrame(
     {
     "A": ["A8", "A9", "A10", "A11"],
     "B": ["B8", "B9", "B10", "B11"],
     "C": ["C8", "C9", "C10", "C11"],
     "D": ["D8", "D9", "D10", "D11"],
     }
)

print("df1\n", df1)
print("df2\n", df2)
print("df3\n", df3)

frames = [df1, df2, df3]

result =  pd.concat(frames)
print("result:\n", result)

df1
     A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
df2
     A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7
df3
      A    B    C    D
0   A8   B8   C8   D8
1   A9   B9   C9   D9
2  A10  B10  C10  D10
3  A11  B11  C11  D11
result:
      A    B    C    D
0   A0   B0   C0   D0
1   A1   B1   C1   D1
2   A2   B2   C2   D2
3   A3   B3   C3   D3
0   A4   B4   C4   D4
1   A5   B5   C5   D5
2   A6   B6   C6   D6
3   A7   B7   C7   D7
0   A8   B8   C8   D8
1   A9   B9   C9   D9
2  A10  B10  C10  D10
3  A11  B11  C11  D11


In [27]:
# step3: Lets fix the index
result = pd.concat(frames, ignore_index=True)
print(result)

      A    B    C    D
0    A0   B0   C0   D0
1    A1   B1   C1   D1
2    A2   B2   C2   D2
3    A3   B3   C3   D3
4    A4   B4   C4   D4
5    A5   B5   C5   D5
6    A6   B6   C6   D6
7    A7   B7   C7   D7
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11


## join parameter
The join keyword specifies how to handle axis values that don’t exist in the first DataFrame.

### a) join='outer' takes the union of **all axis values**

In [22]:
# Joining logic of the resulting axis
df1 = pd.DataFrame(
    {
      "A": ["A0", "A1", "A2", "A3"],
      "B": ["B0", "B1", "B2", "B3"],
      "C": ["C0", "C1", "C2", "C3"],
      "D": ["D0", "D1", "D2", "D3"],
    }, index=[0, 1, 2, 3],
)
print(f"df1:\n{df1}")

df4 = pd.DataFrame(
   {
     "B": ["B2", "B3", "B6", "B7"],
     "D": ["D2", "D3", "D6", "D7"],
     "F": ["F2", "F3", "F6", "F7"],
   }, index=[2, 3, 6, 7],
)
print(f"df4:\n{df4}")

frames = [df1, df4]

result = pd.concat(frames, axis=1, join="outer")
print("result:\n", result)

df1:
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
df4:
    B   D   F
2  B2  D2  F2
3  B3  D3  F3
6  B6  D6  F6
7  B7  D7  F7
result:
      A    B    C    D    B    D    F
0   A0   B0   C0   D0  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN
2   A2   B2   C2   D2   B2   D2   F2
3   A3   B3   C3   D3   B3   D3   F3
6  NaN  NaN  NaN  NaN   B6   D6   F6
7  NaN  NaN  NaN  NaN   B7   D7   F7


### b) join='inner' takes the intersection of the axis values

In [23]:
# join='inner' takes the intersection of the axis values. Only those rows with matching index are added
result = pd.concat([df1, df4], axis=1, join="inner")
print(result)

    A   B   C   D   B   D   F
2  A2  B2  C2  D2  B2  D2  F2
3  A3  B3  C3  D3  B3  D3  F3


In [24]:
# step1: Joining logic of the resulting axis
df1 = pd.DataFrame(
 {
 "A": ["A0", "A1", "A2", "A3"],
 "B": ["B0", "B1", "B2", "B3"],
 "C": ["C0", "C1", "C2", "C3"],
 "D": ["D0", "D1", "D2", "D3"],
 }, index=[0, 1, 2, 3],
)
print(f"df1:\n{df1}")

df4 = pd.DataFrame(
   {
       "B": ["B2", "B3", "B6", "B7"],
       "D": ["D2", "D3", "D6", "D7"],
       "F": ["F2", "F3", "F6", "F7"],
   }, index=[2, 3, 6, 7],
)
print(f"df4:\n{df4}")

frames = [df1, df4]

result = pd.concat(frames, axis=0)
# result = pd.concat(frames, axis=0, ignore_index=True) # this would fix duplicate index

print("result:\n", result)

df1:
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
df4:
    B   D   F
2  B2  D2  F2
3  B3  D3  F3
6  B6  D6  F6
7  B7  D7  F7
result:
      A   B    C   D    F
0   A0  B0   C0  D0  NaN
1   A1  B1   C1  D1  NaN
2   A2  B2   C2  D2  NaN
3   A3  B3   C3  D3  NaN
2  NaN  B2  NaN  D2   F2
3  NaN  B3  NaN  D3   F3
6  NaN  B6  NaN  D6   F6
7  NaN  B7  NaN  D7   F7


In [25]:
#step2: To perform an effective “left” join using the exact index from the original DataFrame, result can be reindexed.
result = pd.concat([df1, df4], axis=1).reindex(df1.index)
print(result)

    A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3


# STOP