# Dataframe joining
V dnesom videu si ukazeme akym sposobom vieme spajat viacere dataframi do jedneho. Ukazeme si viacero pristupov pomocou join operacie. 

Link na [video](https://youtu.be/AuInxmeHluw)

In [1]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame(data = {"a": [1,2,1,2,1,2], "b": [3,4,3,4,3,4]})
df2 = pd.DataFrame(data = {"a": [1,3,1,3,1], "b": [5,4,5,4,5]})

In [2]:
df1

Unnamed: 0,a,b
0,1,3
1,2,4
2,1,3
3,2,4
4,1,3
5,2,4


In [3]:
df2

Unnamed: 0,a,b
0,1,5
1,3,4
2,1,5
3,3,4
4,1,5


In [4]:
# Spojenie pod seba 
pd.concat([df1, df2])

Unnamed: 0,a,b
0,1,3
1,2,4
2,1,3
3,2,4
4,1,3
5,2,4
0,1,5
1,3,4
2,1,5
3,3,4


In [5]:
df2["c"] = 1
df2

Unnamed: 0,a,b,c
0,1,5,1
1,3,4,1
2,1,5,1
3,3,4,1
4,1,5,1


In [6]:
# Spojenie pod seba 
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,1,3,
1,2,4,
2,1,3,
3,2,4,
4,1,3,
5,2,4,
0,1,5,1.0
1,3,4,1.0
2,1,5,1.0
3,3,4,1.0


In [7]:
# Spojenie vaicerych dataframov
df=pd.concat([df1, df2, df1, df2])
df

Unnamed: 0,a,b,c
0,1,3,
1,2,4,
2,1,3,
3,2,4,
4,1,3,
5,2,4,
0,1,5,1.0
1,3,4,1.0
2,1,5,1.0
3,3,4,1.0


In [8]:
# Pozor na loc ... vracia hodnotu indexu nie poziciu 
df.loc[0, :]

Unnamed: 0,a,b,c
0,1,3,
0,1,5,1.0
0,1,3,
0,1,5,1.0


In [9]:
# Takto prisupim ku prvemu riadku
df.iloc[0, :]

a    1.0
b    3.0
c    NaN
Name: 0, dtype: float64

In [10]:
# Takto k prvum dvom 
df.iloc[:2, :]

Unnamed: 0,a,b,c
0,1,3,
1,2,4,


In [11]:
# Restartovanie indexu ... drop vymaze povodny
df.reset_index(drop=1, inplace=True)

In [12]:
df

Unnamed: 0,a,b,c
0,1,3,
1,2,4,
2,1,3,
3,2,4,
4,1,3,
5,2,4,
6,1,5,1.0
7,3,4,1.0
8,1,5,1.0
9,3,4,1.0


In [13]:
# Spajanie dataframov vedla seba
df=pd.concat([df2, df1], axis=1)
df

Unnamed: 0,a,b,c,a.1,b.1
0,1.0,5.0,1.0,1,3
1,3.0,4.0,1.0,2,4
2,1.0,5.0,1.0,1,3
3,3.0,4.0,1.0,2,4
4,1.0,5.0,1.0,1,3
5,,,,2,4


In [14]:
# Pozor na stlpce cosa rovnako volaju 
df.loc[:, "a"]

Unnamed: 0,a,a.1
0,1.0,1
1,3.0,2
2,1.0,1
3,3.0,2
4,1.0,1
5,,2


# Joining
Funguje podobne ako concat

In [15]:
df1 = pd.DataFrame({
    "first": [1,1,1,1],
    "second": [1,1,1,1],
    "third": [1,2,1,2],
}, index=[1,2,3,4])

df2 = pd.DataFrame({
    "first": [2,2,2,2],
    "second": [2,2,2,2],
    "fourth": [1,3,1,3],
}, index=[3,4,5,6])

In [16]:
df1

Unnamed: 0,first,second,third
1,1,1,1
2,1,1,2
3,1,1,1
4,1,1,2


In [17]:
df2

Unnamed: 0,first,second,fourth
3,2,2,1
4,2,2,3
5,2,2,1
6,2,2,3


In [18]:
# Outer join zanecha riadky z kazdeho dataframu a chybajuce hodnoty vyplni NaN
pd.concat([df1, df2], join="outer", axis=1)

Unnamed: 0,first,second,third,first.1,second.1,fourth
1,1.0,1.0,1.0,,,
2,1.0,1.0,2.0,,,
3,1.0,1.0,1.0,2.0,2.0,1.0
4,1.0,1.0,2.0,2.0,2.0,3.0
5,,,,2.0,2.0,1.0
6,,,,2.0,2.0,3.0


In [19]:
# Inner join necha len riadky ktore boli v oboch dataframoch
pd.concat([df1, df2], join="inner", axis=1)

Unnamed: 0,first,second,third,first.1,second.1,fourth
3,1,1,1,2,2,1
4,1,1,2,2,2,3


In [20]:
# Pri axis 1 sa robi to iste vzhladom na stlpce
pd.concat([df1, df2], join="inner", axis=0)

Unnamed: 0,first,second
1,1,1
2,1,1
3,1,1
4,1,1
3,2,2
4,2,2
5,2,2
6,2,2


In [21]:
# Pomocou join funkcie dataframu viem robit uzitocne veci napriklad zbavit sa duplikatov 
# Pri Left joine sa zanechaju len hodnoty lavej strany ak chybaju v pravo doplni sa NaN
df1.join(df2, rsuffix="_second", how="left")

Unnamed: 0,first,second,third,first_second,second_second,fourth
1,1,1,1,,,
2,1,1,2,,,
3,1,1,1,2.0,2.0,1.0
4,1,1,2,2.0,2.0,3.0


In [22]:
df1.join(df2, rsuffix="_second", how="right")

Unnamed: 0,first,second,third,first_second,second_second,fourth
3,1.0,1.0,1.0,2,2,1
4,1.0,1.0,2.0,2,2,3
5,,,,2,2,1
6,,,,2,2,3
