<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/training/analityk.edu.pl/pandas_tutorial/13_merge_i_concat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# https://analityk.edu.pl/python-pandas-tutorial-merge-i-concat/

# **Python Pandas Tutorial – merge i concat**

W tej lekcji naszego Pandas tutoriala, pokaże Wam jak możemy łączyć ze sobą zbiory. Jeżeli ktoś zna SQL to będzie kojarzyć te operacja jako union i join. Natomiast w Pandas mamy do dyspozycji dwie główne funkcje, nazywające się merge oraz concat. Do dzieła!
Na początku przygotujemy sobie zbiory danych które następnie będziemy łączyć. 2 zbiory które zawierają listę osób oraz ich wiek oraz 1 zbiór który zawiera listę osób oraz ich miejsce zamieszkania.

In [3]:
import pandas as pd

age = pd.DataFrame({'Name':['Michał', 'Adam', 'Ewa', 'Jakub'],
                           'Age':[39,28,19,32]})
age

Unnamed: 0,Name,Age
0,Michał,39
1,Adam,28
2,Ewa,19
3,Jakub,32


In [4]:
age2 = pd.DataFrame({'Name':['Mike'],
                     'Age':[50]})
age2

Unnamed: 0,Name,Age
0,Mike,50


In [6]:
city = pd.DataFrame({'Name':['Adam', 'Ewa', 'Ola', 'Krystian', 'Jacek'],
                     'City':['Warszawa', 'Kraków', 'Poznań', 'Zakopane', 'Olsztyn']})
city

Unnamed: 0,Name,City
0,Adam,Warszawa
1,Ewa,Kraków
2,Ola,Poznań
3,Krystian,Zakopane
4,Jacek,Olsztyn


## **Pandas concat**

Na początku połączymy dwa pierwsze zbiory z wiekiem w jeden. Jeden pod drugim. Użyjemy do tego celu funkcji concat. Wystarczy podać listę zbiorów które chcemy połaczyć:

In [7]:
age_new = pd.concat([age, age2])
age_new

Unnamed: 0,Name,Age
0,Michał,39
1,Adam,28
2,Ewa,19
3,Jakub,32
0,Mike,50


Wszystko jest dobrze, ale przydała by nam się jeszcze informacja o tym który wiersz pochodzi z którego zbioru. Aby je oznakować możemy użyć parametru keys:

In [8]:
age_new = pd.concat([age, age2], keys=['age', 'age2'])
age_new

Unnamed: 0,Unnamed: 1,Name,Age
age,0,Michał,39
age,1,Adam,28
age,2,Ewa,19
age,3,Jakub,32
age2,0,Mike,50


In [10]:
# ustawiam indeksy po kolei
age_moje = pd.concat([age, age2], ignore_index=True)
age_moje

Unnamed: 0,Name,Age
0,Michał,39
1,Adam,28
2,Ewa,19
3,Jakub,32
4,Mike,50


## **Pandas merge**

W tym momencie mamy 2 zbiory. Jeden age_new z wiekem osób oraz drugi, który nazywa się city, z miejscem ich zamieszkania. Teraz naszym zadaniem jest przypisać do osób wiek oraz miejsce zamieszkania.

Do tego celu, mamy do dyspozycji w Pandas funkcję merge.

Problem jaki się pojawia jest taki, że w obydwu zbiorach tylko część osób jest taka sama. W związku z czym, jak powinien wyglądać nasz wynikowy zbiór danych? Czy powinien zawierać tylko i wyłącznie osoby które występują w obydwu zbiorach, czy może wszystkie osoby, natomiast tam gdzie brakuje informacji o miejscu zamieszkania lub wieku, powinniśmy mieć NaN?

Funkcja merge pozwala nam wybór sposobu łączenia, zobaczmy:

### **Merge, inner, czyli tylko część wspólna**

Funkcja merge przyjmuje kilka prostych argumentów. Najważniejsze z nich to 'on', gdzie podajemy klucz po którym chcemy połączyć dane, oraz 'how' który pozwala na wybór sposobu łączenia. Jeżeli ustawimy how=inner, wtedy będziemy łączyć tylko te dane które znajdują się w obydwu zbiorach:

In [13]:
pd.merge(age_new, city, on='Name', how='inner')

Unnamed: 0,Name,Age,City
0,Adam,28,Warszawa
1,Ewa,19,Kraków


Podaliśmy nasze zbiory danych, ustawiliśmy klucz po którym nastąpiło łączenie zbiorów na 'Name' oraz sposób łączenia na inner.

### **Merge, outer, czyli wszystkie dane**

W drugą stronę, jeżeli ustawimy parametr how na outer, to otrzymamy wszystkie dane z obydwu zbiorów. Po prostu brakujące dane będą widoczne jako NaN:

In [14]:
pd.merge(age_new, city, on='Name', how='outer')

Unnamed: 0,Name,Age,City
0,Michał,39.0,
1,Adam,28.0,Warszawa
2,Ewa,19.0,Kraków
3,Jakub,32.0,
4,Mike,50.0,
5,Ola,,Poznań
6,Krystian,,Zakopane
7,Jacek,,Olsztyn


### **Merge, left, czyli wszystkie dane z lewego zbiory danych**

Jeżeli ustawimy parametr how na left, to otrzymamy wszystkie dane z lewego zbioru danych, czyli tego który podamy jako pierwszy do funkcji merge, natomiast brakujące dane z prawego zbioru będą widoczne jako NaN:

In [15]:
pd.merge(age_new, city, on='Name', how='left')

Unnamed: 0,Name,Age,City
0,Michał,39,
1,Adam,28,Warszawa
2,Ewa,19,Kraków
3,Jakub,32,
4,Mike,50,


### **Merge, right, czyli wszystkie dane z prawego zbiory danych**

Jeżeli ustawimy parametr how na right, to otrzymamy wszystkie dane z prawego zbioru danych, czyli tego który podamy jako drugi do funkcji merge, natomiast brakujące dane z lewego zbioru będą widoczne jako NaN:

In [None]:
pd.merge(age_new, city, on='Name', how='right')