# Pandas DataFrame - Combining DataFrames - Inner Merge

În cadrul tutorialului precedent am învățat cum anume să concatenăm anumite date, dar de foarte multe ori aceste date nu sunt în ordinea sau formatul necesar pentru a le putea concatena. Există situații când anumite coloane nu sunt prezenete în ambele seturi de date sau anumite rânduri nu sunt prezente acolo. În aceste situații trebuie să facem merge la aceste tipuri de date. Acest procedeu de merge este asemănător cu join-ul din SQL, fiind incluse și în Pandas conceptele de inner join, outher join, left și right join

Metoda pe care o să o utilizăm pentru a facem merge la mai multe seturi de date este '.merge()'. Argumentul cheie pentru metoda aceasta este 'how'. Pentru acest argument putem să specificăm următoarele valori:

    1. inner

    2. outher

    3. left

    4. right

Aceste valori reprezintă defapt tipurile de join in SQL. Tipul de merge se decide în funcție de cum dorim să arate rezultatul final. De exemplu, dacă avem anumite rânduri în cadrul unui DataFrame care nu sunt prezente în DataFrame-ul cu care dorim să facem merge atunci ce anume dorim să facem cu acele rânduri? Dorim să le păstrăm și să fie trecute cu null în DataFrame-ul care rezultă sau dorim să le ignorăm?

În continuare o să lucrăm cu două DataFrame-uri mici pentru a testa procedeul de merge dintre acestea.

In [1]:
# importing the libraries
import numpy as np
import pandas as pd

In [2]:
# creating the dictionaries that will be read into DataFrames
registrations = {'reg_id': [1, 2, 3, 4], 'name': ['Andrew', 'Bob', 'Charlie', 'David']}
logins = {'log_od': [1, 2, 3, 4], 'name': ['Xavier', 'Andrew', 'Yolanda', 'Bob']}

In [8]:
# creating the DataFrames
registrations_df = pd.DataFrame(registrations)
logins_df = pd.DataFrame(logins)

# The DataFrames can be created in one line
# registrations_df = pd.DataFrame({'reg_id': [1, 2, 3, 4], 'name': ['Andrew', 'Bob', 'Charlie', 'David']})
# logins_df = pd.DataFrame({'log_od': [1, 2, 3, 4], 'name': ['Xavier', 'Andrew', 'Yolanda', 'Bob']})


In [7]:
registrations_df

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bob
2,3,Charlie
3,4,David


In [9]:
logins_df

Unnamed: 0,log_od,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bob


Pentru a face join la două DataFrame-uri trebuie să găsim date din aceste DataFrame-uri care sunt prezente în ambele. Pentru exemplele de mai sus, coloana în care avem date comune este coloana 'name' din ambele DataFrame-uri (index-ul nu se poate lua în calcul în acest caz deoarece este un range, nu este un index de tipul labeled index). Valorile din cadrul acestori coloane pe baza cărora se face merge trebuie să fie unicate. Cum funcționează un inner merge, ia doar datele din ambele DataFrame-uri unde găsește aceleași date pentru coloana după care se face merge (pentru coloana 'name' în cazul de față)

Acest merge între două DataFrame-uri se face utilizând metoda 'pd.merge()'. Metodei respective trebuie să îi oferim ca și prime argumente numele DataFrame-urilor pe care dorim să le combină. Următorul argument este cel de how prin care se specifică ce tip de merge dorim să facem (inner, outer, left, right). După cum s-a precizat, aceast merge trebuie să se facă pe baza anumitor coloane din DataFrame care au valori unicate și comune, iar numele coloanei se specificăm cu ajutorul argumentului 'on' la care îi atribuim ca și valoare numele coloanei pe baza căruia se va face merge.

In [10]:
pd.merge(registrations_df, logins_df, how='inner', on='name')

Unnamed: 0,reg_id,name,log_od
0,1,Andrew,2
1,2,Bob,4


## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Care sunt modalitățile prin care putem face merge la două DataFrame-uri

        inner

        outher

        left

        right

    2.Cum se realizează un inner merge între două DataFrame-uri

        pd.merge(registrations_df, logins_df, how='inner', on='name')