## Combinarea structurilor de date de tip DataFrame si Series in Pandas

In [1]:
import pandas as pd

### Cuprins
1. [Introducere](#intro)
2. [Combinarea datelor](#merge)

### Introducere <a name="intro"></a>

Utilizarea mai multor seturi/surse de date intr-un proiect de manipulare si analiza a datelor nu este o practica neobisnuita. Biblioteca [Pandas](https://pandas.pydata.org/) ofera diverse facilitati pentru a reuni cu usurinta obiecte de tip Series sau DataFrame.

Combinarea diferitelor surse de date poate avea in vedere de la operatii simple de concatenare a datelor de la nivelul a doua seturi de date diferite, pana la operatii complexe de fuzionare/jonctiune, specifice sistemelor de gestiune a bazelor de date. Biblioteca Pandas include functii si metode care fac ca acest tip de operatii de manipulare a datelor sa fie rapid si simplu de realizat. 

Pentru realizarea demonstatiilor de la nivelul acestui proiect, avem in vedere utilizarea a 3 surse de date diferite:
* lista statelor lumii pentru care sunt precizate codurile de doua carectere (ISO 3166);
* informatiile generale ale statelor lumii (capitala, populatie, suprafata, ...) disponibile in cadrul serviciu web CountryInfo Geonames;
* localizarea geografica a statelor lumii (latitudine, longitudine).

In [2]:
# lista personalizata de valori NaN; valoarea NA trebuie exclusa din lista implicita
# deoarece in coloana continent valoarea NA se utilizeaza cu semnificatia de North America
# mai mult in coloana continent nu apar valori nule; toate tarile sunt parte a unui continent

na_values = ['', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', 
             '1.#IND', '1.#QNAN', 'N/A', 'NULL', 'NaN','n/a', 'nan', 'null']

* Dataset 1: List of all countries with their 2 digit codes
* URL: https://datahub.io/core/country-list/r/data.csv

In [3]:
df1 = pd.read_csv(#"https://datahub.io/core/country-list/r/data.csv",
                  "https://r2.datahub.io/clt98ab600006l708tkbrtzel/master/raw/data.csv",
                  sep=",", header=0,
                  na_values=na_values, keep_default_na=False)

In [4]:
df1.head()

Unnamed: 0,Name,Code
0,Afghanistan,AF
1,Åland Islands,AX
2,Albania,AL
3,Algeria,DZ
4,American Samoa,AS


In [5]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 249 entries, 0 to 248
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    249 non-null    object
 1   Code    249 non-null    object
dtypes: object(2)
memory usage: 4.0+ KB


* Dataset 2: Geonames Country Info
* URL: 
    - https://www.geonames.org/countries/
    - http://api.geonames.org/countryInfoCSV?username=demo


Setul de date <i>CountryInfo</i> de la [Geonames](http://api.geonames.org/countryInfoCSV?username=demo) contine informatii generale cu privire la nu mai putin de 252 de tari: coduri ISO, cod FIPS, nume tara, capitala, suprafata, populatie, continent, limbi, valuta, geonameID.

In [None]:
# daca keep_default_na are valoare False si este precizata o lista de valori nule 
# acceptate prin na_values, doar aceste valori vor fi avute in vedere la parsare

df2 = pd.read_csv("http://api.geonames.org/countryInfoCSV?username=demo", sep="\t", header=0, 
                 na_values=na_values, keep_default_na=False)

In [7]:
df2.head(5)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
1,AE,ARE,784,AE,United Arab Emirates,Abu Dhabi,82880.0,9630959,AS,"ar-AE,fa,en,hi,ur",AED,290557
2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
3,AG,ATG,28,AC,Antigua and Barbuda,St John's,443.0,96286,,en-AG,XCD,3576396
4,AI,AIA,660,AV,Anguilla,The Valley,102.0,13254,,en-AI,XCD,3573511


In [8]:
df2.query("continent ==  'NA' and name.str.contains('Island')", engine='python')

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
125,KY,CYM,136,CJ,Cayman Islands,George Town,262.0,64174,,en-KY,KYD,3580718
215,TC,TCA,796,TK,Turks and Caicos Islands,Cockburn Town,430.0,37665,,en-TC,USD,3576916
240,VG,VGB,92,VI,British Virgin Islands,Road Town,153.0,29802,,en-VG,USD,3577718
241,VI,VIR,850,VQ,U.S. Virgin Islands,Charlotte Amalie,352.0,106977,,en-VI,USD,4796775


In [9]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 252 entries, 0 to 251
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   iso alpha2   252 non-null    object 
 1   iso alpha3   252 non-null    object 
 2   iso numeric  252 non-null    int64  
 3   fips code    249 non-null    object 
 4   name         250 non-null    object 
 5   capital      241 non-null    object 
 6   areaInSqKm   252 non-null    float64
 7   population   252 non-null    int64  
 8   continent    252 non-null    object 
 9   languages    249 non-null    object 
 10  currency     251 non-null    object 
 11  geonameId    252 non-null    int64  
dtypes: float64(1), int64(3), object(8)
memory usage: 23.8+ KB


* Dataset 3: Google DSPL Country location
* URL: https://raw.githubusercontent.com/google/dspl/master/samples/google/canonical/countries.csv

In [10]:
df3 = pd.read_csv("https://raw.githubusercontent.com/google/dspl/master/samples/google/canonical/countries.csv", 
                  sep=",", header=0, 
                  na_values=na_values, keep_default_na=False)

In [11]:
df3.head()

Unnamed: 0,country,latitude,longitude,name
0,AD,42.546245,1.601554,Andorra
1,AE,23.424076,53.847818,United Arab Emirates
2,AF,33.93911,67.709953,Afghanistan
3,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,18.220554,-63.068615,Anguilla


In [12]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    245 non-null    object 
 1   latitude   244 non-null    float64
 2   longitude  244 non-null    float64
 3   name       245 non-null    object 
dtypes: float64(2), object(2)
memory usage: 7.8+ KB


### Combinarea datelor <a name="merge"></a>

Biblioteca [Pandas](https://pandas.pydata.org/) dispune de operatii specializate de combinare a datelor, foarte asemanatoare cu cele prezente la nivelul limbajului SQL. Pentru inplementarea operatiilor de jonctiune specifice sistemelor de baze de date relationale, in Pandas este disponibila functia [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html), care prezinta sintaxa urmatoare.

<pre>pandas.merge(
    left,
    right,
    how="inner",
    on=None,
    left_on=None,
    right_on=None,
    left_index=False,
    right_index=False,
    sort=True,
    suffixes=("_x", "_y"),
    copy=True,
    indicator=False,
    validate=None,
)</pre>

Comportamentul implementat de functia [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html) este un subansamblu a ceea ce este cunoscut sub numele de algebra relationala. Algebra relationala este un set formal de reguli pentru manipularea datelor tabelare, care formeaza baza conceptuala a operatiunilor disponibile in cadrul sistemelor de gestiune a bazelor de date de tip relational.

In cadrul functiei pot fi precizate atat obiecte de tip DataFrame, cat si obiecte de tip Series. Daca sunt furnizate obiecte de tip Series prin intermediul parametrilor left si/sau right, acestea vor fi tratate ca si obiecte de tip DataFrame cu o singura coloana.

Atunci cand combinam inregistrari din mai multe structuri tabelare, exista doua aspecte care trebuie intelese foarte bine. Prima structura tabelara este referita ca si left (structura din partea stanga), in timp ce a doua structura este referita sub numele de right (structura din partea dreapta).

* left: indica prima structura de date de tip DataFrame sau Series;
* right: indica cea de-a doua structura de date de tip DataFrame sau Series;
* on: etichete de la nivelul coloanelor sau indecsilor pe baza carora vor fi combinate datele; numele trebuie sa se gasesasca in ambele structuri, atat la stanga (left), cat si la dreapta (right); daca nu este precizata o valoare pentru on si parametrii left_index si rigth_index au valoarea False, intersectia coloanelor structurilor va fi dedusa ca fiind cheia pe baza careaia se realizeaza legatura;
* left_on: etichete de la nivelul coloanelor sau indexului structurii din partea stanga care vor fi utilizate in postura de chei;
* right_on: etichete de la nivelul coloanelor sau indexului structurii din partea dreapta care vor fi utilizate in postura de chei;
* left_index: daca prezinta valoare True, se utilizeaza indexul (etichetele inregistrarilor) structurii din partea stanga in postura de cheie pe baza careaia se realizeaza legatura;
* right_index: daca prezinta valoare True, se utilizeaza indexul (etichetele inregistrarilor) structurii din partea dreapta in postura de cheie pe baza careaia se realizeaza legatura;
* how: poate avea una din urmatoarele valori: left, right, outer, inner, cross; implicit detine valoarea inner; stabileste modul in care vor fi combinate datele;

Combinarea inregistrarilor se realizeaza pe coloane sau indecsi. Daca alaturarea datelor se face pe coloane, indecsii structurilor de date vor fi ignorati. 

In [13]:
# realizeaza o copie a primelor 7 inregistrari din setul de date df2
# returneaza o structura de date de tip DataFrame

left = df2[['iso alpha2', 'name', 'capital']][0:7].copy()

In [14]:
# redenumeste coloana iso alpha2; noul nume este code

left.rename(columns={'iso alpha2': 'code'}, inplace=True)

In [15]:
left

Unnamed: 0,code,name,capital
0,AD,Andorra,Andorra la Vella
1,AE,United Arab Emirates,Abu Dhabi
2,AF,Afghanistan,Kabul
3,AG,Antigua and Barbuda,St John's
4,AI,Anguilla,The Valley
5,AL,Albania,Tirana
6,AM,Armenia,Yerevan


In [16]:
# realizeaza o copie a primelor 10 inregistrari din setul de date df3
# returneaza o structura de date de tip DataFrame

right = df3[0:10].copy()

In [17]:
# sterge inregistrarea cu indexul 2 de la nivelul structurii de date de tip DataFrame numita right

right.drop(2, inplace=True)

In [18]:
right.rename(columns={'country': 'code'}, inplace=True)

In [19]:
right

Unnamed: 0,code,latitude,longitude,name
0,AD,42.546245,1.601554,Andorra
1,AE,23.424076,53.847818,United Arab Emirates
3,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,18.220554,-63.068615,Anguilla
5,AL,41.153332,20.168331,Albania
6,AM,40.069099,45.038189,Armenia
7,AN,12.226079,-69.060087,Netherlands Antilles
8,AO,-11.202692,17.873887,Angola
9,AQ,-75.250973,-0.071389,Antarctica


| Tip merge (Pandas) | Tip Join (SQL) | Descriere |
| --- | --- | --- |
| left | left outer join | utilizeaza doar cheile din structura de date din partea stanga |
| right | right outer join | utilizeaza doar cheile din structura de date din partea dreapta |
| outer | full outer join | utilizeaza reuniunea cheilor din ambele structuri de date |
| inner | inner join | utilizeaza intersectia cheilor din ambele structuri de date |
| cross | cross join | produsul cartezian al inregistrarilor din cele doua structuri de date |

Cea mai simpla modalitate de utilizare a functiei [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html) are in vedere doar precizarea structurilor de date. Implicit, functia va combina inregistrarile de la nivelul celor doua structuri pe baza coloanelor comune (in cazul nostru code si name), adica include in rezultat doar inregistrarile care corespund intersectiei cheilor din ambele structuri de date. 

In [20]:
pd.merge(left, right)

Unnamed: 0,code,name,capital,latitude,longitude
0,AD,Andorra,Andorra la Vella,42.546245,1.601554
1,AE,United Arab Emirates,Abu Dhabi,23.424076,53.847818
2,AG,Antigua and Barbuda,St John's,17.060816,-61.796428
3,AI,Anguilla,The Valley,18.220554,-63.068615
4,AL,Albania,Tirana,41.153332,20.168331
5,AM,Armenia,Yerevan,40.069099,45.038189


Rezultatul precedent poate fi inregistrat si in cazul precizarii explicite a tipului operatiei de combinare a datelor (valoarea inner pentru parametrul how) si a coloanelor comune celor doua structuri (la nivelul parametrului on). Daca este utilizat parametrul on, coloanele specificate trebuie sa fie prezente in ambele structuri de date (atat in stanga, cat si in dreapta).

In [21]:
pd.merge(left, right, how='inner', on=['code', 'name'])

Unnamed: 0,code,name,capital,latitude,longitude
0,AD,Andorra,Andorra la Vella,42.546245,1.601554
1,AE,United Arab Emirates,Abu Dhabi,23.424076,53.847818
2,AG,Antigua and Barbuda,St John's,17.060816,-61.796428
3,AI,Anguilla,The Valley,18.220554,-63.068615
4,AL,Albania,Tirana,41.153332,20.168331
5,AM,Armenia,Yerevan,40.069099,45.038189


In [22]:
# adaugam prefixul right_ la etichetele coloanelor din structura de date right

right = right.add_prefix('right_')

Daca coloanele pe care dorim sa implementam combinarea datelor au nume diferite, este necesara precizarea parametrilor left_on si right_on cu numele coloanelor din fiecare structura de date.

Urmatoarea operatie de combinare a datelor este una de tip left, care determina includerea in rezultat a tuturor inregistrarilor din structura din partea stanga si doar a inregistrarilor din partea dreapta care prezinta corespondenta in stanga.

In [23]:
pd.merge(left, right, how='left', left_on=['code', 'name'], right_on=['right_code', 'right_name'])

Unnamed: 0,code,name,capital,right_code,right_latitude,right_longitude,right_name
0,AD,Andorra,Andorra la Vella,AD,42.546245,1.601554,Andorra
1,AE,United Arab Emirates,Abu Dhabi,AE,23.424076,53.847818,United Arab Emirates
2,AF,Afghanistan,Kabul,,,,
3,AG,Antigua and Barbuda,St John's,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,Anguilla,The Valley,AI,18.220554,-63.068615,Anguilla
5,AL,Albania,Tirana,AL,41.153332,20.168331,Albania
6,AM,Armenia,Yerevan,AM,40.069099,45.038189,Armenia


Prin simpla modificarea a valorii parametrului how, din left in right, la nivelul rezultatului sunt disponibile toate inregistrarilor din structura din partea dreapta si inregistrarile din partea stange care prezinta corespondenta in dreapta.

In [24]:
pd.merge(left, right, how='right', left_on=['code', 'name'], right_on=['right_code', 'right_name'])

Unnamed: 0,code,name,capital,right_code,right_latitude,right_longitude,right_name
0,AD,Andorra,Andorra la Vella,AD,42.546245,1.601554,Andorra
1,AE,United Arab Emirates,Abu Dhabi,AE,23.424076,53.847818,United Arab Emirates
2,AG,Antigua and Barbuda,St John's,AG,17.060816,-61.796428,Antigua and Barbuda
3,AI,Anguilla,The Valley,AI,18.220554,-63.068615,Anguilla
4,AL,Albania,Tirana,AL,41.153332,20.168331,Albania
5,AM,Armenia,Yerevan,AM,40.069099,45.038189,Armenia
6,,,,AN,12.226079,-69.060087,Netherlands Antilles
7,,,,AO,-11.202692,17.873887,Angola
8,,,,AQ,-75.250973,-0.071389,Antarctica


In [25]:
# stergem prefixul right_ de la nivelul etichetelor coloanelor din structura de date right

right.columns = [col.lstrip('right_') for col in right.columns]

Am sters prefixul right_ de la nivelul etichetelor coloanelor din structura de date right, obtinand din nou doua structuri de date de tip DataFrame (left si right) care prezinta doua coloane cu acelasi nume (code si name). 

In [26]:
left.columns, right.columns

(Index(['code', 'name', 'capital'], dtype='object'),
 Index(['code', 'latitude', 'longitude', 'name'], dtype='object'))

O operatie de combinare a datelor care utilizeaza valoarea outer pentru parametrul how include in rezultat toate inregistrarile din cele doua structuri indiferent daca prezinta sau nu corespondenta. Inregistrarile fara corespondenta intr-una din cele doua structuri vor avea valorile completate cu NaN.   

In [27]:
left

Unnamed: 0,code,name,capital
0,AD,Andorra,Andorra la Vella
1,AE,United Arab Emirates,Abu Dhabi
2,AF,Afghanistan,Kabul
3,AG,Antigua and Barbuda,St John's
4,AI,Anguilla,The Valley
5,AL,Albania,Tirana
6,AM,Armenia,Yerevan


In [28]:
right

Unnamed: 0,code,latitude,longitude,name
0,AD,42.546245,1.601554,Andorra
1,AE,23.424076,53.847818,United Arab Emirates
3,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,18.220554,-63.068615,Anguilla
5,AL,41.153332,20.168331,Albania
6,AM,40.069099,45.038189,Armenia
7,AN,12.226079,-69.060087,Netherlands Antilles
8,AO,-11.202692,17.873887,Angola
9,AQ,-75.250973,-0.071389,Antarctica


In [29]:
pd.merge(left, right, how='outer', on=['code', 'name'])

Unnamed: 0,code,name,capital,latitude,longitude
0,AD,Andorra,Andorra la Vella,42.546245,1.601554
1,AE,United Arab Emirates,Abu Dhabi,23.424076,53.847818
2,AF,Afghanistan,Kabul,,
3,AG,Antigua and Barbuda,St John's,17.060816,-61.796428
4,AI,Anguilla,The Valley,18.220554,-63.068615
5,AL,Albania,Tirana,41.153332,20.168331
6,AM,Armenia,Yerevan,40.069099,45.038189
7,AN,Netherlands Antilles,,12.226079,-69.060087
8,AO,Angola,,-11.202692,17.873887
9,AQ,Antarctica,,-75.250973,-0.071389


In [30]:
pd.merge(left, right, how='cross')

Unnamed: 0,code_x,name_x,capital,code_y,latitude,longitude,name_y
0,AD,Andorra,Andorra la Vella,AD,42.546245,1.601554,Andorra
1,AD,Andorra,Andorra la Vella,AE,23.424076,53.847818,United Arab Emirates
2,AD,Andorra,Andorra la Vella,AG,17.060816,-61.796428,Antigua and Barbuda
3,AD,Andorra,Andorra la Vella,AI,18.220554,-63.068615,Anguilla
4,AD,Andorra,Andorra la Vella,AL,41.153332,20.168331,Albania
...,...,...,...,...,...,...,...
58,AM,Armenia,Yerevan,AL,41.153332,20.168331,Albania
59,AM,Armenia,Yerevan,AM,40.069099,45.038189,Armenia
60,AM,Armenia,Yerevan,AN,12.226079,-69.060087,Netherlands Antilles
61,AM,Armenia,Yerevan,AO,-11.202692,17.873887,Angola


Putem utiliza inclusiv indexul in postura de cheie pentru operatia de combinare a datelor, daca specificam parametrii left_index si right_index cu valoarea True.

In [31]:
pd.merge(left[['capital']], right[['code', 'name', 'latitude', 'longitude']], how='left', left_index=True, right_index=True)

Unnamed: 0,capital,code,name,latitude,longitude
0,Andorra la Vella,AD,Andorra,42.546245,1.601554
1,Abu Dhabi,AE,United Arab Emirates,23.424076,53.847818
2,Kabul,,,,
3,St John's,AG,Antigua and Barbuda,17.060816,-61.796428
4,The Valley,AI,Anguilla,18.220554,-63.068615
5,Tirana,AL,Albania,41.153332,20.168331
6,Yerevan,AM,Armenia,40.069099,45.038189


Construim un set de date care sa contina toate informatiile prezente la nivelul celor trei seturi de date importate la inceputul demonstratiei (df1, df2, df3). Setul de date rezultat, va contine pentru fiecare stat numele, localizarea, suprafata, populatia, capitala, continentul, limbile vorbite, valuta si diversi identificatori.  

In [32]:
df1.columns = [col.lower() for col in df1.columns]

In [33]:
df1.head()

Unnamed: 0,name,code
0,Afghanistan,AF
1,Åland Islands,AX
2,Albania,AL
3,Algeria,DZ
4,American Samoa,AS


In [34]:
df3.head()

Unnamed: 0,country,latitude,longitude,name
0,AD,42.546245,1.601554,Andorra
1,AE,23.424076,53.847818,United Arab Emirates
2,AF,33.93911,67.709953,Afghanistan
3,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,18.220554,-63.068615,Anguilla


In [35]:
df13 = pd.merge(df1, df3, left_on='code', right_on='country', how='inner').\
    drop(['name_y', 'country'], axis=1).rename(columns={'name_x': 'name'})

In [36]:
df13.head()

Unnamed: 0,name,code,latitude,longitude
0,Afghanistan,AF,33.93911,67.709953
1,Albania,AL,41.153332,20.168331
2,Algeria,DZ,28.033886,1.659626
3,American Samoa,AS,-14.270972,-170.132217
4,Andorra,AD,42.546245,1.601554


In [37]:
df2.head()

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
1,AE,ARE,784,AE,United Arab Emirates,Abu Dhabi,82880.0,9630959,AS,"ar-AE,fa,en,hi,ur",AED,290557
2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
3,AG,ATG,28,AC,Antigua and Barbuda,St John's,443.0,96286,,en-AG,XCD,3576396
4,AI,AIA,660,AV,Anguilla,The Valley,102.0,13254,,en-AI,XCD,3573511


In [38]:
df123 = pd.merge(df13, df2, left_on='code', right_on='iso alpha2', how='inner').\
    drop(['name_y', 'code'], axis=1).rename(columns={'name_x': 'name'})

In [39]:
df123.head()

Unnamed: 0,name,latitude,longitude,iso alpha2,iso alpha3,iso numeric,fips code,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,Afghanistan,33.93911,67.709953,AF,AFG,4,AF,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
1,Albania,41.153332,20.168331,AL,ALB,8,AL,Tirana,28748.0,2866376,EU,"sq,el",ALL,783754
2,Algeria,28.033886,1.659626,DZ,DZA,12,AG,Algiers,2381740.0,42228429,AF,ar-DZ,DZD,2589581
3,American Samoa,-14.270972,-170.132217,AS,ASM,16,AQ,Pago Pago,199.0,55465,OC,"en-AS,sm,to",USD,5880801
4,Andorra,42.546245,1.601554,AD,AND,20,AN,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565


Functia [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html) implementeaza mai multe tipuri de operatii de combinare/asociere a datelor: 
* asocieri de tipul unu la unu (1:1): cheile de legatura prezinta valori unice atat la stanga, cat si la dreapta;
* asocieri de tipul unu la mai multi (1:m): cheile de legatura prezinta valori unice doar in structura din partea stanga, nu si in cea din partea dreapta;
* asocieri de tipul mai multi la unu (m:1): cheile de legatura prezinta valori unice doar in structura din partea dreapta, nu si in cea din partea stanga;
* asocieri de tipul mai multi la mai multi (m:1): cheile de legatura nu prezinta valori unice in nici una din parti.

Consideram doua structuri de date de tip DataFrame care contin cate 4 inregistrari. Prima structura (df_tutori) introduce 4 tutori, in timp ce in cea de-a doua structura (df_cursuri) sunt precizate 4 cursuri.

In [40]:
df_tutori = pd.DataFrame({
    'id': [1, 2, 3, 4],
    'nume': ['Marian Cubos', 'Radu Tasiu', 'Mihai Ionita', 'Bogdan Dragotescu'],
})

In [41]:
df_cursuri = pd.DataFrame({
    'id': [1, 1, 3, 4],
    'curs': ['Programare pentru ingineria datelor', 'Sisteme de baze de date' , 'Grafica computerizata', 'Cloud computing'],
    'an': ['1M', '3L', '4L', '1M']
})

Implementam o operatie de combinare a datelor de tip left, in care cheia de legatura o reprezinta coloana id, prezenta la nivelul ambelor structuri. Obtinem astfel toti tutorii indiferent daca acestia au sau nu alocate cursuri. 

Observam faptul ca pentru tutorul Radu Tasiu nu este precizat nici un curs la nivelul rezultatului (inregistrarea acestuia din df_tutori nu prezinta corespondente in df_cursuri). In plus, valorile de la nivelul coloanei id din structura de date df_cursuri nu sunt unice, ceea ce inseamna ca inregistrari din df_tutori prezinta mai multe corespondente in df_cursuri.

In [42]:
pd.merge(df_tutori, df_cursuri, how='left', on='id')

Unnamed: 0,id,nume,curs,an
0,1,Marian Cubos,Programare pentru ingineria datelor,1M
1,1,Marian Cubos,Sisteme de baze de date,3L
2,2,Radu Tasiu,,
3,3,Mihai Ionita,Grafica computerizata,4L
4,4,Bogdan Dragotescu,Cloud computing,1M


Rezultatul precedent reprezinta un exemplu de operatie de tip unu la mai multi (one to many, 1:m), in care un tutor poate coordona mai multe discipline.

Daca este precizat paramentru validate pentru functia [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html), se verifica daca operatia de combinare a datelor este de tipul precizat in argument.

In [43]:
for v in ('1:1', '1:m', 'm:1', 'm:m'):
    try: 
        pd.merge(df_tutori, df_cursuri, how='left', on='id', validate=v)
    except:
        print("%s nu este valid" %v)

1:1 nu este valid
m:1 nu este valid
