## Concatenarea structurilor de date de tip DataFrame si Series in Pandas

In [1]:
import pandas as pd

### Cuprins
1. [Introducere](#intro)
2. [Concatenarea obiectelor](#concat)
3. [Compararea obiectelor](#compare)

### Introducere <a name="intro"></a>

Utilizarea mai multor seturi/surse de date intr-un proiect de manipulare si analiza a datelor nu este o practica neobisnuita. Biblioteca [Pandas](https://pandas.pydata.org/) ofera diverse facilitati pentru a reuni cu usurinta obiecte de tip Series sau DataFrame.

Combinarea diferitelor surse de date poate avea in vedere de la operatii simple de concatenare a datelor de la nivelul a doua seturi de date diferite, pana la operatii complexe de fuzionare/jonctiune, specifice sistemelor de gestiune a bazelor de date. Biblioteca Pandas include functii si metode care fac ca acest tip de operatii de manipulare a datelor sa fie rapid si simplu de realizat. 

Pentru realizarea demonstatiilor de la nivelul acestui proiect, avem in vedere utilizarea a 3 surse de date diferite:
* lista statelor lumii pentru care sunt precizate codurile de doua carectere (ISO 3166);
* informatiile generale ale statelor lumii (capitala, populatie, suprafata, ...) disponibile in cadrul serviciu web CountryInfo Geonames;
* localizarea geografica a statelor lumii (latitudine, longitudine).

In [2]:
# lista personalizata de valori NaN; valoarea NA trebuie exclusa din lista implicita
# deoarece in coloana continent valoarea NA se utilizeaza cu semnificatia de North America
# mai mult in coloana continent nu apar valori nule; toate tarile sunt parte a unui continent

na_values = ['', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', 
             '1.#IND', '1.#QNAN', 'N/A', 'NULL', 'NaN','n/a', 'nan', 'null']

* Dataset 1: List of all countries with their 2 digit codes
* URL: https://datahub.io/core/country-list/r/data.csv

In [3]:
df1 = pd.read_csv("https://r2.datahub.io/clt98ab600006l708tkbrtzel/master/raw/data.csv",
                  sep=",", header=0, 
                  na_values=na_values, keep_default_na=False)

In [4]:
df1.head()

Unnamed: 0,Name,Code
0,Afghanistan,AF
1,Åland Islands,AX
2,Albania,AL
3,Algeria,DZ
4,American Samoa,AS


In [5]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 249 entries, 0 to 248
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    249 non-null    object
 1   Code    249 non-null    object
dtypes: object(2)
memory usage: 4.0+ KB


* Dataset 2: Geonames Country Info
* URL: 
    - https://www.geonames.org/countries/
    - http://api.geonames.org/countryInfoCSV?username=demo


Setul de date <i>CountryInfo</i> de la [Geonames](http://api.geonames.org/countryInfoCSV?username=demo) contine informatii generale cu privire la nu mai putin de 252 de tari: coduri ISO, cod FIPS, nume tara, capitala, suprafata, populatie, continent, limbi, valuta, geonameID.

In [None]:
# daca keep_default_na are valoare False si este precizata o lista de valori nule 
# acceptate prin na_values, doar aceste valori vor fi avute in vedere la parsare

df2 = pd.read_csv("http://api.geonames.org/countryInfoCSV?username=demo", sep="\t", header=0, 
                 na_values=na_values, keep_default_na=False)

In [7]:
df2.head(5)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
1,AE,ARE,784,AE,United Arab Emirates,Abu Dhabi,82880.0,9630959,AS,"ar-AE,fa,en,hi,ur",AED,290557
2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
3,AG,ATG,28,AC,Antigua and Barbuda,St John's,443.0,96286,,en-AG,XCD,3576396
4,AI,AIA,660,AV,Anguilla,The Valley,102.0,13254,,en-AI,XCD,3573511


In [8]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 252 entries, 0 to 251
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   iso alpha2   252 non-null    object 
 1   iso alpha3   252 non-null    object 
 2   iso numeric  252 non-null    int64  
 3   fips code    249 non-null    object 
 4   name         250 non-null    object 
 5   capital      241 non-null    object 
 6   areaInSqKm   252 non-null    float64
 7   population   252 non-null    int64  
 8   continent    252 non-null    object 
 9   languages    249 non-null    object 
 10  currency     251 non-null    object 
 11  geonameId    252 non-null    int64  
dtypes: float64(1), int64(3), object(8)
memory usage: 23.8+ KB


* Dataset 3: Google DSPL Country location
* URL: https://raw.githubusercontent.com/google/dspl/master/samples/google/canonical/countries.csv

In [9]:
df3 = pd.read_csv("https://raw.githubusercontent.com/google/dspl/master/samples/google/canonical/countries.csv", 
                  sep=",", header=0, 
                  na_values=na_values, keep_default_na=False)

In [10]:
df3.head()

Unnamed: 0,country,latitude,longitude,name
0,AD,42.546245,1.601554,Andorra
1,AE,23.424076,53.847818,United Arab Emirates
2,AF,33.93911,67.709953,Afghanistan
3,AG,17.060816,-61.796428,Antigua and Barbuda
4,AI,18.220554,-63.068615,Anguilla


In [11]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    245 non-null    object 
 1   latitude   244 non-null    float64
 2   longitude  244 non-null    float64
 3   name       245 non-null    object 
dtypes: float64(2), object(2)
memory usage: 7.8+ KB


### Concatenarea obiectelor <a name="concat"></a>

Concatenarea seturilor de date este o sarcina uzuala in lucrul cu date din surse diferite si poate implica alaturarea datelor pe verticala (in mod similar operatiei de reuniune), cat si fuzionarea lor pe orizontala prin intermediul unor chei comune.

Construim doua subseturi de date plecand de la setul de date CountryInfo Geonames, prin extragerea statelor care sunt parte a continentelor Europa, respectiv Asia. Inregistrarile corespunzatoare celor doua continente precizate anterior sunt stocate la nivelul a doua structuri de date de tip DataFrame, df2eu pentru Europa, respectiv df2as pentru statele din Asia.

In [12]:
df2eu = df2.query("continent ==  'EU'")

In [13]:
df2eu.head()

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
5,AL,ALB,8,AL,Albania,Tirana,28748.0,2866376,EU,"sq,el",ALL,783754
12,AT,AUT,40,AU,Austria,Vienna,83858.0,8847037,EU,"de-AT,hr,hu,sl",EUR,2782113
15,AX,ALA,248,,Åland,Mariehamn,1580.0,26711,EU,sv-AX,EUR,661882
17,BA,BIH,70,BK,Bosnia and Herzegovina,Sarajevo,51129.0,3323929,EU,"bs,hr-BA,sr-BA",BAM,3277605


In [14]:
df2as = df2.query("continent ==  'AS'")

In [15]:
df2as.head()

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
1,AE,ARE,784,AE,United Arab Emirates,Abu Dhabi,82880.0,9630959,AS,"ar-AE,fa,en,hi,ur",AED,290557
2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
6,AM,ARM,51,AM,Armenia,Yerevan,29800.0,2991200,AS,hy,AMD,174982
16,AZ,AZE,31,AJ,Azerbaijan,Baku,86600.0,9942334,AS,"az,ru,hy",AZN,587116
19,BD,BGD,50,BG,Bangladesh,Dhaka,144000.0,161356039,AS,"bn-BD,en",BDT,1210997


In [16]:
df2eu_as = pd.concat([df2eu, df2as])

Prin intermediul functionalitatilor pachetului Pandas, procesul de analiza a datelor este unul mult mai usor. Metoda [pandas.DataFrame.sample()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) permite generarea unei inregistrari sau coloane aleatoare de la nivelul unei structuri de date. In acest caz, avem in vedere extragerea unui esantion alcatuit din 5 inregistrari.

In [17]:
df2eu_as.sample(5)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
126,KZ,KAZ,398,KZ,Kazakhstan,Nur-Sultan,2717300.0,18276499,AS,"kk,ru",KZT,1522867
180,PL,POL,616,PL,Poland,Warsaw,312685.0,37978548,EU,pl,PLN,798544
149,MO,MAC,446,MC,Macao,Macao,254.0,631636,AS,"zh,zh-MO,pt",MOP,1821275
2,AF,AFG,4,AF,Afghanistan,Kabul,647500.0,37172386,AS,"fa-AF,ps,uz-AF,tk",AFN,1149361
96,HK,HKG,344,HK,Hong Kong,Hong Kong,1092.0,7491609,AS,"zh-HK,yue,zh,en",HKD,1819730


In [18]:
df2eu_as.info()

<class 'pandas.core.frame.DataFrame'>
Index: 105 entries, 0 to 247
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   iso alpha2   105 non-null    object 
 1   iso alpha3   105 non-null    object 
 2   iso numeric  105 non-null    int64  
 3   fips code    104 non-null    object 
 4   name         104 non-null    object 
 5   capital      101 non-null    object 
 6   areaInSqKm   105 non-null    float64
 7   population   105 non-null    int64  
 8   continent    105 non-null    object 
 9   languages    105 non-null    object 
 10  currency     105 non-null    object 
 11  geonameId    105 non-null    int64  
dtypes: float64(1), int64(3), object(8)
memory usage: 10.7+ KB


In [19]:
data_frames = [df2eu, df2as]

Concatenarea obiectelor de tip Series sau DataFrame se poate realiza in Pandas prin intermediul functiei [pandas.concat()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html), in mod similar functionalitatii np.concatenate() din pachetul NumPy, care permite concatenarea tablourilor. O sintaxa de baza a acestei functii este disponibila in cele ce urmeaza.

<pre>pd.concat(
    objs,
    axis=0,
    join="outer",
    ignore_index=False,
    keys=None,
    levels=None,
    names=None,
    verify_integrity=False,
    sort=False,
    copy=True,
)</pre>

* objs: reprezinta o secventa de obiecte de tip Series sau DataFrame; orice obiect None va fi eliminat in mod silentios, cu exceptia cazului in care toate obiectele furnizate sunt None (va fi generata o eroare de tip ValueError);
* axis: axa de-a lungul careia se face concatenarea; implicit aceasta este 0 (axa orizontala sau inregistrarile);

In [20]:
result = pd.concat(data_frames, axis=0)

In [21]:
result.sample(10)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
229,TW,TWN,158,TW,Taiwan,Taipei,35980.0,23451837,AS,"zh-TW,zh,nan,hak",TWD,1668284
136,LV,LVA,428,LG,Latvia,Riga,64589.0,1926542,EU,"lv,ru,lt",EUR,458258
231,UA,UKR,804,UP,Ukraine,Kyiv,603700.0,44622516,EU,"uk,ru-UA,rom,pl,hu",UAH,690791
237,VA,VAT,336,VT,Vatican City,Vatican City,0.44,921,EU,"la,it,fr",EUR,3164670
140,MD,MDA,498,MD,Moldova,Chișinău,33843.0,3545883,EU,"ro,ru,gag,tr",MDL,617790
131,LK,LKA,144,CE,Sri Lanka,Colombo,65610.0,21670000,AS,"si,ta,en",LKR,1227603
247,YE,YEM,887,YM,Yemen,Sanaa,527970.0,28498687,AS,ar-YE,YER,69543
179,PK,PAK,586,PK,Pakistan,Islamabad,803940.0,212215030,AS,"ur-PK,en-PK,pa,sd,ps,brh",PKR,1168579
75,FO,FRO,234,FO,Faroe Islands,Tórshavn,1399.0,48497,EU,"fo,da-FO",DKK,2622320
148,MN,MNG,496,MG,Mongolia,Ulaanbaatar,1565000.0,3170208,AS,"mn,ru",MNT,2029969


Putem automatiza procesul de obtinere a subseturilor corespunzatoare continentelor. Creem mai intai o lista goala, numita data_frames, in care adaugam prin intermediul metodei append() fiecare subset extras de la nivelul setului de date df2 folosind metoda [pandas.DataFrame.query()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html). Numele continentului este inserat la in expresia de cautare prin variabila continent.

In [22]:
df2.continent.unique()

array(['EU', 'AS', 'NA', 'AF', 'AN', 'SA', 'OC'], dtype=object)

In [23]:
data_frames = []
for continent in df2.continent.unique():
    data_frames.append(df2.query("continent ==  @continent").reset_index(drop=True))
result = pd.concat(data_frames)

Toate subseturile de date corespunzatoare continentelor sunt apoi concatenate prin intermediul functiei [pandas.concat()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html), iar setul de date rezultat este disponibil intr-o structura de date de tip DataFrame, numita result.

In [24]:
result.sample(10)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
54,YT,MYT,175,MF,Mayotte,Mamoudzou,374.0,279471,AF,fr-YT,EUR,1024031
26,IM,IMN,833,IM,Isle of Man,Douglas,572.0,84077,EU,"en,gv",GBP,3042225
29,JE,JEY,832,JE,Jersey,Saint Helier,116.0,90812,EU,"en,fr,nrf",GBP,3042142
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
38,MT,MLT,470,MT,Malta,Valletta,316.0,483530,EU,"mt,en-MT",EUR,2562770
0,AR,ARG,32,AR,Argentina,Buenos Aires,2766890.0,44494502,SA,"es-AR,en,it,de,fr,gn",ARS,3865483
10,GE,GEO,268,GG,Georgia,Tbilisi,69700.0,3731000,AS,"ka,ru,hy,az",GEL,614540
39,RW,RWA,646,RW,Rwanda,Kigali,26338.0,12301939,AF,"rw,en-RW,fr-RW,sw",RWF,49518
12,DZ,DZA,12,AG,Algeria,Algiers,2381740.0,42228429,AF,ar-DZ,DZD,2589581
19,JP,JPN,392,JA,Japan,Tokyo,377835.0,126529100,AS,ja,JPY,1861060


Se poate observa faptul ca, in momentul extragerii subseturilor corespunzatoare continentelor am realizat inclusiv resetarea indexului acestora, fara stocarea indexului vechi la nivelul coloanelor structurilor de date. Din acest motiv, in setul de date rezultat prin concatenare sunt prezente inregistrari care prezinta aceiasi valoare pentru index. 

Aplicarea din nou a metodei [pandas.DataFrame.reset_index()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html), de aceasta data pentru setul de date final, determina reindexarea inregistrarilor de la nivelul structurii de date.

In [25]:
result.reset_index(drop=True)

Unnamed: 0,iso alpha2,iso alpha3,iso numeric,fips code,name,capital,areaInSqKm,population,continent,languages,currency,geonameId
0,AD,AND,20,AN,Andorra,Andorra la Vella,468.0,77006,EU,ca,EUR,3041565
1,AL,ALB,8,AL,Albania,Tirana,28748.0,2866376,EU,"sq,el",ALL,783754
2,AT,AUT,40,AU,Austria,Vienna,83858.0,8847037,EU,"de-AT,hr,hu,sl",EUR,2782113
3,AX,ALA,248,,Åland,Mariehamn,1580.0,26711,EU,sv-AX,EUR,661882
4,BA,BIH,70,BK,Bosnia and Herzegovina,Sarajevo,51129.0,3323929,EU,"bs,hr-BA,sr-BA",BAM,3277605
...,...,...,...,...,...,...,...,...,...,...,...,...
247,TV,TUV,798,TV,Tuvalu,Funafuti,26.0,11508,OC,"tvl,en,sm,gil",AUD,2110297
248,UM,UMI,581,,U.S. Outlying Islands,,0.0,0,OC,en-UM,USD,5854968
249,VU,VUT,548,NH,Vanuatu,Port Vila,12200.0,292680,OC,"bi,en-VU,fr-VU",VUV,2134431
250,WF,WLF,876,WF,Wallis and Futuna,Mata-Utu,274.0,16025,OC,"wls,fud,fr-WF",XPF,4034749


* join: valorile posibile sunt inner si outer, cu outer valoare implicita; precizeaza modul in care este gestionat indexul pe alta axa decat cea pe care se realizeaza concatenarea; valoare outer are in vedere reunirea inregistrarilor, in timp ce inner intersectia lor;

Aplicam din nou mecanismul precedent de generare a unor subseturi de date, doar ca de aceasta data extragem inregistrari din setul de date df1 pe baza initialei numelui statului. Avem in vedere generarea a trei seturi de date, si anume a celor care incep cu literele D, E si F. Si in acest caz, inregistrarile de la nivelul fiecarui subset de date sunt reindexate, fara stocarea indexului vechi la niveluyl coloanelor.

In [26]:
data_frames = []
for letter in ['D', 'E', 'F']:
    data_frames.append(df1.query("Name.str.startswith(@letter)").reset_index(drop=True))

In plus, la nivelul primului subset de date, cel care contine state care incep cu litera D, adaugam o a treia coloana ID (in afara celor deja prezente, Name si Code), coloane care contine aceiasi valoare pentru toate inregistrarile (initiala numelui statelor).

In [27]:
data_frames[0]['ID'] = 'D'

Pentru a demonsta maniere in care parametrii join si axis afecteaza rezultatul concatenarii, in primele doua cazuri avem in vedere utilizarea valorii outer pentru parametrul join (valoare implicita), in timp ce parametrul axis vine cu cele doua valori posibile, 0 in primul caz, respectiv 1 in cel de-al doilea.

Se poate observa faptul ca, daca in primul caz concatenarea se face pe orizontala (axis=0), in cel de-al doilea operatia se realizeaza pe verticala (axis=1).

In [28]:
pd.concat(data_frames, join='outer', axis=0)

Unnamed: 0,Name,Code,ID
0,Denmark,DK,D
1,Djibouti,DJ,D
2,Dominica,DM,D
3,Dominican Republic,DO,D
0,Ecuador,EC,
1,Egypt,EG,
2,El Salvador,SV,
3,Equatorial Guinea,GQ,
4,Eritrea,ER,
5,Estonia,EE,


Mai mult, daca in primul caz vorbim de implementarea unei operatii de reuniune pe axa verticala (alta axa decat cea pe care se realizeaza concatenarea), in cel de-al doilea caz reuniunea se realizeaza pe axa orizontala (la nivelul indexului).

In [29]:
pd.concat(data_frames, join='outer', axis=1)

Unnamed: 0,Name,Code,ID,Name.1,Code.1,Name.2,Code.2
0,Denmark,DK,D,Ecuador,EC,Falkland Islands (Malvinas),FK
1,Djibouti,DJ,D,Egypt,EG,Faroe Islands,FO
2,Dominica,DM,D,El Salvador,SV,Fiji,FJ
3,Dominican Republic,DO,D,Equatorial Guinea,GQ,Finland,FI
4,,,,Eritrea,ER,France,FR
5,,,,Estonia,EE,French Guiana,GF
6,,,,Ethiopia,ET,French Polynesia,PF
7,,,,,,French Southern Territories,TF


In urmatoarele doua exemple, valoarea parametrului join se modifica in inner, ceea ce implica implementarea unei operatii de intersectie la nivelul inregistrarilor subseturilor. 

In [30]:
pd.concat(data_frames, join='inner', axis=0)

Unnamed: 0,Name,Code
0,Denmark,DK
1,Djibouti,DJ
2,Dominica,DM
3,Dominican Republic,DO
0,Ecuador,EC
1,Egypt,EG
2,El Salvador,SV
3,Equatorial Guinea,GQ
4,Eritrea,ER
5,Estonia,EE


Daca pentru axis cu valoarea 0 intersectia determina pastrarea in rezultat doar a coloanelor comune (cu acelasi nume) din subseturi, aplicarea valorii 1 pentru parametrul axis determina pastrarea in rezultat doar a inregistrarilor din subseturi care prezinta valori comune ale indexului. 

In [31]:
pd.concat(data_frames, join='inner', axis=1)

Unnamed: 0,Name,Code,ID,Name.1,Code.1,Name.2,Code.2
0,Denmark,DK,D,Ecuador,EC,Falkland Islands (Malvinas),FK
1,Djibouti,DJ,D,Egypt,EG,Faroe Islands,FO
2,Dominica,DM,D,El Salvador,SV,Fiji,FJ
3,Dominican Republic,DO,D,Equatorial Guinea,GQ,Finland,FI


* ignore_index: implicit parametrul detine valoarea False; daca aparametrul detine valoarea True, nu se utilizeaza valorile indicilor pe axa de concatenare; axa rezultata va fi etichetata 0, ..., n - 1; acest lucru este util daca concatenati obiecte in cazul in care axa de concatenare nu are informatii de indexare semnificative.

In [32]:
pd.concat(data_frames, ignore_index=True, sort=True)

Unnamed: 0,Code,ID,Name
0,DK,D,Denmark
1,DJ,D,Djibouti
2,DM,D,Dominica
3,DO,D,Dominican Republic
4,EC,,Ecuador
5,EG,,Egypt
6,SV,,El Salvador
7,GQ,,Equatorial Guinea
8,ER,,Eritrea
9,EE,,Estonia


In cazul obiectelor de tip DataFrame care nu au un index semnificativ, este posibila ignorarea valorilor de la nivelul indexului prin utilizarea lui ignore_index cu valoarea True.

* keys: permite precizarea unei secvente; implicit detine valoarea None; construieste un indice ierarhic pe baza cheilor transmise pentru a putea identifica structurile de date care au fost concatenate;

In [33]:
pd.concat(data_frames, keys=['D', 'E', 'F'])

Unnamed: 0,Unnamed: 1,Name,Code,ID
D,0,Denmark,DK,D
D,1,Djibouti,DJ,D
D,2,Dominica,DM,D
D,3,Dominican Republic,DO,D
E,0,Ecuador,EC,
E,1,Egypt,EG,
E,2,El Salvador,SV,
E,3,Equatorial Guinea,GQ,
E,4,Eritrea,ER,
E,5,Estonia,EE,


### Compararea obiectelor <a name="compare"></a>

Pentru a permite compararea a doua structuri de date de tip DataFrame sau Serie cu evidentierea diferentelor, incepand cu versiunea 1.1.0 a bibliotecii Pandas, au fost adaugate metodele [pandas.DataFrame.compare()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.compare.html), rectectiv [pandas.Series.compare()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.compare.html).

<pre>pandas.DataFrame.compare(
    other, 
    align_axis=1, 
    keep_shape=False, 
    keep_equal=False
)</pre>

In [34]:
df1A = df1.query("Name.str.startswith('A')")[0:5].reset_index(drop=True)
df3A = df3.query("country.str.startswith('A')")[['name', 'country']][0:5].reset_index(drop=True)

df3A.rename(columns={'country': 'code'}, inplace=True)
df3A.columns = df1.columns

Deoarece metoda [pandas.DataFrame.compare()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.compare.html) nu permite decat compararea structurilor de date care detin aceiasi forma si care au etichete similare pentru randuri si coloane, in momentul filtrarii pastram doar cate 5 inregistrari (prin feliere) si resetem indexul de la nivelul structurilor de date obtinute. 

Asigurarea acelorasi etichete pentru numele coloanelor necesita redenumirea coloanelor din cea de-a doua structura (df3A), prin utilizarea metodei [pandas.DataFrame.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html) care contine maparea vechilor etichete la cele noi sau prin oferirea etichetelor de la nivelul primei structuri de date (df1A) la nivelul parametrului [pandas.DataFrame.columns](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html).

In [35]:
df1A

Unnamed: 0,Name,Code
0,Afghanistan,AF
1,Albania,AL
2,Algeria,DZ
3,American Samoa,AS
4,Andorra,AD


In [36]:
df3A

Unnamed: 0,Name,Code
0,Andorra,AD
1,United Arab Emirates,AE
2,Afghanistan,AF
3,Antigua and Barbuda,AG
4,Anguilla,AI


In [37]:
df1A.compare(df3A)

Unnamed: 0_level_0,Name,Name,Code,Code
Unnamed: 0_level_1,self,other,self,other
0,Afghanistan,Andorra,AF,AD
1,Albania,United Arab Emirates,AL,AE
2,Algeria,Afghanistan,DZ,AF
3,American Samoa,Antigua and Barbuda,AS,AG
4,Andorra,Anguilla,AD,AI


Parametrul align_axis detine implicit valoarea 1 si stabileste axa pe care se realizeaza compararea valorilor de la nivelul structurilor de date.

In [38]:
df1A.compare(df3A, align_axis=0)

Unnamed: 0,Unnamed: 1,Name,Code
0,self,Afghanistan,AF
0,other,Andorra,AD
1,self,Albania,AL
1,other,United Arab Emirates,AE
2,self,Algeria,DZ
2,other,Afghanistan,AF
3,self,American Samoa,AS
3,other,Antigua and Barbuda,AG
4,self,Andorra,AD
4,other,Anguilla,AI
