# Pandas DataFrame - Combining DataFrames - Concatenation

În continuare o să trecem peste o serie de tutoriale prin care o să explicăm metodele prin care se pot combina mai multe DataFrame-uri. O să începem cu concatenarea mai multor DataFrame-uri. Există anumite metode când datele de care avem nevoie se găsesc în mai multe surse (mai multe fișiere, prin urmare mai multe DataFrame-uri), iar din fericire Pandas ne pune la dispoziție o serie de metode prin care putem să combinăm aceste fișiere.

Cazul ideal ar fi ca datele să fie în același format (fișiere csv, date într-o bază de date, fișiere Excel), iar pentru acest caz se poate apela metoda 'pd.concat()'

| Index | Year |
| --- | --- |
| USA   | 1776 |
| CANADA   | 1876 |
| MEXICO   | 1821 |


| Index | Pop |
| --- | --- |
| USA   | 328 |
| CANADA   | 38 |
| MEXICO   | 126 |

În cazul în care avem cele două data seturi prezente în două locuri diferite (două fișiere diferite) practic prin concatenare dorim să combinăm aceste date și să existe numai într-un singur data set. Acest lucru se face prin procedeul de concatenare. De reținut însă că pentru ca procedeul de concatenare să funcționeze trebuie să avem același număr de rînduri în cele două seturi de date și indexii să corespundă (în cazul în care nu este așa, atunci se poate folosi merge sau join). După ce se concatenează o să avem un singur data set cu toate datele

| Index | Year | Pop |
| --- | --- | --- |
| USA   | 1776 | 328 |
| CANADA   | 1876 | 38 |
| MEXICO   | 1821 | 126 |

O să aruncăm o privire peste modul cum putem realiza această concatenare utilizând Pandas

In [1]:
# importing the libraries
import numpy as np
import pandas as pd

In [2]:
# creating two dictionaries that will be transformed into DataFrames
data_one = {'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}
data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}

In [3]:
# creating the two DataFrames based on dictionaries from above
one = pd.DataFrame(data_one)
two = pd.DataFrame(data_two)

Utilizând concatenare există două modalități prin care putem să combină două DataFrame-uri. Acestea se pot concatena fie pe coloane, fie pe rânduri. Pentru a vedea diferența dintre ele să aruncăm o privire peste DataFrame-urile respective

In [4]:
one

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [5]:
two

Unnamed: 0,C,D
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


Concatenarea pe coloane înseamnă că din cele două DataFrame-uri (fiecare cu două coloane și patru rânduri) să avem un singur DataFrame cu patru coloane și patru rânduri. Pentru a realiza acest pas trebuie să utilizăm metoda 'pd.concat()', iar acesteia trebuie să îi oferim ca și prim argument o listă care să cuprindă numele celor două DataFrame-uri pe care dorim să le concatenăm. Cel de-al doilea argument este reprezentat de axa pe care dorim să facem această concatenare (axis=1 în cazul de față, deoarece facem această concatenare pe baza coloanelor)

In [7]:
pd.concat([one, two], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


În urma codului de mai sus în acest moment avem ca și rezultat un DataFrame care are toate datele din cadrul celor două DataFrame-uri pe care le-am concatenat. După cum ne-am așteptat, concatenare pe coloane se face în funcție de index-ul pe care îl au cele două DataFrame-uri, adică pe index-ul comun (din acest motiv trebuie ca cele două DataFrame-uri să aibă același număr de intrări și același index). În ceea ce privește concatenarea pe rânduri, acolo aceasta se face pe baza coloanelor. Din moment ce coloanele sunt diferite (ca și nume), în momentul de față o să fie un rezultat mai ciudat dacă se face concatenarea pe baza rândurilor

In [8]:
pd.concat([one, two], axis=0)

Unnamed: 0,A,B,C,D
0,A0,B0,,
1,A1,B1,,
2,A2,B2,,
3,A3,B3,,
0,,,C0,D0
1,,,C1,D1
2,,,C2,D2
3,,,C3,D3


Din moment ce ambele DataFrame-uri au aceleași valori pentru index, Pandas trebuie să facă cumva o diferență între acele valori de index, din cauza aceasta a adăugat toate coloanele din cele două DataFrame-uri. Știe că pe index-ul 0 în coloana A are valoarea 'A0', dar mai are încă un index cu valoarea 0, însă acesta este pentru coloana 'C'. Prin acest procedeu Pandas face diferența. În DataFrame-ul one pe index-ul 0 pe coloana A are valoarea A0, iar în DataFrame-ul two pe index-ul 0 nu are nicio valoare pentru coloana A (deoarece aceasta nu există), prin urmare completează acea valoare cu NaN.

Un mod de a face concatenarea pe baza rândurilor este să denimin coloanele la fel în cele două DataFrame-uri.

In [9]:
two.columns = ['A', 'B']
# two.columns = one.columns

In [None]:
two.columns

Index(['A', 'B'], dtype='object')

În momentul în care și DataFrame-ul two are același coloane ca și DataFrame-ul one, atunci putem să face concatenarea pe baza rândurilor

In [11]:
pd.concat([one, two], axis=0)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


Singura problemă este că acuma avem un index care nu are valori unicate, dar această așa zisă problemă se poate rezolva. Putem să salvăm acest rezultat într-un DataFrame și să modificăm valorea index-ului

In [12]:
concat_df = pd.concat([one, two], axis=0)
concat_df.index = range(len(concat_df))

In [13]:
concat_df

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,C0,D0
5,C1,D1
6,C2,D2
7,C3,D3


Aceste două variante reprezintă partea de concatenare, concatenarea pe baza coloanelor sau a rândurilor. Acest procedeu de a aduna datele din mai multe seturi de date este cel mai ușor, însă presupune și să avem seturi de date relativ identice (în ceea ce privește numărul de rânduri, de coloane, numele index-ului sau numele coloanelor) în funcție de ce tip de concatenare se dorește să se realizeze

## Recapitulare

În cadrul acestei părți am învățat următoarele lucruri:

    1. Cum să concatenpm două DataFrame-uri pe baza coloanelor

        pd.concat([one, two], axis=1) # se păstrează același număr de index, se adaugă coloanele

    2. Cum să concatenăm două DataFrame-uri pe baza rândurilor

        pd.concat([one, two], axis=0) # se păstrează același număr de coloane, se adaugă indexii