In [74]:
#importing the library
import pandas as pd

In [75]:
# creating a dictionary to load it as a data frame
peoples = {
    "first_name" : ["Corey", "Jane", "John"],
    "last_name" : ["Schafer", "Doe", "Doe"],
    "email" : ["CoreySchafer@mail.com", "JaneDoe@mail.com", "JohnDoe@mail.com"]
}

In [76]:
# creating the data frame
peoples_df = pd.DataFrame(peoples)

In [77]:
peoples_df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreySchafer@mail.com
1,Jane,Doe,JaneDoe@mail.com
2,John,Doe,JohnDoe@mail.com


În cadrul acestei părți din tutorial o să învățăm cum să adăugăm sau să ștergem rânduri sau coloane din cadrul unui data frame. De asemenea o să ne uităm peste cum putem să combinăm date din mai multe coloane într-o singură coloană.

O să începem cu procedeul de a adăuga coloane. Acest procedeu este destul de simplu deoarece este asemănător cu procedeul prin care am făcut update la anumite valori. Pur și simplu creem o coloană și îi pasăm un obiect de tip Serie care să conțină valorile pe care dorim să le aibă acea coloană nouă.

Să presupunem că dorim să combină coloane de 'first_name' și 'last_name' într-o singură coloană pe care să o denumim 'full_name'. Pentru a extrage datele sub formă de Series dintr-un data frame știm cum se face acest lucru

In [78]:
peoples_df['first_name']

0    Corey
1     Jane
2     John
Name: first_name, dtype: object

Dacă dorim să avem valori din două coloane sub formă de un singur obiect de tip Series, atunci pasul presupune doar concatenarea acestor valori (concatenarea pentru string-uri se va face cu semnul +)

In [79]:
peoples_df['first_name'] + ' ' + peoples_df['last_name']

0    Corey Schafer
1         Jane Doe
2         John Doe
dtype: object

Spațiul acela este utilizat pentru a separa valorile din coloana 'first_name' de cele din coloane 'last_name'. Pentru a adăuga o nouă coloană cu aceste valori este destul să creem asignăm acest Series unei noi coloane pe care o denumim noi

In [80]:
peoples_df['full_name'] = peoples_df['first_name'] + ' ' + peoples_df['last_name']

In [81]:
peoples_df

Unnamed: 0,first_name,last_name,email,full_name
0,Corey,Schafer,CoreySchafer@mail.com,Corey Schafer
1,Jane,Doe,JaneDoe@mail.com,Jane Doe
2,John,Doe,JohnDoe@mail.com,John Doe


În acest moment putem observa că noua coloană a fost adăugată în cadrul acestui data frame. În cazul de față se lucrează cu date de tip string, dar la fel de bine se poate crea o nouă coloană care să rezulte din utilizarea metodei 'apply()' la care să fie trecut ca și argument o funcție ce realizează anumite calcule.

Un lucru de ținut minte este faptul că nu putem utiliza notația cu punct pentru a crea o nouă coloană, trebuie să utilizăm notația cu paranteze drepte. Dacă utilizăm notația cu punct, atunci Python crede că dorim să atribuim un atribut unui data frame, nu o nouă coloană. Acesta este procedeul prin care adăugăm noi coloane în cadrul data frame-ului. Acum să ne uităm cum anume putem șterge anumite coloane dintr-un data frame. Să presupunem că nu mai avem nevoie de coloana 'first_name'. Pentru a șterge o coloană putem utiliza metoda `.drop()`. Acestei metode trebuie să îi specificăm faptul că dorim să ștergem o coloană, iar acest lucru se face prin specificare argumentului 'columns'. Acestui argument îi oferim ca și valoare fie un singur element (adică doar un nume de coloană), fie o listă cu mai multe coloane (în cazul în care dorim să ștergem mai multe coloane)

In [82]:
peoples_df.drop(columns='first_name')

Unnamed: 0,last_name,email,full_name
0,Schafer,CoreySchafer@mail.com,Corey Schafer
1,Doe,JaneDoe@mail.com,Jane Doe
2,Doe,JohnDoe@mail.com,John Doe


Ca și majoritatea metodelor, aceasta ne afișează doar un view pentru cum ar arăta noul data frame. Pentru a face aceste modificări permanente trebuie să utilizăm argumentul 'inplace=True'. De data aceasta o să ștergem și coloana 'last_name'

In [83]:
peoples_df.drop(columns=['first_name', 'last_name'], inplace=True)

In [84]:
peoples_df

Unnamed: 0,email,full_name
0,CoreySchafer@mail.com,Corey Schafer
1,JaneDoe@mail.com,Jane Doe
2,JohnDoe@mail.com,John Doe


Dacă dorim să inversăm procesul, și anume să despărțim valorile din coloana 'full_name' și să le punem în coloane diferite, atunci procedeul este unul puțin mai complicat. Pentru asta o să ne utilizăm de clasa 'str' aplicată asupra obiectului Series ce conține date referitoare la coloan 'full_name'. Pentru acel Series o să aplicăm metoda '.split()' care o să splituiască un string după o anumită valoare (valoare în cazul de față o să fie un caracter de spațiu)

In [85]:
peoples_df['full_name'].str.split(' ')

0    [Corey, Schafer]
1         [Jane, Doe]
2         [John, Doe]
Name: full_name, dtype: object

Rezultatul este repezentat de valori pentru 'first_name' și 'last_name' într-o listă. Dacă dorim să creem două coloane cu aceste valori, atunci trebuie să facem un expand la lista respectivă pentru a fi în două coloane diferite valorile respective. Pentru asta o să utilizăm argumentul `expand` din pandas la care o să îi atribuim valoarea True. Argumentul respectiv trebuie trecut în cadrul metodei 'split'

In [86]:
peoples_df['full_name'].str.split(' ', expand=True)

Unnamed: 0,0,1
0,Corey,Schafer
1,Jane,Doe
2,John,Doe


În acest moemnt, rezultatul pare asemănător cu un data frame, unde avem două coloane. Ce este de făcut acuma este să creem două coloane în data frame la care să le atribuim ca și valori aceste două coloane rezulate mai sus. Din cadrul turorialului am învățat că pentru a selecta mai multe coloane trebuie să trecem în cadrul parantezelor drepte o listă de nume (nume care să reprezinte coloane)

In [91]:
peoples_df[['first_name', 'last_name']] = peoples_df['full_name'].str.split(' ', expand=True)

In [92]:
peoples_df

Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe


Acum dacă ne uităm la data frame-ul nostru putem observa că am adăugat dpuă noi coloane de 'fist_name' și 'last_name' cu valorie ce au fost returnate după aplicarea metodei '.split()' împreună cu argumentul 'expand=True'. Acesta este modul prin care putem adăuga sau șterge anumite coloane din cadrul unui data frame. Acum să ne uităm peste modalitățile prin care putem adăuga anumite rânduri în cadrul data frame-ului,

Există mai multe modalități prin care poate am dori să aduăgăm rânduri la un data frame. Pentru început am putea adăuga doar un singur rând de date pentru data frame-ul respectiv. Modul al doilea este să adăugăm un data frame existent la un alt data frame prin a adăuga la final rândurile de la un data frame la altul. Pentru început o să ne uităm la cum putem adăuga un singur rând de date. Pentru asta o să utilizăm metoda `append()`. Acestei metode îi oferim ca și atribut un dicționar de valori, unde cheia este numele coloanei, iar valoarea este valoarea ce dorim să fie în noul rând din data frame

In [93]:
peoples_df.append({'first_name' : 'Tony'})

  peoples_df.append({'first_name' : 'Tony'})


TypeError: Can only append a dict if ignore_index=True

Dacă se rulează codul de mai sus, putem observa că primim o eroare. Această eroare apare din cauză că acest data frame nu are niciun index. De multe ori poate fi dificil să urmărim o eroare din pandas, dar în acest caz ne explică ce anume avem de făcut pentru a scăpa de acestă metodă, și anume să utilizăm argumentul 'ignore_index=True'

In [94]:
peoples_df.append({'first_name' : 'Tony'}, ignore_index=True)

  peoples_df.append({'first_name' : 'Tony'}, ignore_index=True)


Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe
3,,,Tony,


Dacă rulăm codul de sus acesta funcționează, nu mai primi eroare și putem observa faptul că valorea 'Tony' a fost adăugată în cadrul coloanei 'first_name', iar pentru celelalte coloane s-a adăugat 'NaN'.

Dacă avem un data frame pe care dorim să îl adăugăm la un data frame existent, putem face și acest lucru. Pentru a putea executa acest pas trebuie să ne mai creem un nou data frame. O să începem prin a crea un alt dicțioanr de date pe care să îl transformăm într-un data frame

In [95]:
add_peoples = {
    'first_name' : ['Tony ', 'Steve'],
    'last_name' : ['Stark', 'Rogers'],
    'email' : ['IronMan@mail.com', 'MrsCaptain@mail.com']
}

In [96]:
add_peoples_df = pd.DataFrame(add_peoples)

In [97]:
add_peoples_df

Unnamed: 0,first_name,last_name,email
0,Tony,Stark,IronMan@mail.com
1,Steve,Rogers,MrsCaptain@mail.com


Acum tot ce trebuie să facem este să apenduim data frame-ul 'add_peoples_df' la data frame-ul inițial 'peoples_df'. Un mod de a face acest lucru este prin a utilzia metoda 'append()'. Aceste data frmae-uri au index-uri care intră în conflict și au coloane care nu sunt în aceeași ordine. Din nou, dorim să ignorăm partea de index când apenduim acest index

In [98]:
peoples_df.append(add_peoples_df, ignore_index=True)

  peoples_df.append(add_peoples_df, ignore_index=True)


Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe
3,IronMan@mail.com,,Tony,Stark
4,MrsCaptain@mail.com,,Steve,Rogers


În comparație cu metoda 'drop()', metoda 'append()' nu are disponibil argumentul 'inplace=True' pentru a face aceste modficări permanente (doarece momentan acestea nu sunt prezente în data frame), iar pentru a putea face ca acestea să fie permanente trebuie să asignăm întregul data frame la acest rezultat

In [99]:
peoples_df = peoples_df.append(add_peoples_df, ignore_index=True)

  peoples_df = peoples_df.append(add_peoples_df, ignore_index=True)


In [100]:
peoples_df

Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe
3,IronMan@mail.com,,Tony,Stark
4,MrsCaptain@mail.com,,Steve,Rogers


Să aruncăm o privire și la modul cum putem șterge rânduri dintr-un data frame. Să zicem că dorim să eliminăm din data frame-ul nostru rândul unde pentru coloana 'first_name' avem valoarea 'Steve'. Putem face acest lucru asemănător precum ștergem o anumită coloană, numai că în loc de coloana ce dorim să o ștergem, specificăm index-ul de la rândul pe care dorim să îl ștergem. Valoarea ce dorim să o ștergem se găsește pe index-ul 4 din data frame.

In [101]:
peoples_df.drop(index=4)

Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe
3,IronMan@mail.com,,Tony,Stark


Rândul găsit pe index-ul 4 a fost șters, însă nu definitiv, pentru a face aceste modificări permanente trebuie să setăm argumentul 'inplace=True'. Exemplul de mai sus funcționează pentru situația când dorim să ștergem un singur rând. Dacă dorim să ștergem mai multe rânduri cu o singură linie de cod utilizând drop, atunci putem să ne folosim de partea de filtrare de date. În cazul filtrării este recomandat să se utilizeze indexatorul 'loc', dar pentru situațiile când dorim să ștergem mai multe date dintr-un data frame nu o să utilizăm acel indexator, ci o să utilizăm doar notația cu paranteze drepte. Să presupunem că dorim să șterge, toate rândurile din data frame unde pentru coloana 'last_name' avem valoarea 'Doe'. Pentru început o să creem un fiștru și o să îl aplicăm

In [105]:
# create the filter
filter_df = peoples_df['last_name'] == 'Doe'

In [107]:
# applying the filter using loc
peoples_df.loc[filter_df]

Unnamed: 0,email,full_name,first_name,last_name
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe


In [109]:
# applying the filter using brackets notation
peoples_df[filter_df]

Unnamed: 0,email,full_name,first_name,last_name
1,JaneDoe@mail.com,Jane Doe,Jane,Doe
2,JohnDoe@mail.com,John Doe,John,Doe


Pentru a șterge un anumit rând dintr-un data frame, avem nevoie de index-ul acelui rând. Pentru a obține indexii de la o filtrare ne putem folosi de atributul `.index` pe care o să îl aplicăm în urma aplăcrii filtrului

In [111]:
# getting the index of the filter results
peoples_df[filter_df].index

Int64Index([1, 2], dtype='int64')

Putem vedea că în urma codului de mai sus, am primit ca și listă de valori indexii pe care se găsesc toate rândurile din data frame unde pentru coloana 'last_name' avem valoarea 'Doe'. Prin urmare, putem să utilizăm această sintaxă în cadrul metodei '.drop()' pentru a șterge aceste rânduri.

In [112]:
peoples_df.drop(peoples_df[filter_df].index)

Unnamed: 0,email,full_name,first_name,last_name
0,CoreySchafer@mail.com,Corey Schafer,Corey,Schafer
3,IronMan@mail.com,,Tony,Stark
4,MrsCaptain@mail.com,,Steve,Rogers


## Recapitulare

În această parte din tutorial am învățat următoarele lucruri:

    1. Cum să combinăm datele din 2 coloane într-un singur obiect de tip Series

        df['first_name'] + ' ' + df['last_name']

    2. Cum să creem o nouă coloană din combinarea a două coloane

        df['fullname'] = df['first_name'] + ' ' + df['last_name']

    3. Cum să ștergem o coloană dintr-un data frame

        df.drop(columns='first_name')

    4. Cum să ștergem definitiv o coloană/sau mai multe dintr-un data frame

        df.drop(columns=['first_name', 'last_name'], inplace=True)

    5.Cum să separăm datele dintr-o coloană într-o listă de valori (sub formă de listă într-un obiect de tip Series)

        df['full_name'].str.split(' ')

    6. Cum să facem expand la acele date dintr-o listă de valori dintr-un obiect de tip Series în mai multe coloane

        df['full_name'].str.split(' ', expand=True)

    7. Cum să creem 2 coloane cu datele ce au rezultat în urma expand-ului

        df[['first_name', 'last_name']] = df['full_name'].str.split(' ', expand=True)

    8. Cum să adăugăm un rând nou la un data frame

        df.append({'first_name' : 'Tony'}, ignore_index=True)

    9. Cum să adăugăm un data frame la un data frame existent

        df.append(add_df, igonre_index=True)

    10. Cum să ștergem un singur rând dintr-un data frame după index

        df.drop(index=4)

    11. Cum să ștergem mai multe rânduri dintr-un data frame rezultate după un filtru

        filter_df = df['last_name'] == 'Doe'

        df.loc[filter_df]

        df.loc[filter_df].index

        df.drop(df.loc[filter_df].index)