# Pandas DataFrame - Working with Columns

În cadrul acestui tutorial o să învățăm cum anume putem să operăm cu datele din coloanele unui data frame. O să învățăm cum anume putem să extragem anumite date din cadrul unui data frame, cum putem să extragem o singură coloană sau mai multe coloane, cum putem să creem o nouă coloană și cum putem să modificăm datele din cadrul unei coloane existente

In [1]:
# importing the library
import numpy as np
import pandas as pd

In [3]:
# reading the csv file
df = pd.read_csv('../data/03-Pandas/tips.csv')

In [4]:
# printing the first 5 rows of the data frame
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


Să presupune că momenta dorim să lucrăm doar cu datele din coloana 'total_bill'. Pentru a face acest lucru trebuie să extragem toate datele din cadrul acestei coloane. Datele din cadrul unei coloane se pot extrage utilizân metoda prin care extragem date dintr-un dicționar sau dintr-un fișier json, și anume prin utilizarea parantezelor drepte. În cadrul acestor parantese trebuie să trecem sub formă de string numele coloanei de unde dorim să extragem datele

In [5]:
df['total_bill']

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

În acest moment avem afișate doar datele din coloana 'total_bill'. Un lucru interesant despre aceste date este faptul că sunt returnate sub forma unui Series, deoarece am învățat că un data frame reprezintă doar o serie de mai multe Series care au același index

In [6]:
type(df['total_bill'])

pandas.core.series.Series

Modul de mai sus reprezintă modul prin care preluăm date dintr-o coloană. Dacă dorim să extragem date din mai multe coloane, atunic în cadrul acelor paranteze drepte trebuie să oferim o listă de valori. Din moment ce o să oferim o listă de elemente, asta înseamnă că o să avem două seturi de paranteze drepte, una care reprezintă modalitatea de a extrage date dintr-un data frame, iar cea de-a doua reprezintă lista cu numele coloanelor pe care dorim să le extragem. Pentru acest exemplu o să preluăm date din coloanele 'total_bill' și 'tip'

In [7]:
df[['total_bill', 'tip']]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


Din moment ce am extras două coloane din data frame, în acest moment nu se mai returnează un Series ci se returnează un subset al acelui data frame.

Dacă este confuz modul prin care se extrag două sau mai multe coloane putem să utilizăm altă metodă (deși metoda de mai sus este cea utilizată cel mai des). Putem să creeem o listă separată cu denumirea de coloane ce dorim să le extragem și să oferim acea listă ca și argument pentru datele ce dorim să le extragem

In [9]:
my_columns = ['total_bill', 'tip']

In [10]:
df[my_columns]


Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


Metoda a doua ne oferă același rezultat, dar s-au utilizat mai multe linii de cod, de aceea se preferă să se utilizeze prima metodă. Am utilizat și această metodă pentru a putea înțelege mai bine cum anume se pot selecta mai multe coloane din cadrul unui data frame și de ce anumie trebuie să avem două seturi de paranteze drepte.

În continuare o să vedem cum anume putem crea o nouă coloană în cadrul acestui data frame. În data frame-ul curent avem coloana 'total_bill' și coloana 'tip'. Dorim să vedem ce procent reprezintă acest tip din nota de plată. Cum anume se poate crea o nouă coloană? Putem crea coloane noi foarte ușor. Putem să facem anumite operații pe baza acestor coloane foarte asemănător cum am făcut pentru array-uri în NumPy. Pentru început o să adunăm valorile din două coloane (din total_bill și tip)

In [11]:
df['tip'] + df['total_bill']

0      18.00
1      12.00
2      24.51
3      26.99
4      28.20
       ...  
239    34.95
240    29.18
241    24.67
242    19.57
243    21.78
Length: 244, dtype: float64

Precum putem să operăm adunare, așa putem să facem orice operație aritmetică. Pentru a vedea procentul de tip din nota de plată putem să împărțim tip-ul la nota de plată (iar pentru a avea un procent adevărat, putem să înmulțim valoarea care rezultă cu 100)

In [12]:
(df['tip'] / df['total_bill']) * 100

0       5.944673
1      16.054159
2      16.658734
3      13.978041
4      14.680765
         ...    
239    20.392697
240     7.358352
241     8.822232
242     9.820426
243    15.974441
Length: 244, dtype: float64

Este foarte ușor să utilizăm acest tip de operații în pandas deoarece fiecare Series în parte o să alinieze datele bazate pe index, ceea ce este super rapid și folositor. După ce am calculat acest porcent dorim să adăugăm aceste date în cadrul data frame-ului sub formă de coloană nouă (putem face acest lucru deoarece rezultatul este de tip Series și are același index precum data frame-ul, prin urmare s-ar putea adăuga aceste date doarece după cum știm, un data frame este un set de Series care au același index). Tot ce trebuie să facem este să asignăm acest rezultat la o nouă coloană. Cum anume creem o nouă coloană? Din moment ce suntem satisfăcuți cu rezultatul pe care îl avem putem să facem referire la acea coloană ca și cum aceasta ar exista

In [13]:
df['tip_percentage'] = (df['tip'] / df['total_bill']) * 100

In [14]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.944673
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.054159
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458,16.658734
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.978041
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.680765
...,...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657,20.392697
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766,7.358352
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880,8.822232
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17,9.820426


Coloana respectivă a fost adăugată în cadrul data frame-ului și a fost adăugată la final, de fiecare dată când se creează o nouă coloană, aceasta este adaăugată la final. De cele mai multe ori așa se creează o nouă coloană într-un data frame de Pandas, prin multiple operații ale altor coloane. Dacă se face referire la o coloană care deja există în acel data frame, atunci pandas nu o să creeze o nouă coloană ci o să suprascrie datele din acea coloană cu noile date. Din acest motiv trebuie să fim atenți când creem o nouă  coloană pentru a nu suprascrie cumva o coloană deja existentă în acest data frame.

Coloana nou adăugată este de tip float și putem observa că are extrem de multe valori după punct. Ar fi indicat să mai scăpăm din acele numere, deoarece de cele mai multe ori un procentaj este afișat cu două valori zecimale. Deoarece Pandas este bazat pe NumPy, acesta preia foarte multe capabilități ale librăriei NumPy, prin urmare ne putem folosi de multe din funcționalitățile acestei librării și în Pandas ca și cum am avea de-a face cu un array în NumPy (în mod practic, un Series este un wrapper peste un array din NumPy). O metodă din NumPy pe care o putem utiliza pentru acest caz este 'np.round()'. Această metodă ia 2 argumente, primu fiind valorea, iar cel de al doilea fiind numărul total de zecimale pe care îl dorim să îl avem. Pentru cazul de față, valoarea ce dorim să o rotunjim este valoarea rezultată din calcul, prin urmare va trebuie să oferim toată operația ca și argument pentru np.round()

In [16]:
np.round((df['tip'] / df['total_bill']) * 100, 2)

0       5.94
1      16.05
2      16.66
3      13.98
4      14.68
       ...  
239    20.39
240     7.36
241     8.82
242     9.82
243    15.97
Length: 244, dtype: float64

Din moment ce avem aceste rezultate putem să reasignăm coloana 'tip_percentage' la noile valori obținute

In [17]:
df['tip_percentage'] = np.round((df['tip'] / df['total_bill']) * 100, 2)

In [18]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.05
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.68


Până acuma am văzut cum putem să preluăm date dintr-o coloană, din mai multe coloane, cum putem să adăugăm noi coloane sau să suprascriem unele coloane. În continuare o să ne uităm peste partea de ștergere a coloanelor. Pentru a șterge o coloană se va utiliza metoda 'drop()'. Aceasta este metoda generală prin care putem șterge fie rânduri, fie coloane. Metoda are 2 parametri importanți, și anume label și axis. Pentru labels trebuie să îi spunem numele coloanei sau numele coloanelor pe care dorim să le ștergem. După cum spuneam, cu metoda aceasta putem șterge fie coloane, fie rânduri. Metoda prin care îi precizăm lui Pandas dacă ne referim la coloane sau la rânduri este prin parametrul axis. În mod default acesta este setat la 0, iar 0 reprezintă rândurile. Dacă dorim să ștergem anumite coloane, atunci trebuie să modificăm această valoare la 1.

axis=0  --> face referire la rânduri

axis=1  --> face referire la coloane


In [19]:
df.drop('tip_percentage')

KeyError: "['tip_percentage'] not found in axis"

Prin codul de mai sus primim o eroare deoarece îi spunem lui pandas că dorim să ștergem un label ce poartă numele 'tip_percentage'. Din moment ce nu am specificat nimic pentru parametrul de axis, valoarea acestuia este setată automat la 0, iar asta înseamnă că Pandas caută acel label în cadrul rândurilor. Din moment ce nu există. primi acea eroare. Pentru a putea șterge coloana trebuie să modificăm valoarea pentru axis la 1

In [20]:
df.drop('tip_percentage', axis=1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


Un lucru de reținut este faptul că de multe ori când apelăm anumite operații pentru un data frame (precum metoda drop()) nu realizează aceste modificări in-place, cu alte cuvinte nu modifică permanent acesta data frame. Acest comportament este util atunci când facem o serie de operații, iar la final să nu ștergem din greșeală toate modificările pe care le-am făcut. După cum se poate observa, din output-ul de mai sus, după ce am șters coloana 'tip_percentage' Pandas ne-a și returnat un data frame fără acea coloană. Data frame-ul returnat are doar 11 coloane acuma, nu mai are 12. Modificare aceasta însă nu s-a făcut permanent

In [22]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.05
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.68
...,...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657,20.39
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766,7.36
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880,8.82
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17,9.82


Dacă afișăm data frame-ul obersvăm că acea coloană nu a fost ștearsă, data frame-ul având tot 12 coloane. Pentru a putea face aceste modificări permanente există 2 metode. Prima metodă presupune utilizarea unui parametru denumit 'inplace'. Acest parametru este setat default la False, iar dacă se modifică valoarea la True, atunci modificările o să fie permanente

In [23]:
df.drop('tip_percentage', axis=1, inplace=True)

In [24]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


Din moment ce am utilizat parametrul inplace cu valoarea True, acum modificările sunt permanente. Pentru cea de a doua variantă de a face anumite modificări permanente, o să creem din nou coloan de tip_percentage

In [25]:
df['tip_percentage'] = np.round((df['tip'] / df['total_bill']) * 100, 2)

In [26]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,tip_percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,16.05
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,14.68
...,...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657,20.39
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766,7.36
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880,8.82
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17,9.82


Am văzut că atunci când nu se utilizează argumentul inplace=True, atunci codul pentru comanda drop returnează ceva anume. Ce anume returnează este un data frame. Acest data frame putem să îl atribuim unui nou data frame (sau mai de grabă putem să îl atribuim aceluiași data frame), astfel o să se suprascrie data frame-ul curent cu noul data frame ce este returnat de către metoda drop()

In [28]:
df = df.drop('tip_percentage', axis=1)

In [29]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880
242,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950,Sat17


Una dintre curiozități este de ce axis=0 reprezintă rândurile, iar axis=1 reprezintă coloanele. Aceasta are de-a face cu partea de formă (shape) a unui data frame. Pentru a ne vedea la ce ne referim, o să utilizăm atributul shape 

In [30]:
df.shape

(244, 11)

Atributul shaper returnează un tuple cu două valori. Aceste valori reprezintă numărul rândurilor și al coloanelor dintr-un data frame. Prima valoare (adică valoarea găsită pe index-ul 0) reprezintă rândurile, din acest motiv axis=0 reprezintă rândurile unui data frame, iar axis=1 reprezintă coloanele

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum să accesăm datele dintr-o coloană

        df['total_bill']

    2. Cum să accesăm datele din mai multe coloane

        my_columns = ['total_bill', 'tip']

        df[my_columns]

        df[['total_bill', 'tip']]

    3. Cum putem realiza anumite operații pentru diferite Series dintr-un data frame

        (df['tip'] / df['total_bill']) * 100

    4. Cum putem asigna rezultatul unor operații unei noi coloane 

        df['tip_percentage'] = (df['tip'] / df['total_bill']) * 100

    5. Faptul că putem utiliza operații din NumPy pentru un Series din Pandas

        np.round((df['tip'] / df['total_bill']) * 100, 2)

    6. Cum putem șterge o anumită coloană dintr-un data frame

        df.drop('tip_percentage', axis=1, inplace=True)

        df = df.drop('tip_percentage', axis=1)
    
    7. Cum putem accesa informații despre forma (shape-ul) unui data frame (adică numărul de rânduri pe numărul de coloane)

        df.shape