# Pandas DataFrame - Conditional Filtering

Până în acest moment am învățat cum anume putem să selectăm anumite coloane sau rânduri pe baza poziției sau pe baza numelui (numele de coloană sau index) pe care îl au. În mod normal, un data set cu care o să lucrăm o să fie destul de mare și nu o să putem să selecrăm anumite date pe baza poziției (adică pe baza indexului) iar pentru astfel de seturi de date o să fin nevoiți să filtrăm datele utilizând partea de filtrare condițională. Acest tip de filtrare ne permite să selectăm anumite date din cadrul unui DataFrame în funcție de o anumită condiție aplicată pe o anumită coloană.

Acest lucru este extrem de important, și anume că selectăm rânduri în funcție de o coloană deoarece asta presupune un mod de a ne oraganiza date. Această organizare este utilă pentru partea de machine learning, iar atunci când vorbim despre filtrarea condițională, această organizare își spune punctul de vedere.

| Index | Data | Pop | GDP |
| --- | --- | --- | --- |
| USA   | 1776 | 328 | 20.5 |
| CANADA   | 1876 | 38 | 1.7 |
| MEXICO   | 1821 | 126 | 1.22 |

Mai sus avem un exemplu de DataFrmae. Ce este de reținut aici este faptul că fiecare coloană reprezintă un atribut (un atribut putem să îl vedem ca pe o proproetate a unei instanțe). În DataFrame-ul de mai sus avem un atribut legat de anul în care fiecare dintre țări și-a obținut independența, populația acestei țări, etc. Rândurile reprezintă instanțe ale datelor, fiecare rând reprezintă o țară (o instanță) care are anumite atribute (proprietăți). Acest format este unul necesar atunci când o să ne ocupăm de partea de Machine Learning

Formatul de mai sus ne permite să răspundem direct la anumite întrebări și să realizăm analiză de date care conduce la filtrarea condițională. Una dintre întrebări poate fi 'Ce țară are o populație mai mare de 50 de milioane?' Pentru a răspunde la această întrebare trebuie să ne dăm seama după ce coloană o să facem filtrarea. Coloana după care se face această filtrare este 'Pop'. Pentru a prelua datele din această coloană știm cum se procedează

df['Pop']

Codul de mai sus ne returnează un Series. Dorim să filtrăm acest Series pentru a vedea ce țări au o populație mai mare de 50 de milioane. Pentru asta putem utiliza semnul '>'. Este atâta de ușor. Pandas trece prin fiecare valoare din acest Series și face comparația. Dacă valoarea se încadrează în comparație (adică dacă este mai mare de 50 de milionae) atunci o să returneze un True pentru acea valoare, respectiv invers. În final, Pandas o să returneze un Series cu valori boolean pentru fiecare instanță, fie că valoarea este True sau False.

df['Pop'] > 50

Acel Series care rezultă trebuie oferi ca și valorea pentru selectarea în cadrul DataFrame-ului, iar prin acest procedeu, pandas o să selecteze doar instanțele din acel Series care corespund cu True.

df[df['Pop'] > 50]

Să începem să utilizăm aceste concepte și practic în cadrul unui DataFrame real

In [1]:
# importing the libraries
import numpy as np
import pandas as pd

In [2]:
# Reading the csv file into a DataFrame
df = pd.read_csv('../data/03-Pandas/tips.csv')

In [5]:
# Printing the first 5 rows of the DataFrame
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


După ce avem acest DataFrame să începem să facem anumite filtrări pe baza lui. O să începem prin a filtra doar cu o singură condiție. Pentru început dorim să extragem toate datele din acest DataFrame unde nota de plată (total_bill) are o valaore mai mare de 40. Pentru început am zis că o să extragem datele din coloana de interes

In [6]:
df['total_bill']

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

Datele dintr-o anumită coloană o să fie returnate sub formă de Series (după cum bine știm asta deja). Ceea ce trebuie să facem în continuare este să relizăm comparația, adică să vedem ce valori din acest Series sunt mai mari de 40

In [7]:
df['total_bill'] > 40

0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Name: total_bill, Length: 244, dtype: bool

Când rulăm acea coloană, Pandas realizează acea comparație cu fiecare rând din acel Series și returnează True sau False. Dacă valoarea este mai mare de 40, atunci returnează True, dacă este mai mică de 40, returnează False. Putem să salvăm acest output într-o variabilă.

In [8]:
bool_series = df['total_bill'] > 40

Se poate observa că acel Series are un index numeric și putem să oferim acest Series ca și input pentru DataFrame-ul nostru, iar Pandas o să returneze un DataFrame cu rândurile ale căror indexi au valoarea True din acea variabilă

In [9]:
df[bool_series]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
95,40.17,4.73,Male,Yes,Fri,Dinner,4,10.04,Aaron Bentley,180026611638690,Fri9628
102,44.3,2.5,Female,Yes,Sat,Dinner,3,14.77,Heather Cohen,379771118886604,Sat6240
142,41.19,5.0,Male,No,Thur,Lunch,5,8.24,Eric Andrews,4356531761046453,Thur3621
156,48.17,5.0,Male,No,Sun,Dinner,6,8.03,Ryan Gonzales,3523151482063321,Sun7518
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
182,45.35,3.5,Male,Yes,Sun,Dinner,3,15.12,Jose Parsons,4112207559459910,Sun2337
184,40.55,3.0,Male,Yes,Sun,Dinner,2,20.27,Stephen Cox,3547798222044029,Sun5140
197,43.11,5.0,Female,Yes,Thur,Lunch,4,10.78,Brooke Soto,5544902205760175,Thur9313
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


Am realizat acest pas în două etape, primul prin care salvăm output-ul comparație într-o valoare după care oferim acea valoare pentru DataFrame-ul curent, dar în mod normal nu avem nevoie de acea variabilă, putem să oferim comparația respectivă pentru DataFrame-ul curent

In [10]:
df[df['total_bill'] > 40]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
95,40.17,4.73,Male,Yes,Fri,Dinner,4,10.04,Aaron Bentley,180026611638690,Fri9628
102,44.3,2.5,Female,Yes,Sat,Dinner,3,14.77,Heather Cohen,379771118886604,Sat6240
142,41.19,5.0,Male,No,Thur,Lunch,5,8.24,Eric Andrews,4356531761046453,Thur3621
156,48.17,5.0,Male,No,Sun,Dinner,6,8.03,Ryan Gonzales,3523151482063321,Sun7518
170,50.81,10.0,Male,Yes,Sat,Dinner,3,16.94,Gregory Clark,5473850968388236,Sat1954
182,45.35,3.5,Male,Yes,Sun,Dinner,3,15.12,Jose Parsons,4112207559459910,Sun2337
184,40.55,3.0,Male,Yes,Sun,Dinner,2,20.27,Stephen Cox,3547798222044029,Sun5140
197,43.11,5.0,Female,Yes,Thur,Lunch,4,10.78,Brooke Soto,5544902205760175,Thur9313
212,48.33,9.0,Male,No,Sat,Dinner,4,12.08,Alex Williamson,676218815212,Sat4590


După cum se poate observa, ambele variante retunrează același rezultat. Cea de a doua variantă o să reprezinte modul în care o să utilizăm filtrarea condițională în cadrul Pandas. În cadrul acestor condiții se pot utiliza și alte semne de comparație, precum ==, !=, <, >.

In [11]:
df[df['sex'] == 'Male']

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
5,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882,Sun9679
6,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344,Sun5985
...,...,...,...,...,...,...,...,...,...,...,...
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
237,32.83,1.17,Male,Yes,Sat,Dinner,2,16.42,Thomas Brown,4284722681265508,Sat2929
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


Acesta este modul prin care putem să selectăm date utilizând o condiție de filtrare. De cele mai multe ori însă o să avem nevoie să realizăm filtrări bazate pe mai multe condiții. Pentru a combina mai multe condiții avem două variante. Putem utiliza fie operatorul & (and/și), sau operatorul | (or/sau)

& = ambele condiții trebuie să fie adevărate pentru a se aplica filtrarea

| = una dintre condiții trebuie să fie adevărată pentru a se aplica filtrarea

Pentru partea practică o să luăm exemplul unde dorim să utilizăm două condiții, și anume ca valorea pentru coloana 'total_bill' să fie mai mare de 30, iar pentru cea de a doua condiție, valoarea pentru 'sex' să fie 'Male'. Să rulăm ambele condiții, însă să le rulăm separat pentru început

In [13]:
df[df['total_bill'] > 30]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
11,35.26,5.0,Female,No,Sun,Dinner,4,8.82,Diane Macias,4577817359320969,Sun6686
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
39,31.27,5.0,Male,No,Sat,Dinner,3,10.42,Mr. Brandon Berry,6011525851069856,Sat6373
44,30.4,5.6,Male,No,Sun,Dinner,4,7.6,Todd Cooper,503846761263,Sun2274
47,32.4,6.0,Male,No,Sun,Dinner,4,8.1,James Barnes,3552002592874186,Sun9677
52,34.81,5.2,Female,No,Sun,Dinner,4,8.7,Emily Daniel,4291280793094374,Sun6165
56,38.01,3.0,Male,Yes,Sat,Dinner,4,9.5,James Christensen DDS,349793629453226,Sat8903
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
83,32.68,5.0,Male,Yes,Thur,Lunch,2,16.34,Daniel Murphy,5356177501009133,Thur8801
85,34.83,5.17,Female,No,Thur,Lunch,4,8.71,Shawna Cook,6011787464177340,Thur7972


In [15]:
df[df['sex'] == 'Male']

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
5,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882,Sun9679
6,8.77,2.00,Male,No,Sun,Dinner,2,4.38,Kristopher Johnson,2223727524230344,Sun5985
...,...,...,...,...,...,...,...,...,...,...,...
236,12.60,1.00,Male,Yes,Sat,Dinner,2,6.30,Matthew Myers,3543676378973965,Sat5032
237,32.83,1.17,Male,Yes,Sat,Dinner,2,16.42,Thomas Brown,4284722681265508,Sat2929
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


Putem să trecem aceste condiții în cadrul unei singure filtrări. Deoarece utilizăm mai multe condiții de filtrare, acestea trebuie să fie separate, iar separarea se va face prin concatenarea unei condiții în cadrul unui set de paranteze rotunde

In [None]:
df[(df['total_bill'] > 30)   (df['sex'] == 'Male')]

Din moment ce avem aceste două condiții separate, ce mai trebuie să facem este să ne hotărâm la ce semn dorim să punem între aceste condiții. Alegerea semnului o să influențeze filtrarea. Să zicem că dorim ca ambele condiții să fie adevărate, atunci o să utilizăm semnul logic &

In [16]:
df[(df['total_bill'] > 30) & (df['sex'] == 'Male')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
23,39.42,7.58,Male,No,Sat,Dinner,4,9.86,Lance Peterson,3542584061609808,Sat239
39,31.27,5.0,Male,No,Sat,Dinner,3,10.42,Mr. Brandon Berry,6011525851069856,Sat6373
44,30.4,5.6,Male,No,Sun,Dinner,4,7.6,Todd Cooper,503846761263,Sun2274
47,32.4,6.0,Male,No,Sun,Dinner,4,8.1,James Barnes,3552002592874186,Sun9677
56,38.01,3.0,Male,Yes,Sat,Dinner,4,9.5,James Christensen DDS,349793629453226,Sat8903
59,48.27,6.73,Male,No,Sat,Dinner,4,12.07,Brian Ortiz,6596453823950595,Sat8139
83,32.68,5.0,Male,Yes,Thur,Lunch,2,16.34,Daniel Murphy,5356177501009133,Thur8801
95,40.17,4.73,Male,Yes,Fri,Dinner,4,10.04,Aaron Bentley,180026611638690,Fri9628
112,38.07,4.0,Male,No,Sun,Dinner,3,12.69,Jeff Lopez,3572865915176463,Sun591
141,34.3,6.7,Male,No,Thur,Lunch,6,5.72,Steven Carlson,3526515703718508,Thur1025


Din rezultat se poate observa faptul că în coloana de 'total_bill' avem valori doar mai mari de 30, iar în coloana de 'sex' avem doar valoare 'Male' pentru că așa am setat cele două condiții, iar legătura logică dintre aceste condiții a fost &, adică ambele condiții trebuie să fie adevărate. Acesta este modul prin care putem să facem o filtrare bazată pe mai multe condiții. Trebuie să avem fiecare condiție separată de către un set de paranteze rotunde, iar între acesta condiții trebuie să specificăm ce fel de legătură logică dorim să fie între ele (fie &, fie |). În funcție de stabilirea acestei legături logice, filtrarea va avea de suferit.

Ce mai trebuie să învățăm în cadrul acestei părți este metoda prin care putem face o filtrare bazată pe elementele unei liste. Pentru data set-ul de mai sus, să extragem doar acele instanțe unde pentru coloana de 'day' avem fie valorea 'Sun', fie valorea 'Sat'. Putem face acest lucru cu metoda de mai sus, prin utilizarea a două condiții separate. Legătura logică dintre acestea trebuie să fie | (or/sau) deoarece ambele condiții nu pot fi valabile în același timp

In [17]:
df[(df['day'] == 'Sun') | (df['day'] == 'Sat')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


Pentru doar două valori, acest procedeu este unul bunicel. Dacă dorim să mai adăugăm o nouă zi, atunci am mai putea adăuga încă o condiție

In [20]:
df[(df['day'] == 'Sun') | (df['day'] == 'Sat') | (df['day'] == 'Fri')]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


Acest procedeu funcționează, însă acea condiție devine destul de lungă, mai ales pentru faptul că utilizăm date din aceeași coloană. Un mod mai rapid de a face această filtrare este să utilizăm metoda specială 'isin()'. Metoda respectivă returenază True sau False dacă valoarea dintr-o anumită coloană se găsește într-o anumită listă de valori. Pentru a utiliza această metodă o să ne creem o listă de valori acceptate

In [21]:
options = ['Sat', 'Sun']

Această listă de valori o să o oferim ca și argument pentru metoda 'isin()'. Metoda respectivă trebuie apelată pentru obiectul Series cu toate valorile din acea coloană care este returnat atunci când selectăm coloana respectivă

In [22]:
df['day'].isin(options)

0       True
1       True
2       True
3       True
4       True
       ...  
239     True
240     True
241     True
242     True
243    False
Name: day, Length: 244, dtype: bool

Codul de mai sus returenază un Series cu valori booleane, iar după cum știm putem să oferim acest Series pentru un DataFrame pentru a ne face acea selecție.

In [23]:
df[df['day'].isin(options)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251
...,...,...,...,...,...,...,...,...,...,...,...
238,35.83,4.67,Female,No,Sat,Dinner,3,11.94,Kimberly Crane,676184013727,Sat9777
239,29.03,5.92,Male,No,Sat,Dinner,3,9.68,Michael Avila,5296068606052842,Sat2657
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404,Sat1766
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196,Sat3880


## Recapitulare

În cadrul acestei părți am învățat următoarele lucruri:

    1. Cum să operăm o filtrare bazată pe o singură condiție

        df[df['day'] == 'Sun']

    2. Cum să operăm o filtrare bazată pe mai multe condiții

        df[(df['day'] == 'Sun') | (df['day'] == 'Sat')]

    3. Cum să operăm o filtrare utilizând metoda 'isin()'

        options = ['Sun', 'Sat', 'Fri']

        df[df['day'].isin(options)]

        df[df['day'].isin(['Sun', 'Sat', 'Fri'])]