# Pandas DataFrame - Apply on Multiple Columns

În cadrul tutorialului precedent am învățat cum putem să utilizăm metoda apply() pentru a apela o funcție (fie o funcție creată de noi, fie o funcție existentă deja în Python) pentru fiecare valorea din cadrul unui Series. În această parte o să ne uităm peste modalitate prin care putem să utilizăm o metodă de apply() pe mai multe coloane. Pentru asta o să utilizăm funcțiile lambda din Python. Spre final o să ne uităm cum putem utiliza np.vectorize(), care ne permite să ne vectorizăm funcțiile iar ca urmare o să se ruleze codul mult mai rapid

In [1]:
# importuing the libraries
import numpy as np
import pandas as pd

In [2]:
# reading the csv into a DataFrame
df = pd.read_csv('../data/03-Pandas/tips.csv')

In [3]:
# printing the first five rows of the DataFrame
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


Pentru început o să vedem cum anume putem să utiolizăm o metodă lambda în cadrul metodei apply(). Pentru asta o să creem o funcție simplă care ia ca și argument un număr și returnează acel număr multiplicat cu 2. Acea funcție după o să o aplicăm pentru un Series

In [4]:
def simple(num):
    return num * 2

In [5]:
df['total_bill'].apply(simple)

0      33.98
1      20.68
2      42.02
3      47.36
4      49.18
       ...  
239    58.06
240    54.36
241    45.34
242    35.64
243    37.56
Name: total_bill, Length: 244, dtype: float64

Acea metodă denumită simple() se poate ușor modifica într-o funcție lambda. Acea funcție lambda are următoarea construcți:

In [6]:
lambda num: num * 2

<function __main__.<lambda>(num)>

Din moment ce o funcție lambda este considerată ca fiind o funcție normală, aceasta se poate trece ca și argument pentru metoda apply().

In [7]:
df['total_bill'].apply(lambda num: num * 2)

0      33.98
1      20.68
2      42.02
3      47.36
4      49.18
       ...  
239    58.06
240    54.36
241    45.34
242    35.64
243    37.56
Name: total_bill, Length: 244, dtype: float64

Din cele două rezultate se poate observa că avem același rezultat. Utilizarea unei funcții lambda în cadrul metodei apply() este un lucru foarte comun și foarte des utilizat pentru o expresie anonimă (sau o funcție anoniă) pe care avem de plan să o utilizăm doar odată. În continuare o să utilizăm metoda apply() cu mai multe coloane, iar metoda pe care o să o abordăm este cea de a utiliza o funcție lambda (există mai multe variante prin care se poate utiliza apply() cu mai multe coloane).

În continuare o să încercă să luăm în considerare pentru metoda apply() două coloane, și anume 'total_bill' și 'tip'. În funcție de procentajul pe care îl are valoare din coloana 'tip' față de valorea din coloana 'total_bill' o să creem un label prin care să spunem dacă acel tip a fost unul generos sau nu. Pentru început o să creem o funcție care ia două argumente, argumente care o să reprezinte valorile din fieare coloană

In [8]:
def generous(total_bill, tip):
    if tip / total_bill > 0.25:
        return 'generous'
    return 'Other'

Metoda de mai sus este pe care dorim să o utilizăm pentru datele din cadrul unui DataFrame. Problema care poate să apară este că pentru metoda apply(), după cum știm, acesta ar trebui să ruleze doar pentru un obiect de tip Series, iar noi avem nevoie să utilizăm două coloane, iar în momentul în care selectăm două coloane se retunrează un DataFrame. Pentru început o să selectăm aceste coloane de care avem nevoie pentru a putea rula funcția respectivă

In [9]:
df[['total_bill', 'tip']]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


După ce am selectat aceaste coloane putem să aplicăm metoda apply(). Pentru a aplica metoda 'generous()' în cadrul acelei metode apply(), lucrurile devin puțin mai complicate, dar o să le luăm fiecare pe rând pentru a le putea înțelege. Pentru început trebuie să utilizăm o metodă lambda în cadrul metode apply la care o să îi dăm ca și input un DataFrame

In [None]:
df[['total_bill', 'tip']].apply(lambda df:)

Ca și rezultat pentru această metodă trebuie să returnăm ce anume se returnează din cadrul metodei 'generous()' pentru două valori diferite (cea pentru total_bill și cea pentru tip). Din această cauză, ca și rezultat pentru această funcție lambda o să trecem acea metod 'generous()'

In [None]:
df[['total_bill', 'tip']].apply(lambda df: generous())

Meotda 'generous()' are nevoie însă de două argumente, și anume valori pentru total_bill și tip. Aceste valori trebuie să reprezinte valorile din DataFrame. Din moment ce am oferit la funcția lambda ca lu input un DataFrame, putem să accesăm datele din coloanele acestui DataFrame precum le accesăm normal

In [None]:
df[['total_bill', 'tip']].apply(lambda df: generous(df['total_bill'], df['tip']))

Ce mai trebuie adăgat la acest cod, din moment ce utilizăm un DataFrame și dorim să accesăm anumite date, trebuie să specificăm axa pe care să ruleze aceste acea metodă, și anume pe axa coloanelor (axis=1)

In [10]:
df[['total_bill', 'tip']].apply(lambda df: generous(df['total_bill'], df['tip']), axis=1)

0      Other
1      Other
2      Other
3      Other
4      Other
       ...  
239    Other
240    Other
241    Other
242    Other
243    Other
Length: 244, dtype: object

Acel parametru de axis=1 este pentru metoda apply(). Primul parametru pentru acea metodă este funcția lambda, iar cel de al doilea parametru este cel de axis, parametru prin care specificăm pe ce axe să se aplice metoda din apply(). Acest parametru este necesar în acest moment deoarece acuma avem de-a face cu un DataFrame, nu mai lucrăm cu un Series. Prin metoda de mai sus putem să creem o funcție care ia mai multe argumente (care în sine reprezintă coloane dintr-un DataFrame) și să utilizăm metoda apply() împreună cu lambda pentru a aplica o funcție ce primește parametrii din mai multe coloane.

Acel rezultat dacă dorim putem să îl salvăm într-o anumită coloană

In [11]:
df['Generous'] = df[['total_bill', 'tip']].apply(lambda df: generous(df['total_bill'], df['tip']), axis=1)

In [12]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,Generous
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,Other
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,Other
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,Other
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,Other
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,Other


Ce trebuie înțeles de aici, este să fim confortabili că înțelegem ce anume se petrece. Selectăm coloanele de care dorim să ne folosim într-o anumită funcție, apelăm o funcție lambda pentru un DataFrame, iar apoi în cadrul funcției create trebuie să pasăm ca și argument coloanele pe care dorim să le folosim, iar la final, ca să ne asigurăm că se iau în considerare datele de care avem nevoie, specificăm și axul pe care dorim să se ruleze metoda respectivă

Ceea ce dorim să facem acuma, este să facem acea metodă să ruleze mult mai rapid decât se întâmplă în acest moment. Modul în care facem așa ceva este prin a utiliza np.vectorize(). Prin utilizare acestui np.vectorize() nu doar că se rulează mult mai rapid acea funcție, dar pentru majoritatea reprezintă și o sintaxă mai ușor de înțeles.

Cum funcționează acest np.vectorize()? Stabilim că dorim să creem o nouă coloană (sau să suprascriem o coloană veche) după care îi atribum acest np.vectorize(). Acestei metode îi atribuim ca și argument metoda creată mai sus (generous()), iar după ce îi atribum această metodă (fără a o aplea), într-un set de paranteze rotunde se trec denumirile coloanelor cu care dorim să lucrăm

In [13]:
df['Generous'] = np.vectorize(generous)(df['total_bill'], df['tip'])

In [14]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,Generous
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,Other
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,Other
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,Other
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,Other
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,Other


Ambele meode (atât cea cu lambda cât și cea cu vectorize returnează același rezultat), însă cea cu vectorize poate fi și mai simplă și rulează și mai repede (lucru pe care o să îl vedem imediat). Ce anume este acest np.vectorize()?

Ce anume face acest numpy.vectorize() este să transforme funcții nu știu că o să primească ca și argument un array numpy. Funcția 'generous()' nu știe că o să îi oferim un numpy array ca și argument (un Series din Pandas). Funcția respectivă nu știe că îi oferim un array și trebuie să difuzeze acele valori din cadrul unui array, iar ceea ce face numpy.vectorize() este să îi specifice acelei funcții că o să îi oferim un array pe care trebuie să îl difuzeze pentru fiecare valoare din acel array.

Pentru a vedea diferenețele în ceea ce privește viteza de execuție, o să ne utilizăm de modului 'timeit'. Acest modul are nevoie de două argumente principale, unul de setup și unul de statement. Acest argumente o să fie reprezentate de string-uri care practic este un cod de Python. De exemplu, pentru partea de setup o să creem un multi line string în care o să citim datele din csv într-un DataFrame și o să creem acea metodă 'generous()'. Pentru partea de statement, o să reprezinte ce cod se rulează separat de acel setul (aici o să fie codul de apply() cu lambda, respectiv cel cu np.vectorize)

In [15]:
import timeit

In [16]:
setup = '''
import numpy as np
import pandas as pd
df = pd.read_csv('../data/03-Pandas/tips.csv')
def generous(total_bill, tip):
    if tip / total_bill > 0.25:
        return 'generous'
    return 'Other'
'''

In [17]:
stmt_one = '''
df['Generous'] = df[['total_bill', 'tip']].apply(lambda df: generous(df['total_bill'], df['tip']), axis=1)
'''

stmt_two = '''
df['Generous'] = np.vectorize(generous)(df['total_bill'], df['tip'])
'''

Am creat pentru partea de testare acel setup (prin care se iomportă librăriile, se citește fișierul csv și se creează funcția 'generous()') și cele două statementes (stmt_one și stmt_two) care returnează același rezultat. Pentru a putea vedea diferența de rulare, din modului timeit o să ne folosim de metoda cu același nume, timeit, la care trebuie să îi oferim ca și argument un setup, un statement și nu număr care reprezintă de câte ori să se ruleze acel cod. O să rulăm acest cod de 1000 de ori pentru a vedea diferențele

In [18]:
timeit.timeit(setup=setup, stmt=stmt_one, number=1000)

3.9587932949998503

Pentru a rula codul care utilizează funcția lambda de 1000 de ori este nevoie de 4 secunde

In [19]:
timeit.timeit(setup=setup, stmt=stmt_two, number=1000)

0.29222364199995354

În ceea ce privește np.vectorize(), rularea codului de 1000 de ori durează doar 0.3 secunde, ceea ce este o diferență uriașă

## Recapitulare

În acest tutorial am învățat următoarele lucruri:

    1. Cum să utilizăm funcțiile lambda în cadrul metodei apply()

        df['total_bill'],apply(lambda x: x * 2)

    2. Cum putem utiliza apply() pentru mai multe coloane utilizând funcțiile lambda

        a. Trebuie să ne creem o funcție care ia mai multe argumente (de câte coloane doruim să ne folosim)

            def generous(total_bill, tip):
                if tip / total_bill > 0.25:
                    return 'generous'
                return 'Other'
            
        b. Utilizăm lambda functions la care îi oferim ca și input un DataFrame

            df[['total_bill', 'tip']].apply(lambda df: generous(df['total_bill'], df['tip']), axis=1)

    3. Cum să utilizăm np.vectorize() pentru a aplica o funcție ce necesită input de la mai mult de o singură coloană

        np.vectorize(generous)(df['total_bill'], df['tip'])

    4. Cum să utilizăm modulul timeit (pentru a vedea diferențele de procesare)

        a. Ne creem un setup

            setup = '''
                import numpy as np
                import pandas as pd
                df = pd.read_csv('../data/03-Pandas/tips.csv')
                def generous(total_bill, tip):
                    if tip / total_bill > 0.25:
                        return 'generous'
                    return 'Other'
                '''
                
        b. Ne creem un statement

            stmt_two = '''
                df['Generous'] = np.vectorize(generous)(df['total_bill'], df['tip'])
                '''
        
        c. Simulăm rularea codului de un număr de ori

            timeit.timeit(setup=setup, stmt=stmt_two, number=1000)