# Pandas DataFrame - Useful Methods - Apply on Single Column

Până acuma în general am înțeles noțiunile de bază despre cum putem extrage date sau cum putem filtra date dintr-un DataFrame. În continuare o să acoperim o varietate de metode disponibile în Pandas. DataFrame-urile și Series dispun în Pandas de o serie de metode.

Prima metodă peste care o să ne uităm este probabil și cea mai utilizată dintre toate. Această metodă poartă denumirea de 'apply()'. După cum partea de filtrare condițională presupune un atuu pentru Pandas, utilizarea acestei metode reprezintă de asemenea un uimitor avantaj. Funcția respectivă ne permită să aplicăm orice funcție (fie ceva funcție predefinită în Python, fie o funcție creată de către utilizator) pentru fiecare rând in cadrul unui Series. Pentru această metodă putem să îi oferim fie o singură coloană ca și input, fie mai multe coloane.

In [2]:
# importing the libraries
import numpy as np
import pandas as pd

In [3]:
# Reading the csv file into a DataFrame
df = pd.read_csv('../data/03-Pandas/tips.csv')

In [5]:
# printing the first five elements of the DataFrame
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


Avem DataFrame-ul de mai sus. Să zicem că din orice motiv dorim să extragem ultimele 4 cifre din numărul cardului pentru fiecare rând în parte. Pentru început să apelăm metoda 'inof()' asupra acestui DataFrame

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   total_bill        244 non-null    float64
 1   tip               244 non-null    float64
 2   sex               244 non-null    object 
 3   smoker            244 non-null    object 
 4   day               244 non-null    object 
 5   time              244 non-null    object 
 6   size              244 non-null    int64  
 7   price_per_person  244 non-null    float64
 8   Payer Name        244 non-null    object 
 9   CC Number         244 non-null    int64  
 10  Payment ID        244 non-null    object 
dtypes: float64(3), int64(2), object(6)
memory usage: 21.1+ KB


Ce anume putem observa din cadrul acestui output este faptul că tipul de date din acea coloană sunt sub formă de integer, ceea ce înseamnă că nu putem utiliza partea de indexare pentru astfel de tipuri de date. Primul lucru pe care trebuie să îl facem este să modificăm acel tip de date din integer în string, iar pentru string-uri putem utiliza partea de slicing. 

În ceea ce privește Pandas, nu există nicio metodă specifică care să transforme un tip de date din integer în string și să extragă ultimele caractere din cadrul acelui string. De foarte multe ori o să ne lovim de acestă problemă, și anume să avem nevoie de o anumită funcție care nu este prezentă în Pandas, iar aici intră în calcul metoda 'apply()'. Această metodă ne permite să ne creem o funcție anume în Python și să aplicăm acea funcție pentru fiecare element dintr-un Series din Pandas.

Să începem să facem asta, să creem o funcție care ne transformă un tip de date în string și care ne extrage ultimele patru caractere din acel string.

In [7]:
def last_four(number):
    return str(number)[-4:]
    # str transforms the number into a string
    # [-4:] extracts the last four elements from a string

In [9]:
# calling the function to make sure it runs as expected
last_four(123456789)

'6789'

Ceea ce dorim acuma este să aplicăm această metodă pentru fiecare rând din cadrul coloanei 'CC Number'. Cum anume putem să facem asta. Trebuie să extragem datele din cadrul acelei coloane într-un Series

In [10]:
df['CC Number']

0      3560325168603410
1      4478071379779230
2      6011812112971322
3      4676137647685994
4      4832732618637221
             ...       
239    5296068606052842
240    3506806155565404
241    6011891618747196
242       4375220550950
243    3511451626698139
Name: CC Number, Length: 244, dtype: int64

După ce am extras aceste informații sub formă de Series, pentru acest Series trebuie să aplicăm metoda '.apply()'. Acestei metode o să îi oferim ca și argument funcția ce am creat-o mai sus, dar de notat faptul că această funcție doar se trece ca și argument, nu se apelează (prin alte cuvinte, se trece fără setul de paranteze rotunde)

In [11]:
df['CC Number'].apply(last_four)

0      3410
1      9230
2      1322
3      5994
4      7221
       ... 
239    2842
240    5404
241    7196
242    0950
243    8139
Name: CC Number, Length: 244, dtype: object

Este destul doar să trecem acea funcție deoarece Pandas o să apeleze funcția respectivă pentru noi, pentru fiecare rând în parte din cadrul acelui Series. Din ce se poate observa din output, se vede că metoda respectivă a funcționat cum era de așteptat pentru fiecare element în parte din cadrul acelui Series.

Ce mai putem să facem cu acest Series, este să salvăm aceste date într-o nouă coloană în DataFrame. Putem să facem asta prin a referenția o anumită coloană (dacă nu există o să creeze acea coloană, iar dacă există o să o rescrie) la acel rezultat, adică la acel Series care a rezultat în urma aplicării funcției

In [12]:
df['Last Four CC Numbers'] = df['CC Number'].apply(last_four)

In [13]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,Last Four CC Numbers
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,3410
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,9230
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,1322
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,5994
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,7221


În continuare o să utilizăm aceeași metodă 'apply()', însă de data aceasta o să încercăm să creem o funcție puțin mai complexă. Pentru asta o să ne folosim de coloana 'toal_bill'. În funcție de valoare pe care o are acea coloană pentru un anumit rând, o să returnăm ceva anume. Dacă acea valoare este mai mică de 10, atunci o să returnăm un singur semn de $. Dacă valoarea este cuprinsă între 10 și 30, două semne $$,iar dacă este mai mare, trei semne. Să creem funcția respectivă

In [15]:
def yelp(price):
    if price < 10:
        return '$'
    elif price >= 10 and price < 30:
        return '$$'
    else:
        return '$$$'

Funcția de mai sus este una puțin mai complexă. Aceasta însă a fost creată doar pentru a arăta că există o multitudine de opțiuni în ceea ce privește complexitatea unei anumite funcții care poate fi utilizată în cadru metodei 'apply()'. În continuare putem utiliza aceată funcție pentru un Series și putem seta valorile care rezultă la o nouă coloană

In [16]:
df['total_bill'].apply(yelp)

0      $$
1      $$
2      $$
3      $$
4      $$
       ..
239    $$
240    $$
241    $$
242    $$
243    $$
Name: total_bill, Length: 244, dtype: object

In [17]:
df['yelp'] = df['total_bill'].apply(yelp)

In [18]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID,Last Four CC Numbers,yelp
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959,3410,$$
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608,9230,$$
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458,1322,$$
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260,5994,$$
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251,7221,$$


Acesta este modul prin care putem să aplicăm o funcție pentru un întreg Series dintr-un DataFrame. Întrebarea care urmează este cum putem să utilizăm mai multe coloane pentru input pentru a aplica o anumită funcție. În cadrul acestui tutorial am învățat cum anume să creem procentajul de tip din total_bill. Să presupunem că am dori să aplicăm o metodă pentru acel procentaj. În acest moment nu avem coloana respectivă. O modalitate este să creem acea coloană, după care să creem o funcție pe care să o aplicăm pe acea coloană. Pandas ne pune la dispoziție și o variantă prin care putem utiliza metoda apply cu input de la mai multe coloane. Pentru asta trebuie însă să vedem cum anume funcționează o funcție de tip lambda. Pe parcuraul acestui tutorial o să mai învățăm și cum anume putem să utilizăm np.vectorize care o să ne permită să rulăm o funcție pe un Serie mult mai rapid

Ce este de reținut este faptul că o funcție care este trecută la apply trebuie să returneze doar o anumită valoare, nu ar trebui să returneze mai multe valori, precum un Series. 

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum putem utiliza metoda apply()

        # metoda apply() aplică o funcție pentru fiecare valoare din cadrul unui Series

        df['Payer Name'].apply(len)

    2. Putem salva outputul în urma aplicării metodei apply() într-o nouă coloană 

        df['Payer Name Length'] = df['Payer Name'].apply(len)