<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/training/analityk.edu.pl/pandas_tutorial/09_apply.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [39]:
# https://analityk.edu.pl/python-pandas-tutorial-funkcja-apply/

# **Python Pandas Tutorial – funkcja apply**

Funkcja Apply pozwala na o wiele bardziej rozbudowane operacje na rekordach DataFrame niż samo użycie nawiasów [ ] lub funcji loc. Koncepcja ten funkcji jest szeroko znana i stosowana w wielu bibliotekach do przetwarzania danych, natomiast jej opanowanie otworzy nam zupełnie nowe horyzonty.

## **Działanie funkcji apply**

Funkcja apply pozwala nam na zdefiniowanie funkcji która ma być kolejno wykonywana dla każdego rekodru/wiersza w naszym DataFrama lub konkretnej kolumny. Jej zastosowanie składa się z 2 kroków:

1. Utworzeniu funkcji, który przyjmie jako parametr wiersz z DataFrame lub wartość ze wskazanej kolumny, następnie zwróci wiersz zmodyfikowany, lub wartość zmodyfikowaną dla konkretnej kolumny
2. Wywołaniu funkcji apply dla danego DataFrame, informując Pandas że chcemy dla każdego wiersza, wykonać wskazaną funkcję lub wykonać ją dla każdej wartości z konkretnej kolumny.

## **Funkcja apply dla pojedynczej kolumny**

In [40]:
import pandas as pd

df = pd.DataFrame({'Osoba':['Michał Jakub','Ewa Noga', 'Krzysztof Zawierucha'],
                  'Wynik':[15,38,21]})
df

Unnamed: 0,Osoba,Wynik
0,Michał Jakub,15
1,Ewa Noga,38
2,Krzysztof Zawierucha,21


Naszym zadaniem jest sprawdzić kto zdał egazgamin. Dla wyniku powyżej 20 punktów, należy zamienić ilość punktów na tekst 'Zdany', w innym przypadku na tekst 'Oblany'.

Definiujemy funkcję która potem będzie wykonywana dla każdego wiersza, dla kolumny Wynik

In [41]:
def sprawdz(punkty):
        if punkty > 20: 
            return 'Zdany'
        else: 
            return 'Oblany'

df.Wynik = df.Wynik.apply(sprawdz)
df

Unnamed: 0,Osoba,Wynik
0,Michał Jakub,Oblany
1,Ewa Noga,Zdany
2,Krzysztof Zawierucha,Zdany


In [42]:
# ja tak zrobiłem. Różnica taka że ja przekazuję całą df do funkcji sprawdz

# od nowa tworzę df
moje_df = pd.DataFrame({'Osoba':['Michał Jakub','Ewa Noga', 'Krzysztof Zawierucha'],
                  'Wynik':[15,38,21]})

def moje_sprawdz(moje_df):
    if moje_df["Wynik"] > 20:
        return "Zdany"
    else:
        return "Oblany"

moje_df["Wynik"] = moje_df.apply(moje_sprawdz, axis=1)
moje_df

Unnamed: 0,Osoba,Wynik
0,Michał Jakub,Oblany
1,Ewa Noga,Zdany
2,Krzysztof Zawierucha,Zdany


## **Funkcja apply, dla całego wiersza**

W poprzednim przykładnie wywołaliśmy funkcję apply dla jednej konkretnej kolumny – wynik. Możemy również wywołać funkcję apply, dla całego wiersza.

Dla przykładu. W naszym zbiorze, imię oraz nazwisko umieszczone jest w jednej kolumnie – osoba. Możemy rozdzielić je na 2 różne kolumny, właśnie za pomocą funkcji apply. W tym celu zdefiniujemy funkcję, która przyjmie jako parametr cały wiersz, a następnie wykonamy funkcję apply, informując Pandas że chcemy aby do naszej funkcji był przekazywany cały wiersz, za pomocą opcji axis=1. Zobaczmy:

In [43]:
# pobiera całą df
def rozdziel_kolumne(df):
    df['Imie'], df['Nazwisko'] = df['Osoba'].split(' ')
    return df

df = df.apply(rozdziel_kolumne, axis=1)
df

Unnamed: 0,Osoba,Wynik,Imie,Nazwisko
0,Michał Jakub,Oblany,Michał,Jakub
1,Ewa Noga,Zdany,Ewa,Noga
2,Krzysztof Zawierucha,Zdany,Krzysztof,Zawierucha


## **Ćwiczenia**

1. Przy użyciu funkcji apply utworzyć nową kolumnę, z wartością 1, tam gdzie wynik jest powyżej 20 punktów i wartością 0, tam gdzie wynik jest 20 punktów lub mniej

2. Za pomocą funkcji apply, utworzyć kolumnę o formacie 'Nazwisko Imię'. Czyli na odwrót niż jest to w naszym DataFrame.

In [44]:
# od nowa df
import pandas as pd

df = pd.DataFrame({'Osoba':['Michał Jakub','Ewa Noga', 'Krzysztof Zawierucha'],
                  'Wynik':[15,38,21]})
df

Unnamed: 0,Osoba,Wynik
0,Michał Jakub,15
1,Ewa Noga,38
2,Krzysztof Zawierucha,21


In [45]:
# 1.
def nowa_kolumna(wynik):
    if wynik > 20:
        return 1
    elif wynik <= 20:
        return 0

df["Wynik binarnie"] = df["Wynik"].apply(nowa_kolumna)
df

Unnamed: 0,Osoba,Wynik,Wynik binarnie
0,Michał Jakub,15,0
1,Ewa Noga,38,1
2,Krzysztof Zawierucha,21,1


In [46]:
# od nowa df
import pandas as pd

df = pd.DataFrame({'Osoba':['Michał Jakub','Ewa Noga', 'Krzysztof Zawierucha'],
                  'Wynik':[15,38,21]})
df

Unnamed: 0,Osoba,Wynik
0,Michał Jakub,15
1,Ewa Noga,38
2,Krzysztof Zawierucha,21


In [47]:
# 2.
# pobiera całą df
def zamien_wartosci_w_kolumnie(df):
    df['Imie'], df['Nazwisko'] = df['Osoba'].split(' ')
    df["Osoba odwrotnie"] = df['Nazwisko'] + " " + df['Imie']
    return df

df = df.apply(zamien_wartosci_w_kolumnie, axis=1)
df

Unnamed: 0,Osoba,Wynik,Imie,Nazwisko,Osoba odwrotnie
0,Michał Jakub,15,Michał,Jakub,Jakub Michał
1,Ewa Noga,38,Ewa,Noga,Noga Ewa
2,Krzysztof Zawierucha,21,Krzysztof,Zawierucha,Zawierucha Krzysztof
