# `pandas.DataFrame.apply`

Odkaz na dokumentaci: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html

In [None]:
import pandas
import random

In [None]:
df = pandas.DataFrame({'strings': ['hello', 'ahoj', 'guten tag', 'bonjour'], 'ints': [1,2,3,4], 'floats': [2.4, 13.7, 96.54, 0.32]})
df

Jednoduché operace můžeme aplikovat přímo na série (např. na sloupce):

In [None]:
df['ints'] * 2

In [None]:
df['strings'] + "!"

V některých případech můžeme na sérii zavolat i zabudovanou funkci Pythonu:

In [None]:
round(df['floats'])

Velké množství funkcí a metod nám nabízí přímo Pandas:

In [None]:
df['ints'].astype(float)

In [None]:
df['floats'].round()

In [None]:
df['strings'].str.upper()

In [None]:
df['strings'].str.len()

Co ale složitější funkce? Jak zavolat funkci na každý prvek sloupce?

In [None]:
body = pandas.DataFrame({'body': [random.randint(0,100) for _ in range(30)]})
body.head()

Chtěli bychom přidat sloupec `prospel/a`, jehož obsahem bude `Ano`, pokud žák získal z písemky alespoň 40 bodů, nebo `Ne`, pokud nikoliv.

In [None]:
def prospech(body: int) -> str:
    ...

In [None]:
body["prospel/a"] = ...
body.head()

### Cvičení
Dataset `rodna_cisla.csv` obsahuje anonymizované informace o pacientech. Má dva sloupce, jeden je identifikační číslo pacienta a druhý je rodné číslo pacienta.

In [None]:
pacienti = pandas.read_csv('rodna_cisla.csv')
pacienti

* Napiš funkci, která převede rodné číslo ve formátu `"'736127/2341'"` na datum narození ve formátu `"27.11.1973"`. Můžeš předpokládat, že nejvyšší rok je 1999 (tj. pokud RČ začíná `21`, jedná se o rok 1921, nikoliv 2021).
* Následně funkci zavolej na každý prvek sloupce `RC pacienta` pomocí `apply` a vytvoř tak nový sloupec, `Datum narozeni pacienta`

In [None]:
def preved_rc_na_datum_narozeni(rodne_cislo: str):
    ...

In [None]:
preved_rc_na_datum_narozeni('736127/2341')  # Otestuj, že tvoje funkce vrací správně pro tento vstup datum 27.11.1973

In [None]:
pacienti['Datum narozeni pacienta'] = ...

### Cvičení
Dataset `reviews.tsv` (zdroj: https://www.kaggle.com/datasets/vigneshwarsofficial/reviews) obsahuje jednovětné recenze restaurací, spolu s informací, jestli se náštěvníkovi v restauraci líbilo nebo ne.

In [None]:
reviews = pandas.read_csv("reviews.tsv", sep="\t")
reviews

* Napiš funkci, která spočítá počet slov v textu. Slova v textu jsou oddělená mezerami. Nápověda: `split()`
* Následně funkci zavolej na každý prvek sloupce `Review` pomocí `apply` a vytvoř tak nový sloupec, `Num words`.

In [None]:
def get_num_words(text: str) -> int:
    return ...


In [None]:
get_num_words("Wow... Loved this place.")  # Otestuj, že tvoje funkce vrací správně pro tento vstup počet 4, podobně pro vstupy níže
# get_num_words("Ahoj") # 1 slovo
# get_num_words("")  # 0 slov


In [None]:
reviews["Num words"] = ...
reviews

Mají negativní recenze průměrně více nebo méně slov?

In [None]:
reviews.groupby('Liked')['Num words'].mean()

In [None]:
reviews.groupby('Liked').boxplot(column='Num words')