# Lekce 12

## Generativní AI

Generativní AI je část umělé inteligence zaměřená na vytváření nového obsahu, jako jsou texty, obrázky, zvuky a videa, prostřednictvím učení se z existujících dat. Na rozdíl od tradiční AI, která analyzuje a interpretuje data, generativní AI aktivně generuje nové výstupy, často s originálními a kreativními výsledky.

Jedním z nejpoužívanějších nástrojů postavených na generativní AI je Chat GPT. Vedle něj existuje řada dalších (Claude, Google Gemini, Meta Llama atd.).

Jak psát příkazy (prompty):

* ChatGPT funguje na principu konverzace, tj. uchovává si informace, které byly řečeny v předchozích zprávách.
* Pro dosažení ideálního výsledku je třeba využít Prompt Engineering.
* Je potřeba vložit komplexní dotaz, který vystihuje kontext úlohy.
* Současně by dotaz neměl obsahovat nadbytečné informace.
* Nejsou příliš vhodné negativní instrukce (např. nevkládej atd.).
* Ideální je vložení příkladu.
* Prompty je možné zadávat v různých jazycích. Jazyk promptu nemusí být shodný s jazykem výstupu.

Příklady promptů:

* [promptbase.com](https://promptbase.com/) - placená databáze promptů
* [Data Science with These 35 Actionable Prompts](https://ecoagi.ai/articles/chatgpt-prompt-data-scientist)
* [ChatGPT Prompts for Data Science!](https://github.com/travistangvh/ChatGPT-Data-Science-Prompts)

Pro zlepšování promptů je možné použít nástroj [Prompt Perfect](https://promptperfect.jina.ai/). Příklad použití je [zde](https://chatgpt.com/share/1c83c725-6139-499d-8fce-ee60c455d83c). Pozor na to, že nástroj má měsíční limit pro počet bezplatných použití.

Platí dvě obecná pravidla:

* Generativní AI může poskytovat nepravdivé nebo zavádějící informace (ačkoli se jeho výstupy zdají velmi důvěrychodné).
* Pokud do Generativní AI něco vložíme, může to zobrazit někomu jinému nebo to obecně využít k trénování svého modelu (aktuálně existuje možnost *Temporary chat*, která dotazy do trénovacích dat nevkládá).

Dnes existuje obrovské množství nástrojů, které jsou postavené na AI. Např. newsletter [AI Tool Report](https://www.aitoolreport.com/) zmiňuje 5 nových nástrojů každý den. Řada z těchto nástrojů je postavená na ChatGPT nebo dalším z "velkých" LLM modelů. Pokročilejší funkce u těchto nástrojů jsou zpravidla placené.

![ai_tool_report.png](ai_tool_report.png)

### Nastavení ChatGPT

ChatGPT můžeme nastavit speciálně pro naše použití. V případě, že chceme, aby ChatGPT uvažoval nějaké instrukce při zadání každého promptu, můžeme použít menu Customize ChatGPT.

![customize_1.png](customize_1.png)

Do polí pak zadáme instrukce jako text.

![customize_2.png](customize_2.png)

Důležité nastavení je položka *Always show code when using data analyst*. Pokud ChatGPT generuje nějaký kód, bude ho po zaškrnutí tohoto pole vždy zobrazovat.

![show_code.png](show_code.png)

Kód je ale k dispozici i bez tohoto nastavení, pouze je nutné kliknout na ikonu pro jeho zobrazení.

* [Best Custom Instructions for ChatGPT (Ultimate Guide for 2024)](https://www.godofprompt.ai/blog/how-to-use-custom-instructions-for-chatgpt)

### Použití Custom GPTs

V rámci ChatGPT můžeme použít *Custom GPTs*, což jsou předpřipravené instrukce zaměřené na řešení úloh v nějaké konkrétní oblasti. Vlastní GPT si můžeme vytvořit i sami a sdílet ho s ostatními. Do vlastního GPT můžeme nahrát i data.

![custom_gpts.png](custom_gpts.png)

## Příklady použití

### Napsání kódu

Příklad promptu: 

Write a Python code that converts knots to kilometers per hours.

Pozor na následující:

* Kód nemusí fungovat nebo nemusí fungovat správně (zvlášť v případech složitějšího zadání nebo při potřebě vložit kód do rozsáhlého projektu), může být neefektivní atd.
* Kód může obsahovat věci, kterým nerozumíme, nemusí zapadat do zbytku projektu atd.
* Kód může používat zastaralé metody, třídy atd., protože ChatGPT nemusí mít k dispozici úplně aktuální informace. (Současná verze už umí i [hledat informace na webu](https://chatgpt.com/share/a2cdba19-3912-4a4d-8056-88e5abd92b4b), ve většině případů ale využívá svoji databázi.).

Příklad podrobnějšího promptu, který uvažuje, že máme data v pandas tabulce. Pokud do ChatGPT nenahrajeme data, ChatGPT si vytvoří vlastní tabulku s několika ukázkovými řádky.

Příklad výtupu je [zde](https://chatgpt.com/share/a91cedca-5ebe-4312-930a-d811809d45f3).

### Vysvětlení kódu a doplnění komentářů

Pokud máme nějaký kód (např. najdeme ho na internetu, ve firemním projektu atd.), kterému nerozumíme, můžeme požádat ChatGPT o jeho vysvětlení. ChatGPT umí doplnit do kódu komentáře (obvykle dopíše vysvětlení ke každému řádku) nebo vypíše souvislý text, který vysvětluje, co kód dělá.

Pozor na následující:

* pokud do ChatGPT vložíme nějaký kód, ChatGPT ho vloží do trénovacích dat a může ho zobrazit někomu jinému,
* pokud je kód součástí nějakého rozsáhlého projektu, nemusí ho ChatGPT interpretovat správně (např. může používat knihovny, které nejsou veřejně dostupné).

Příklad výtupu je [zde](https://chatgpt.com/share/bbeaeb9c-b5ce-4b2c-ac4b-8509fbe412bb).

### Analýza dat (EDA)

Pro náš výzkum použijeme datovou sadu [SpeedDating](https://www.openml.org/search?type=data&sort=runs&status=active&id=40536). Soubor si můžeš stáhnout [zde](speeddating.csv).

ChatGPT můžeme použít pro plán našeho výzkumu. Do chatu vložíme co nejvíce informací o našich datech. Zatím nevkládáme konkrétní data. Příklad je [zde](https://chatgpt.com/share/c277bca6-2e21-4dc2-b9db-994409397ea2).

Pokud ChatGPT nemá informace o typu dat (tj. číslo/kategorie), může navrhovat nevhodné postupy pro řešení. Takto můžeme od ChatGPT získat funkční kód, aniž bychom do něj nahrávali data. Výsledný kód si pak můžeme stáhnout k sobě a spustit na vlatních datech.

### Statistika

Pro testování hypotéz můžeme použít [klasický ChatGPT](https://chatgpt.com/share/38a8998c-eb34-4068-aa82-b826eef88506) nebo např. [custom GPT Data Science](https://chatgpt.com/share/c2568f2a-2021-4ba5-b0ea-b98261d36ee3).

### Použití strojového učení.

Strojové učení můžeme použít pro vyhodnocení důležitosti jednotlivých faktorů. Příklad výsledku je [zde](https://chatgpt.com/share/7a7f4231-25f5-4701-a3a4-d8a1621f7583)

In [14]:
import pandas as pd

file_path = 'speeddating.csv'
data = pd.read_csv(file_path)
data


Unnamed: 0,has_null,wave,gender,age,age_o,d_age,d_d_age,race,race_o,samerace,...,d_expected_num_interested_in_me,d_expected_num_matches,like,guess_prob_liked,d_like,d_guess_prob_liked,met,decision,decision_o,match
0,0,1.0,female,21.0,27.0,6.0,[4-6],Asian/Pacific Islander/Asian-American,European/Caucasian-American,0,...,[0-3],[3-5],7.0,6.0,[6-8],[5-6],0.0,1,0,0
1,0,1.0,female,21.0,22.0,1.0,[0-1],Asian/Pacific Islander/Asian-American,European/Caucasian-American,0,...,[0-3],[3-5],7.0,5.0,[6-8],[5-6],1.0,1,0,0
2,1,1.0,female,21.0,22.0,1.0,[0-1],Asian/Pacific Islander/Asian-American,Asian/Pacific Islander/Asian-American,1,...,[0-3],[3-5],7.0,,[6-8],[0-4],1.0,1,1,1
3,0,1.0,female,21.0,23.0,2.0,[2-3],Asian/Pacific Islander/Asian-American,European/Caucasian-American,0,...,[0-3],[3-5],7.0,6.0,[6-8],[5-6],0.0,1,1,1
4,0,1.0,female,21.0,24.0,3.0,[2-3],Asian/Pacific Islander/Asian-American,Latino/Hispanic American,0,...,[0-3],[3-5],6.0,6.0,[6-8],[5-6],0.0,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8373,1,21.0,male,25.0,26.0,1.0,[0-1],European/Caucasian-American,Latino/Hispanic American,0,...,[0-3],[3-5],2.0,5.0,[0-5],[5-6],0.0,0,1,0
8374,1,21.0,male,25.0,24.0,1.0,[0-1],European/Caucasian-American,Other,0,...,[0-3],[3-5],4.0,4.0,[0-5],[0-4],0.0,0,0,0
8375,1,21.0,male,25.0,29.0,4.0,[4-6],European/Caucasian-American,Latino/Hispanic American,0,...,[0-3],[3-5],6.0,5.0,[6-8],[5-6],0.0,0,0,0
8376,1,21.0,male,25.0,22.0,3.0,[2-3],European/Caucasian-American,Asian/Pacific Islander/Asian-American,0,...,[0-3],[3-5],5.0,5.0,[0-5],[5-6],0.0,0,1,0
