# Úvod do A/B testování


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from statsmodels.stats.proportion import proportion_effectsize
from statsmodels.stats.power import NormalIndPower, TTestIndPower
import pandas as pd
import seaborn as sns


## Co je A/B testování?

A/B testování (neboli testování hypotéz) je experimentální metoda porovnávání dvou verzí jednoho prvku za účelem zjištění, která verze přináší lepší výsledky.

Pomáhá organizacím lépe porozumět preferencím svých uživatelů a vyhodnotit vliv změn na chování uživatelů, identifikovat, která verze je efektivnější ve splnění stanovených cílů, jako je například zvýšení konverzí, zlepšení uživatelského zážitku nebo optimalizace klikatelnosti.

Tato metoda je založena na náhodném rozdělení uživatelů nebo návštěvníků na dvě skupiny, kde jedna skupina (skupina A) vidí původní verzi a druhá skupina (skupina B) vidí upravenou verzi.

A/B testování jako praktická metoda začalo získávat na popularitě v průběhu 20. století, zejména s rozvojem marketingových a psychologických studií v polovině 20. století. Skutečný boom však přišel s nástupem internetu a digitálního marketingu.


### Příklady použití
A/B testování hraje klíčovou roli v různých odvětvích, zejména v marketingu, web developmentu a produktovém vývoji. 

- V **marketingu** se A/B testování často využívá k optimalizaci e-mailových kampaní, reklamních sdělení a obsahových strategií na sociálních sítích, kde pomáhá zlepšovat míru otevření emailů, proklikovost a celkovou angažovanost uživatelů. 
- Ve **web developmentu** se tato metoda používá pro testování různých designových prvků, rozložení stránek nebo funkcionalit, aby se zvýšila míra konverze návštěvníků na zákazníky. 
- V **produktovém vývoji** se A/B testování aplikuje při zavádění nových funkcí nebo úpravách stávajících produktů, což umožňuje získat zpětnou vazbu od uživatelů a přijímat informovaná rozhodnutí na základě dat. 

<div class="alert alert-block alert-info">
<b>41 odstínů modré</b>

Jeden z nejslavnějších příkladů A/B testování u Googlu je testování 41 různých odstínů modré barvy pro odkazové texty. 

Cílem bylo zjistit, který odstín modré přináší nejvyšší míru prokliknutí (CTR). 

Po rozsáhlém testování zjistili, že jeden konkrétní odstín přináší podstatně lepší výsledky, což vedlo ke zvýšení tržeb z reklamy o miliony dolarů.

<i>Zdroj: __[theguardian.com](https://www.theguardian.com/technology/2014/feb/05/why-google-engineers-designers)__</i>
</div>

### Měli bychom dělat A/B testy?
A/B testování je vhodné, pokud změna může mít **významný dopad na hospodářský výsledek** nebo pokud se jedná o nový produkt, kde je klíčové udělat správné rozhodnutí na první pokus. V případech, kdy je problém jednodušší, může být efektivnější použít jiné metody, jako je testování použitelnosti.

### Můžeme  dělat A/B testy?
To závisí na několika faktorech:
- dostatečném počtu uživatelů pro získání statisticky významných dat, 
- dostupnosti systémů pro sběr a analýzu dat a
- dostupnosti prostředků na vytvoření potřebné infrastruktury.

<br>
<br>

<table><tr>
<td> <img src="img/A-Crash-Course-on-A-B-Testing-3-320.jpg" style="width: 250px;"/> </td>
<td> <img src="img/set-goal.jpg"  style="width: 250px;"/> </td>
<td> <img src="img/if-you-can-ef7174c669.jpg"  style="width: 250px;"/> </td>
<td> <img src="img/the-ab-test-e8c1494465.jpg"  style="width: 250px;"/> </td>
</tr></table>

---

## Plánování A/B testu

1.	*Identifikace problému* 
     - Zjistili jsme, že mnoho uživatelů opouští nákupní košík před dokončením nákupu.
2.	*Konkrétní cíl* 
    - Zvýšit míru dokončení nákupu o 10%.
3.	*Výchozí hodnota* 
    - Současná míra dokončení nákupu je 40%.
4.	*Minimální detekovatelný efekt (MDE)* 
    - Chceme detekovat alespoň 5% nárůst.
5.	*Hypotéza* 
    - Pokud zjednodušíme proces nákupu a snížíme počet kroků na polovinu, zvýší se míra dokončení nákupu o 10%.
6.	*Dopad a proveditelnost* 
    - Máme dostatek zdrojů na implementaci a testování změny.
7.	*Nástroje* 
    - Použijeme Google Analytics nebo podobný nástroj pro sledování chování uživatelů na webu.

## Návrh a implementace

<div class="alert alert-block alert-warning">
<b>Vytvoření variant</b>

Skupina A (kontrolní) je skupina uživatelů nebo návštěvníků, kteří vidí původní verzi testovaného prvku.

Skupina B (experimentální) je skupina uživatelů nebo návštěvníků, kteří vidí upravenou verzi testovaného prvku.
</div>

*Můžete mít i více než dvě skupiny (např. skupiny C, D atd.) v testu, což se nazývá multivariační testování. Tento přístup umožňuje porovnávat více verzí současně a testovat různé kombinace změn. Takové testy jsou náročné na implementaci, množství dat a složité na interpretaci (izolace efektů).*

### Randomizace a rozdělení vzorků
    
1. Jednoduchá randomizace
    - Každý uživatel má stejnou pravděpodobnost, že bude zařazen do kterékoli skupiny. To je nejjednodušší forma randomizace.
    - Výhody: Snadná implementace.
    - Nevýhody: Může vést k nerovnováze ve velikosti skupin při malých vzorcích.
2.	Bloková randomizace
    - Uživatelé jsou rozděleni do bloků a každý blok je pak náhodně přiřazen ke skupině A nebo B.
    - Výhody: Zajišťuje rovnoměrné rozdělení uživatelů mezi skupiny.
    - Nevýhody: Složitější implementace než jednoduchá randomizace.
    - Příklad: Máte bloky o velikosti 10 uživatelů. V každém bloku 5 uživatelů přiřadíte náhodně do skupiny A a 5 do skupiny B. Tento proces opakujete pro každý blok, dokud nejsou všichni uživatelé přiřazeni do jedné z testovaných skupin.
3.	Stratifikovaná randomizace
    - Uživatelé jsou nejprve rozděleni do strat (podle demografických nebo behaviorálních charakteristik) a pak náhodně rozděleni do skupin v rámci každé straty.
    - Výhody: Zajišťuje, že různé segmenty populace jsou rovnoměrně zastoupeny v každé skupině.
    - Nevýhody: Složitější na nastavení a vyžaduje více dat o uživatelích.
    - Příklad: Máte dvě straty podle věku (18-30 a 31-50 let). Uživatelé v každé věkové straty jsou náhodně rozděleni mezi skupiny A a B.
4.	Adaptive randomization
    - Dynamicky upravuje pravděpodobnost přiřazení uživatelů do skupin na základě předchozích výsledků testu.
    - Výhody: Může zvýšit efektivitu testování a rychleji identifikovat nejlepší variantu.
    - Nevýhody: Složitá implementace a může zavést zaujatost, pokud není správně řízená.

### Délka testování
Délka testu by měla být dostatečná k tomu, aby nasbírala dostatek dat k dosažení **statistické významnosti**. To znamená, že test musí probíhat dostatečně dlouho, aby se minimalizoval vliv náhodných výkyvů.

Faktory ovlivňující délku testu:
- Sezónnost a výkyvy
    - Je důležité, aby test probíhal dostatečně dlouho, aby pokryl různé dny v týdnu a případně sezónní výkyvy, které mohou ovlivnit chování uživatelů.
- Velikost efektu
    - Menší změny vyžadují delší testování, protože je potřeba více dat k detekci malých rozdílů.
- Počet variant
    - Více variant v testu znamená, že potřebujete více dat, což může prodloužit dobu trvání testu.

### Velikost skupin
- Skupiny A a B by měly být přibližně stejně velké, což zajistí statistickou významnost a spolehlivost výsledků.
- Pokud máte 10,000 uživatelů, ideálně by každá skupina měla mít 5,000 uživatelů.
- V některých případech může být užitečné rozdělit uživatele v jiném poměru (např. 70:30), zejména pokud jedna varianta představuje výrazně menší riziko nebo náklady.
- Poměr rozdělení může být také použit, pokud máte omezené zdroje nebo pokud chcete minimalizovat expozici k rizikovější variantě.

Velikost skupin by měla být určena na základě statistických výpočtů, které zahrnují:
- Výchozí míru konverze
- Minimální detekovatelný efekt (MDE)
- Hladinu významnosti (α), obvykle 0.05
- Sílu testu (1-β), obvykle 0.80 (80% pravděpodobnost detekce skutečného efektu)

In [2]:
# Definujte parametry testu
baseline_conversion_rate = 0.10  # Současná hodnota konverzního poměru (10%)
desired_conversion_rate = 0.105  # Očekávaná hodnota po změně (10.5%)
alpha = 0.05  # Hladina významnosti (5%)
power = 0.80  # Síla testu (80%)

# Výpočet velikosti efektu (effect size)
effect_size = proportion_effectsize(
    baseline_conversion_rate, desired_conversion_rate)

# Výpočet velikosti vzorku
# Když plánujete použít nepárový t-test a vaše data možná nejsou zcela normálně distribuovaná nebo máte relativně malý vzorek, je vhodné použít TTestIndPower.
# Naproti tomu NormalIndPower je vhodnější pro případy, kdy můžete předpokládat normálnost distribuce díky velkosti vzorku nebo když pracujete s parametry, které už jsou známy z minulých měření nebo literatury.
sample_size_per_group = NormalIndPower().solve_power(
    effect_size, power=power, alpha=alpha
)

# Celkový počet vzorků (A + B)
total_sample_size = int(sample_size_per_group * 2)

print(f"Potřebná velikost vzorku pro každou skupinu: {int(sample_size_per_group)}")
print(f"Celková potřebná velikost vzorku: {total_sample_size}")

Potřebná velikost vzorku pro každou skupinu: 57755
Celková potřebná velikost vzorku: 115511


#### Jednovýběrový test
Porovnává průměr jednoho vzorku s předem známou hodnotou nebo průměrem populace.

- Kontrola kvality: Porovnání průměrné délky vyrobených součástek s požadovanou normou (např. průměrná délka šroubů musí být 5 cm).
- Akademické testování: Porovnání průměrného skóre studentů v testu s národním průměrem.
- Zdravotnické studie: Porovnání průměrné hladiny cholesterolu u pacientů s národní normou.

#### Dvojvýběrový test (nepárový)
Porovnává průměry dvou nezávislých vzorků.

- Marketingové kampaně: Porovnání průměrné míry kliknutí (CTR) dvou různých reklamních kampaní, aby zjistil, která je efektivnější.
- Lékařské studie: Porovnání průměrného krevního tlaku dvou skupin pacientů, z nichž jedna dostává novou léčbu a druhá placebo, aby zjistili, zda je léčba účinná.
- Průzkum trhu: Porovnání průměrné spokojenosti zákazníků dvou různých produktů, aby zjistila, který produkt je oblíbenější.

#### Párový test
Porovnává průměry dvou souvisejících vzorků, například před a po nějaké intervenci.

- Před a po testování: Porovnání průměrné hmotnosti skupiny klientů před začátkem cvičebního programu a po jeho dokončení.
- Lékařské intervence: Porovnání průměrné hladiny cukru v krvi u pacientů před a po podání nové léčby.
- Výzkum v oblasti vzdělávání: Porovnání průměrných výsledků testů studentů před a po implementaci nového výukového programu

---
<img src="img/it-is-time-718de29ca9.jpg">

## Vyhodnocování výsledků A/B testů


### Gossetovo rozdělení (Studentovo t-rozdělení)
<div class="alert alert-block alert-info">
<b>William Gosset</b> 

William Sealy Gosset, známý pod pseudonymem “Student,” byl statistik, který významně přispěl k rozvoji statistických metod použitých v A/B testování. 

Pracoval pro pivovar Guinness 🍺, kde se potýkal s problémy spojenými s malými vzorky dat. Aby tyto problémy vyřešil, vyvinul v roce 1908 Studentův t-test, což je statistická metoda používaná k testování hypotéz, zejména při porovnávání dvou průměrů, což je klíčový nástroj v A/B testování.
</div>

Studentovo t-rozdělení je rozdělení pravděpodobnosti, které se používá při odhadu průměru malých vzorků, zejména když je směrodatná odchylka populace neznámá a je nahrazena směrodatnou odchylkou vzorku.

- T-rozdělení má tvar podobný normálnímu rozdělení, ale s těžšími ocasy, což znamená větší pravděpodobnost výskytu extrémních hodnot.
- Rozdělení se zužuje k normálnímu rozdělení, jak se velikost vzorku zvětšuje (když (n) směřuje k nekonečnu).


<img src="img/t-distribution.png" style="width: 700px;">


### T-test & Z-test
T-test a Z-test jsou statistické testy používané k porovnání průměrů dvou vzorků.

<img src="img/diagram.png" style="width: 700px;">

<br>
<br>

|                       | Z-test                                                         | T-test                                                        |
|-----------------------|----------------------------------------------------------------|---------------------------------------------------------------|
| Velikost dat          | Velikost dat je větší než 30                                   | Velikost dat je menší než 30                                  |
| Datové body           | Datové body nejsou vzájemně závislé                            | Datové body mohou být vzájemně závislé, chování nebo hodnota jednoho bodu může ovlivnit jiný bod |
| Distribuce            | Data jsou normálně rozložena (pokud velikost dat > 30)         | Data nejsou normálně rozložena                                |
| Výběr dat             | Data byla náhodně vybrána z širší populace                     | Data nebyla náhodně vybrána                                   |
| Velikost vzorků       | Velikost vzorků by měla být pokud možno stejná                 | Velikost vzorků není stejná                                   |


YouTube: __[Statistics: Compare the Normal distribution to the t-distribution](https://www.youtube.com/watch?v=xcKKL3-bwss)__



### Vyhodnocování p-hodnoty a statistické významnosti
1.	Stanovení nulové a alternativní hypotézy:
    - Nulová hypotéza (H₀): Předpoklad, že neexistuje žádný rozdíl nebo efekt. Například, že průměry dvou skupin jsou stejné.
    - Alternativní hypotéza (H₁): Předpoklad, že existuje rozdíl nebo efekt. Například, že průměry dvou skupin jsou různé.
2.	Výběr hladiny významnosti (α):
    - Typická hladina významnosti je 0.05 (5%), ale může být nastavena na 0.01 (1%) nebo jinou hodnotu v závislosti na kontextu.
    - Hladina významnosti (α) představuje práh, pod kterým je p-hodnota považována za statisticky významnou.
3.	Porovnání p-hodnoty s hladinou významnosti:
    - Pokud p-hodnota ≤ α, odmítáme nulovou hypotézu a výsledky jsou považovány za statisticky významné.
    - Pokud p-hodnota > α, nepodaří se nám odmítnout nulovou hypotézu a výsledky nejsou považovány za statisticky významné.


In [3]:
# Nastavení pro reprodukovatelnost
np.random.seed(0)

# Jednovýběrový t-test
sample_data = np.random.normal(loc=5.0, scale=1.0, size=30)
population_mean = 5.5
t_stat_one_sample, p_value_one_sample = stats.ttest_1samp(
    sample_data, population_mean)
print(
    f"Jednovýběrový t-test: t-stat = {
        t_stat_one_sample:.2f}, p-value = {p_value_one_sample:.5f}"
)

# Dvojvýběrový t-test (nepárový)
group_A = np.random.normal(loc=5.0, scale=1.0, size=30)
group_B = np.random.normal(loc=6.0, scale=1.0, size=30)
t_stat_ind, p_value_ind = stats.ttest_ind(group_A, group_B)
print(
    f"Dvojvýběrový t-test (nepárový): t-stat = {
        t_stat_ind:.2f}, p-value = {p_value_ind:.5f}"
)

# Párový t-test
before_treatment = np.array([200, 195, 198, 205, 202])
after_treatment = np.array([180, 190, 185, 188, 183])
t_stat_paired, p_value_paired = stats.ttest_rel(
    before_treatment, after_treatment)
print(
    f"Párový t-test: t-stat = {t_stat_paired:.2f}, p-value = {p_value_paired:.5f}")

Jednovýběrový t-test: t-stat = -0.28, p-value = 0.77809
Dvojvýběrový t-test (nepárový): t-stat = -4.76, p-value = 0.00001
Párový t-test: t-stat = 5.43, p-value = 0.00559




T-statistika měří, jak výrazný je rozdíl mezi průměry ve vztahu k variabilitě v datech. V podstatě se jedná o standardizovaný rozdíl mezi průměry.

1.	Hodnota t-stat je velká (pozitivní nebo negativní):
	- Velká absolutní hodnota t-statistiky (například > 2 nebo < -2) znamená, že rozdíl mezi průměry je relativně velký vzhledem k variabilitě dat.
	- To naznačuje, že je nepravděpodobné, že by tento rozdíl byl způsoben náhodou.
2.	Hodnota t-stat je blízká nule:
	- Hodnota t-statistiky blízká nule (například mezi -2 a 2) znamená, že rozdíl mezi průměry je malý vzhledem k variabilitě dat.
	- To naznačuje, že rozdíl může být způsoben náhodou.

Znaménko t-statistiky závisí na tom, zda je první průměr větší nebo menší než druhý průměr.

<img src="img/output.png">

### Jak postupovat po A/B testování a jak implementovat změny

**1. Analýza a interpretace dat**
   - **Vyvoďte závěry**: Po ukončení sběru dat analyzujte výsledky a zjistěte, zda jsou statisticky významné. Rozhodněte, zda data podporují nulovou hypotézu (H0) nebo alternativní hypotézu (H1).
   - **Kontextualizace výsledků**: Posuďte, jak výsledky A/B testu korelují s obchodními cíli a očekáváními. Ne všechny statisticky významné výsledky mohou mít významný dopad na obchodní výsledky.

**2. Rozhodnutí o implementaci**
   - **Rozhodnutí na základě dat**: Pokud data ukazují jasný vítěz, rozhodněte se, zda a jak implementovat změnu v širším měřítku.
   - **Iterativní zlepšení**: Pokud výsledky nejsou jednoznačné nebo ukazují pouze malý rozdíl, zvažte další iterace testu s upravenými proměnnými.

**3. Implementace a monitorování**
   - **Plán implementace**: Vytvořte plán pro implementaci změny, zahrnující časový harmonogram, potřebné zdroje a komunikaci se zainteresovanými stranami.
   - **Monitorování po implementaci**: Sledujte klíčové metriky po implementaci, abyste se ujistili, že změna dosahuje očekávaných výsledků a nezpůsobuje nežádoucí vedlejší efekty.

**4. Sdílení poznatků**
   - **Komunikace s týmem**: Sdílejte poznatky a úspěchy z A/B testování s týmem a dalšími odděleními ve firmě.
   - **Dokumentace**: Zaznamenejte procesy, výsledky a získané lekce pro budoucí reference.

### Nejčastější chyby při A/B testování

**1. Nedostatečná velikost vzorku**
   - Mnoho testů selže, protože nejsou řádně dimenzované pro detekci efektů dané velikosti. Toto vede k nedostatečné statistické síle.

**2. Špatně definované cílové metriky**
   - Nejasné nebo nevhodně zvolené metriky mohou vést k nesprávným závěrům. Je důležité vybrat metriky, které přímo odrážejí cíle testu.

**3. Ignorování sezónnosti a externích faktorů**
   - Vliv externích událostí nebo sezónních faktorů může zkreslit výsledky A/B testu. Je důležité analyzovat a očistit data, která mohou být ovlivněna externími faktory.

**4. Předčasné ukončení testu**
   - Ukončení testu před dosažením statistické významnosti nebo předtím, než jsou data stabilní, může vést k náhodným výsledkům.

**5. Nedostatečné randomizace**
   - Správná randomizace zajišťuje, že každý účastník má stejnou šanci být zařazen do jakékoli skupiny. Chyby v randomizaci mohou vést k zkresleným výsledkům.

**6. Vícenásobné porovnávání a p-hacking**
   - Prohlížení dat a opakované testování různých hypotéz bez úpravy na vícenásobné porovnávání může vést k nesprávné interpretaci významnosti.


<img src="img/0*NDTRzzIEp8OSN7oV.png">

---

## Případová studie: Analýza vlivu diety na hladiny cholesterolu

Zdravotní výzkumníci chtějí zjistit, zda speciální dieta má významný vliv na hladiny cholesterolu u pacientů. Studie byla provedena na dvou skupinách pacientů:

1.	Experimentální skupina: Pacienti, kteří dodržovali speciální dietu.
2.	Kontrolní skupina: Pacienti, kteří nedodržovali žádnou dietu.

**Přínos studie**
Studie pomůže zjistit, zda speciální dieta může účinně snížit hladiny cholesterolu, což by mohlo vést k novým doporučením pro pacienty s vysokým cholesterolem a snížit riziko srdečních chorob.

**Data:**
- before_diet: Hladiny cholesterolu pacientů před začátkem diety.
- after_diet: Hladiny cholesterolu pacientů po skončení diety.
- control: Hladiny cholesterolu pacientů v kontrolní skupině, kteří nedodržovali žádnou dietu.

**Formulace hypotézy**

1.	Jednovýběrový t-test:
    - Nulová hypotéza (H₀): Průměrná hladina cholesterolu v kontrolní skupině je stejná jako populační průměr (190 mg/dl).
    - Alternativní hypotéza (H₁): Průměrná hladina cholesterolu v kontrolní skupině se liší od populačního průměru.
1.	Dvojvýběrový t-test (nepárový):
    - Nulová hypotéza (H₀): Průměrná hladina cholesterolu v experimentální skupině po dietě je stejná jako v kontrolní skupině.
    - Alternativní hypotéza (H₁): Průměrná hladina cholesterolu v experimentální skupině po dietě je nižší než v kontrolní skupině.
1.	Párový t-test:
    - Nulová hypotéza (H₀): Průměrná hladina cholesterolu před a po dietě je stejná.
    - Alternativní hypotéza (H₁): Průměrná hladina cholesterolu po dietě je nižší než před dietou.



**Délka testu**

Délka testu je stanovena na 3 měsíce, aby se zajistilo, že dieta má dostatek času na ovlivnění hladin cholesterolu.

**Způsob randomizace**

Pacienti byli náhodně rozděleni do experimentální a kontrolní skupiny pomocí jednoduché náhodné randomizace. Každý pacient měl stejnou pravděpodobnost být přiřazen do kterékoliv skupiny.

**Výpočet velikosti vzorku a MDE (Minimální detekovatelný efekt)**

Pro výpočet velikosti vzorku a MDE použijeme následující parametry:

- Power (síla testu): 0.8 (80%)
- Alfa (hladina významnosti): 0.05
- Standardní odchylka (σ): 30 (předpokládaná odchylka hladin cholesterolu)

Budeme předpokládat minimální detekovatelný efekt (MDE) ve výši 20 mg/dl.

In [4]:
# Kód pro výpočet velikosti vzorku

# Parametry pro výpočet velikosti vzorku
effect_size = 20 / 30  # MDE / σ
alpha = 0.05
power = 0.8

# Výpočet velikosti vzorku
analysis = TTestIndPower()
sample_size = analysis.solve_power(
    effect_size=effect_size, alpha=alpha, power=power, alternative="two-sided"
)
print(f"Velikost vzorku na skupinu: {int(np.ceil(sample_size))}")

Velikost vzorku na skupinu: 37


In [5]:
# Generování náhodných dat pro případovou studii
np.random.seed(0)
before_diet = np.random.normal(loc=200, scale=30, size=30)
after_diet = before_diet - np.random.normal(
    loc=20, scale=10, size=30
)  # Předpokládáme pokles po dietě
control = np.random.normal(loc=200, scale=30, size=30)

In [6]:
# 1. Párový t-test: Porovnání před a po dietě
t_stat_paired, p_value_paired = stats.ttest_rel(before_diet, after_diet)
print(
    f"Párový t-test: t-stat = {t_stat_paired:.2f}, p-value = {p_value_paired:.5f}")

# 2. Dvojvýběrový t-test (nepárový): Porovnání experimentální a kontrolní skupiny po dietě
t_stat_ind, p_value_ind = stats.ttest_ind(after_diet, control)
print(
    f"Dvojvýběrový t-test (nepárový): t-stat = {
        t_stat_ind:.2f}, p-value = {p_value_ind:.5f}"
)

# 3. Jednovýběrový t-test: Porovnání kontrolní skupiny s populačním průměrem (např. 190)
population_mean = 190
t_stat_one_sample, p_value_one_sample = stats.ttest_1samp(
    control, population_mean)
print(
    f"Jednovýběrový t-test: t-stat = {
        t_stat_one_sample:.2f}, p-value = {p_value_one_sample:.5f}"
)

Párový t-test: t-stat = 10.25, p-value = 0.00000
Dvojvýběrový t-test (nepárový): t-stat = 0.02, p-value = 0.98189
Jednovýběrový t-test: t-stat = 1.13, p-value = 0.26653


<img src="img/output2.png">

**Interpretace výsledků**

1.	Jednovýběrový t-test:
    - Hypotéza: Hladiny cholesterolu v kontrolní skupině se liší od populačního průměru.
    - Výsledky: Pokud je p-hodnota < 0.05, odmítáme nulovou hypotézu a přijímáme, že průměrná hladina cholesterolu v kontrolní skupině se liší od populačního průměru.
2.	Dvojvýběrový t-test (nepárový):
    - Hypotéza: Hladiny cholesterolu v experimentální skupině po dietě jsou nižší než v kontrolní skupině.
    - Výsledky: Pokud je p-hodnota < 0.05, odmítáme nulovou hypotézu a přijímáme, že existuje významný rozdíl mezi hladinami cholesterolu po dietě a v kontrolní skupině.
3.	Párový t-test:
    - Hypotéza: Hladiny cholesterolu po dietě jsou nižší než před dietou.
    - Výsledky: Pokud je p-hodnota < 0.05, odmítáme nulovou hypotézu a přijím

## Čtení na doma
- __[The ultimate guide to A/B testing](https://medium.com/swlh/the-ultimate-guide-to-a-b-testing-part-1-experiment-design-8315a2470c63)__

---

## Cvičení: A/B testování s hrou Cookie Cats

**Cíl:** Provést A/B testování pro zjištění, jak změna v herním designu ovlivňuje míru retence hráčů ve hře Cookie Cats po 7 dnech od instalace.

**Dataset:** "Mobile Games A/B Testing - Cookie Cats", který obsahuje data o hráčích, včetně toho, do které skupiny (A nebo B) byli přiřazeni a zda hráči zůstali ve hře po určité herní události.

[Download data](https://www.kaggle.com/datasets/mursideyarkin/mobile-games-ab-testing-cookie-cats/data)

- **userid**: Unikátní identifikátor hráče.
- **version**: Skupina A/B testu, kde 'gate_30' a 'gate_40' značí různé herní nastavení.
- **sum_gamerounds**: Celkový počet kol, které hráč odehrál během prvního týdne po instalaci.
- **retention_1**: Indikátor, zda se hráč vrátil hrát hru 1 den po instalaci (True/False).
- **retention_7**: Indikátor, zda se hráč vrátil hrát hru 7 dní po instalaci (True/False).

### Krok 1: Příprava dat
1. **Načtení dat:** Použijte Python a knihovnu pandas k načtení datasetu `cookie_cats.csv`.
2. **Prozkoumání dat:** Použijte funkce `head()`, `info()`, a `describe()` k získání přehledu o datových typech a možných chybějících hodnotách.
3. **Čištění dat:** Zkontrolujte data na případné duplicity nebo chybějící hodnoty a vyřešte tyto problémy.

### Krok 2: Rozdělení dat
1. **Ověření skupin:** Ujistěte se, že data obsahují jasně rozlišené skupiny A a B a že každý záznam je přiřazen jen do jedné skupiny.
2. **Rovnováha mezi skupinami:** Zkontrolujte, zda je počet hráčů v obou skupinách vyvážený.

### Krok 3: Statistická analýza
1. **Stanovení hypotéz:**
   - **H0 (nulová hypotéza):** Neexistuje žádný rozdíl v míře retence mezi skupinou A a B.
   - **H1 (alternativní hypotéza):** Existuje statisticky významný rozdíl v míře retence mezi skupinou A a B.
2. **Výpočet míry retence:** Pro každou skupinu vypočítejte míru retence jako poměr počtu hráčů, kteří zůstali ve hře, ku celkovému počtu hráčů ve skupině.
3. **Provedení A/B testu:** Použijte z-test nebo t-test k porovnání míry retence mezi oběma skupinami.

### Krok 4: Interpretace výsledků
1. **Vyhodnocení p-hodnoty a statistické významnosti:** Na základě výsledků testu určete, zda zamítnout nulovou hypotézu.
2. **Diskuze:** Interpretujte výsledky a diskutujte o možných důvodech pro pozorované rozdíly.

### Krok 5: Vizualizace a závěry
1. **Vizualizace výsledků:** Použijte knihovny jako matplotlib nebo seaborn k vizualizaci míry retence ve skupinách A a B.
2. **Závěry a doporučení:** Formulujte závěry a navrhněte, jak by se dalo na základě výsledků A/B testu postupovat.

### Bonusový úkol
1. **Výpočet síly testu (Statistical Power):** Určete, zda byla velikost vzorku dostatečná k odhalení skutečného efektu, pokud existuje.
2. **Reflexe metodologie:** Navrhněte možná vylepšení pro budoucí A/B testy na základě této zkušenosti.