# üß™ Statystyka i Skalowanie Danych

W tym notatniku przeƒáwiczymy dwa kluczowe pojƒôcia w Data Science:

1.  **Hipoteza Zerowa i P-value:** Jak matematycznie sprawdziƒá, czy nasz eksperyment (np. nowy lek) naprawdƒô dzia≈Ça, czy to tylko przypadek.
2.  **Skalowanie (Standaryzacja):** Jak przygotowaƒá dane liczbowe (np. Wiek i Zarobki), aby algorytmy Machine Learning nie "zg≈Çupia≈Çy" przez r√≥≈ºnice w wielko≈õci liczb.

In [7]:
import numpy as np
import pandas as pd
from scipy import stats
from sklearn.preprocessing import MinMaxScaler, StandardScaler

print("Biblioteki za≈Çadowane! Mo≈ºemy zaczynaƒá.")

Biblioteki za≈Çadowane! Mo≈ºemy zaczynaƒá.


## CZƒò≈öƒÜ 1: P-value i Hipoteza Zerowa (Symulacja Medyczna)

Wyobra≈∫ sobie, ≈ºe testujemy nowy lek na odchudzanie.
Mamy dwie grupy po 100 os√≥b:
1.  **Grupa A (Placebo):** Dostaje zwyk≈Çy cukierek.
2.  **Grupa B (Lek):** Dostaje naszƒÖ nowƒÖ substancjƒô.

### Zasady gry:
*   **Hipoteza Zerowa ($H_0$):** "Nuda. Lek nie dzia≈Ça. R√≥≈ºnice w wadze to czysty przypadek."
*   **P-value:** Liczba, kt√≥ra m√≥wi: "Jaka jest szansa, ≈ºe ten wynik to przypadek?".
    *   Je≈õli **p < 0.05** (mniej ni≈º 5%) -> To nie przypadek! **Lek dzia≈Ça.** (Odrzucamy $H_0$)
    *   Je≈õli **p > 0.05** -> To mo≈ºe byƒá przypadek. Nie mamy dowodu. (Zostajemy przy $H_0$)

In [8]:
# Ustawiamy "ziarno" losowo≈õci, ≈ºeby wyniki by≈Çy powtarzalne
np.random.seed(42)

# 1. GENERUJEMY DANE (Symulacja)
# Grupa Placebo: ≈örednio chudnƒÖ 2 kg, odchylenie standardowe 1.5
placebo = np.random.normal(loc=2.0, scale=1.5, size=100)

# Grupa Leku: ≈örednio chudnƒÖ 3 kg (LEPIEJ!), odchylenie standardowe 1.5
lek = np.random.normal(loc=3.0, scale=1.5, size=100)

print(f"≈örednia utrata wagi (Placebo): {np.mean(placebo):.2f} kg")
print(f"≈örednia utrata wagi (Lek):     {np.mean(lek):.2f} kg")
print("-" * 50)

# 2. TEST STATYSTYCZNY (T-test)
# Sprawdzamy matematycznie, czy ta r√≥≈ºnica (2kg vs 3kg) jest istotna.
t_stat, p_value = stats.ttest_ind(placebo, lek)

print(f"P-value wynosi: {p_value:.10f}") 
# .10f oznacza 10 miejsc po przecinku

print("-" * 50)
print("WERDYKT:")

# 3. INTERPRETACJA AUTOMATYCZNA
if p_value < 0.05:
    print("‚úÖ P jest bliskie zera (mniejsze ni≈º 0.05).")
    print("To na pewno NIE jest przypadek.")
    print("WNIOSEK: Odrzucamy hipotezƒô zerowƒÖ -> LEK DZIA≈ÅA!")
else:
    print("‚ùå P jest du≈ºe (wiƒôksze ni≈º 0.05).")
    print("To m√≥g≈Ç byƒá przypadek.")
    print("WNIOSEK: Nie mamy dowod√≥w, ≈ºe lek dzia≈Ça.")

≈örednia utrata wagi (Placebo): 1.84 kg
≈örednia utrata wagi (Lek):     3.03 kg
--------------------------------------------------
P-value wynosi: 0.0000000083
--------------------------------------------------
WERDYKT:
‚úÖ P jest bliskie zera (mniejsze ni≈º 0.05).
To na pewno NIE jest przypadek.
WNIOSEK: Odrzucamy hipotezƒô zerowƒÖ -> LEK DZIA≈ÅA!


## CZƒò≈öƒÜ 2: Skalowanie Danych (MinMax vs Standard)

Algorytmy (np. KNN, Sieci Neuronowe) widzƒÖ ≈õwiat przez pryzmat liczb.
Je≈õli masz:
*   **Wiek:** 30
*   **Zarobki:** 10 000

Dla algorytmu zmiana zarobk√≥w o 100 jednostek jest "wiƒôksza i wa≈ºniejsza" ni≈º zmiana wieku o 10 lat. **To b≈ÇƒÖd!** Musimy sprowadziƒá te dane do "wsp√≥lnego mianownika".

Mamy dwie g≈Ç√≥wne metody:
1.  **Min-Max Scaler:** ≈öciska dane do przedzia≈Çu **[0, 1]**. (Dobre dla obraz√≥w).
2.  **Standard Scaler:** Przesuwa ≈õredniƒÖ do **0**. (Dobre dla wiƒôkszo≈õci algorytm√≥w ML).

In [9]:
# 1. Tworzymy dane z ogromnƒÖ r√≥≈ºnicƒÖ skali
df = pd.DataFrame({
    'Wiek': [20, 30, 40, 50, 60],        # Ma≈Çe liczby
    'Zarobki': [3000, 4500, 8000, 12000, 20000] # Du≈ºe liczby
})

print("--- DANE ORYGINALNE ---")
print(df)
print("\n")

# --- METODA A: MIN-MAX SCALER ---
# Wszystko bƒôdzie pomiƒôdzy 0 a 1
scaler_minmax = MinMaxScaler()
df_minmax = pd.DataFrame(scaler_minmax.fit_transform(df), columns=['Wiek', 'Zarobki'])

print("--- PO MIN-MAX SCALER (Warto≈õci 0-1) ---")
print(df_minmax)
print("\n")

# --- METODA B: STANDARD SCALER ---
# ≈örednia = 0. Warto≈õci ujemne = poni≈ºej ≈õredniej.
scaler_std = StandardScaler()
df_std = pd.DataFrame(scaler_std.fit_transform(df), columns=['Wiek', 'Zarobki'])

print("--- PO STANDARD SCALER (Wok√≥≈Ç zera) ---")
print(df_std.round(2))

--- DANE ORYGINALNE ---
   Wiek  Zarobki
0    20     3000
1    30     4500
2    40     8000
3    50    12000
4    60    20000


--- PO MIN-MAX SCALER (Warto≈õci 0-1) ---
   Wiek   Zarobki
0  0.00  0.000000
1  0.25  0.088235
2  0.50  0.294118
3  0.75  0.529412
4  1.00  1.000000


--- PO STANDARD SCALER (Wok√≥≈Ç zera) ---
   Wiek  Zarobki
0 -1.41    -1.07
1 -0.71    -0.82
2  0.00    -0.25
3  0.71     0.41
4  1.41     1.72
