# ü´Ä Machine Learning w Medycynie - Analiza Chor√≥b Serca

W tym notebooku poznamy 4 podstawowe techniki uczenia maszynowego:

1. üéØ **Regresja Logistyczna** - klasyfikacja (przewidywanie kategorii)
2. üìà **Regresja Liniowa** - przewidywanie warto≈õci ciƒÖg≈Çych
3. üîµ **K-Means** - klasteryzacja (grupowanie danych)
4. üåÄ **PCA** - redukcja wymiarowo≈õci

---
**Instrukcja:** Uruchamiaj kolejne kom√≥rki przyciskiem ‚ñ∂Ô∏è lub skr√≥tem `Shift + Enter`


## üì¶ Czƒô≈õƒá 1: Import Bibliotek


In [None]:
# Import bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer

# Nasze 4 metody
from sklearn.linear_model import LogisticRegression  # Klasyfikacja
from sklearn.linear_model import LinearRegression     # Regresja
from sklearn.cluster import KMeans                    # Klasteryzacja
from sklearn.decomposition import PCA                 # Redukcja wymiarowo≈õci

# Metryki
from sklearn.metrics import accuracy_score, confusion_matrix, mean_squared_error, r2_score, silhouette_score

# Ustawienia
plt.rcParams['figure.figsize'] = (10, 6)
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioteki za≈Çadowane!")


## üì• Czƒô≈õƒá 2: Wczytanie Danych

Prze≈õlij plik `heart_disease_uci.csv` klikajƒÖc "Upload" po lewej stronie.


In [None]:
# Wczytanie pliku w Google Colab
from google.colab import files
uploaded = files.upload()


In [None]:
# Wczytanie danych
df = pd.read_csv('heart_disease_uci.csv')
print(f"üìä Rozmiar: {df.shape[0]} pacjent√≥w, {df.shape[1]} cech")
df.head()


## üßπ Czƒô≈õƒá 3: Przygotowanie Danych


In [None]:
# Przygotowanie danych

# Usuwamy niepotrzebne kolumny
df_clean = df.drop(columns=['id', 'dataset'])

# Kodowanie zmiennych tekstowych na liczby
for col in df_clean.select_dtypes(include=['object', 'bool']).columns:
    le = LabelEncoder()
    df_clean[col] = le.fit_transform(df_clean[col].astype(str))

# Uzupe≈Çnienie brakujƒÖcych warto≈õci medianƒÖ
imputer = SimpleImputer(strategy='median')
df_imputed = pd.DataFrame(imputer.fit_transform(df_clean), columns=df_clean.columns)

# Przygotowanie zmiennych
X = df_imputed.drop(columns=['num'])  # Cechy (bez zmiennej docelowej)
y = (df_imputed['num'] > 0).astype(int)  # 0=zdrowy, 1=chory

# Podzia≈Ç na zbi√≥r treningowy (80%) i testowy (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standaryzacja (wa≈ºne dla regresji logistycznej!)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"‚úÖ Dane przygotowane!")
print(f"üìä Zbi√≥r treningowy: {X_train.shape[0]} pr√≥bek")
print(f"üìä Zbi√≥r testowy: {X_test.shape[0]} pr√≥bek")


---
# üéØ 1. REGRESJA LOGISTYCZNA (Klasyfikacja)

**Cel:** Przewidzieƒá czy pacjent ma chorobƒô serca (0=zdrowy, 1=chory)

**Jak dzia≈Ça:** Model uczy siƒô na danych treningowych, a potem przewiduje klasƒô dla nowych danych.


In [None]:
# KROK 1: Tworzenie i trenowanie modelu
model_lr = LogisticRegression(max_iter=1000)
model_lr.fit(X_train_scaled, y_train)  # Uczenie na danych treningowych

# KROK 2: Predykcja na zbiorze testowym
y_pred = model_lr.predict(X_test_scaled)

# KROK 3: Ocena modelu
accuracy = accuracy_score(y_test, y_pred)
print(f"üéØ REGRESJA LOGISTYCZNA")
print(f"   Dok≈Çadno≈õƒá: {accuracy:.2%}")

# Macierz pomy≈Çek
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Zdrowy', 'Chory'], yticklabels=['Zdrowy', 'Chory'])
plt.xlabel('Predykcja')
plt.ylabel('Rzeczywisto≈õƒá')
plt.title('Macierz Pomy≈Çek')
plt.show()


### üîÆ Przyk≈Çad u≈ºycia .predict() - przewidywanie dla nowego pacjenta


In [None]:
# Przyk≈Çad: Przewidywanie dla NOWEGO pacjenta
# We≈∫my dane pierwszego pacjenta z testu jako przyk≈Çad

nowy_pacjent = X_test.iloc[[0]]  # Jeden pacjent (jako DataFrame)
print("üìã Dane nowego pacjenta:")
print(nowy_pacjent)

# Standaryzacja (musi byƒá taka sama jak przy trenowaniu!)
nowy_pacjent_scaled = scaler.transform(nowy_pacjent)

# U≈ªYCIE .predict() - przewidywanie klasy
predykcja = model_lr.predict(nowy_pacjent_scaled)
print(f"\nüîÆ Predykcja: {predykcja[0]} ({'CHORY' if predykcja[0] == 1 else 'ZDROWY'})")

# Prawdopodobie≈Ñstwa dla ka≈ºdej klasy
prawdopodobienstwa = model_lr.predict_proba(nowy_pacjent_scaled)
print(f"üìä Prawdopodobie≈Ñstwo:")
print(f"   - Zdrowy: {prawdopodobienstwa[0][0]:.2%}")
print(f"   - Chory:  {prawdopodobienstwa[0][1]:.2%}")

# Sprawd≈∫my rzeczywistƒÖ warto≈õƒá
print(f"\n‚úÖ Rzeczywista warto≈õƒá: {y_test.iloc[0]} ({'CHORY' if y_test.iloc[0] == 1 else 'ZDROWY'})")


---
# üìà 2. REGRESJA LINIOWA

**Cel:** Przewidzieƒá warto≈õƒá ciƒÖg≈ÇƒÖ - maksymalne tƒôtno pacjenta (thalch)

**Jak dzia≈Ça:** Model znajduje liniowƒÖ zale≈ºno≈õƒá miƒôdzy cechami a zmiennƒÖ docelowƒÖ.


In [None]:
# Przygotowanie danych do regresji
# X = cechy (bez thalch i num), y = thalch (maksymalne tƒôtno)
X_reg = df_imputed.drop(columns=['thalch', 'num'])
y_reg = df_imputed['thalch']

# Podzia≈Ç danych
X_reg_train, X_reg_test, y_reg_train, y_reg_test = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

# Standaryzacja
scaler_reg = StandardScaler()
X_reg_train_scaled = scaler_reg.fit_transform(X_reg_train)
X_reg_test_scaled = scaler_reg.transform(X_reg_test)

# KROK 1: Tworzenie i trenowanie modelu
model_reg = LinearRegression()
model_reg.fit(X_reg_train_scaled, y_reg_train)

# KROK 2: Predykcja
y_reg_pred = model_reg.predict(X_reg_test_scaled)

# KROK 3: Ocena
r2 = r2_score(y_reg_test, y_reg_pred)
rmse = np.sqrt(mean_squared_error(y_reg_test, y_reg_pred))

print(f"üìà REGRESJA LINIOWA")
print(f"   R¬≤ (wsp√≥≈Çczynnik determinacji): {r2:.3f}")
print(f"   RMSE (b≈ÇƒÖd): {rmse:.1f} bpm")
print(f"\nüí° R¬≤={r2:.1%} oznacza, ≈ºe model wyja≈õnia {r2*100:.0f}% zmienno≈õci tƒôtna")

# Wykres
plt.figure(figsize=(8, 6))
plt.scatter(y_reg_test, y_reg_pred, alpha=0.5)
plt.plot([y_reg_test.min(), y_reg_test.max()], [y_reg_test.min(), y_reg_test.max()], 'r--', label='Idealna predykcja')
plt.xlabel('Rzeczywiste tƒôtno (bpm)')
plt.ylabel('Przewidziane tƒôtno (bpm)')
plt.title('Regresja Liniowa - Predykcja vs Rzeczywisto≈õƒá')
plt.legend()
plt.show()


### üîÆ Przyk≈Çad u≈ºycia .predict() - przewidywanie tƒôtna dla nowego pacjenta


In [None]:
# Przyk≈Çad: Przewidywanie tƒôtna dla NOWEGO pacjenta

nowy_pacjent_reg = X_reg_test.iloc[[0]]  # Jeden pacjent
print("üìã Dane nowego pacjenta:")
print(nowy_pacjent_reg[['age', 'sex', 'trestbps', 'chol']].T)  # Tylko kilka cech dla czytelno≈õci

# Standaryzacja
nowy_pacjent_reg_scaled = scaler_reg.transform(nowy_pacjent_reg)

# U≈ªYCIE .predict() - przewidywanie warto≈õci ciƒÖg≈Çej
predykcja_tetno = model_reg.predict(nowy_pacjent_reg_scaled)
print(f"\nüîÆ Przewidziane tƒôtno: {predykcja_tetno[0]:.0f} bpm")
print(f"‚úÖ Rzeczywiste tƒôtno: {y_reg_test.iloc[0]:.0f} bpm")
print(f"üìä B≈ÇƒÖd: {abs(predykcja_tetno[0] - y_reg_test.iloc[0]):.1f} bpm")


---
# üîµ 3. K-MEANS (Klasteryzacja)

**Cel:** Pogrupowaƒá pacjent√≥w w podobne grupy BEZ u≈ºycia etykiet (uczenie nienadzorowane)

**Jak dzia≈Ça:** Algorytm szuka K centr√≥w klastr√≥w i przypisuje ka≈ºdy punkt do najbli≈ºszego centrum.


In [None]:
# Przygotowanie danych do klasteryzacji
X_cluster = df_imputed.drop(columns=['num'])
X_cluster_scaled = StandardScaler().fit_transform(X_cluster)

#‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
#‚ïë  üéõÔ∏è PARAMETR DO ZMIANY: liczba klastr√≥w                      ‚ïë
#‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù
N_CLUSTERS = 3  # üîß Zmie≈Ñ: 2, 3, 4, 5

# KROK 1: Tworzenie i trenowanie modelu
model_kmeans = KMeans(n_clusters=N_CLUSTERS, random_state=42, n_init=10)
model_kmeans.fit(X_cluster_scaled)

# Etykiety klastr√≥w
cluster_labels = model_kmeans.labels_

# Ocena
silhouette = silhouette_score(X_cluster_scaled, cluster_labels)

print(f"üîµ K-MEANS")
print(f"   Liczba klastr√≥w: {N_CLUSTERS}")
print(f"   Silhouette Score: {silhouette:.3f} (im bli≈ºej 1, tym lepiej)")
print(f"\nüìä Rozmiary klastr√≥w:")
for i in range(N_CLUSTERS):
    print(f"   Klaster {i}: {(cluster_labels == i).sum()} pacjent√≥w")


In [None]:
# Wizualizacja klastr√≥w (na 2 wybranych cechach)
plt.figure(figsize=(10, 6))
scatter = plt.scatter(df_imputed['age'], df_imputed['thalch'], c=cluster_labels, cmap='viridis', alpha=0.6)
plt.colorbar(scatter, label='Klaster')
plt.xlabel('Wiek')
plt.ylabel('Maksymalne tƒôtno')
plt.title(f'K-Means: Podzia≈Ç na {N_CLUSTERS} klastr√≥w')
plt.show()


### üîÆ Przyk≈Çad u≈ºycia .predict() - przypisanie nowego pacjenta do klastra


In [None]:
# Przyk≈Çad: Przypisanie NOWEGO pacjenta do klastra

# We≈∫my kilku pacjent√≥w jako przyk≈Çad
nowi_pacjenci = X_cluster.iloc[[0, 100, 500]]  # 3 r√≥≈ºnych pacjent√≥w
print("üìã Dane 3 nowych pacjent√≥w (wybrane cechy):")
print(nowi_pacjenci[['age', 'sex', 'trestbps', 'chol', 'thalch']])

# Standaryzacja (u≈ºywamy tego samego scalera co przy fit!)
scaler_cluster = StandardScaler()
scaler_cluster.fit(X_cluster)  # fit na ca≈Çych danych
nowi_pacjenci_scaled = scaler_cluster.transform(nowi_pacjenci)

# U≈ªYCIE .predict() - przypisanie do klastra
przypisane_klastry = model_kmeans.predict(nowi_pacjenci_scaled)

print(f"\nüîÆ Przypisane klastry:")
for i, klaster in enumerate(przypisane_klastry):
    print(f"   Pacjent {i+1}: Klaster {klaster}")


---
# üåÄ 4. PCA (Redukcja Wymiarowo≈õci)

**Cel:** Zredukowaƒá liczbƒô wymiar√≥w (cech) zachowujƒÖc jak najwiƒôcej informacji

**Jak dzia≈Ça:** PCA znajduje nowe osie (g≈Ç√≥wne sk≈Çadowe), kt√≥re maksymalizujƒÖ wariancjƒô danych.


In [None]:
# Przygotowanie danych
X_pca_data = df_imputed.drop(columns=['num'])
X_pca_scaled = StandardScaler().fit_transform(X_pca_data)

print(f"üìä Oryginalna liczba wymiar√≥w: {X_pca_data.shape[1]}")

# KROK 1: Tworzenie i trenowanie modelu PCA (redukcja do 2 wymiar√≥w)
model_pca = PCA(n_components=2)
model_pca.fit(X_pca_scaled)

# KROK 2: Transformacja danych
X_pca_transformed = model_pca.transform(X_pca_scaled)

print(f"üìä Nowa liczba wymiar√≥w: {X_pca_transformed.shape[1]}")

# Wyja≈õniona wariancja
explained_var = model_pca.explained_variance_ratio_
print(f"\nüìä Wyja≈õniona wariancja:")
print(f"   PC1: {explained_var[0]:.1%}")
print(f"   PC2: {explained_var[1]:.1%}")
print(f"   Suma: {sum(explained_var):.1%}")


In [None]:
# Wizualizacja PCA
y_binary = (df_imputed['num'] > 0).astype(int)
colors = ['#2ecc71' if label == 0 else '#e74c3c' for label in y_binary]

plt.figure(figsize=(10, 6))
plt.scatter(X_pca_transformed[:, 0], X_pca_transformed[:, 1], c=colors, alpha=0.6)
plt.xlabel(f'PC1 ({explained_var[0]:.1%} wariancji)')
plt.ylabel(f'PC2 ({explained_var[1]:.1%} wariancji)')
plt.title('PCA - Dane zredukowane do 2 wymiar√≥w')

# Legenda
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor='#2ecc71', label='Zdrowy'),
                   Patch(facecolor='#e74c3c', label='Chory')]
plt.legend(handles=legend_elements)
plt.show()


### üîÆ Przyk≈Çad u≈ºycia .transform() - transformacja nowego pacjenta

**Uwaga:** PCA u≈ºywa `.transform()` zamiast `.predict()` - transformuje dane do nowej przestrzeni.


In [None]:
# Przyk≈Çad: Transformacja NOWEGO pacjenta do przestrzeni PCA

nowy_pacjent_pca = X_pca_data.iloc[[0]]  # Jeden pacjent
print(f"üìã Oryginalne dane pacjenta: {X_pca_data.shape[1]} cech")
print(nowy_pacjent_pca[['age', 'sex', 'trestbps', 'chol', 'thalch']].T)

# Standaryzacja (u≈ºywamy tego samego scalera!)
scaler_pca = StandardScaler()
scaler_pca.fit(X_pca_data)
nowy_pacjent_pca_scaled = scaler_pca.transform(nowy_pacjent_pca)

# U≈ªYCIE .transform() - transformacja do nowej przestrzeni
nowe_wspolrzedne = model_pca.transform(nowy_pacjent_pca_scaled)

print(f"\nüîÆ Nowe wsp√≥≈Çrzƒôdne (2 wymiary):")
print(f"   PC1: {nowe_wspolrzedne[0][0]:.3f}")
print(f"   PC2: {nowe_wspolrzedne[0][1]:.3f}")

# Zaznaczenie na wykresie
plt.figure(figsize=(10, 6))
plt.scatter(X_pca_transformed[:, 0], X_pca_transformed[:, 1], c=colors, alpha=0.3, label='Wszyscy pacjenci')
plt.scatter(nowe_wspolrzedne[0][0], nowe_wspolrzedne[0][1], c='blue', s=200, marker='*', label='Nowy pacjent')
plt.xlabel(f'PC1')
plt.ylabel(f'PC2')
plt.title('PCA - Pozycja nowego pacjenta')
plt.legend()
plt.show()


---
# üìù PODSUMOWANIE


In [None]:
print("="*60)
print("üìã PODSUMOWANIE METOD")
print("="*60)

print("""
üéØ 1. REGRESJA LOGISTYCZNA (Klasyfikacja)
   - Przewiduje KATEGORIƒò (0 lub 1)
   - U≈ºywa: model.predict(X) ‚Üí zwraca etykietƒô klasy
   - Dodatkowo: model.predict_proba(X) ‚Üí prawdopodobie≈Ñstwa

üìà 2. REGRESJA LINIOWA
   - Przewiduje WARTO≈öƒÜ CIƒÑG≈ÅƒÑ (np. 120.5)
   - U≈ºywa: model.predict(X) ‚Üí zwraca warto≈õƒá liczbowƒÖ

üîµ 3. K-MEANS (Klasteryzacja)
   - Przypisuje punkty do KLASTR√ìW (grup)
   - U≈ºywa: model.predict(X) ‚Üí zwraca numer klastra

üåÄ 4. PCA (Redukcja wymiarowo≈õci)
   - TRANSFORMUJE dane do mniejszej liczby wymiar√≥w
   - U≈ºywa: model.transform(X) ‚Üí zwraca nowe wsp√≥≈Çrzƒôdne
""")

print("="*60)
print(f"üìä WYNIKI:")
print(f"   Regresja Logistyczna: {accuracy:.2%} dok≈Çadno≈õci")
print(f"   Regresja Liniowa: R¬≤ = {r2:.3f}")
print(f"   K-Means: Silhouette = {silhouette:.3f}")
print(f"   PCA: {sum(explained_var):.1%} wyja≈õnionej wariancji")
print("="*60)


---
## üéÆ DO SAMODZIELNEGO EKSPERYMENTOWANIA

1. **K-Means:** Zmie≈Ñ `N_CLUSTERS` (2, 3, 4, 5) i zaobserwuj jak zmieniajƒÖ siƒô klastry

2. **Regresja:** Spr√≥buj przewidzieƒá innƒÖ zmiennƒÖ (np. `chol` zamiast `thalch`)

3. **Predict:** Zmie≈Ñ numer pacjenta w przyk≈Çadach `.predict()` i zobacz inne wyniki
