In [1]:
pip install --upgrade pip

Note: you may need to restart the kernel to use updated packages.


In [3]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

wine = load_wine(as_frame=True, return_X_y=False)
X = wine.data
y = wine.target

In [4]:
wine = load_wine(as_frame=True, return_X_y=False)
X = wine.data
y = wine.target

print("Pierwsze 5 wierszy danych:")
print(X.head())
print("\nNazwy cech:")
print(X.columns.tolist())
print("\nKlasy:", np.unique(y))

Pierwsze 5 wierszy danych:
   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0           2.80   
1    13.20        1.78  2.14               11.2      100.0           2.65   
2    13.16        2.36  2.67               18.6      101.0           2.80   
3    14.37        1.95  2.50               16.8      113.0           3.85   
4    13.24        2.59  2.87               21.0      118.0           2.80   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   
1        2.76                  0.26             1.28             4.38  1.05   
2        3.24                  0.30             2.81             5.68  1.03   
3        3.49                  0.24             2.18             7.80  0.86   
4        2.69                  0.39             1.82             4.32  1.04   

   od280/od315_of_diluted_wines  pr

In [5]:
y_binary = (y == 0).astype(int)

X_train, X_test, y_train, y_test = train_test_split(
    X, y_binary, test_size=0.3, random_state=42, stratify=y_binary
)

print(f"\nRozmiar zbioru treningowego: {X_train.shape}")
print(f"Rozmiar zbioru testowego: {X_test.shape}")
print(f"Liczba próbek klasy 0 w zbiorze treningowym: {sum(y_train == 1)}")
print(f"Liczba próbek klasy 0 w zbiorze testowym: {sum(y_test == 1)}")


Rozmiar zbioru treningowego: (124, 13)
Rozmiar zbioru testowego: (54, 13)
Liczba próbek klasy 0 w zbiorze treningowym: 41
Liczba próbek klasy 0 w zbiorze testowym: 18


In [9]:
print("\n" + "="*60)
print("PERCEPTRON BEZ NORMALIZACJI")
print("="*60)

perceptron = Perceptron(random_state =42, max_iter=1000, tol=1e-3)
perceptron.fit(X_train, y_train)


PERCEPTRON BEZ NORMALIZACJI


In [10]:
accuracy = perceptron.score(X_test, y_test)
print(f"Dokładność na zbiorze testowym: {accuracy:.4f}")

Dokładność na zbiorze testowym: 0.8148


In [14]:
print("\nWagi perceptronu:")
for feature, weight in zip(X.columns, perceptron.coef_[0]):
    print(f"  {feature}: {weight:.4f}")

print(f"Obciążenie (bias): {perceptron.intercept_[0]:.4f}")


Wagi perceptronu:
  alcohol: -1380.6100
  malic_acid: -426.6900
  ash: -255.5200
  alcalinity_of_ash: -3065.6000
  magnesium: -9363.0000
  total_phenols: -104.1300
  flavanoids: 89.6000
  nonflavanoid_phenols: -69.2100
  proanthocyanins: -89.7900
  color_intensity: -540.0500
  hue: -78.5160
  od280/od315_of_diluted_wines: -123.6200
  proline: 1388.0000
Obciążenie (bias): -126.0000


In [19]:
print("\n" + "="*60)
print("PERCEPTRON Z NORMALIZACJĄ (StandardScaler)")
print("="*60)

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('perceptron', Perceptron(random_state=42, max_iter=1000, tol=1e-3))
])

pipeline.fit(X_train, y_train)

accuracy_scaled = pipeline.score(X_test, y_test)
print(f"Dokładność na zbiorze testowym z normalizacją: {accuracy_scaled:.4f}")


PERCEPTRON Z NORMALIZACJĄ (StandardScaler)
Dokładność na zbiorze testowym z normalizacją: 0.9630


In [1]:
pip install numpy pandas matplotlib scikit-learn seaborn

Note: you may need to restart the kernel to use updated packages.


In [24]:
from sklearn.datasets import fetch_kddcup99
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import numpy as np

print("Pobieranie MAŁEJ części danych...")

try:
    kdd = fetch_kddcup99(subset='SA', shuffle=True, random_state=42)  # SA = small subset
except:
    kdd = fetch_kddcup99(shuffle=True, random_state=42)
    indices = np.random.choice(len(kdd.data), size=len(kdd.data)//10, replace=False)
    X = kdd.data[indices]
    y = kdd.target[indices]
else:
    X, y = kdd.data, kdd.target

print(f"Liczba próbek: {len(X)}")

y_binary = (y == b'normal.').astype(int)

X_numeric = []
for i in range(X.shape[1]):
    try:
        X[:, i].astype(float)
        X_numeric.append(X[:, i])
    except:
        pass

X = np.column_stack(X_numeric).astype(float)

X_train, X_test, y_train, y_test = train_test_split(X, y_binary, test_size=0.3)

p1 = Perceptron().fit(X_train, y_train)
p2 = Pipeline([('scaler', StandardScaler()), ('perceptron', Perceptron())]).fit(X_train, y_train)

print("\n1. Perceptron bez normalizacji:")
perceptron1 = Perceptron(max_iter=1000, random_state=42)
perceptron1.fit(X_train, y_train)
acc1 = perceptron1.score(X_test, y_test)
print(f"Dokładność: {acc1:.4f}")

print("\n2. Perceptron z normalizacją:")
perceptron2 = make_pipeline(StandardScaler(), Perceptron(max_iter=1000, random_state=42))
perceptron2.fit(X_train, y_train)
acc2 = perceptron2.score(X_test, y_test)
print(f"Dokładność: {acc2:.4f}")

print("\n" + "="*40)
print("PODSUMOWANIE:")
print(f"Bez normalizacji: {acc1:.4f}")
print(f"Z normalizacją:   {acc2:.4f}")
print(f"Różnica: {acc2 - acc1:.4f}")

if acc2 > acc1:
    print("+ Normalizacja poprawiła wynik")
else:
    print("- Normalizacja nie poprawiła wyniku")

Pobieranie MAŁEJ części danych...
Liczba próbek: 100655

1. Perceptron bez normalizacji:
Dokładność: 0.9714

2. Perceptron z normalizacją:
Dokładność: 0.9970

PODSUMOWANIE:
Bez normalizacji: 0.9714
Z normalizacją:   0.9970
Różnica: 0.0256
+ Normalizacja poprawiła wynik


In [10]:
import numpy as np
from sklearn.datasets import fetch_kddcup99
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler

print("MLP vs Perceptron prosty - porównanie")

kdd = fetch_kddcup99()
X, y = kdd.data[:5000], kdd.target[:5000]


y = (y == b'normal.').astype(int)


X_numbers = []
for col in range(X.shape[1]):
    try:
        float(X[0, col])  # próba przekonwertować pierwszą wartość
        X_numbers.append(X[:, col])
    except:
        continue

X = np.column_stack(X_numbers).astype(float)


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)


scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\nTrenowanie modeli...")

p = Perceptron(max_iter=1000)
p.fit(X_train_scaled, y_train)
acc_p = p.score(X_test_scaled, y_test)

mlp = MLPClassifier(hidden_layer_sizes=(10,), max_iter=1000)
mlp.fit(X_train_scaled, y_train)
acc_mlp = mlp.score(X_test_scaled, y_test)

# 7. Wyniki
print(f"\nWYNIKI (z normalizacją):")
print(f"Perceptron prosty: {acc_p:.4f}")
print(f"MLP (10 neuronów): {acc_mlp:.4f}")
print(f"\nRóżnica: {acc_mlp - acc_p:.4f}")

if acc_mlp > acc_p:
    print("+ MLP jest lepszy!")
else:
    print("- Perceptron prosty jest lepszy lub taki sam")

MLP vs Perceptron prosty - porównanie

Trenowanie modeli...

WYNIKI (z normalizacją):
Perceptron prosty: 0.9993
MLP (10 neuronów): 1.0000

Różnica: 0.0007
+ MLP jest lepszy!


In [15]:
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_absolute_error

print("\n1. Wczytywanie zbioru danych liver-disorders...")
try:
    liver_data = fetch_openml(name='liver-disorders', version=1, as_frame=True, return_X_y=False)
    
    X = liver_data.data
    y = liver_data.target
    
    print(f"Pobrano zbiór: {liver_data.details['name']}")
    print(f"ID zbioru: {liver_data.details['id']}")
except Exception as e:
    print(f"Błąd przy pobieraniu: {e}")
    print("Używam zapasowego źródła danych...")
   
    from sklearn.datasets import make_regression
    X, y = make_regression(n_samples=345, n_features=6, noise=10, random_state=42)
    X = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(6)])
    y = pd.Series(y, name='target')


X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print("\n1. MLPRegressor bez normalizacji:")
mlp1 = MLPRegressor(hidden_layer_sizes=(100,), max_iter=5000, random_state=42)
mlp1.fit(X_train, y_train)
y_pred1 = mlp1.predict(X_test)
mae1 = mean_absolute_error(y_test, y_pred1)
print(f"MAE: {mae1:.4f}")


print("\n2. MLPRegressor z normalizacją:")
mlp2 = make_pipeline(StandardScaler(), 
                     MLPRegressor(hidden_layer_sizes=(100,), max_iter=5000, random_state=42))
mlp2.fit(X_train, y_train)
y_pred2 = mlp2.predict(X_test)
mae2 = mean_absolute_error(y_test, y_pred2)
print(f"MAE: {mae2:.4f}")


print("\n3. Regresja liniowa z normalizacją:")
lr = make_pipeline(StandardScaler(), LinearRegression())
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)
mae_lr = mean_absolute_error(y_test, y_pred_lr)
print(f"MAE: {mae_lr:.4f}")



print("\n" + "="*40)
print("PODSUMOWANIE:")
print("="*40)
print(f"MLP bez norm:    {mae1:.4f}")
print(f"MLP z norm:      {mae2:.4f}")
print(f"Regresja liniowa: {mae_lr:.4f}")

print(f"\nNormalizacja poprawiła MLP? {'TAK' if mae2 < mae1 else 'NIE'}")
print(f"MLP lepszy od regresji liniowej? {'TAK' if mae2 < mae_lr else 'NIE'}")

if mae2 < mae_lr:
    improvement = ((mae_lr - mae2) / mae_lr) * 100
    print(f"MLP lepszy o {improvement:.1f}%")


1. Wczytywanie zbioru danych liver-disorders...
Pobrano zbiór: liver-disorders
ID zbioru: 8

1. MLPRegressor bez normalizacji:
MAE: 2.5409

2. MLPRegressor z normalizacją:
MAE: 2.4099

3. Regresja liniowa z normalizacją:
MAE: 2.5443

PODSUMOWANIE:
MLP bez norm:    2.5409
MLP z norm:      2.4099
Regresja liniowa: 2.5443

Normalizacja poprawiła MLP? TAK
MLP lepszy od regresji liniowej? TAK
MLP lepszy o 5.3%


In [30]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

print("="*60)
print("ZADANIE 6 - Klasyfikacja fonemów")
print("="*60)

# a) Wczytanie i podział danych
print("\n" + "="*60)
print("\na) Wczytywanie zbioru phoneme...")

try:
    phoneme = fetch_openml(name='phoneme', version=1)
    X = phoneme.data
    y = phoneme.target
    
    if hasattr(X, 'values'):
        X = X.values
    if hasattr(y, 'values'):
        y = y.values
        
    print(f"Pobrano zbiór phoneme")
except:
    print("Problem z pobraniem danych. Używam przykładowych danych...")
    from sklearn.datasets import make_classification
    X, y = make_classification(n_samples=5404, n_features=5, n_classes=2, 
                               n_informative=5, n_redundant=0, random_state=42)

print(f"Rozmiar X: {X.shape}")
print(f"Rozmiar y: {y.shape}")
print(f"Klasy: {np.unique(y)}")

if isinstance(y[0], str):
    le = LabelEncoder()
    y = le.fit_transform(y)
    print(f"Zakodowane klasy: {np.unique(y)}")

X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42, stratify=y_temp
)  # 0.25 * 0.8 = 0.2 (walidacja)

print(f"\nPodział danych:")
print(f"  Trening: {X_train.shape} ({len(X_train)/len(X)*100:.1f}%)")
print(f"  Walidacja: {X_val.shape} ({len(X_val)/len(X)*100:.1f}%)")
print(f"  Test: {X_test.shape} ({len(X_test)/len(X)*100:.1f}%)")

# b) Sieć z 2 warstwami ukrytymi (po 20 neuronów) z SGD
print("\n" + "="*60)
print("b) Sieć MLP 2x20 neuronów z optymalizatorem SGD")

mlp_sgd = MLPClassifier(
    hidden_layer_sizes=(20, 20),  # 2 warstwy po 20 neuronów
    activation='relu',
    solver='sgd',
    learning_rate_init=0.01,
    max_iter=100,
    random_state=42,
    early_stopping=True,
    validation_fraction=0.2,
    verbose=False
)

print("Trenowanie modelu...")
mlp_sgd.fit(X_train, y_train)

y_val_pred = mlp_sgd.predict(X_val)
y_test_pred = mlp_sgd.predict(X_test)

val_acc = accuracy_score(y_val, y_val_pred)
test_acc = accuracy_score(y_test, y_test_pred)

print(f"\nDokładność na zbiorze walidacyjnym: {val_acc:.4f}")
print(f"Dokładność na zbiorze testowym: {test_acc:.4f}")
print(f"Liczba wykonanych iteracji: {mlp_sgd.n_iter_}")

print(f"\nPorównanie dokładności:")
print(f"  Trening: {mlp_sgd.score(X_train, y_train):.4f}")
print(f"  Walidacja: {val_acc:.4f}")
print(f"  Test: {test_acc:.4f}")

if abs(test_acc - val_acc) < 0.05:
    print("Dokładność na zbiorze testowym jest podobna do walidacyjnego")
else:
    print("Duża różnica między dokładnością testową a walidacyjną")

# c) SGD z różnymi współczynnikami uczenia
print("\n" + "="*60)
print("c) SGD z różnymi współczynnikami uczenia")

learning_rates = [0.001, 0.01, 0.1, 0.5]
results = []

for lr in learning_rates:
    print(f"\nTrenowanie z learning_rate={lr}...")
    
    mlp = MLPClassifier(
        hidden_layer_sizes=(20, 20),
        activation='relu',
        solver='sgd',
        learning_rate_init=lr,
        max_iter=50,
        random_state=42,
        early_stopping=True,
        validation_fraction=0.2,
        verbose=False
    )
    
    mlp.fit(X_train, y_train)
    val_acc = mlp.score(X_val, y_val)
    results.append((lr, val_acc))
    print(f"  Dokładność walidacyjna: {val_acc:.4f}")

best_lr, best_acc = max(results, key=lambda x: x[1])
print(f"\nNajlepszy współczynnik uczenia: {best_lr} (dokładność: {best_acc:.4f})")

# d) Testowanie różnych solverów (optymalizatorów)
print("\n" + "="*60)
print("d/e) Porównanie różnych solverów (optymalizatorów)")

solvers = ['sgd', 'adam', 'lbfgs']
solver_results = []

for solver in solvers:
    print(f"\nTrenowanie z solver='{solver}'...")
    
    mlp = MLPClassifier(
        hidden_layer_sizes=(20, 20),
        activation='relu',
        solver=solver,
        learning_rate_init=0.01 if solver == 'sgd' else 0.001,
        max_iter=100,
        random_state=42,
        verbose=False
    )
    
    mlp.fit(X_train, y_train)
    val_acc = mlp.score(X_val, y_val)
    solver_results.append((solver, val_acc))
    print(f"  Dokładność walidacyjna: {val_acc:.4f}")

best_solver, best_solver_acc = max(solver_results, key=lambda x: x[1])
print(f"\nNajlepszy solver: {best_solver} (dokładność: {best_solver_acc:.4f})")

# f/g/h) Testowanie różnych architektur sieci
print("\n" + "="*60)
print("f/g/h) Testowanie różnych architektur sieci")

architectures = [
    (10,),           # 1 warstwa, 10 neuronów
    (20,),           # 1 warstwa, 20 neuronów
    (10, 10),        # 2 warstwy po 10 neuronów
    (20, 20),        # 2 warstwy po 20 neuronów
    (30, 30),        # 2 warstwy po 30 neuronów
    (20, 20, 20),    # 3 warstwy po 20 neuronów
    (50, 50),        # 2 warstwy po 50 neuronów
]

arch_results = []

for arch in architectures:
    arch_name = f"{len(arch)}x{arch[0]}"
    print(f"\nTestowanie architektury {arch_name}...")
    
    mlp = MLPClassifier(
        hidden_layer_sizes=arch,
        activation='relu',
        solver=best_solver,
        learning_rate_init=0.001,
        max_iter=100,
        random_state=42,
        verbose=False
    )
    
    mlp.fit(X_train, y_train)
    val_acc = mlp.score(X_val, y_val)
    arch_results.append((arch_name, val_acc, arch))
    print(f"  Dokładność walidacyjna: {val_acc:.4f}")

best_arch_name, best_arch_acc, best_arch = max(arch_results, key=lambda x: x[1])
print(f"\nNAJLEPSZA ARCHITEKTURA: {best_arch_name}")
print(f"Dokładność: {best_arch_acc:.4f}")
print(f"Struktura: {best_arch}")

# i) Regularyzacja dla najlepszej architektury

print("\n" + "="*60)
print("i) Testowanie regularyzacji (alpha)")

print(f"Testowanie regularyzacji dla architektury {best_arch_name}...")

alphas = [0.0001, 0.001, 0.01, 0.1, 1.0]
alpha_results = []

for alpha in alphas:
    mlp = MLPClassifier(
        hidden_layer_sizes=best_arch,
        activation='relu',
        solver=best_solver,
        alpha=alpha,  # parametr regularyzacji L2
        learning_rate_init=0.001,
        max_iter=100,
        random_state=42,
        verbose=False
    )
    
    mlp.fit(X_train, y_train)
    val_acc = mlp.score(X_val, y_val)
    alpha_results.append((alpha, val_acc))
    print(f"  alpha={alpha}: dokładność = {val_acc:.4f}")

best_alpha, best_alpha_acc = max(alpha_results, key=lambda x: x[1])
print(f"\nNajlepszy współczynnik regularyzacji: {best_alpha} (dokładność: {best_alpha_acc:.4f})")

# k) Standaryzacja danych
print("\n" + "="*60)
print("k) Standaryzacja danych")

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

print("Trenowanie najlepszego modelu na znormalizowanych danych...")

best_mlp = MLPClassifier(
    hidden_layer_sizes=best_arch,
    activation='relu',
    solver=best_solver,
    alpha=best_alpha,
    learning_rate_init=0.001,
    max_iter=200,
    random_state=42,
    early_stopping=True,
    validation_fraction=0.2,
    verbose=False
)

best_mlp.fit(X_train_scaled, y_train)

train_acc_scaled = best_mlp.score(X_train_scaled, y_train)
val_acc_scaled = best_mlp.score(X_val_scaled, y_val)
test_acc_scaled = best_mlp.score(X_test_scaled, y_test)

print(f"\nWYNIKI ZE STANDARYZACJĄ:")
print(f"Dokładność treningowa: {train_acc_scaled:.4f}")
print(f"Dokładność walidacyjna: {val_acc_scaled:.4f}")
print(f"Dokładność testowa: {test_acc_scaled:.4f}")

print(f"\nPorównanie z danymi niestandaryzowanymi:")
print(f"Walidacja (ze standaryzacją): {val_acc_scaled:.4f}")
print(f"Walidacja (bez standaryzacji): {best_arch_acc:.4f}")

if val_acc_scaled > best_arch_acc:
    improvement = ((val_acc_scaled - best_arch_acc) / best_arch_acc) * 100
    print(f"+ Standaryzacja poprawiła wyniki o {improvement:.1f}%")
else:
    print("- Standaryzacja nie poprawiła wyników")


print("\n" + "="*60)
print("PODSUMOWANIE")

print(f"\n1. Najlepszy współczynnik uczenia: {best_lr}")
print(f"2. Najlepszy solver: {best_solver}")
print(f"3. Najlepsza architektura: {best_arch_name}")
print(f"4. Najlepszy współczynnik regularyzacji (alpha): {best_alpha}")
print(f"5. Standaryzacja pomogła? {'TAK' if val_acc_scaled > best_arch_acc else 'NIE'}")

print(f"\nOstateczna dokładność na zbiorze testowym: {test_acc_scaled:.4f}")

print("\nRaport klasyfikacji dla najlepszego modelu:")
y_test_pred = best_mlp.predict(X_test_scaled)
print(classification_report(y_test, y_test_pred))

ZADANIE 6 - Klasyfikacja fonemów


a) Wczytywanie zbioru phoneme...
Pobrano zbiór phoneme
Rozmiar X: (5404, 5)
Rozmiar y: (5404,)
Klasy: ['1' '2']
Zakodowane klasy: [0 1]

Podział danych:
  Trening: (3242, 5) (60.0%)
  Walidacja: (1081, 5) (20.0%)
  Test: (1081, 5) (20.0%)

b) Sieć MLP 2x20 neuronów z optymalizatorem SGD
Trenowanie modelu...

Dokładność na zbiorze walidacyjnym: 0.8020
Dokładność na zbiorze testowym: 0.7937
Liczba wykonanych iteracji: 56

Porównanie dokładności:
  Trening: 0.8276
  Walidacja: 0.8020
  Test: 0.7937
Dokładność na zbiorze testowym jest podobna do walidacyjnego

c) SGD z różnymi współczynnikami uczenia

Trenowanie z learning_rate=0.001...
  Dokładność walidacyjna: 0.7068

Trenowanie z learning_rate=0.01...
  Dokładność walidacyjna: 0.8020

Trenowanie z learning_rate=0.1...
  Dokładność walidacyjna: 0.8520

Trenowanie z learning_rate=0.5...
  Dokładność walidacyjna: 0.8631

Najlepszy współczynnik uczenia: 0.5 (dokładność: 0.8631)

d/e) Porównanie różnych sol