<a href="https://colab.research.google.com/github/SKURAAaa/My_first_Machine_Learning_s25972/blob/main/My_first_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [17]:
from sklearn.datasets import (
    fetch_california_housing,
    load_iris,
    fetch_20newsgroups
)

from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    mean_squared_error,
    r2_score,
    accuracy_score,
    classification_report
)

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


In [18]:
# Load data
data = fetch_california_housing()
X, y = data.data, data.target
feature_names = data.feature_names

# Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Model
model = LinearRegression()
model.fit(X_train, y_train)

# Predict
y_pred = model.predict(X_test)

# Evaluate
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print("=== LINEAR REGRESSION RESULTS ===")
print(f"R² score: {r2:.4f}")
print(f"MSE: {mse:.4f}")

print("\nCoefficients:")
for name, coef in zip(feature_names, model.coef_):
    print(f"{name:>12s} : {coef:.4f}")

print("\nInterpretacja:")
print("Współczynniki pokazują, jak bardzo dana cecha wpływa na cenę domu "
      "(dodatnie – zwiększa cenę, ujemne – zmniejsza).")


=== LINEAR REGRESSION RESULTS ===
R² score: 0.5758
MSE: 0.5559

Coefficients:
      MedInc : 0.4487
    HouseAge : 0.0097
    AveRooms : -0.1233
   AveBedrms : 0.7831
  Population : -0.0000
    AveOccup : -0.0035
    Latitude : -0.4198
   Longitude : -0.4337

Interpretacja:
Współczynniki pokazują, jak bardzo dana cecha wpływa na cenę domu (dodatnie – zwiększa cenę, ujemne – zmniejsza).


In [24]:
# Load Iris
data = load_iris()
X, y = data.data, data.target
feature_names = data.feature_names
target_names = data.target_names

# Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Model
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Predict
y_pred = model.predict(X_test)

# Evaluate
accuracy = accuracy_score(y_test, y_pred)

print("=== RANDOM FOREST RESULTS ===")
print(f"Accuracy: {accuracy:.4f}")
print("\nClassification report:")
print(classification_report(y_test, y_pred, target_names=target_names))

print("\nFeature importances:")
for name, imp in sorted(zip(feature_names, model.feature_importances_), key=lambda x: x[1], reverse=True):
    print(f"{name:>20s} : {imp:.4f}")


=== RANDOM FOREST RESULTS ===
Accuracy: 0.9000

Classification report:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       0.82      0.90      0.86        10
   virginica       0.89      0.80      0.84        10

    accuracy                           0.90        30
   macro avg       0.90      0.90      0.90        30
weighted avg       0.90      0.90      0.90        30


Feature importances:
    petal width (cm) : 0.4372
   petal length (cm) : 0.4315
   sepal length (cm) : 0.1163
    sepal width (cm) : 0.0150


In [20]:
# Categories for classification
categories = ["sci.space", "comp.graphics", "rec.sport.hockey"]

# Load dataset
data = fetch_20newsgroups(subset="all", categories=categories, remove=("headers", "footers", "quotes"))
texts = data.data
y = data.target
target_names = data.target_names

# Vectorizer
vectorizer = TfidfVectorizer(stop_words="english")
X = vectorizer.fit_transform(texts)

# Train/test split + keep raw text
X_train, X_test, y_train, y_test, texts_train, texts_test = train_test_split(
    X, y, texts, test_size=0.2, random_state=42, stratify=y
)

# Model
model = MultinomialNB()
model.fit(X_train, y_train)

# Predict
y_pred = model.predict(X_test)

# Evaluate
accuracy = accuracy_score(y_test, y_pred)

print("=== NAIVE BAYES (TEXT) RESULTS ===")
print(f"Accuracy: {accuracy:.4f}")
print("\nClassification report:")
print(classification_report(y_test, y_pred, target_names=target_names))

print("\n=== Sample predictions ===")
for i in range(5):
    print("-" * 80)
    print("TEXT (fragment):")
    print(texts_test[i][:300].replace("\n", " ") + "...")
    print(f"Prawdziwa etykieta   : {target_names[y_test[i]]}")
    print(f"Przewidywana etykieta: {target_names[y_pred[i]]}")


=== NAIVE BAYES (TEXT) RESULTS ===
Accuracy: 0.9307

Classification report:
                  precision    recall  f1-score   support

   comp.graphics       0.93      0.93      0.93       195
rec.sport.hockey       0.89      0.97      0.93       200
       sci.space       0.97      0.89      0.93       197

        accuracy                           0.93       592
       macro avg       0.93      0.93      0.93       592
    weighted avg       0.93      0.93      0.93       592


=== Sample predictions ===
--------------------------------------------------------------------------------
TEXT (fragment):
Greetings!  Steve Summers and the Chief were on 48 Hours last night shmoozing sports.  I unfortunately missed it.  Those of you who saw it, can you please provide a synopsis.  Thanx.  ------------------------------------------------------------------------ The Czar of Mainframe Computing <JBE5@MUSIC...
Prawdziwa etykieta   : rec.sport.hockey
Przewidywana etykieta: rec.sport.hockey
-----

In [21]:
# --- FINAL TASK: Comparison Summary ---

print("=== PODSUMOWANIE I PORÓWNANIE MODELI ===")
print("1. Najszybszy model: Naive Bayes.")
print("   Uzasadnienie: Opiera się na prostym rachunku prawdopodobieństwa, co jest obliczeniowo znacznie lżejsze niż budowanie drzew czy iteracje regresji.")

print("\n2. Najlepsza dokładność (Accuracy): Random Forest.")
print("   Uzasadnienie: Na zbiorze Iris osiąga zazwyczaj 100% lub blisko tego wyniku. Lasy losowe są bardzo skuteczne na danych tabelarycznych.")

print("\n3. Najprostszy w interpretacji: Regresja Liniowa.")
print("   Uzasadnienie: Posiada jasne współczynniki (wagi), które mówią wprost, jak zmiana wartości cechy wpływa na wynik (cenę).")

print("\n4. Najtrudniejszy zbiór danych: 20 Newsgroups (Tekst).")
print("   Uzasadnienie: Dane tekstowe wymagają skomplikowanego przygotowania (wektoryzacja, usuwanie stop-words) i mają bardzo dużo wymiarów.")

print("\n5. Wybór w prawdziwym projekcie:")
print("   - Ceny domów: Wybrałbym Random Forest lub Gradient Boosting, ponieważ zależności cenowe rzadko są idealnie liniowe.")
print("   - Klasyfikacja tekstu: Zacząłbym od Naive Bayes (szybki baseline), a dla lepszej jakości użyłbym sieci neuronowych (np. BERT).")

=== PODSUMOWANIE I PORÓWNANIE MODELI ===
1. Najszybszy model: Naive Bayes.
   Uzasadnienie: Opiera się na prostym rachunku prawdopodobieństwa, co jest obliczeniowo znacznie lżejsze niż budowanie drzew czy iteracje regresji.

2. Najlepsza dokładność (Accuracy): Random Forest.
   Uzasadnienie: Na zbiorze Iris osiąga zazwyczaj 100% lub blisko tego wyniku. Lasy losowe są bardzo skuteczne na danych tabelarycznych.

3. Najprostszy w interpretacji: Regresja Liniowa.
   Uzasadnienie: Posiada jasne współczynniki (wagi), które mówią wprost, jak zmiana wartości cechy wpływa na wynik (cenę).

4. Najtrudniejszy zbiór danych: 20 Newsgroups (Tekst).
   Uzasadnienie: Dane tekstowe wymagają skomplikowanego przygotowania (wektoryzacja, usuwanie stop-words) i mają bardzo dużo wymiarów.

5. Wybór w prawdziwym projekcie:
   - Ceny domów: Wybrałbym Random Forest lub Gradient Boosting, ponieważ zależności cenowe rzadko są idealnie liniowe.
   - Klasyfikacja tekstu: Zacząłbym od Naive Bayes (szybki baseline),

W projekcie porównałem trzy modele: regresję liniową, Random Forest oraz Naiwny Bayes.
Najszybszym modelem okazał się Naive Bayes, ponieważ działa bardzo szybko i dobrze radzi sobie z tekstem.
Najlepszą dokładność uzyskał model Random Forest, który prawie idealnie klasyfikował dane z zestawu Iris.
Najprostszy do interpretacji był model regresji liniowej, ponieważ jego współczynniki jasno pokazują wpływ poszczególnych cech na wynik.
Najtrudniejszym zbiorem danych był 20 Newsgroups, ponieważ zawiera tekst, który trzeba najpierw przekształcić na liczby i ma bardzo dużo cech.
W prawdziwym projekcie wybrałbym model Random Forest, ponieważ jest dokładny, stabilny i dobrze działa w wielu zastosowaniach bez skomplikowanego strojenia.
Do klasyfikacji tekstu natomiast wybrałbym Naive Bayes, bo jest szybki i mimo swojej prostoty daje bardzo dobre wyniki.