<a href="https://colab.research.google.com/github/aradeyal/machine_learning/blob/main/%D7%AA%D7%A8%D7%92%D7%99%D7%9C_%D7%A8%D7%92%D7%A8%D7%A1%D7%99%D7%95%D7%AA_%D7%91%D7%A8%D7%9E%D7%AA_%D7%A1%D7%A4%D7%A8%D7%99%D7%95%D7%AA%E2%80%8E.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [11]:
# 📦 שלב 1: יבוא ספריות
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.feature_selection import SelectKBest, f_regression

# 📥 שלב 2: קריאת קובץ היין (אם העלית ל-Colab)
dataset = pd.read_excel('winequality-red.xlsx')

# ניקוי שמות עמודות
dataset.columns = dataset.columns.str.strip().str.lower()
dataset.rename(columns={'alcoho': 'alcohol'}, inplace=True)

# 🧮 שלב 3: פיצול נתונים
X = dataset.drop('quality', axis=1)
y = dataset['quality']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 📊 שלב 4: פונקציית הערכת מודל
def evaluate_model(model, name):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"🔍 {name}")
    print(f"  MAE: {mean_absolute_error(y_test, y_pred):.3f}")
    print(f"  MSE: {mean_squared_error(y_test, y_pred):.3f}")
    print(f"  R² : {r2_score(y_test, y_pred):.3f}")
    print("-" * 30)
    return r2_score(y_test, y_pred)

# 🧠 שלב 5: בניית רגרסיות שונות
models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(alpha=1.0),
    'Lasso Regression': Lasso(alpha=0.01),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42)
}

results = {}
for name, model in models.items():
    results[name] = evaluate_model(model, name)

# 🏆 שלב 6: המודל עם התוצאה הכי גבוהה
best_model_name = max(results, key=results.get)
print(f"\n🏆 המודל עם הביצועים הטובים ביותר הוא: {best_model_name}")

# 🧪 שלב 7: בחירת פיצ'רים (SelectKBest)
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)
selected_features = X.columns[selector.get_support()]
print(f"\n📌 הפיצ'רים שנבחרו: {list(selected_features)}")

# 💡 שלב 8: אימון המודל הטוב ביותר על הפיצ'רים הנבחרים
X_selected = dataset[selected_features]
X_train_sel, X_test_sel, y_train_sel, y_test_sel = train_test_split(X_selected, y, test_size=0.2, random_state=42)

best_model = models[best_model_name]
best_model.fit(X_train_sel, y_train_sel)
preds_sel = best_model.predict(X_test_sel)

print(f"\n📈 ביצועי '{best_model_name}' עם 5 הפיצ'רים הנבחרים:")
print(f"  MAE: {mean_absolute_error(y_test_sel, preds_sel):.3f}")
print(f"  MSE: {mean_squared_error(y_test_sel, preds_sel):.3f}")
print(f"  R² : {r2_score(y_test_sel, preds_sel):.3f}")


🔍 Linear Regression
  MAE: 0.504
  MSE: 0.390
  R² : 0.403
------------------------------
🔍 Ridge Regression
  MAE: 0.506
  MSE: 0.393
  R² : 0.399
------------------------------
🔍 Lasso Regression
  MAE: 0.521
  MSE: 0.417
  R² : 0.362
------------------------------
🔍 Random Forest
  MAE: 0.422
  MSE: 0.301
  R² : 0.539
------------------------------
🔍 Gradient Boosting
  MAE: 0.485
  MSE: 0.362
  R² : 0.446
------------------------------

🏆 המודל עם הביצועים הטובים ביותר הוא: Random Forest

📌 הפיצ'רים שנבחרו: ['volatile acidity', 'citric acid', 'total sulfur dioxide', 'sulphates', 'alcohol']

📈 ביצועי 'Random Forest' עם 5 הפיצ'רים הנבחרים:
  MAE: 0.436
  MSE: 0.334
  R² : 0.488
