# 📊 Ćwiczenia: Regresja Liniowa

**Cel:** Praktyczne zastosowanie algorytmów regresji liniowej na rzeczywistych danych

**Dataset:** Student Performance Dataset - zawiera informacje o wynikach uczniów wraz z różnymi czynnikami, które mogą wpływać na ich osiągnięcia akademickie.

## 🎯 Cel biznesowy
Jako analityk danych w instytucji edukacyjnej, Twoim zadaniem jest zbudowanie modelu, który będzie przewidywał wyniki uczniów na podstawie różnych czynników. Pomoże to w:
- Identyfikacji uczniów zagrożonych słabymi wynikami
- Optymalizacji programów wsparcia
- Zrozumieniu kluczowych czynników wpływających na sukces akademicki

---

**Instrukcja:** Uzupełnij kod w miejscach oznaczonych `# TODO:`

## 📋 Spis treści

1. [Wczytanie i eksploracja danych](#1-wczytanie-i-eksploracja-danych)
2. [Przygotowanie danych](#2-przygotowanie-danych)
3. [Regresja liniowa - podstawy](#3-regresja-liniowa---podstawy)
4. [Regresja wielokrotna](#4-regresja-wielokrotna)
5. [Regularyzacja (Ridge & Lasso)](#5-regularyzacja-ridge--lasso)
6. [Ewaluacja modeli](#6-ewaluacja-modeli)
7. [Walidacja krzyżowa](#7-walidacja-krzyżowa)
8. [Analiza wyników](#8-analiza-wyników)
9. [Zadania dodatkowe](#9-zadania-dodatkowe)

## 1. Wczytanie i eksploracja danych

### Zadanie 1.1: Import bibliotek i wczytanie danych
Zaimportuj niezbędne biblioteki i wczytaj dataset Student_Performance.csv

In [None]:
# TODO: Zaimportuj niezbędne biblioteki
# Potrzebujesz: pandas, numpy, matplotlib, seaborn, sklearn


# TODO: Wczytaj dataset Student_Performance.csv z folderu datasets/
df = None

# TODO: Wyświetl podstawowe informacje o datasecie
# - pierwsze 5 wierszy
# - kształt datasetu
# - informacje o kolumnach i typach danych


### Zadanie 1.2: Eksploracja struktury danych
Przeanalizuj strukę danych i zidentyfikuj zmienne numeryczne i kategoryczne

In [None]:
# TODO: Sprawdź brakujące wartości


# TODO: Wyświetl statystyki opisowe dla zmiennych numerycznych


# TODO: Zidentyfikuj kolumny kategoryczne i numeryczne
categorical_columns = None
numerical_columns = None

print(f"Kolumny kategoryczne: {categorical_columns}")
print(f"Kolumny numeryczne: {numerical_columns}")

# TODO: Dla każdej kolumny kategorycznej wyświetl unikalne wartości


### Zadanie 1.3: Analiza zmiennej docelowej
Przeanalizuj rozkład zmiennej, którą będziemy przewidywać

In [None]:
# TODO: Zidentyfikuj zmienną docelową (którą chcemy przewidywać)
# Wskazówka: sprawdź nazwy kolumn i wybierz tę, która reprezentuje wyniki/oceny uczniów
target_column = None  # np. 'FinalGrade' lub podobna

print(f"Wybrana zmienna docelowa: {target_column}")

# TODO: Przeanalizuj rozkład zmiennej docelowej
# - statystyki opisowe
# - histogram
# - sprawdź czy są wartości odstające


# TODO: Sprawdź czy zmienna docelowa ma rozkład normalny
# Użyj histogramu z krzywą KDE


### Zadanie 1.4: Analiza korelacji
Przebadaj zależności między zmiennymi

In [None]:
# TODO: Oblicz macierz korelacji dla zmiennych numerycznych


# TODO: Stwórz heatmapę korelacji
# Użyj seaborn.heatmap z odpowiednimi parametrami (annot=True, cmap='coolwarm')


# TODO: Znajdź zmienne najbardziej skorelowane ze zmienną docelową
# Wyświetl korelacje posortowane malejąco


## 2. Przygotowanie danych

### Zadanie 2.1: Czyszczenie danych
Przygotuj dane do modelowania

In [None]:
# TODO: Obsłuż brakujące wartości
# Sprawdź czy są brakujące wartości i zdecyduj jak je obsłużyć


# TODO: Usuń duplikaty jeśli istnieją


# TODO: Sprawdź i obsłuż wartości odstające
# Użyj metody IQR lub Z-score dla zmiennej docelowej


### Zadanie 2.2: Kodowanie zmiennych kategorycznych
Przekształć zmienne kategoryczne na numeryczne

In [None]:
# TODO: Zaimportuj niezbędne funkcje do kodowania
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# TODO: Dla zmiennych binarnych użyj LabelEncoder
# TODO: Dla zmiennych z wieloma kategoriami użyj OneHotEncoder

# Przykład struktury (dostosuj do swoich danych):
# binary_columns = []  # kolumny binarne (np. 'Gender')
# categorical_columns_multi = []  # kolumny z wieloma kategoriami

# TODO: Zastosuj odpowiednie kodowanie i stwórz nowy DataFrame
df_encoded = df.copy()

print(f"Kształt danych po kodowaniu: {df_encoded.shape}")
print(f"Nowe kolumny: {df_encoded.columns.tolist()}")

### Zadanie 2.3: Podział danych
Podziel dane na zbiory treningowy i testowy

In [None]:
# TODO: Zaimportuj train_test_split
from sklearn.model_selection import train_test_split

# TODO: Zdefiniuj zmienne objaśniające (X) i zmienną docelową (y)
X = None  # wszystkie kolumny oprócz zmiennej docelowej
y = None  # zmienna docelowa

print(f"Kształt X: {X.shape}")
print(f"Kształt y: {y.shape}")

# TODO: Podziel dane na zbiory treningowy i testowy (80/20)
# Użyj random_state=42 dla reprodukowalności
X_train, X_test, y_train, y_test = None, None, None, None

print(f"Rozmiar zbioru treningowego: {X_train.shape[0]}")
print(f"Rozmiar zbioru testowego: {X_test.shape[0]}")

## 3. Regresja liniowa - podstawy

### Zadanie 3.1: Regresja liniowa pojedyncza
Zbuduj model regresji liniowej z jedną zmienną objaśniającą

In [None]:
# TODO: Zaimportuj LinearRegression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# TODO: Wybierz jedną zmienną najbardziej skorelowaną ze zmienną docelową
best_feature = None  # nazwa kolumny

# TODO: Stwórz dane dla regresji pojedynczej
X_single = None  # jedna kolumna
y_single = y_train

# TODO: Stwórz i wytrenuj model regresji liniowej
model_single = LinearRegression()
# Wytrenuj model

# TODO: Wykonaj predykcje na zbiorze treningowym
y_pred_single = None

print(f"Użyta zmienna: {best_feature}")
print(f"R² Score: {r2_score(y_single, y_pred_single):.4f}")
print(f"MSE: {mean_squared_error(y_single, y_pred_single):.4f}")

### Zadanie 3.2: Wizualizacja regresji pojedynczej
Utworz wykres pokazujący linię regresji

In [None]:
# TODO: Stwórz wykres punktowy pokazujący:
# - rzeczywiste wartości (scatter plot)
# - linię regresji
# - dodaj tytuł, opisy osi i legendę

import matplotlib.pyplot as plt

# TODO: Stwórz wykres
plt.figure(figsize=(10, 6))

# Scatter plot rzeczywistych wartości

# Linia regresji

# Formatowanie wykresu


plt.show()

# TODO: Wyświetl współczynniki modelu
print(f"Współczynnik kierunkowy (slope): {model_single.coef_[0]:.4f}")
print(f"Punkt przecięcia (intercept): {model_single.intercept_:.4f}")

## 4. Regresja wielokrotna

### Zadanie 4.1: Model z wieloma zmiennymi
Zbuduj model regresji liniowej wykorzystujący wszystkie dostępne zmienne

In [None]:
# TODO: Stwórz model regresji wielokrotnej
model_multiple = LinearRegression()

# TODO: Wytrenuj model na wszystkich dostępnych zmiennych


# TODO: Wykonaj predykcje na zbiorze treningowym i testowym
y_train_pred = None
y_test_pred = None

# TODO: Oblicz metryki dla obu zbiorów
print("=== ZBIÓR TRENINGOWY ===")
print(f"R² Score: {r2_score(y_train, y_train_pred):.4f}")
print(f"MSE: {mean_squared_error(y_train, y_train_pred):.4f}")
print(f"MAE: {mean_absolute_error(y_train, y_train_pred):.4f}")

print("\n=== ZBIÓR TESTOWY ===")
print(f"R² Score: {r2_score(y_test, y_test_pred):.4f}")
print(f"MSE: {mean_squared_error(y_test, y_test_pred):.4f}")
print(f"MAE: {mean_absolute_error(y_test, y_test_pred):.4f}")

### Zadanie 4.2: Analiza ważności cech
Przeanalizuj które zmienne mają największy wpływ na predykcje

In [None]:
# TODO: Stwórz DataFrame z współczynnikami modelu
feature_importance = pd.DataFrame({
    'feature': X_train.columns,
    'coefficient': model_multiple.coef_
})

# TODO: Posortuj według wartości bezwzględnej współczynników
feature_importance['abs_coefficient'] = None
feature_importance = None  # posortuj

print("Ważność cech (współczynniki modelu):")
print(feature_importance)

# TODO: Stwórz wykres słupkowy pokazujący ważność cech
plt.figure(figsize=(12, 6))
# Użyj pierwszych 10 najważniejszych cech

plt.show()

## 5. Regularyzacja (Ridge & Lasso)

### Zadanie 5.1: Regresja Ridge
Zastosuj regularyzację Ridge aby zmniejszyć overfitting

In [None]:
# TODO: Zaimportuj Ridge
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler

# TODO: Przeskaluj dane (ważne dla regularyzacji)
scaler = StandardScaler()
X_train_scaled = None
X_test_scaled = None

# TODO: Stwórz i wytrenuj model Ridge z różnymi wartościami alpha
alphas = [0.1, 1.0, 10.0, 100.0]
ridge_results = []

for alpha in alphas:
    # TODO: Stwórz model Ridge
    ridge_model = None
    
    # TODO: Wytrenuj model
    
    # TODO: Wykonaj predykcje
    y_pred_ridge = None
    
    # TODO: Oblicz R² score
    r2 = None
    
    ridge_results.append({
        'alpha': alpha,
        'r2_score': r2
    })
    
    print(f"Ridge Alpha {alpha}: R² = {r2:.4f}")

# TODO: Znajdź najlepsze alpha
best_ridge = max(ridge_results, key=lambda x: x['r2_score'])
print(f"\nNajlepsze alpha dla Ridge: {best_ridge['alpha']}")

### Zadanie 5.2: Regresja Lasso
Zastosuj regularyzację Lasso do selekcji cech

In [None]:
# TODO: Zaimportuj Lasso
from sklearn.linear_model import Lasso

# TODO: Stwórz i wytrenuj model Lasso z różnymi wartościami alpha
alphas_lasso = [0.01, 0.1, 1.0, 10.0]
lasso_results = []

for alpha in alphas_lasso:
    # TODO: Stwórz model Lasso
    lasso_model = None
    
    # TODO: Wytrenuj model
    
    # TODO: Wykonaj predykcje
    y_pred_lasso = None
    
    # TODO: Oblicz R² score
    r2 = None
    
    # TODO: Policz ile cech zostało wyzerowanych
    non_zero_features = None
    
    lasso_results.append({
        'alpha': alpha,
        'r2_score': r2,
        'non_zero_features': non_zero_features
    })
    
    print(f"Lasso Alpha {alpha}: R² = {r2:.4f}, Niezerowe cechy: {non_zero_features}")

# TODO: Znajdź najlepsze alpha dla Lasso
best_lasso = max(lasso_results, key=lambda x: x['r2_score'])
print(f"\nNajlepsze alpha dla Lasso: {best_lasso['alpha']}")

### Zadanie 5.3: Porównanie modeli
Porównaj wyniki wszystkich modeli

In [None]:
# TODO: Stwórz najlepsze modele z optymalnym alpha
best_ridge_model = Ridge(alpha=best_ridge['alpha'])
best_lasso_model = Lasso(alpha=best_lasso['alpha'])

# TODO: Wytrenuj najlepsze modele


# TODO: Wykonaj predykcje na zbiorze testowym dla wszystkich modeli
y_test_pred_linear = model_multiple.predict(X_test)
y_test_pred_ridge = None
y_test_pred_lasso = None

# TODO: Stwórz porównanie wszystkich modeli
models_comparison = pd.DataFrame({
    'Model': ['Linear Regression', 'Ridge', 'Lasso'],
    'R² Score': [
        r2_score(y_test, y_test_pred_linear),
        None,  # Ridge R²
        None   # Lasso R²
    ],
    'MSE': [
        mean_squared_error(y_test, y_test_pred_linear),
        None,  # Ridge MSE
        None   # Lasso MSE
    ]
})

print("Porównanie modeli na zbiorze testowym:")
print(models_comparison)

## 6. Ewaluacja modeli

### Zadanie 6.1: Analiza residuów
Przeanalizuj reszty modelu aby sprawdzić założenia regresji liniowej

In [None]:
# TODO: Oblicz residua (reszty) dla najlepszego modelu
# Wybierz model z najwyższym R² score
best_model = None  # wybierz najlepszy model
y_pred_best = None  # predykcje najlepszego modelu

residuals = y_test - y_pred_best

# TODO: Stwórz wykres residuów vs predykcje
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# 1. Residua vs Predykcje
axes[0, 0].scatter(y_pred_best, residuals, alpha=0.6)
axes[0, 0].axhline(y=0, color='r', linestyle='--')
axes[0, 0].set_xlabel('Predykcje')
axes[0, 0].set_ylabel('Residua')
axes[0, 0].set_title('Residua vs Predykcje')

# 2. Histogram residuów
axes[0, 1].hist(residuals, bins=20, edgecolor='black', alpha=0.7)
axes[0, 1].set_xlabel('Residua')
axes[0, 1].set_ylabel('Częstość')
axes[0, 1].set_title('Rozkład residuów')

# 3. Q-Q plot
from scipy import stats
stats.probplot(residuals, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot')

# 4. Rzeczywiste vs Predykcje
axes[1, 1].scatter(y_test, y_pred_best, alpha=0.6)
axes[1, 1].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
axes[1, 1].set_xlabel('Rzeczywiste wartości')
axes[1, 1].set_ylabel('Predykcje')
axes[1, 1].set_title('Rzeczywiste vs Predykcje')

plt.tight_layout()
plt.show()

### Zadanie 6.2: Dodatkowe metryki
Oblicz dodatkowe metryki ewaluacji

In [None]:
# TODO: Oblicz dodatkowe metryki
from sklearn.metrics import explained_variance_score
import numpy as np

# TODO: Oblicz wszystkie metryki dla najlepszego modelu
metrics = {
    'R² Score': None,
    'MSE': None,
    'RMSE': None,  # pierwiastek z MSE
    'MAE': None,
    'Explained Variance': None,
    'MAPE': None  # Mean Absolute Percentage Error
}

# TODO: Oblicz MAPE
def mean_absolute_percentage_error(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

metrics['MAPE'] = mean_absolute_percentage_error(y_test, y_pred_best)

print("Szczegółowe metryki najlepszego modelu:")
for metric, value in metrics.items():
    print(f"{metric}: {value:.4f}")

## 7. Walidacja krzyżowa

### Zadanie 7.1: Cross-validation
Zastosuj walidację krzyżową dla lepszej oceny modeli

In [None]:
# TODO: Zaimportuj funkcje do walidacji krzyżowej
from sklearn.model_selection import cross_val_score, KFold

# TODO: Zdefiniuj walidację krzyżową
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# TODO: Przetestuj wszystkie modele z walidacją krzyżową
models_to_test = {
    'Linear Regression': LinearRegression(),
    'Ridge': Ridge(alpha=best_ridge['alpha']),
    'Lasso': Lasso(alpha=best_lasso['alpha'])
}

cv_results = {}

for name, model in models_to_test.items():
    # TODO: Wykonaj walidację krzyżową
    # Użyj przeskalowanych danych dla Ridge i Lasso
    if name in ['Ridge', 'Lasso']:
        scores = None  # cross_val_score z przeskalowanymi danymi
    else:
        scores = None  # cross_val_score z oryginalnymi danymi
    
    cv_results[name] = {
        'mean_score': scores.mean(),
        'std_score': scores.std(),
        'scores': scores
    }
    
    print(f"{name}:")
    print(f"  Średni R² Score: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")
    print(f"  Wszystkie wyniki: {scores}")
    print()

# TODO: Znajdź najlepszy model na podstawie CV
best_cv_model = max(cv_results.items(), key=lambda x: x[1]['mean_score'])
print(f"Najlepszy model (CV): {best_cv_model[0]}")

## 8. Analiza wyników

### Zadanie 8.1: Wizualizacja porównania modeli
Stwórz wykresy porównujące wszystkie modele

In [None]:
# TODO: Stwórz wykres porównujący wyniki CV wszystkich modeli
model_names = list(cv_results.keys())
mean_scores = [cv_results[name]['mean_score'] for name in model_names]
std_scores = [cv_results[name]['std_score'] for name in model_names]

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# 1. Wykres słupkowy średnich wyników CV
ax1.bar(model_names, mean_scores, yerr=std_scores, capsize=5, alpha=0.7)
ax1.set_ylabel('R² Score')
ax1.set_title('Porównanie modeli - Walidacja krzyżowa')
ax1.set_ylim(0, 1)

# Dodaj wartości na słupkach
for i, (mean, std) in enumerate(zip(mean_scores, std_scores)):
    ax1.text(i, mean + std + 0.01, f'{mean:.3f}', ha='center')

# 2. Box plot wyników CV
cv_scores_list = [cv_results[name]['scores'] for name in model_names]
ax2.boxplot(cv_scores_list, labels=model_names)
ax2.set_ylabel('R² Score')
ax2.set_title('Rozkład wyników CV')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

### Zadanie 8.2: Interpretacja wyników
Przeanalizuj i zinterpretuj otrzymane wyniki

In [None]:
# TODO: Stwórz podsumowanie wyników
print("=" * 60)
print("                    PODSUMOWANIE ANALIZY")
print("=" * 60)

print(f"\n🎯 DATASET: Student Performance")
print(f"   - Liczba obserwacji: {len(df)}")
print(f"   - Liczba cech: {X.shape[1]}")
print(f"   - Zmienna docelowa: {target_column}")

print(f"\n📊 NAJLEPSZY MODEL: {best_cv_model[0]}")
print(f"   - R² Score (CV): {best_cv_model[1]['mean_score']:.4f} ± {best_cv_model[1]['std_score']:.4f}")

print(f"\n📈 KLUCZOWE ZMIENNE (Top 5):")
# TODO: Wyświetl 5 najważniejszych cech z najlepszego modelu
top_features = feature_importance.head(5)
for _, row in top_features.iterrows():
    print(f"   - {row['feature']}: {row['coefficient']:.4f}")

print(f"\n🔍 WNIOSKI:")
# TODO: Napisz 3-5 wniosków z analizy
print("   1. [Twój wniosek o najlepszym modelu]")
print("   2. [Twój wniosek o najważniejszych cechach]")
print("   3. [Twój wniosek o jakości predykcji]")
print("   4. [Twój wniosek o regularyzacji]")
print("   5. [Twój wniosek o zastosowaniu biznesowym]")

## 9. Zadania dodatkowe

### 🎯 Zadanie Bonus 1: Selekcja cech
Zastosuj różne metody selekcji cech i porównaj wyniki

In [None]:
# TODO: Zaimportuj narzędzia do selekcji cech
from sklearn.feature_selection import SelectKBest, f_regression, RFE

# TODO: 1. Univariate Feature Selection
selector_k_best = SelectKBest(score_func=f_regression, k=5)
# Dopasuj selektor i przekształć dane

# TODO: 2. Recursive Feature Elimination
estimator = LinearRegression()
selector_rfe = RFE(estimator, n_features_to_select=5)
# Dopasuj selektor

# TODO: 3. Porównaj wybrane cechy
print("Cechy wybrane przez SelectKBest:")
print("Cechy wybrane przez RFE:")

# TODO: 4. Przetestuj modele z wybranymi cechami
# Stwórz modele regresji z wybranymi cechami i porównaj wyniki

### 🎯 Zadanie Bonus 2: Regresja polinomialna
Zbadaj czy dodanie cech wielomianowych poprawi model

In [None]:
# TODO: Zaimportuj PolynomialFeatures
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# TODO: Stwórz pipeline z cechami wielomianowymi
# Użyj degree=2 aby nie przesadzić z złożonością
poly_pipeline = Pipeline([
    ('poly', PolynomialFeatures(degree=2, include_bias=False)),
    ('scaler', StandardScaler()),
    ('regressor', Ridge(alpha=1.0))
])

# TODO: Wytrenuj model wielomianowy

# TODO: Oceń model z walidacją krzyżową

# TODO: Porównaj z poprzednimi modelami
print("Wyniki regresji wielomianowej:")
print(f"R² Score (CV): {poly_scores.mean():.4f} ± {poly_scores.std():.4f}")

# TODO: Sprawdź czy model nie jest overfitted
# Porównaj wyniki na zbiorze treningowym i testowym

### 🎯 Zadanie Bonus 3: Hyperparameter tuning
Zoptymalizuj hiperparametry najlepszego modelu

In [None]:
# TODO: Zaimportuj GridSearchCV
from sklearn.model_selection import GridSearchCV

# TODO: Zdefiniuj przestrzeń hiperparametrów dla najlepszego modelu
# Jeśli najlepszy to Ridge/Lasso, zoptymalizuj alpha
# Jeśli Linear Regression, możesz spróbować ElasticNet

from sklearn.linear_model import ElasticNet

# Przykład dla ElasticNet (kombinacja Ridge i Lasso)
param_grid = {
    'alpha': [0.01, 0.1, 1.0, 10.0],
    'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]  # 0=Ridge, 1=Lasso
}

# TODO: Stwórz GridSearchCV
grid_search = GridSearchCV(
    ElasticNet(random_state=42),
    param_grid,
    cv=5,
    scoring='r2',
    n_jobs=-1
)

# TODO: Dopasuj na przeskalowanych danych

# TODO: Wyświetl najlepsze parametry i wynik
print(f"Najlepsze parametry: {grid_search.best_params_}")
print(f"Najlepszy wynik CV: {grid_search.best_score_:.4f}")

# TODO: Przetestuj najlepszy model na zbiorze testowym

## 🎉Nauczyłeś się:

✅ **Eksploracji danych** - analizy rozkładów, korelacji i przygotowania danych

✅ **Regresji liniowej** - od prostej regresji pojedynczej do złożonych modeli wielokrotnych

✅ **Regularyzacji** - technik Ridge i Lasso do kontroli overfittingu

✅ **Ewaluacji modeli** - różnych metryk i technik walidacji

✅ **Walidacji krzyżowej** - rzetelnej oceny wydajności modeli

✅ **Interpretacji wyników** - analizy współczynników i wyciągania wniosków biznesowych

### 💡 Następne kroki:
- Eksperymentuj z innymi algorytmami regresji (Random Forest, SVM)
- Spróbuj feature engineering (tworzenie nowych cech)
- Zastosuj technike ensemble (łączenie modeli)
- Zbadaj advanced topics: regularyzacja elastyczna, regresja bayesowska

### 📚 Przydatne zasoby:
- [Scikit-learn User Guide](https://scikit-learn.org/stable/user_guide.html)
- ["Hands-On Machine Learning" - Aurélien Géron](https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/)
- [Kaggle Learn - Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)