In [None]:
# Instalujemy wszystkie potrzebne biblioteki z pliku requirements.txt
# UWAGA: działa tylko, jeśli plik requirements.txt jest w tym samym katalogu co notebook
# oraz środowisko pozwala na wykonywanie poleceń systemowych (!)

# Jeśli pracujesz np. w Google Colab lub lokalnie z uprawnieniami pip:
!pip install -r requirements.txt

In [None]:
# Importujemy najważniejsze biblioteki:
import pandas as pd                     # do pracy z danymi w tabeli (DataFrame)
import numpy as np                      # operacje matematyczne/tablicowe
import matplotlib.pyplot as plt         # tworzenie wykresów
import seaborn as sns                   # ładniejsze wizualizacje (bazuje na matplotlib)

# Biblioteki do uczenia maszynowego
from sklearn.model_selection import train_test_split     # podział danych na zbiór treningowy i testowy
from sklearn.linear_model import LinearRegression         # model regresji liniowej
from sklearn.metrics import mean_squared_error            # metryka: średni błąd kwadratowy

In [None]:
# Wczytujemy dane z pliku CSV (plik musi znajdować się w tym samym katalogu co notebook)
df = pd.read_csv("data.csv")

# Wyświetlamy pierwsze 5 wierszy, żeby zobaczyć strukturę danych
df.head()

In [None]:
# Informacje o typach danych i brakujących wartościach
df.info()

# Podstawowe statystyki opisowe: średnia, min, max, odchylenie itd.
print("\nStatystyki opisowe:\n")
print(df.describe())

# Macierz korelacji – sprawdzamy siłę zależności między zmiennymi
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Macierz korelacji między zmiennymi")
plt.show()

In [None]:
# Wybieramy jedną cechę (zmienną niezależną) – 'test_probny'
X_single = df[['test_probny']]              # X musi być 2D (dlatego podwójne [[]])
y = df['egzamin_zawodowy']                  # Zmienna zależna (target)

# Dzielimy dane na zbiór treningowy i testowy (80/20)
X_train_s, X_test_s, y_train_s, y_test_s = train_test_split(X_single, y, test_size=0.2, random_state=0)

# Tworzymy i trenujemy model regresji liniowej
model_single = LinearRegression()
model_single.fit(X_train_s, y_train_s)

# Przewidujemy wyniki dla zbioru testowego
y_pred_s = model_single.predict(X_test_s)

# Obliczamy błąd średniokwadratowy (MSE)
mse_single = mean_squared_error(y_test_s, y_pred_s)
print(f"Błąd MSE (1 cecha): {mse_single:.2f}")

# Wykres: dane rzeczywiste i linia regresji
plt.figure(figsize=(10,6))
plt.scatter(X_test_s, y_test_s, label="Rzeczywiste oceny")    # punkty rzeczywiste
plt.plot(X_test_s, y_pred_s, color='red', linewidth=2, label="Regresja liniowa")  # linia przewidywań
plt.xlabel("Wynik z testu próbnego")
plt.ylabel("Wynik z egzaminu zawodowego")
plt.title("Regresja liniowa: tylko test_probny")
plt.legend()
plt.grid(True)
plt.show()


In [None]:
# Wybieramy wszystkie kolumny jako cechy (poza targetem)
X = df.drop('egzamin_zawodowy', axis=1)
y = df['egzamin_zawodowy']

# Dzielimy dane na treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Trenujemy model na wielu zmiennych
model_full = LinearRegression()
model_full.fit(X_train, y_train)

# Przewidujemy wyniki
y_pred = model_full.predict(X_test)

# Obliczamy błąd
mse_full = mean_squared_error(y_test, y_pred)
print(f"Błąd MSE (wszystkie cechy): {mse_full:.2f}")

# Wyświetlamy współczynniki regresji (wpływ każdej zmiennej na wynik)
coefficients = pd.DataFrame({
    'Cecha': X.columns,
    'Współczynnik': model_full.coef_
})
print(coefficients.sort_values(by="Współczynnik", key=abs, ascending=False))  # sortujemy po wpływie



In [None]:
# Wykres porównujący wartości rzeczywiste i przewidywane przez model
plt.figure(figsize=(8,6))
plt.scatter(y_test, y_pred, alpha=0.7)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)  # linia idealnego dopasowania
plt.xlabel("Rzeczywiste oceny")
plt.ylabel("Przewidywane oceny")
plt.title("Rzeczywiste vs Przewidywane (model z wszystkimi cechami)")
plt.grid(True)
plt.show()

