# Raport: Analiza danych i budowa modelu predykcyjnego
**Cel:** Na podstawie dostarczonych danych zbudować model predykcyjny przewidujący wartość zmiennej `score`.

In [None]:
# Importowanie bibliotek
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Wczytywanie przetworzonych danych
df = pd.read_csv("processed_data.csv")

# Podstawowe informacje o danych
df.info()
df.describe()


### Eksploracja danych
Dane zawierają informacje o odległości college'u i osiągnięciach edukacyjnych uczniów. Tabela poniżej przedstawia opis statystyczny oraz podstawowe informacje o zmiennych.

In [None]:
# Wykres rozkładu zmiennej score
plt.figure(figsize=(8, 6))
sns.histplot(df['score'], kde=True)
plt.title("Distribution of Score")
plt.xlabel("Score")
plt.ylabel("Frequency")
plt.savefig('score_distribution.png')
plt.show()

# Wizualizacja wyników
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("Actual Score")
plt.ylabel("Predicted Score")
plt.title("Actual vs Predicted Score")
plt.savefig('actual_vs_predicted.png')
plt.show()


### Wykresy rozkładów zmiennych
![Pairplot](pairplot.png)

![Rozkład zmiennej score](score_distribution.png)

### Ocena modelu
![Actual vs Predicted Score](actual_vs_predicted.png)

In [None]:
from sklearn.metrics import mean_squared_error, r2_score
import joblib

# Wczytanie modelu
model = joblib.load("model.joblib")

# Wczytanie danych testowych
X_test = pd.read_csv("X_test.csv")
y_test = pd.read_csv("y_test.csv")

# Predykcje i ewaluacja modelu
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'R²: {r2}')



### Wczytywanie i ocena modelu

In [None]:
# Wizualizacja wyników
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("Actual Score")
plt.ylabel("Predicted Score")
plt.title("Actual vs Predicted Score")
plt.show()


### Ocena modelu
Model Random Forest został oceniony przy użyciu MSE (Mean Squared Error) oraz R². Wartość R² sugeruje, że model jest skuteczny w przewidywaniu wartości zmiennej score na podstawie dostępnych danych. Wartość MSE wskazuje na niewielkie błędy w przewidywaniach, natomiast wysoka wartość R² sugeruje, że model dobrze wyjaśnia zmienność wyników.
