# Raport: Analiza danych i budowa modelu predykcyjnego

**Cel:** Na podstawie dostarczonych danych zbudować model predykcyjny przewidujący wartość zmiennej `score`.


In [1]:
# Importowanie bibliotek
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Wczytywanie przetworzonych danych
df = pd.read_csv("data/processed_data_with_dummies.csv")

# Podstawowe informacje o danych
df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4739 entries, 0 to 4738
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   rownames            4739 non-null   int64  
 1   score               4739 non-null   float64
 2   unemp               4739 non-null   float64
 3   wage                4739 non-null   float64
 4   distance            4739 non-null   float64
 5   tuition             4739 non-null   float64
 6   education           4739 non-null   int64  
 7   gender_male         4739 non-null   bool   
 8   ethnicity_hispanic  4739 non-null   bool   
 9   ethnicity_other     4739 non-null   bool   
 10  fcollege_yes        4739 non-null   bool   
 11  mcollege_yes        4739 non-null   bool   
 12  home_yes            4739 non-null   bool   
 13  urban_yes           4739 non-null   bool   
 14  income_low          4739 non-null   bool   
 15  region_west         4739 non-null   bool   
dtypes: boo

Unnamed: 0,rownames,score,unemp,wage,distance,tuition,education
count,4739.0,4739.0,4739.0,4739.0,4739.0,4739.0,4739.0
mean,3954.638953,50.889029,7.597215,9.500506,1.80287,0.814608,13.807765
std,5953.827761,8.70191,2.763581,1.343067,2.297128,0.339504,1.789107
min,1.0,28.950001,1.4,6.59,0.0,0.25751,12.0
25%,1185.5,43.924999,5.9,8.85,0.4,0.48499,12.0
50%,2370.0,51.189999,7.1,9.68,1.0,0.82448,13.0
75%,3554.5,57.769999,8.9,10.15,2.5,1.12702,16.0
max,37810.0,72.809998,24.9,12.96,20.0,1.40416,18.0


# Eksploracja danych
### Wykresy rozkładów zmiennych


In [2]:
sns.pairplot(df)
plt.savefig('data/pairplot.png')
plt.close()

# Wykres rozkładu zmiennej score
plt.figure(figsize=(8, 6))
sns.histplot(df['score'], kde=True)
plt.title("Distribution of Score")
plt.xlabel("Score")
plt.ylabel("Frequency")
plt.savefig('data/score_distribution.png')
plt.close()



# Wstawianie wykresów
![Pairplot](data/pairplot.png)
![Rozkład zmiennej score](data/score_distribution.png)



In [3]:
from sklearn.metrics import mean_squared_error, r2_score
# Ocena modelu
import joblib

# Wczytaj model
model = joblib.load("data/trained_model.joblib")

# Predykcje i ewaluacja modelu
X = df.drop(columns=['score'])
y = df['score']

y_pred = model.predict(X)

mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)

print(f'MSE: {mse}')
print(f'R²: {r2}')

# Wizualizacja wyników
plt.figure(figsize=(8, 6))
plt.scatter(y, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--')
plt.xlabel("Actual Score")
plt.ylabel("Predicted Score")
plt.title("Actual vs Predicted Score")
plt.savefig('data/actual_vs_predicted.png')
plt.close()



MSE: 21.86593286905961
R²: 0.7111778299301941


# Wstawianie wykresu oceny modelu
![Actual vs Predicted Score](data/actual_vs_predicted.png)

### Ocena modelu
Model Random Forest został oceniony przy użyciu MSE (Mean Squared Error) oraz R². Uzyskane wyniki wskazują na satysfakcjonującą jakość predykcji, z wartością R² wynoszącą {r2:.2f} oraz MSE równym {mse:.2f}. Model jest skuteczny w przewidywaniu wartości zmiennej 'score' na podstawie dostępnych danych.