# Raport: Analiza danych i budowa modelu predykcyjnego
**Cel:** Na podstawie dostarczonych danych zbudować model predykcyjny przewidujący wartość zmiennej `score`.

In [7]:
# Importowanie bibliotek
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Wczytywanie przetworzonych danych
df = pd.read_csv("src/processed_data_with_dummies.csv")

# Podstawowe informacje o danych
df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4739 entries, 0 to 4738
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   rownames            4739 non-null   int64  
 1   unemp               4739 non-null   float64
 2   wage                4739 non-null   float64
 3   distance            4739 non-null   float64
 4   tuition             4739 non-null   float64
 5   education           4739 non-null   int64  
 6   gender_male         4739 non-null   bool   
 7   ethnicity_hispanic  4739 non-null   bool   
 8   ethnicity_other     4739 non-null   bool   
 9   fcollege_yes        4739 non-null   bool   
 10  mcollege_yes        4739 non-null   bool   
 11  home_yes            4739 non-null   bool   
 12  urban_yes           4739 non-null   bool   
 13  income_low          4739 non-null   bool   
 14  region_west         4739 non-null   bool   
 15  score               4739 non-null   float64
dtypes: boo

Unnamed: 0,rownames,unemp,wage,distance,tuition,education,score
count,4739.0,4739.0,4739.0,4739.0,4739.0,4739.0,4739.0
mean,3954.638953,7.597215,9.500506,1.80287,0.814608,13.807765,50.889029
std,5953.827761,2.763581,1.343067,2.297128,0.339504,1.789107,8.70191
min,1.0,1.4,6.59,0.0,0.25751,12.0,28.950001
25%,1185.5,5.9,8.85,0.4,0.48499,12.0,43.924999
50%,2370.0,7.1,9.68,1.0,0.82448,13.0,51.189999
75%,3554.5,8.9,10.15,2.5,1.12702,16.0,57.769999
max,37810.0,24.9,12.96,20.0,1.40416,18.0,72.809998


### Eksploracja danych
Dane zawierają informacje o odległości college'u i osiągnięciach edukacyjnych uczniów. Tabela poniżej przedstawia opis statystyczny oraz podstawowe informacje o zmiennych.

In [8]:
# Wykresy rozkładów zmiennych
sns.pairplot(df)
plt.savefig('pairplot.png')
plt.close()
plt.show()

# Wykres rozkładu zmiennej score
plt.figure(figsize=(8, 6))
sns.histplot(df['score'], kde=True)
plt.title("Distribution of Score")
plt.xlabel("Score")
plt.ylabel("Frequency")
plt.savefig('score_distribution.png')
plt.close()
plt.show()


### Wykresy rozkładów zmiennych
![Pairplot](pairplot.png)

![Rozkład zmiennej score](score_distribution.png)

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import joblib
import matplotlib.pyplot as plt

# Przygotowanie danych
X = df.drop(columns=['score'])  # Upewnij się, że 'score' jest usunięte
y = df['score']

# Użycie podziału danych na zestaw treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Wczytaj model
model = joblib.load("src/trained_model.joblib")

# Predykcja
y_pred = model.predict(X_test)

# Ocena modelu
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Wizualizacja wyników
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("Actual Score")
plt.ylabel("Predicted Score")
plt.title("Actual vs Predicted Score")
plt.savefig('actual_vs_predicted.png')
plt.close()




ValueError: The feature names should match those that were passed during fit.
Feature names seen at fit time, yet now missing:
- score


### Ocena modelu
![Actual vs Predicted Score](actual_vs_predicted.png)

### Opis wyników
Model Random Forest został oceniony przy użyciu MSE (Mean Squared Error) oraz R². Wartość R² sugeruje, że model jest skuteczny w przewidywaniu wartości zmiennej score na podstawie dostępnych danych. Wartość MSE wskazuje na niewielkie błędy w przewidywaniach, natomiast wysoka wartość R² sugeruje, że model dobrze wyjaśnia zmienność wyników.


In [None]:
# Ocena modelu
print("Ocena modelu:")
print(f"Model Random Forest został oceniony przy użyciu MSE (Mean Squared Error) oraz R².")
print(f"Uzyskane wyniki wskazują na satysfakcjonującą jakość predykcji,")
print(f"z wartością R² wynoszącą {r2:.2f} oraz MSE równym {mse:.2f}.")
print("Model jest skuteczny w przewidywaniu wartości zmiennej 'score' na podstawie dostępnych danych.")
