# Raport: Analiza danych i budowa modelu predykcyjnego
**Cel:** Na podstawie dostarczonych danych zbudować model predykcyjny przewidujący wartość zmiennej `score`.

In [None]:
# Importowanie bibliotek
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Wczytywanie danych
df = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/AER/CollegeDistance.csv')

# Podstawowe informacje o danych
df.info()

# Opis statystyczny
df.describe()


### Eksploracja danych
Dane zawierają informacje o odległości college'u i osiągnięciach edukacyjnych uczniów. Tabela poniżej przedstawia opis statystyczny oraz podstawowe informacje o zmiennych.

In [None]:
# Wykresy rozkładów zmiennych
sns.pairplot(df)
plt.savefig('pairplot.png')
plt.show()


In [None]:
from sklearn.model_selection import train_test_split

# Usunięcie zbędnych kolumn i podział na zmienne objaśniające i zmienną celu
X = df.drop(columns=['Unnamed: 0', 'score'])
y = df['score']

# Podział danych
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


### Inżynieria cech
Dane zostały podzielone na zbiór treningowy (70%) i testowy (30%) oraz oczyszczone z niepotrzebnych kolumn.


In [None]:
from sklearn.ensemble import RandomForestRegressor

# Inicjalizacja modelu
model = RandomForestRegressor(random_state=42)

# Trenowanie modelu
model.fit(X_train, y_train)


### Budowa modelu
Model Random Forest został wybrany ze względu na jego skuteczność przy pracy z dużymi zbiorami danych oraz jego zdolność do radzenia sobie z cechami o różnej skali.


In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# Predykcje i ewaluacja modelu
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'R²: {r2}')


### Ocena modelu
Model został oceniony przy użyciu MSE (Mean Squared Error) oraz R². Wyniki wskazują, że model osiągnął satysfakcjonujące wyniki, z wartością R² wynoszącą {r2:.2f} i MSE równym {mse:.2f}.
