# Onderzoeksvragen

1. **In hoeverre is de prijs van de rit te voorspellen op basis van de andere kenmerken?**
   - Gebruik taxi-data uit andere landen of bekijk de invloed van het weer.

Deze onderzoeksvraag richt zich op het onderzoeken van factoren die de prijs van een taxirit beïnvloeden.
Hierbij kunnen we gebruik maken van verschillende kenmerken zoals afstand en het type taxi. Door middel van regressiemodellen kunnen we de relatie tussen deze kenmerken en de ritprijs analyseren.

2. **In hoeverre is het mogelijk om logische clusters te vinden o.b.v. onder andere de prijs, afstand en type taxi?**
   - Zijn er hele dure auto's waar korte ritjes mee gedaan worden?
   - Of zijn er juist goedkopere auto's met langere ritten?
   - Of zijn er juist clusters te vinden op basis van de tijd of de plaats?

## Onderzoeksvraag 1

1. **In hoeverre is de prijs van de rit te voorspellen op basis van de andere kenmerken?**
   
In dit segment onderzoeken we welke kenmerken in onze dataset kunnen bijdragen aan het ontwikkelen van een model dat de prijs van een taxirit nauwkeurig kan voorspellen.
Omdat wij de categorie "price" willen gaan predicten gaan wij een regressie model toepassen.

- <a href="#L_importeren">Librarys importeren</a>
- <a href="#Data_analyse">Data-analyse</a>
- <a href="#Data_preprocessing">Data-preprocessing</a>
- <a href="#Model_creeren">Model creëren</a>
- <a href="#Model_evalueren">Model evalueren</a>

<a id ="L_importeren"></a>
### Librarys importeren

In [23]:
from IPython.display import display
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor  # Import RandomForestRegressor
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import seaborn as sns 
import pandas as pd


In [None]:
df = pd.read_csv("taxi_dataset.csv")
df.head()

### Data Analyze

In [None]:
gemiddelde_waarden = df[['price', 'distance', 'surge_multiplier']].mean()

# Print de gemiddelde waarden
print("Gemiddelde waarden in de dataset:")
print(gemiddelde_waarden)

# Gemiddelde prijs per type taxi
gemiddelde_prijs_per_type = df.groupby('name')['price'].mean()

# Print de gemiddelde prijs per type taxi
print("\nGemiddelde prijs per type taxi:")
print(gemiddelde_prijs_per_type)

Afhankelijke variabele:

Price: Dit is de variabele die je probeert te voorspellen of te verklaren, dus het is de afhankelijke variabele.

Onafhankelijke variabelen:

Dit zijn de variabelen die kunnen helpen bij het voorspellen van de prijs.

Surge_multiplier: Een verhogingsfactor die aangeeft of er een toeslag is toegepast op de ritprijs.
Timestamp: De UNIX-tijdstempel die aangeeft wanneer de rit plaatsvond.
Datetime: De datum en tijd waarop de rit plaatsvond (afgeleid van de timestamp).
Timezone: De tijdzone waarin de rit plaatsvond.
Source: De vertrekplaats van de rit.
Destination: De bestemming van de rit.
Latitude: De breedtegraad van de locatie (mogelijk relevant voor ruimtelijke analyse).
Longitude: De lengtegraad van de locatie.
Distance: De afstand van de rit.
Name (type of taxi): Het type taxi dat werd gebruikt (bijvoorbeeld UberX, Black SUV).

meetniveau
1. Price: Ratio 
2. Surge_multiplier: Ratio
3. Timestamp: Interval
4. Datetime: Interval
5. Timezone: Nominaal
6. Source: Nominaal
7. Destination: Nominaal
8. Latitude: Interval
9. Longitude: Interval
10. Distance: Ratio
11. Name (type of taxi): Nominaal

In [None]:
# Controleer of er missende waarden zijn in de dataset
missing_values = df.isnull().sum()

# Print het aantal missende waarden per kolom
print("Aantal missende waarden per kolom:")
print(missing_values)

In [None]:
# Filter de rijen waar de prijs ontbreekt
missende_prijs = df[df['price'].isnull()]

# Bekijk de verschillende taxitypes waarbij de prijs ontbreekt
taxitypes_met_missende_prijs = missende_prijs['name'].value_counts()

# Print de resultaten
print("Taxitypes waarbij de prijs ontbreekt en hoe vaak dat voorkomt:")
print(taxitypes_met_missende_prijs)


In [None]:
# Aantal unieke waarden en frequenties voor 'timezone'
timezone_counts = df['timezone'].value_counts()
print("Aantal voor 'timezone':")
print(timezone_counts)
print("\nAantal unieke 'timezone' waarden:", df['timezone'].nunique())

# Aantal unieke waarden en frequenties voor 'source'
source_counts = df['source'].value_counts()
print("\nAantal voor 'source':")
print(source_counts)
print("\nAantal unieke 'source' waarden:", df['source'].nunique())

# Aantal unieke waarden en frequenties voor 'destination'
destination_counts = df['destination'].value_counts()
print("\nAantal voor 'destination':")
print(destination_counts)
print("\nAantal unieke 'destination' waarden:", df['destination'].nunique())

# # Maak een nieuwe kolom die het unieke paar van latitude en longitude combineert
# df['lat_lon'] = df[['latitude', 'longitude']].astype(str).agg(','.join, axis=1)

# # Tel het aantal unieke lat_lon paren en hun frequenties
# unique_lat_lon_counts = df['lat_lon'].value_counts()

# # Print de resultaten
# print("Aantal unieke latitude-longitude paren en hun frequenties:")
# print(unique_lat_lon_counts)
# print("\nAantal unieke 'latitude-longitude' waarden:", df['lat_lon'].nunique())

In [None]:
# Vervang 'UberXL' door het type taxi waarvoor je rijen wilt zien
taxi_type = 'Taxi'

# Filter de dataset op het opgegeven type taxi
taxi_df = df[df['name'] == taxi_type]

# Toon 5 willekeurige rijen van dit type taxi
sample_rows = taxi_df.sample(n=5, random_state=42)  # random_state zorgt voor reproduceerbaarheid

print(f"Vijf willekeurige rijen voor taxi type '{taxi_type}':")
print(sample_rows)

Als eerst gaan we op ongefilterde data een analyze doen

In [28]:
label_encoder = LabelEncoder()

complete_df_encoded = df.copy()
for column in complete_df_encoded.columns:
    if complete_df_encoded[column].dtype == 'object':
        complete_df_encoded[column] = label_encoder.fit_transform(complete_df_encoded[column])

In [None]:
complete_df_encoded.boxplot(column='price', by='name', figsize=(10, 6))

Zoals te zien is in deze boxplot, zijn er veel 'fliers', oftewel uitschieters. Deze uitschieters zullen tijdens het preprocessen worden verwijderd om betere voorspellingsresultaten te verkrijgen. Uitschieters kunnen namelijk invloed hebben op de helling van het regressiemodel.

**Kolommen die worden verwijderd:**
- Id: De kolom Id is voor elke rij uniek. Dit komt waarschijnlijk doordat de dataset uit een database is gehaald.
- Surge multiplier en timezone: Deze kolommen zijn constant en dragen daarom niet bij aan de voorspelling van onze decision trees.
- Datetime: De kolom datetime bevat dezelfde informatie als timestamp, maar dan geformatteerd als een datetime-object.

In [None]:

sns.pairplot(complete_df_encoded.drop(columns=["id", "surge_multiplier", "timezone", "datetime"]))

In [None]:
# correlation matrix
correlation_matrix = complete_df_encoded.corr()
plt.matshow(correlation_matrix, cmap='coolwarm', fignum=1)
plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation='vertical')
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)
plt.colorbar()
plt.title("Correlation Matrix")
plt.show()

# display(correlation_matrix)

<a id="Data_preprocessing"></a>
### Data-preprocessing

In [33]:
# columns to drop
columns_to_drop = ["id", "surge_multiplier", "datetime", "timezone", "latitude", "longitude"] 

# rows to drop for column "name"
rows_to_drop = ["taxi"]

In [34]:
df_cleaned = df.copy()

In [35]:
df_cleaned = df_cleaned.drop(columns=columns_to_drop)
df_cleaned = df_cleaned.convert_dtypes()
df_cleaned = df_cleaned[df_cleaned["name"] != "Taxi"]
df_cleaned = df_cleaned.drop_duplicates()

In [36]:
# calculating Z score for "price" column
df_cleaned = df_cleaned.dropna()
# calculate for each name the average price and standard deviation
price_mean = df_cleaned.groupby("name")["price"].mean()
price_std = df_cleaned.groupby("name")["price"].std()

# df_cleaned = df_cleaned[df_cleaned["price_zscore"] <= max_zscore]

# price_mean = df["price"].mean()
# price_std = df["price"].std()
# df["price_zscore"] = (df["price"] - price_mean) / price_std

# # filtering out rows with Z score > 3
# max_zscore = 3
# df = df[df["price_zscore"].abs() <= max_zscore]

# dropping the "price_zscore" column
# df_cleaned = df_cleaned.drop(columns=["price_zscore", "price_mean", "price_std"])

In [37]:
# remove the rows where the price is more than 3 standard deviations away from the mean
df_cleaned = df_cleaned.join(price_mean, on="name", rsuffix="_mean")
df_cleaned = df_cleaned.join(price_std, on="name", rsuffix="_std")
df_cleaned["price_zscore"] = (df_cleaned["price"] - df_cleaned["price_mean"]) / df_cleaned["price_std"]

df_cleaned = df_cleaned[df_cleaned["price_zscore"] >= -3]
df_cleaned = df_cleaned[df_cleaned["price_zscore"] <= 2.2]

In [38]:
label_encoder = LabelEncoder()
df_cleaned['name'] = label_encoder.fit_transform(df_cleaned['name'])
df_cleaned["source"] = label_encoder.fit_transform(df_cleaned["source"])
df_cleaned["destination"] = label_encoder.fit_transform(df_cleaned["destination"])

In [39]:
df_cleaned = df_cleaned.drop(columns=["price_mean", "price_std", "price_zscore"])

In [None]:
df_cleaned.boxplot(column='price', by="name", figsize=(10, 6))

In [None]:
sns.pairplot(df_cleaned)

# Creating the model
Here we will be creating a RandomForestReggresion model.

But first we will load and create the correct data for the model

In [42]:
X = df_cleaned.drop(["price"], axis=1)
y = df_cleaned["price"]

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Training the model

In [43]:
# best parameters calculated using GridSearchCV
best_params = {
    'bootstrap': True,
    'max_depth': 20,
    'min_samples_leaf': 4,
    'min_samples_split': 2,
    'n_estimators': 100
 }

In [None]:
# Train the model with the best parameters
best_rf = RandomForestRegressor(**best_params, oob_score=True)
best_rf.fit(X_train, y_train)

### Testing the model

In [None]:
# Evaluating the model
y_pred = best_rf.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Absolute Error: {mae}")
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")
print(f"OOB Score: {best_rf.oob_score_}")

Mean Absolute Error: 1.1143601504075586
Mean Squared Error: 2.980089376956178
R^2 Score: 0.9556330199990544
OOB Score: 0.9536688307985068

In [None]:
# plot the actual vs predicted price
fig, ax = plt.subplots(1, 2, figsize=(20, 6))
ax[0].scatter(y_test, y_pred, alpha=0.2, marker='o', linewidths=0)
ax[0].plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
ax[0].grid(True)
ax[0].set_xlabel('Actual Price')
ax[0].set_ylabel('Predicted Price')
ax[0].set_title('Actual vs Predicted Price (XGBoost)')
sns.kdeplot(y_test, label='Actual prices', fill=True, color='blue')
sns.kdeplot(y_pred, label='Predicted prices' , fill=True, color='orange')
ax[1].set_xlabel('Price')
ax[1].grid(True)
ax[1].set_ylabel('Density')
ax[1].set_title('"Distribution of Actual vs. Predicted Values"')
ax[1].legend()
plt.show()

In [None]:
# heat map

plt.figure(figsize=(10, 8))
sns.heatmap(df_cleaned.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Correlation Matrix")
plt.show()

In [None]:
# Feature importances
# This plot will show the importance of each feature in the model when it comes to predicting the target variable.
importances = best_rf.feature_importances_
forest_importances = pd.Series(importances, index=X.columns)

fig, ax = plt.subplots()
forest_importances.plot.bar(ax=ax)
ax.set_title("Feature importances using MDI")
ax.set_ylabel("Mean decrease in impurity")
fig.tight_layout()

In [None]:
forest_importances