# Exploratory Data Analysis

## Algemene instructies
Je geeft je antwoord telkens na de ✍️. In de bijhorende code-cell(en) toon je hoe je aan dat antwoord kwam. Becommentarieer je code!

## Dataset Schema

| Column Name | Description |
|-------------|-------------|
| Date | Date of the booking |
| Time | Time of the booking |
| Booking ID | Unique identifier for each ride booking |
| Booking Status | Status of booking (Completed, Cancelled by Customer, Cancelled by Driver, etc.) |
| Customer ID | Unique identifier for customers |
| Vehicle Type | Type of vehicle (Go Mini, Go Sedan, Auto, eBike/Bike, UberXL, Premier Sedan) |
| Pickup Location | Starting location of the ride |
| Drop Location | Destination location of the ride |
| Avg VTAT | Average time for driver to reach pickup location (in minutes) |
| Avg CTAT | Average trip duration from pickup to destination (in minutes) |
| Cancelled Rides by Customer | Customer-initiated cancellation flag |
| Reason for cancelling by Customer | Reason for customer cancellation |
| Cancelled Rides by Driver | Driver-initiated cancellation flag |
| Driver Cancellation Reason | Reason for driver cancellation |
| Incomplete Rides | Incomplete ride flag |
| Incomplete Rides Reason | Reason for incomplete rides |
| Booking Value | Total fare amount for the ride |
| Ride Distance | Distance covered during the ride (in km) |
| Driver Ratings | Rating given to driver (1-5 scale) |
| Customer Rating | Rating given by customer (1-5 scale) |
| Payment Method | Method used for payment (UPI, Cash, Credit Card, Uber Wallet, Debit Card) |

In [None]:
import os

import kagglehub
import numpy as np
import pandas as pd
import plotly.express as px

In [None]:
# Download data from kaggle
path = kagglehub.dataset_download("yashdevladdha/uber-ride-analytics-dashboard")

# Load data into Pandas DataFrame
csv_file = os.path.join(path, "ncr_ride_bookings.csv")
df = pd.read_csv(csv_file)
print("✅ Data loaded successfully!")

### Q1
❓ Welke variabele(n) uit de dataframe ontbreken in de lijst:
- `Time`
- `Booking ID`
- `Booking Status`
- `Customer ID`
- `Vehicle Type`
- `Pickup Location`
- `Drop Location`
- `Avg VTAT`
- `Avg CTAT`
- `Cancelled Rides by Customer`
- `Cancelled Rides by Driver`
- `Incomplete Rides`
- `Incomplete Rides Reason`
- `Booking Value`
- `Ride Distance`
- `Driver Ratings`
- `Customer Rating`
- `Payment Method`
  
✍️  


### Q2
❓ Geef een voorbeeld (variabele naam) van een variabele met een *nominale* meetschaal.
  
✍️  


### Q3
❓ Hoeveel unieke waarden telt de variabele die je opgaf bij Q2?
  
✍️  


### Q4
❓ Welke variabele(n) hebben het meeste missing values?
  
✍️  

### Q5
❓ Hoeveel observaties zouden we overhouden als we een analyse maken met de volgende variabelen waarbij we alle observaties met missing values weglaten?
- `Vehicle Type`
- `Avg CTAT`
  
✍️  


### Q6
❓ Wat is de `Timestamp` van de oudste observatie van een betaling (zie `Payment Method`) met een `Debit Card`?
  
✍️  


### Q7
❓ Welke soort `Payment Method` heeft het kleinste aandeel in de observaties (naam + percentage)?
  
✍️  


### Q8
❓Welke `Pickup Location` is het meest populair (naam + aantal observaties)?
  
✍️  


### Q9
❓Geef een voorbeeld (variabele naam) van een variabele met een *interval* meetschaal.
  
✍️  


### Q10
❓Geef volgende descriptieve waarden voor deze variabele (precisie: 1 decimaal):  
- Aantal (_non-missing_) observaties
- Gemiddelde
- Standaardafwijking
- Minimum
- Maximum
- 25% Percentiel
- 50% Percentiel
- 75% Percentiel
  
✍️  


### Q11
❓ Bepaal of er uitschieters zijn voor de variabele `Booking Value` en zo ja, geef hun aantal volgens de twee onderstaande methodes. Je gebruikt hiervoor volgende grenzen:

$$
\begin{align}
\text{lower}&: Q1 - 3 \times IQR \cr
\text{upper}&: Q3 + 3 \times IQR
\end{align} 
$$

Geef zowel de grenzen als het aantal outliers in je antwoord.
  
✍️  


### Q12
❓ Bereken de gemiddelde `Avg VTAT` voor iedere dag van de week voor `Uber XL` op de meest populaire pickup locatie (precisie: 1 decimaal).
  
✍️  


### Q13
❓ Beschouw de observaties voor `Avg CTAT`, `Booking Value` en `Ride Distance`. Pas een natuurlijke log-transformatie toe en imputeer alle missing values door de mediaan van iedere variabele.
- Wat is de hoogste absolute paarsgewijze correlatie ($-1 < x < 1$) in de getransformeerde data subset (precisie: 4 decimalen)?
- Gaat het over een positief of negatief verband?
  
✍️  
