In [1]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 🏎️ Formule 1 Data-analyse: Dataset & Preprocessing\n",
    "\n",
    "<div style=\"border-left: 4px solid #DC143C; padding-left: 20px; margin: 20px 0; background-color: #f8f8f8; border-radius: 5px;\">\n    <h3 style=\"color: #DC143C; margin-top: 10px;\">🏁 Project Overview</h3>\n    <p>Een diepgaande analyse van Formule 1 prestaties van 1994-2022, met focus op de invloed van startposities en pitstopstrategieën op raceresultaten.</p>\n</div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "---\n\n## 📊 Dataset Beschrijving\n\n<div style=\"background: linear-gradient(135deg, #f5f5f5 0%, #e8e8e8 100%); padding: 20px; border-radius: 10px; margin: 15px 0;\">\n\nVoor deze analyse gebruikten we **vier open source-datasets** met officiële Formule 1-gegevens:\n\n### 🥇 1. Startposities\n<div style=\"background-color: white; padding: 12px; border-left: 3px solid #DC143C; margin: 10px 0; border-radius: 5px;\">\nPer race bevat deze set de <strong>kwalificatieklasseringen</strong> van alle coureurs.\n</div>\n\n### 🏆 2. Eindresultaten  \n<div style=\"background-color: white; padding: 12px; border-left: 3px solid #DC143C; margin: 10px 0; border-radius: 5px;\">\nHierin staan de <strong>uiteindelijke posities</strong>, het team, het aantal voltooide ronden en de uitvalredenen (DNF, DNS).\n</div>\n\n### ⏱️ 3. Pitstopgegevens\n<div style=\"background-color: white; padding: 12px; border-left: 3px solid #DC143C; margin: 10px 0; border-radius: 5px;\">\nPer pitstop-actie worden het <strong>tijdstip, de duur</strong> (in seconden) en het aantal stops per coureur geregistreerd.\n</div>\n\n### 🔄 4. Overtakes\n<div style=\"background-color: white; padding: 12px; border-left: 3px solid #DC143C; margin: 10px 0; border-radius: 5px;\">\nPer seizoen en per race wordt er gekeken naar de <strong>totale hoeveelheid overtakes</strong>.\n</div>\n\n</div>\n\n<div style=\"background-color: #ffebee; border: 1px solid #DC143C; padding: 15px; border-radius: 8px; margin: 20px 0;\">\n    <strong style=\"color: #DC143C;\">📅 Tijdsperiode:</strong> We kozen de periode <strong>1994 tot en met 2022</strong>, omdat vanaf 1994 de pitstopgegevens volledig en betrouwbaar beschikbaar zijn.\n</div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "---\n\n## 🔧 Preprocessing Methodologie\n\n<div style=\"display: flex; gap: 20px; margin: 20px 0;\">\n    <div style=\"flex: 1; background: linear-gradient(135deg, #ffebee 0%, #f8f8f8 100%); padding: 20px; border-radius: 10px; border-top: 4px solid #DC143C;\">\n        <h3 style=\"color: #DC143C; margin-top: 0;\">🎯 Perspective 1: Geïntegreerde Aanpak</h3>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">🔗 Data Consolidatie</h4>\n            <p>Tijdens de preprocessing brachten we <strong>coureursnamen</strong> en <strong>Grand Prix-benamingen</strong> in alle bestanden op één lijn en voegden we de data op basis van Grand Prix, jaar en coureursnaam samen. Zo bevat elke rij zowel startpositie- als pitstop- en resultaatinformatie.</p>\n        </div>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">🧹 Data Cleaning</h4>\n            <p>Vervolgens verwijderden of markeerden we onvolledige of niet-geclassificeerde records (<code style=\"background-color: #f0f0f0; padding: 2px 4px; border-radius: 3px;\">'NC'</code> voor Not Classified). Pitstoptijden werden omgezet naar numerieke waarden, zodat we gemiddelden en varianties konden berekenen.</p>\n        </div>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">🎛️ Filtering & Visualisatie</h4>\n            <p>We voegden bovendien extra filters toe, zoals op seizoen of circuit, om gerichte analyses mogelijk te maken. Alle dataverwerking gebeurde in <strong>Python</strong>, met behulp van onder andere <code>pandas</code> en <code>numpy</code>. Voor de visualisaties maakten we gebruik van <code>matplotlib</code> en <code>Plotly</code>.</p>\n        </div>\n    </div>\n</div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<div style=\"display: flex; gap: 20px; margin: 20px 0;\">\n    <div style=\"flex: 1; background: linear-gradient(135deg, #fff5f5 0%, #f8f8f8 100%); padding: 20px; border-radius: 10px; border-top: 4px solid #DC143C;\">\n        <h3 style=\"color: #DC143C; margin-top: 0;\">📈 Perspective 2: Relatieve Scoring</h3>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">🔄 Dataset Combinatie</h4>\n            <p>Voor onze analyse combineren we drie open F1-datasets: de <strong>startgrid</strong> (<code>starting_grids.csv</code>), de <strong>race-uitslagen</strong> (<code>race_details.csv</code>) en de <strong>pitstop-samenvatting</strong> (<code>pitstops.csv</code>). We beperken ons tot de seizoenen van <strong>1994 tot en met 2022</strong>.</p>\n        </div>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">🏁 Race-ID Koppeling</h4>\n            <p>Vervolgens koppelen we elke sessie aan een eenduidige <strong>race-ID</strong> door de Grand Prix-naam te combineren met het jaartal. De grid-bijdrage (<code>'Pos'</code>) krijgt een leesbare naam (<code>start_pos</code>), de eindpositie hetzelfde (<code>end_pos</code>), en de pitstop-duur (<code>Total</code>) wordt omgezet naar seconden.</p>\n        </div>\n        \n        <div style=\"background-color: white; padding: 15px; border-radius: 8px; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);\">\n            <h4 style=\"color: #333; margin-top: 0;\">⚡ Relatieve Scoring</h4>\n            <p>We berekenen per coureur én per race de <strong>gemiddelde pitstop-tijd</strong>, en zetten die om in een relatieve score waarbij de snelste stop in elke race <span style=\"background-color: #DC143C; color: white; padding: 2px 6px; border-radius: 3px; font-weight: bold;\">1,0</span> wordt en langzamere stops een fractie daarvan. Door de start- en eindposities van elkaar af te trekken, krijgen we het aantal <strong>gewonnen of verloren plekken</strong>.</p>\n        </div>\n    </div>\n</div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "---\n\n## 🏆 Eindresultaat\n\n<div style=\"background: linear-gradient(135deg, #DC143C 0%, #b71c1c 100%); color: white; padding: 20px; border-radius: 10px; margin: 20px 0;\">\n    <h3 style=\"color: white; margin-top: 0;\">📋 Geconsolideerde Dataset</h3>\n    <p style=\"font-size: 16px; line-height: 1.6;\">Het resultaat is <strong>één compacte tabel</strong> met per rij één coureur-racecombinatie:</p>\n    \n    <div style=\"display: grid; grid-template-columns: repeat(auto-fit, minmax(200px, 1fr)); gap: 15px; margin-top: 15px;\">\n        <div style=\"background-color: rgba(255,255,255,0.1); padding: 10px; border-radius: 5px; text-align: center;\">\n            <strong>🏁 Startpositie</strong>\n        </div>\n        <div style=\"background-color: rgba(255,255,255,0.1); padding: 10px; border-radius: 5px; text-align: center;\">\n            <strong>🏆 Eindpositie</strong>\n        </div>\n        <div style=\"background-color: rgba(255,255,255,0.1); padding: 10px; border-radius: 5px; text-align: center;\">\n            <strong>⏱️ Gem. Pitstoptijd</strong>\n        </div>\n        <div style=\"background-color: rgba(255,255,255,0.1); padding: 10px; border-radius: 5px; text-align: center;\">\n            <strong>📊 Relatieve Pit-Score</strong>\n        </div>\n        <div style=\"background-color: rgba(255,255,255,0.1); padding: 10px; border-radius: 5px; text-align: center;\">\n            <strong>📈 Posities Gewonnen</strong>\n        </div>\n    </div>\n    \n    <p style=\"margin-top: 20px; font-style: italic;\">Daarmee hebben we een <strong>schone, uniforme basis</strong> voor al onze visualisaties en analyses.</p>\n</div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "---\n\n## 🛠️ Technische Stack\n\n<div style=\"display: flex; flex-wrap: wrap; gap: 15px; margin: 20px 0;\">\n    <div style=\"background-color: #f0f8ff; border: 1px solid #4169E1; padding: 10px 15px; border-radius: 8px;\">\n        <strong>🐍 Python</strong>\n    </div>\n    <div style=\"background-color: #fff8dc; border: 1px solid #DAA520; padding: 10px 15px; border-radius: 8px;\">\n        <strong>🐼 Pandas</strong>\n    </div>\n    <div style=\"background-color: #f0fff0; border: 1px solid #32CD32; padding: 10px 15px; border-radius: 8px;\">\n        <strong>📊 NumPy</strong>\n    </div>\n    <div style=\"background-color: #fff0f5; border: 1px solid #DC143C; padding: 10px 15px; border-radius: 8px;\">\n        <strong>📈 Matplotlib</strong>\n    </div>\n    <div style=\"background-color: #f5f5f5; border: 1px solid #696969; padding: 10px 15px; border-radius: 8px;\">\n        <strong>📊 Plotly</strong>\n    </div>\n</div>\n\n<div style=\"background-color: #f8f9fa; border-left: 4px solid #DC143C; padding: 15px; margin: 20px 0; border-radius: 5px;\">\n    <p style=\"margin: 0; font-style: italic;\">🎯 <strong>Doel:</strong> De invloed van startpositie en pitstopstrategie zowel <strong>statistisch onderbouwd</strong> als <strong>visueel overtuigend</strong> in kaart brengen.</p>\n</div>"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}

{'cells': [{'cell_type': 'markdown',
   'metadata': {},
   'source': ['# 🏎️ Formule 1 Data-analyse: Dataset & Preprocessing\n',
    '\n',
    '<div style="border-left: 4px solid #DC143C; padding-left: 20px; margin: 20px 0; background-color: #f8f8f8; border-radius: 5px;">\n    <h3 style="color: #DC143C; margin-top: 10px;">🏁 Project Overview</h3>\n    <p>Een diepgaande analyse van Formule 1 prestaties van 1994-2022, met focus op de invloed van startposities en pitstopstrategieën op raceresultaten.</p>\n</div>']},
  {'cell_type': 'markdown',
   'metadata': {},
   'source': ['---\n\n## 📊 Dataset Beschrijving\n\n<div style="background: linear-gradient(135deg, #f5f5f5 0%, #e8e8e8 100%); padding: 20px; border-radius: 10px; margin: 15px 0;">\n\nVoor deze analyse gebruikten we **vier open source-datasets** met officiële Formule 1-gegevens:\n\n### 🥇 1. Startposities\n<div style="background-color: white; padding: 12px; border-left: 3px solid #DC143C; margin: 10px 0; border-radius: 5px;">\nPer rac