# üìä GetAround - Analyse des Retards

## Objectif
Analyser les retards au checkout et d√©terminer le seuil optimal de d√©lai minimum entre deux locations.

## Questions cl√©s √† r√©pondre
1. Quelle part du revenu des propri√©taires serait affect√©e par le d√©lai minimum ?
2. Combien de locations seraient impact√©es selon le seuil choisi ?
3. √Ä quelle fr√©quence les conducteurs sont-ils en retard ?
4. Combien de cas probl√©matiques seraient r√©solus selon le seuil ?

## 1. Chargement des biblioth√®ques

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configuration
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

# Taille des figures
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Biblioth√®ques charg√©es avec succ√®s")

‚úÖ Biblioth√®ques charg√©es avec succ√®s


## 2. Chargement des donn√©es

In [2]:
# Charger le fichier Excel
df_delays = pd.read_excel('../data/get_around_delay_analysis.xlsx')

print(f"üìä Donn√©es charg√©es : {len(df_delays):,} lignes et {len(df_delays.columns)} colonnes")
print(f"\nüóìÔ∏è P√©riode des donn√©es : {df_delays.index.min()} √† {df_delays.index.max()}" if df_delays.index.name else "")

üìä Donn√©es charg√©es : 21,310 lignes et 7 colonnes



## 3. Exploration initiale

In [3]:
# Aper√ßu des donn√©es
print("="*80)
print("APER√áU DES DONN√âES")
print("="*80)
df_delays.head(10)

APER√áU DES DONN√âES


Unnamed: 0,rental_id,car_id,checkin_type,state,delay_at_checkout_in_minutes,previous_ended_rental_id,time_delta_with_previous_rental_in_minutes
0,505000,363965,mobile,canceled,,,
1,507750,269550,mobile,ended,-81.0,,
2,508131,359049,connect,ended,70.0,,
3,508865,299063,connect,canceled,,,
4,511440,313932,mobile,ended,,,
5,511626,398802,mobile,ended,-203.0,,
6,511639,370585,connect,ended,-15.0,563782.0,570.0
7,512303,371242,mobile,ended,-44.0,,
8,512475,322502,mobile,canceled,,,
9,513434,256528,connect,ended,23.0,,


In [4]:
# Informations sur les colonnes
print("="*80)
print("INFORMATIONS SUR LES COLONNES")
print("="*80)
df_delays.info()

INFORMATIONS SUR LES COLONNES
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21310 entries, 0 to 21309
Data columns (total 7 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   rental_id                                   21310 non-null  int64  
 1   car_id                                      21310 non-null  int64  
 2   checkin_type                                21310 non-null  object 
 3   state                                       21310 non-null  object 
 4   delay_at_checkout_in_minutes                16346 non-null  float64
 5   previous_ended_rental_id                    1841 non-null   float64
 6   time_delta_with_previous_rental_in_minutes  1841 non-null   float64
dtypes: float64(3), int64(2), object(2)
memory usage: 1.1+ MB


In [5]:
# Statistiques descriptives
print("="*80)
print("STATISTIQUES DESCRIPTIVES")
print("="*80)
df_delays.describe()

STATISTIQUES DESCRIPTIVES


Unnamed: 0,rental_id,car_id,delay_at_checkout_in_minutes,previous_ended_rental_id,time_delta_with_previous_rental_in_minutes
count,21310.0,21310.0,16346.0,1841.0,1841.0
mean,549712.880338,350030.603426,59.701517,550127.411733,279.28843
std,13863.446964,58206.249765,1002.561635,13184.023111,254.594486
min,504806.0,159250.0,-22433.0,505628.0,0.0
25%,540613.25,317639.0,-36.0,540896.0,60.0
50%,550350.0,368717.0,9.0,550567.0,180.0
75%,560468.5,394928.0,67.0,560823.0,540.0
max,576401.0,417675.0,71084.0,575053.0,720.0


In [6]:
# Valeurs manquantes
print("="*80)
print("VALEURS MANQUANTES")
print("="*80)
missing = df_delays.isnull().sum()
missing_pct = (missing / len(df_delays) * 100).round(2)
missing_df = pd.DataFrame({
    'Nombre': missing,
    'Pourcentage': missing_pct
})
print(missing_df[missing_df['Nombre'] > 0].sort_values('Nombre', ascending=False))

VALEURS MANQUANTES
                                            Nombre  Pourcentage
previous_ended_rental_id                     19469        91.36
time_delta_with_previous_rental_in_minutes   19469        91.36
delay_at_checkout_in_minutes                  4964        23.29


## 4. Analyse des retards

### 4.1 Distribution g√©n√©rale des retards

In [7]:
# M√©triques globales sur les retards
print("="*80)
print("üìä M√âTRIQUES GLOBALES - RETARDS")
print("="*80)

total_rentals = len(df_delays)
late_rentals = (df_delays['delay_at_checkout_in_minutes'] > 0).sum()
on_time_rentals = total_rentals - late_rentals
late_pct = (late_rentals / total_rentals * 100)

print(f"\nüìç Total de locations : {total_rentals:,}")
print(f"‚úÖ Locations √† l'heure : {on_time_rentals:,} ({100-late_pct:.1f}%)")
print(f"‚è∞ Locations en retard : {late_rentals:,} ({late_pct:.1f}%)")

if late_rentals > 0:
    avg_delay = df_delays[df_delays['delay_at_checkout_in_minutes'] > 0]['delay_at_checkout_in_minutes'].mean()
    median_delay = df_delays[df_delays['delay_at_checkout_in_minutes'] > 0]['delay_at_checkout_in_minutes'].median()
    max_delay = df_delays['delay_at_checkout_in_minutes'].max()
    
    print(f"\nüìà Statistiques des retards :")
    print(f"   - Retard moyen : {avg_delay:.1f} minutes ({avg_delay/60:.1f}h)")
    print(f"   - Retard m√©dian : {median_delay:.1f} minutes ({median_delay/60:.1f}h)")
    print(f"   - Retard maximum : {max_delay:.1f} minutes ({max_delay/60:.1f}h)")

üìä M√âTRIQUES GLOBALES - RETARDS

üìç Total de locations : 21,310
‚úÖ Locations √† l'heure : 11,906 (55.9%)
‚è∞ Locations en retard : 9,404 (44.1%)

üìà Statistiques des retards :
   - Retard moyen : 201.8 minutes (3.4h)
   - Retard m√©dian : 53.0 minutes (0.9h)
   - Retard maximum : 71084.0 minutes (1184.7h)


In [8]:
# Graphique : Distribution des retards
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=('Distribution des retards', 'Proportion retard vs √† l\'heure'),
    specs=[[{'type': 'histogram'}, {'type': 'pie'}]]
)

# Histogramme
fig.add_trace(
    go.Histogram(
        x=df_delays['delay_at_checkout_in_minutes'],
        nbinsx=50,
        name='Retards',
        marker_color='indianred'
    ),
    row=1, col=1
)

# Pie chart
fig.add_trace(
    go.Pie(
        labels=['√Ä l\'heure', 'En retard'],
        values=[on_time_rentals, late_rentals],
        marker_colors=['lightgreen', 'indianred']
    ),
    row=1, col=2
)

fig.update_layout(height=400, showlegend=False, title_text="Vue d'ensemble des retards")
fig.show()

### 4.2 Retards par type de checkin

In [9]:
# Analyse par type de checkin
print("="*80)
print("üì± RETARDS PAR TYPE DE CHECKIN")
print("="*80)

checkin_analysis = df_delays.groupby('checkin_type').agg({
    'rental_id': 'count',
    'delay_at_checkout_in_minutes': ['mean', 'median']
})

# Calculer le pourcentage de retards par type
for checkin_type in df_delays['checkin_type'].unique():
    if pd.notna(checkin_type):
        subset = df_delays[df_delays['checkin_type'] == checkin_type]
        late_count = (subset['delay_at_checkout_in_minutes'] > 0).sum()
        late_pct = (late_count / len(subset) * 100)
        print(f"\n{checkin_type}:")
        print(f"  Total locations : {len(subset):,}")
        print(f"  En retard : {late_count:,} ({late_pct:.1f}%)")
        if late_count > 0:
            avg = subset[subset['delay_at_checkout_in_minutes'] > 0]['delay_at_checkout_in_minutes'].mean()
            print(f"  Retard moyen : {avg:.1f} min")

üì± RETARDS PAR TYPE DE CHECKIN

mobile:
  Total locations : 17,003
  En retard : 7,945 (46.7%)
  Retard moyen : 224.1 min

connect:
  Total locations : 4,307
  En retard : 1,459 (33.9%)
  Retard moyen : 80.1 min


In [10]:
# Graphiques comparatifs par type
checkin_stats = []
for checkin_type in df_delays['checkin_type'].dropna().unique():
    subset = df_delays[df_delays['checkin_type'] == checkin_type]
    late_count = (subset['delay_at_checkout_in_minutes'] > 0).sum()
    late_pct = (late_count / len(subset) * 100)
    avg_delay = subset[subset['delay_at_checkout_in_minutes'] > 0]['delay_at_checkout_in_minutes'].mean() if late_count > 0 else 0
    
    checkin_stats.append({
        'Type': checkin_type,
        'Total': len(subset),
        'Retards': late_count,
        'Pct_retards': late_pct,
        'Retard_moyen': avg_delay
    })

df_checkin = pd.DataFrame(checkin_stats)

# Graphiques
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=('% de retards par type', 'Retard moyen par type (minutes)')
)

fig.add_trace(
    go.Bar(x=df_checkin['Type'], y=df_checkin['Pct_retards'], name='% retards', marker_color='coral'),
    row=1, col=1
)

fig.add_trace(
    go.Bar(x=df_checkin['Type'], y=df_checkin['Retard_moyen'], name='Retard moyen', marker_color='skyblue'),
    row=1, col=2
)

fig.update_layout(height=400, showlegend=False)
fig.show()

### 4.3 Impact sur les locations suivantes

In [11]:
# Filtrer les locations avec une location suivante
df_with_next = df_delays[df_delays['time_delta_with_previous_rental_in_minutes'].notna()].copy()

print("="*80)
print("üîó IMPACT SUR LES LOCATIONS SUIVANTES")
print("="*80)
print(f"\nLocations avec location suivante : {len(df_with_next):,}")
print(f"Pourcentage du total : {len(df_with_next)/len(df_delays)*100:.1f}%")

# Identifier les cas probl√©matiques
df_with_next['is_problematic'] = (
    (df_with_next['delay_at_checkout_in_minutes'] > 0) & 
    (df_with_next['delay_at_checkout_in_minutes'] > df_with_next['time_delta_with_previous_rental_in_minutes'])
)

total_problems = df_with_next['is_problematic'].sum()
problem_pct = (total_problems / len(df_with_next) * 100)

print(f"\n‚ö†Ô∏è Cas probl√©matiques (retard > d√©lai entre locations) :")
print(f"   Nombre : {total_problems:,}")
print(f"   Pourcentage : {problem_pct:.2f}%")
print(f"\nüí° Ces cas repr√©sentent des situations o√π le client suivant a √©t√© impact√©")

üîó IMPACT SUR LES LOCATIONS SUIVANTES

Locations avec location suivante : 1,841
Pourcentage du total : 8.6%

‚ö†Ô∏è Cas probl√©matiques (retard > d√©lai entre locations) :
   Nombre : 270
   Pourcentage : 14.67%

üí° Ces cas repr√©sentent des situations o√π le client suivant a √©t√© impact√©


## 5. Simulation de seuils

### 5.1 Impact de diff√©rents seuils

In [12]:
# D√©finir les seuils √† tester
thresholds = [0, 30, 60, 120, 180, 240, 360, 480, 720]  # en minutes

print("="*80)
print("üéØ SIMULATION DE DIFF√âRENTS SEUILS")
print("="*80)

results = []

for threshold in thresholds:
    # Locations qui seraient bloqu√©es
    blocked = df_with_next[df_with_next['time_delta_with_previous_rental_in_minutes'] < threshold]
    blocked_count = len(blocked)
    blocked_pct = (blocked_count / len(df_with_next) * 100)
    
    # Probl√®mes r√©solus
    problems_solved = df_with_next[
        (df_with_next['is_problematic']) & 
        (df_with_next['time_delta_with_previous_rental_in_minutes'] < threshold)
    ]
    solved_count = len(problems_solved)
    solved_pct = (solved_count / total_problems * 100) if total_problems > 0 else 0
    
    results.append({
        'Seuil_min': threshold,
        'Seuil_h': threshold / 60,
        'Locations_bloquees': blocked_count,
        'Pct_bloquees': blocked_pct,
        'Problemes_resolus': solved_count,
        'Pct_resolus': solved_pct
    })
    
    print(f"\nSeuil : {threshold:3d} min ({threshold/60:5.1f}h)")
    print(f"  Locations bloqu√©es : {blocked_count:5,} ({blocked_pct:5.1f}%)")
    print(f"  Probl√®mes r√©solus  : {solved_count:5,} ({solved_pct:5.1f}%)")

df_results = pd.DataFrame(results)

üéØ SIMULATION DE DIFF√âRENTS SEUILS

Seuil :   0 min (  0.0h)
  Locations bloqu√©es :     0 (  0.0%)
  Probl√®mes r√©solus  :     0 (  0.0%)

Seuil :  30 min (  0.5h)
  Locations bloqu√©es :   279 ( 15.2%)
  Probl√®mes r√©solus  :   136 ( 50.4%)

Seuil :  60 min (  1.0h)
  Locations bloqu√©es :   401 ( 21.8%)
  Probl√®mes r√©solus  :   176 ( 65.2%)

Seuil : 120 min (  2.0h)
  Locations bloqu√©es :   666 ( 36.2%)
  Probl√®mes r√©solus  :   224 ( 83.0%)

Seuil : 180 min (  3.0h)
  Locations bloqu√©es :   870 ( 47.3%)
  Probl√®mes r√©solus  :   245 ( 90.7%)

Seuil : 240 min (  4.0h)
  Locations bloqu√©es : 1,001 ( 54.4%)
  Probl√®mes r√©solus  :   251 ( 93.0%)

Seuil : 360 min (  6.0h)
  Locations bloqu√©es : 1,170 ( 63.6%)
  Probl√®mes r√©solus  :   255 ( 94.4%)

Seuil : 480 min (  8.0h)
  Locations bloqu√©es : 1,290 ( 70.1%)
  Probl√®mes r√©solus  :   259 ( 95.9%)

Seuil : 720 min ( 12.0h)
  Locations bloqu√©es : 1,711 ( 92.9%)
  Probl√®mes r√©solus  :   267 ( 98.9%)


In [13]:
# Afficher le tableau complet
print("\n" + "="*80)
print("üìä TABLEAU R√âCAPITULATIF")
print("="*80)
display(df_results.style.format({
    'Seuil_h': '{:.1f}h',
    'Locations_bloquees': '{:,.0f}',
    'Pct_bloquees': '{:.1f}%',
    'Problemes_resolus': '{:,.0f}',
    'Pct_resolus': '{:.1f}%'
}))


üìä TABLEAU R√âCAPITULATIF


Unnamed: 0,Seuil_min,Seuil_h,Locations_bloquees,Pct_bloquees,Problemes_resolus,Pct_resolus
0,0,0.0h,0,0.0%,0,0.0%
1,30,0.5h,279,15.2%,136,50.4%
2,60,1.0h,401,21.8%,176,65.2%
3,120,2.0h,666,36.2%,224,83.0%
4,180,3.0h,870,47.3%,245,90.7%
5,240,4.0h,1001,54.4%,251,93.0%
6,360,6.0h,1170,63.6%,255,94.4%
7,480,8.0h,1290,70.1%,259,95.9%
8,720,12.0h,1711,92.9%,267,98.9%


### 5.2 Graphique Trade-off

In [14]:
# Graphique interactif du trade-off
fig = go.Figure()

# Courbe 1 : Locations bloqu√©es (impact n√©gatif)
fig.add_trace(go.Scatter(
    x=df_results['Seuil_h'],
    y=df_results['Pct_bloquees'],
    mode='lines+markers',
    name='Locations bloqu√©es (%)',
    line=dict(color='red', width=3),
    marker=dict(size=10),
    hovertemplate='<b>Seuil</b>: %{x:.1f}h<br><b>Bloqu√©es</b>: %{y:.1f}%<extra></extra>'
))

# Courbe 2 : Probl√®mes r√©solus (impact positif)
fig.add_trace(go.Scatter(
    x=df_results['Seuil_h'],
    y=df_results['Pct_resolus'],
    mode='lines+markers',
    name='Probl√®mes r√©solus (%)',
    line=dict(color='green', width=3),
    marker=dict(size=10),
    hovertemplate='<b>Seuil</b>: %{x:.1f}h<br><b>R√©solus</b>: %{y:.1f}%<extra></extra>'
))

fig.update_layout(
    title='üéØ Trade-off : Locations bloqu√©es vs Probl√®mes r√©solus',
    xaxis_title='Seuil minimum (heures)',
    yaxis_title='Pourcentage (%)',
    hovermode='x unified',
    height=500,
    template='plotly_white',
    legend=dict(x=0.7, y=0.5)
)

fig.show()

## 6. Recommandations

In [15]:
# Identifier le seuil optimal (exemple : meilleur ratio probl√®mes r√©solus / locations bloqu√©es)
df_results['ratio'] = df_results['Pct_resolus'] / (df_results['Pct_bloquees'] + 1)  # +1 pour √©viter division par 0
optimal_idx = df_results['ratio'].idxmax()
optimal_threshold = df_results.loc[optimal_idx]

print("="*80)
print("üí° RECOMMANDATIONS")
print("="*80)

print(f"\nüéØ Seuil optimal sugg√©r√© : {optimal_threshold['Seuil_min']:.0f} minutes ({optimal_threshold['Seuil_h']:.1f} heures)")
print(f"\nüìä Impact attendu avec ce seuil :")
print(f"   ‚úÖ Probl√®mes r√©solus : {optimal_threshold['Problemes_resolus']:.0f} ({optimal_threshold['Pct_resolus']:.1f}%)")
print(f"   ‚ö†Ô∏è  Locations bloqu√©es : {optimal_threshold['Locations_bloquees']:.0f} ({optimal_threshold['Pct_bloquees']:.1f}%)")

print(f"\nüîç Insights cl√©s :")
print(f"   - {late_pct:.1f}% des locations sont en retard")
print(f"   - {problem_pct:.2f}% des locations cons√©cutives ont des probl√®mes")
print(f"   - Le type '{df_checkin.loc[df_checkin['Pct_retards'].idxmax(), 'Type']}' a le plus de retards")

print(f"\nüíº Recommandation de p√©rim√®tre :")
print(f"   - Commencer avec les voitures 'Connect' uniquement")
print(f"   - √âtendre progressivement selon les r√©sultats")

üí° RECOMMANDATIONS

üéØ Seuil optimal sugg√©r√© : 30 minutes (0.5 heures)

üìä Impact attendu avec ce seuil :
   ‚úÖ Probl√®mes r√©solus : 136 (50.4%)
   ‚ö†Ô∏è  Locations bloqu√©es : 279 (15.2%)

üîç Insights cl√©s :
   - 33.9% des locations sont en retard
   - 14.67% des locations cons√©cutives ont des probl√®mes
   - Le type 'mobile' a le plus de retards

üíº Recommandation de p√©rim√®tre :
   - Commencer avec les voitures 'Connect' uniquement
   - √âtendre progressivement selon les r√©sultats


## 7. Sauvegarde des insights

In [16]:
# Sauvegarder les r√©sultats de simulation pour le dashboard
df_results.to_csv('../data/threshold_simulation_results.csv', index=False)
print("‚úÖ R√©sultats sauvegard√©s dans 'data/threshold_simulation_results.csv'")

‚úÖ R√©sultats sauvegard√©s dans 'data/threshold_simulation_results.csv'


## üìù Conclusions

### Points cl√©s √† retenir :

#### 1. **Fr√©quence des retards**
- **44.1%** des locations (9,404 sur 21,310) sont en retard au checkout
- Le retard moyen est de **201.8 minutes** (3.4 heures)
- Le retard m√©dian est de **53.0 minutes** (0.9 heure)
- üî¥ Le type **Mobile** a le plus de retards : **46.7%** (retard moyen : 224.1 min)
- üü¢ Le type **Connect** est plus performant : **33.9%** de retards (retard moyen : 80.1 min)

#### 2. **Impact sur les clients suivants**
- Seulement **8.6%** des locations (1,841) ont une location suivante imm√©diate
- Parmi ces locations cons√©cutives, **14.67%** (270 cas) sont **probl√©matiques**
- Ces 270 cas repr√©sentent des situations o√π le client suivant a √©t√© directement impact√© par un retard

#### 3. **Seuil optimal recommand√©**
- **Seuil sugg√©r√© : 30 minutes (0.5h)**
- Ce seuil offre le meilleur ratio b√©n√©fice/co√ªt :
  - ‚úÖ R√©sout **50.4%** des probl√®mes (136 cas sur 270)
  - ‚ö†Ô∏è Bloque **15.2%** des locations cons√©cutives (279 locations)
  
**Alternative : Seuil de 120 minutes (2h)**
- Plus conservateur mais tr√®s efficace :
  - ‚úÖ R√©sout **83.0%** des probl√®mes (224 cas)
  - ‚ö†Ô∏è Bloque **36.2%** des locations (666 locations)

#### 4. **Trade-off**
Le graphique montre clairement que :
- Entre **30 min et 120 min** : zone optimale avec le meilleur rapport efficacit√©/impact
- Au-del√† de **180 min** : gains marginaux d√©croissants (on r√©sout peu de probl√®mes suppl√©mentaires mais on bloque beaucoup de locations)
- En dessous de **30 min** : protection insuffisante

### üí° Recommandations finales

#### P√©rim√®tre d'application :
1. **Phase 1** : Commencer avec les voitures **Connect uniquement**
   - Elles ont d√©j√† moins de retards (33.9% vs 46.7%)
   - Impact moindre sur le revenu
   - Test terrain plus contr√¥l√©

2. **Phase 2** : Si r√©sultats positifs, √©tendre aux voitures **Mobile**

#### Seuil recommand√© selon le profil de risque :
- **Conservateur** : 30 minutes - Bloque peu, r√©sout la moiti√© des probl√®mes
- **√âquilibr√©** : 60-120 minutes - Bon compromis (65-83% de r√©solution)
- **Agressif** : 180 minutes - Tr√®s protecteur mais impact significatif sur revenus

### üìä M√©triques de succ√®s √† suivre :
1. R√©duction des plaintes clients pour "voiture non disponible"
2. Taux d'annulation des locations suivantes
3. Impact r√©el sur le revenu des propri√©taires
4. Satisfaction client (NPS)
5. Taux de retard apr√®s mise en place