# Hypothesis testing: t-test

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
df = pd.read_csv('Cleaned_Taxi_Trip_Data.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,Duration
0,24870114,2,2017-03-25 08:55:43,2017-03-25 09:09:47,6,3.34,1,N,100,231,1,13.0,0.0,0.5,2.76,0.0,0.3,16.56,14.066667
1,35634249,1,2017-04-11 14:53:28,2017-04-11 15:19:58,1,1.8,1,N,186,43,1,16.0,0.0,0.5,4.0,0.0,0.3,20.8,26.5
2,106203690,1,2017-12-15 07:26:56,2017-12-15 07:34:08,1,1.0,1,N,262,236,1,6.5,0.0,0.5,1.45,0.0,0.3,8.75,7.2
3,38942136,2,2017-05-07 13:17:59,2017-05-07 13:48:14,1,3.7,1,N,188,97,1,20.5,0.0,0.5,6.39,0.0,0.3,27.69,30.25
4,30841670,2,2017-04-15 23:32:20,2017-04-15 23:49:03,1,4.37,1,N,4,112,2,16.5,0.5,0.5,0.0,0.0,0.3,17.8,16.716667


### Hypothesis 1

*   $H_0$: Il y a une différence entre les tarifs moyens des taxis en journée et la nuit.
*   $H_A$: Il n'y a pas de différence entre les tarifs moyens des taxis en journée et la nuit.

In [8]:
df['hour'] = df['tpep_pickup_datetime'].dt.hour

heure_debut_jour = 6
heure_fin_jour = 18

tarifs_jour = df[(df['hour'] >= heure_debut_jour) & (df['hour'] < heure_fin_jour)]['fare_amount']
tarifs_nuit = df[(df['hour'] < heure_debut_jour) | (df['hour'] >= heure_fin_jour)]['fare_amount']

t_stat, p_value = stats.ttest_ind(tarifs_jour, tarifs_nuit, equal_var=False)

print("Statistique t :", t_stat)
print("Valeur p :", p_value)

alpha = 0.05 
if p_value < alpha:
    print("La différence entre les tarifs moyens des taxis en journée et la nuit est statistiquement significative.")
else:
    print("Il n'y a pas de différence significative entre les tarifs moyens des taxis en journée et la nuit.")


Statistique t : -0.8067690985684937
Valeur p : 0.4198086115173493
Il n'y a pas de différence significative entre les tarifs moyens des taxis en journée et la nuit.


### Hypothesis 2

*   $H_0$: Il y a une différence entre les tarifs moyens des taxis en semaine et le week-end.
*   $H_A$: Il n'y a pas de différence entre les tarifs moyens des taxis en semaine et le week-end.

In [9]:
df['weekday'] = df['tpep_pickup_datetime'].dt.dayofweek

tarifs_semaine = df[df['weekday'].isin([0, 1, 2, 3, 4])]['fare_amount']
tarifs_weekend = df[df['weekday'].isin([5, 6])]['fare_amount']

t_stat, p_value = stats.ttest_ind(tarifs_semaine, tarifs_weekend, equal_var=False)

print("Statistique t :", t_stat)
print("Valeur p :", p_value)

alpha = 0.05
if p_value < alpha:
    print("La différence entre les tarifs moyens des trajets de taxi en semaine et le week-end est statistiquement significative.")
else:
    print("Il n'y a pas de différence significative entre les tarifs moyens des trajets de taxi en semaine et le week-end.")


Statistique t : 3.3398076100615177
Valeur p : 0.0008410480930098839
La différence entre les tarifs moyens des trajets de taxi en semaine et le week-end est statistiquement significative.
