In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns

In [2]:
df_nyc = pd.read_csv("C:/Users/Magal/OneDrive/Bureau/cleaned_new_york_city.csv")
df_nyc = pd.DataFrame(df_nyc) # New York City

df_wash = pd.read_csv("C:/Users/Magal/OneDrive/Bureau/cleaned_washington_city.csv")
df_wash = pd.DataFrame(df_wash) # Washington

df_chi = pd.read_csv("C:/Users/Magal/OneDrive/Bureau/cleaned_chicago_city.csv")
df_chi = pd.DataFrame(df_chi) # Chicago

In [3]:
# Convertir au format DateTime
df_nyc['Start Time'] = pd.to_datetime(df_nyc['Start Time'])
df_chi['Start Time'] = pd.to_datetime(df_chi['Start Time'])
df_wash['Start Time'] = pd.to_datetime(df_wash['Start Time'])

In [4]:
def jour_activite_max(data):
    # Convertir la colonne 'Start Time' en datetime
    data['Start Time'] = pd.to_datetime(data['Start Time'])
    # Extraire le jour de la semaine (0 = Lundi, 1 = Mardi, ..., 6 = Dimanche)
    data['Day of Week'] = data['Start Time'].dt.dayofweek
    # Trouver le jour avec le plus d'activité
    jour_max = data['Day of Week'].mode()[0]
    return jour_max

In [5]:
def heure_demarrage_courante(data):
    # Convertir la colonne 'Start Time' en datetime
    data['Start Time'] = pd.to_datetime(data['Start Time'])
    # Extraire l'heure de démarrage
    data['Hour'] = data['Start Time'].dt.hour
    # Trouver l'heure de démarrage la plus courante
    heure_courante = data['Hour'].mode()[0]
    return heure_courante

In [6]:
def duree_voyage_moyenne(data):
    # Calculer la durée moyenne
    df_meanm = data['Trip Duration'].mean()
    # Convertir la durée moyenne en heures, minutes et secondes
    hours, remainder = divmod(df_meanm, 3600)
    minutes, seconds = divmod(remainder, 60)
    seconds = round(seconds)
    # Formatter en heure:minutes:secondes
    return '{:02}:{:02}:{:02}'.format(int(hours), int(minutes), int(seconds))

In [7]:
def total_categorie_user(data):
    # Compter les occurrences de chaque catégorie
    total_categorie = data['User Type'].value_counts()
    return total_categorie

In [8]:
def nombre_femmes_hommes(data):
    # Compter les occurrences de chaque sexe
    data['Gender'] = data['Gender'].replace({0: 'femme', 1: 'homme', 2: 'autre'})
    nombre_sexe = data['Gender'].value_counts()
    return nombre_sexe

In [9]:
def annee_naissance(data):
    # Supprimer les lignes avec des valeurs manquantes
    data = data.dropna(subset=['Birth Year'])
    # Convertir la colonne 'Birth Year' en entier
    # data['Birth Year'] = data['Birth Year'].astype(int)
    # Calculer l'année la plus ancienne, la plus récente et la plus courante
    annee_ancienne = data['Birth Year'].min()
    annee_recente = data['Birth Year'].max()
    annee_courante = data['Birth Year'].value_counts().sort_values(ascending=False).index[0]
    return annee_ancienne, annee_recente, annee_courante

In [10]:
def afficher_donnees(data):
    print(data.head(10))

In [11]:
# Fonction principale de l'application
def main():
    while True:
        # Demander à l'utilisateur de choisir la ville et le mois
        ville = input("Veuillez choisir une ville parmi New York City, Chicago ou Washington ou Close pour fermer :")
       
        if ville not in ['New York City', 'Chicago', 'Washington', 'Close']:
            print("Ville invalide. Veuillez choisir une ville parmi New York City, Chicago ou Washington.")
            continue
        
        if ville == 'New York City':
            mois = input("Veuillez choisir le moi :\t 1 = janvier \t 2 = février \t 3 = mars \t 4 = avril \t 5 = mai \t 6 = juin ")
            data = df_nyc
            # Extraction du mois à partir de la colonne 'Start Time'
            data['Month'] = data['Start Time'].dt.month
            # Filtrez les données pour les six premiers mois de l'année (janvier à juin)
            data = data[data['Month'].isin([1, 2, 3, 4, 5, 6])]
        elif ville == 'Chicago':
            mois = input("Veuillez choisir le moi :\t 7 = juillet \t 8 = aout \t 9 = septembre")
            data = df_chi
            data['Month'] = data['Start Time'].dt.month
            data = data[data['Month'].isin([7, 8, 9])]
        elif ville == 'Washington':
            mois = input("Veuillez choisir le moi :\t 10 = octobre \t 11 = novembre \t 12 = décembre")
            data = df_wash
            data['Month'] = data['Start Time'].dt.month
            data = data[data['Month'].isin([10, 11, 12])]
        elif ville == 'Close':
            break
# Sélectionner les données en fonction de la ville et du mois
        if ville == 'new york city':
            data = df_nyc
        elif ville == 'chicago':
            data = df_chi
        else:
            data = df_wash
            
             # Calculer les statistiques demandées
        jour_max = jour_activite_max(data)
        heure_courante = heure_demarrage_courante(data)
        duree_moyenne = duree_voyage_moyenne(data)
        total_categorie = total_categorie_user(data)
        nombre_sexe = nombre_femmes_hommes(data)
        annee_ancienne, annee_recente, annee_courante = annee_naissance(data)
        
        # Afficher les résultats
        print("\nStatistiques pour {} en {} :\n".format(ville.title(), mois.title()))
        print("Jour de la semaine avec le plus d'activité : {}".format(jour_max))
        print("Heure de démarrage la plus courante : {}h".format(heure_courante))
        print("La durée moyenne d'un trajet est de : {}".format(duree_moyenne))
        print("\nTotal par catégorie de User :\n{}".format(total_categorie))
        print("\nNombre total de femmes et d'hommes :\n{}".format(nombre_sexe))
        print("\nAnnée de naissance la plus ancienne : {}".format(annee_ancienne))
        print("Année de naissance la plus récente : {}".format(annee_recente))
        print("Année de naissance la plus courante : {} ({} occurrences)".format(annee_courante, data['Birth Year'].value_counts().max()))
        
        # Demander si l'utilisateur souhaite afficher les 10 premières lignes de données
        print("\nVoulez-vous afficher les 10 premières lignes de données ? (oui/non)")
        afficher = input().lower()
        if afficher == 'oui':
            afficher_donnees(data)
        
        # Demander si l'utilisateur souhaite effectuer une autre recherche
        print("\nVoulez-vous effectuer une autre recherche ? (oui/non)")
        autre_recherche = input().lower()
        if autre_recherche != 'oui':
            break

if __name__ == "__main__":
    main()

Veuillez choisir une ville parmi New York City, Chicago ou Washington ou Close pour fermer : Chicago
Veuillez choisir le moi :	 7 = juillet 	 8 = aout 	 9 = septembre 8



Statistiques pour Chicago en 8 :

Jour de la semaine avec le plus d'activité : 1
Heure de démarrage la plus courante : 17h
La durée moyenne d'un trajet est de : 00:18:39

Total par catégorie de User :
User Type
Subscriber    935707
Customer      112868
Name: count, dtype: int64

Nombre total de femmes et d'hommes :
Gender
homme    691486
autre    244663
femme    112426
Name: count, dtype: int64

Année de naissance la plus ancienne : 1885.0
Année de naissance la plus récente : 2001.0
Année de naissance la plus courante : 1990.0 (41090 occurrences)

Voulez-vous afficher les 10 premières lignes de données ? (oui/non)


 oui


   Trip Duration          Start Time             End Time  Start Station ID  \
0            578 2017-12-01 00:00:29  2017-12-01 00:10:08               368   
1            682 2017-12-01 00:00:36  2017-12-01 00:11:59              3136   
2           2262 2017-12-01 00:00:40  2017-12-01 00:38:23              3175   
3            213 2017-12-01 00:00:45  2017-12-01 00:04:18               383   
4            465 2017-12-01 00:00:44  2017-12-01 00:08:30               280   
5            185 2017-12-01 00:00:47  2017-12-01 00:03:53               291   
6            612 2017-12-01 00:00:47  2017-12-01 00:10:59               307   
7            179 2017-12-01 00:00:53  2017-12-01 00:03:53               368   
8            606 2017-12-01 00:00:58  2017-12-01 00:11:04               345   
9           2413 2017-12-01 00:01:07  2017-12-01 00:41:21              3534   

                   Start Station Name  Start Station Latitude  \
0                  Carmine St & 6 Ave               40.730386   


 non
