# Imputation



In [None]:
# """ Suppression colonnes jugées peu pertinentes pour la suite des analyses   """
import pandas as pd

def drop_columns(df, columns_to_drop):
    """
    Supprime les colonnes spécifiées d'un DataFrame.
    
    Args:
    - df : DataFrame : Le DataFrame à modifier.
    - columns_to_drop : list : Liste des noms des colonnes à supprimer.
    
    Returns:
    - df : DataFrame : Le DataFrame avec les colonnes supprimées.
    """
    return df.drop(columns_to_drop, axis=1)

# """ Liste des colonnes à supprimer """
columns_to_drop = ["Nom parc", "Identifiant", "Adresse principale", "URL ressource services", "Numéro SIRET",
                   "Arrondissement", "Code zones résidentielles", "Type ouvrage", "Gratuit",
                   "Date application tarif abonnement", "Date application tarif horaire"]

# """ Appel de la fonction pour supprimer les colonnes """
df = drop_columns(df, columns_to_drop)

# """ Affichage du DataFrame résultant """
pd.set_option('display.max_columns', None)
df

In [None]:
def check_missing_values(df):
    """
    Vérifie et affiche le nombre de valeurs manquantes par colonne dans un DataFrame.

    Args:
    data (DataFrame): DataFrame contenant les données à vérifier.
    """
    # Calcul des valeurs manquantes par colonne
    missing_values = df.isna().sum()

    # Affichage
    print("Nombre de valeurs manquantes par colonne :")
    print(missing_values)
    
check_missing_values(df)

In [None]:
def fillna_with_mean(df, columns):
    """
    Remplace les valeurs manquantes dans les colonnes spécifiées par la moyenne de chaque colonne.

    Args:
    - df : DataFrame : Le DataFrame à modifier.
    - columns : list : Liste des noms des colonnes à traiter.

    Returns:
    - df : DataFrame : Le DataFrame avec les valeurs manquantes remplacées par la moyenne.
    """
    for column in columns:
        df[column] = df[column].fillna(df[column].mean())
    return df

# Liste des colonnes à traiter
columns_to_fill = ['Tarif_1h', 'Tarif_2h', 'Tarif_3h', 'Tarif_4h', 'Tarif_7h', 'Tarif_8h', 'Tarif_9h', 'Tarif_10h',
                   'Tarif_11h', 'Tarif_12h', 'Tarif_24h', 'Tarif_15mn', 'Tarif_30mn', 'Tarif_1h30',
                   'Tarif abonnement PMR mensuel', 'Tarif abonnement PMR timestriel', 'Tarif abonnement PMR annuel',
                   'Tarif abonnement VéhElect mensuel', 'Tarif abonnement VéhElect trimestriel',
                   'Tarif abonnement VéhElect annuel', 'Abonnement résident', 'Tarif abonnement moto trimestriel',
                   'Tarif abonnement moto annuel', 'Tarif abonnement moto mensuel', 'Tarif moto 1ere heure',
                   'Tarif petit rouleur annuel mini', 'Tarif petit rouleur annuel maxi', 'Tarif horaire préférentiel Moto Pass 2RM',
                   "Tarif de l'abonnement au Pass 2RM mensuel", "Tarif de l'abonnement au Pass 2RM trimestriel",
                   "Tarif de l'abonnement au Pass 2RM annuel", 'Tarif résident mensuel', 'Tarif abonnement parc relais annuel',
                   'Tarif abonnement place attribuée annuel', 'Tarif_30mn Moto', 'Tarif_24h Moto', 'Tarif_15mn Moto',
                   'Tarif moto petit rouleur annuel mini', 'Tarif moto petit rouleur annuel maxi', 'Tarif résident annuel',
                   'Tarif abonnement vélo mensuel']

# """Appel de la fonction pour remplacer les valeurs manquantes par la moyenne"""
df = fillna_with_mean(df, columns_to_fill)

# """Affichage du DataFrame résultant"""
df


In [None]:
from sklearn.impute import SimpleImputer

def impute_missing_values(df):
    """
    Impute les valeurs manquantes dans les colonnes spécifiées d'un DataFrame.

    Args:
    data (DataFrame): DataFrame contenant les données à imputer.

    Returns:
    DataFrame: DataFrame avec les valeurs manquantes imputées.
    """
    # Liste des colonnes nécessitant une imputation
    columns_to_impute = [
        'Tarif_1h', 'Tarif_2h', 'Tarif_3h', 'Tarif_4h', 'Tarif_7h', 'Tarif_8h', 'Tarif_9h', 'Tarif_10h', 'Tarif_11h', 'Tarif_12h',
        'Tarif_24h', 'Tarif_15mn', 'Tarif_30mn', 'Tarif_1h30', 'Tarif abonnement PMR mensuel', 'Tarif abonnement PMR timestriel',
        'Tarif abonnement PMR annuel', 'Tarif abonnement VéhElect mensuel', 'Tarif abonnement VéhElect trimestriel', 'Tarif abonnement VéhElect annuel',
        'Abonnement résident', 'Tarif abonnement moto trimestriel', 'Tarif abonnement moto annuel', 'Tarif abonnement moto mensuel',
        'Tarif moto 1ere heure', 'Tarif petit rouleur annuel mini', 'Tarif petit rouleur annuel maxi',
        'Tarif horaire préférentiel Moto Pass 2RM', "Tarif de l'abonnement au Pass 2RM mensuel", "Tarif de l'abonnement au Pass 2RM trimestriel",
        "Tarif de l'abonnement au Pass 2RM annuel", 'Tarif résident mensuel', 'Tarif abonnement parc relais annuel', 'Tarif abonnement place attribuée annuel',
        'Tarif_30mn Moto', 'Tarif_24h Moto', 'Tarif_15mn Moto', 'Tarif moto petit rouleur annuel mini', 'Tarif moto petit rouleur annuel maxi',
        'Tarif résident annuel', 'Tarif abonnement vélo mensuel'
    ]

    # Création de l'objet imputer
    imputer = SimpleImputer(strategy='mean')

    # Imputation des valeurs manquantes dans les colonnes spécifiées
    df[columns_to_impute] = imputer.fit_transform(df[columns_to_impute])

    return df

impute_missing_values(df)


# Encodage 

In [None]:
# Encodage binaire des valeurs catégorielles

def replace_yes_no_with_binary(data, columns):
    """
    Remplace les valeurs "OUI" par 1 et "NON" par 0 pour les colonnes spécifiées dans un DataFrame.

    Args:
    data (DataFrame): DataFrame contenant les colonnes à traiter.
    columns (list): Liste des noms des colonnes à traiter.

    Returns:
    DataFrame: DataFrame avec les valeurs remplacées.
    """
    for column in columns:
        data[column] = data[column].replace({'OUI': 1, 'NON': 0})
    return data

# Liste des colonnes à traiter
colonnes_a_traiter = ['Tarif moto petit rouleur', 'Parc amodié', 'Parc relais','Parc affilié au dispositif Pass 2RM','Tarif VL résident','Ascenseur surface','Tarif VL petit rouleur','Tarif moto résident']

# Appel de la fonction pour remplacer les valeurs dans le DataFrame
replace_yes_no_with_binary(df, colonnes_a_traiter)


In [None]:

# Utiliser la fonction get_dummies() de Pandas pour appliquer le One-Hot Encoding
def encode_columns(data, columns):
    """
    Encode les colonnes spécifiées en utilisant la méthode one-hot encoding.

    Args:
    data (DataFrame): DataFrame contenant les colonnes à encoder.
    columns (list): Liste des noms des colonnes à encoder.

    Returns:
    DataFrame: DataFrame avec les colonnes encodées.
    """
    encoded_data = pd.get_dummies(data, columns=columns)
    return encoded_data

# Colonnes à encoder
colonnes_a_encoder = ['Type usagers', 'Délégataire', 'Horaire ouverture non abonnés', 'Tarif PMR']

# Appel de la fonction pour encoder les colonnes spécifiées
encode_columns(df, colonnes_a_encoder)


# Choix de l'encodage One hot : 
#Le One-Hot Encoding permet de conserver toutes les informations contenues dans une variable catégorielle sans introduire de relation d'ordre artificielle entre les catégories.
#Le One-Hot Encoding transforme les variables catégorielles en vecteurs binaires, ce qui les rend compatibles avec les algorithmes ML .
#Le One-Hot Encoding facilite l'interprétation des modèles en rendant les variables catégorielles explicites dans les résultats, ce qui permet de comprendre facilement l'impact de chaque catégorie sur les prédictions du modèle.

# Mise à l'echelle

In [None]:

# permet de mettre toutes les caractéristiques numériques sur la même échelle, ce qui est important pour certains algorithmes d'apprentissage automatique qui sont sensibles à l'échelle des caractéristiques
from sklearn.preprocessing import StandardScaler

def normalize_numeric_columns(df, numeric_columns):
    """
    Normalise les colonnes numériques spécifiées en utilisant StandardScaler.

    Args:
    data (DataFrame): DataFrame contenant les colonnes numériques à normaliser.
    numeric_columns (list): Liste des noms des colonnes numériques à normaliser.

    Returns:
    DataFrame: DataFrame avec les colonnes numériques normalisées.
    """
    # Instanciation de l'objet StandardScaler
    scaler = StandardScaler()

    # Normalisation des données numériques
    df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

    return df

# Colonnes numériques à normaliser
colonnes_numeriques_a_normaliser = [
    'Nbre total places', 'Nbre place parc relais', 'Nbre place PMR', 'Nbre place voit elec', 'Nbre place vélo', 
    'Nbre place velo-2rm elec', 'Nbre place autopartage', 'Nbre place 2rm', 'Nbre place covoiturage', 'Hauteur max', 
    'Tarif_1h', 'Tarif_2h', 'Tarif_3h', 'Tarif_4h', 'Tarif_24h', 'Tarif_15mn', 'Tarif_30mn', 'Tarif_1h30', 'Tarif_7h', 
    'Tarif_8h', 'Tarif_9h', 'Tarif_10h', 'Tarif_11h', 'Tarif_12h', 'Tarif abonnement PMR mensuel', 
    'Tarif abonnement PMR timestriel', 'Tarif abonnement PMR annuel', 'Tarif abonnement VéhElect mensuel', 
    'Tarif abonnement VéhElect trimestriel', 'Tarif abonnement VéhElect annuel', 'Tarif moto 1ere heure', 
    'Tarif abonnement moto mensuel', 'Tarif abonnement moto trimestriel', 'Tarif abonnement moto annuel', 
    'Tarif abonnement vélo mensuel', 'Tarif_15mn Moto', 'Tarif_30mn Moto', 'Tarif_24h Moto', 'Tarif moto petit rouleur', 
    'Tarif moto petit rouleur annuel mini', 'Tarif moto petit rouleur annuel maxi', 'Tarif moto résident', 
    'Tarif moto résident annuel', 'Tarif abonnement place attribuée annuel', 'Tarif abonnement parc relais annuel', 
    'Tarif résident mensuel', 'Tarif horaire préférentiel Moto Pass 2RM', "Tarif de l'abonnement au Pass 2RM mensuel", 
    "Tarif de l'abonnement au Pass 2RM trimestriel", "Tarif de l'abonnement au Pass 2RM annuel"
]

# Appel de la fonction pour normaliser les colonnes numériques spécifiées
normalize_numeric_columns(df, colonnes_numeriques_a_normaliser)



## Plots 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def compare_tarifs(df):
    # Sélection des colonnes de tarifs à comparer
    tarifs_columns = ['Tarif_1h', 'Tarif_2h', 'Tarif_3h', 'Tarif_4h','Tarif_24h']

    # Création d'un sous-DataFrame avec les colonnes sélectionnées
    df_tarifs = df[['Type usagers'] + tarifs_columns]

    # Transformation des données pour les graphiques à barres groupées
    df_tarifs_grouped = pd.melt(df_tarifs, id_vars=['Type usagers'], value_vars=tarifs_columns, var_name='Durée', value_name='Tarif')

    # Plot
    plt.figure(figsize=(12, 8))
    sns.barplot(x='Type usagers', y='Tarif', hue='Durée', data=df_tarifs_grouped, palette='viridis')
    plt.title('Comparaison des tarifs en fonction du type d\'usagers et de la durée')
    plt.xlabel('Type d\'usagers')
    plt.ylabel('Tarif')
    plt.show()

# Utilisation de la fonction
compare_tarifs(df)


In [1]:
# Exemple de boîte à moustaches pour les tarifs PMR
import matplotlib.pyplot as plt
import seaborn as sns

def plot_tarif_pmr_by_user_type(data):
    """
    Trace la distribution des tarifs PMR par type d'usagers.

    Args:
    data (DataFrame): DataFrame contenant les données à visualiser.

    Returns:
    None
    """
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='Type usagers', y='Tarif abonnement PMR mensuel', data=data)
    plt.title('Distribution des tarifs PMR par type d\'usagers')
    plt.xlabel('Type d\'usagers')
    plt.ylabel('Tarif PMR')
    plt.show()

# Appel de la fonction pour tracer la distribution des tarifs PMR par type d'usagers
plot_tarif_pmr_by_user_type(df)



NameError: name 'df' is not defined

In [None]:
import matplotlib.pyplot as plt

def plot_disponibilite_par_code_postal(data):
    """
    Crée un graphique à barres montrant la disponibilité par code postal.

    Args:
    data (DataFrame): DataFrame contenant les données à utiliser.

    Returns:
    None
    """
    # Calcul de la disponibilité en pourcentage
    data['Disponibilite'] = (data['Nbre total places'] - data['Nbre place PMR']) / data['Nbre total places'] * 100

    # Création du graphique à barres
    plt.figure(figsize=(12, 6))
    data.groupby('INSEE')['Disponibilite'].mean().sort_values(ascending=False).plot(kind='bar', color='skyblue')
    plt.title('Disponibilité par Code Postal')
    plt.xlabel('Code Postal (INSEE)')
    plt.ylabel('Disponibilité (%)')
    plt.show()

# Appel de la fonction pour créer le graphique de disponibilité par code postal
plot_disponibilite_par_code_postal(df)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

def plot_correlation_heatmap(data):
    """
    Crée une heatmap de corrélation entre les variables numériques.

    Args:
    data (DataFrame): DataFrame contenant les données numériques.

    Returns:
    None
    """
    # Sélection des variables numériques
    df_numerical = data.select_dtypes(include='number')

    # Calcul de la matrice de corrélation
    correlation_matrix = df_numerical.corr()

    # Création de la heatmap
    plt.figure(figsize=(30, 25))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Heatmap de Corrélation entre les Variables')
    plt.show()

# Appel de la fonction pour créer la heatmap de corrélation
plot_correlation_heatmap(df)


In [None]:

import matplotlib.pyplot as plt

def plot_stationnements_par_ville(df):
    # Compter le nombre de stationnements par ville
    stationnements_par_ville = df['INSEE'].value_counts()

    # Tracer le diagramme à barres
    plt.figure(figsize=(10, 6))
    stationnements_par_ville.plot(kind='bar')
    plt.title('Nombre de stationnements par ville')
    plt.xlabel('Code INSEE de la ville')
    plt.ylabel('Nombre de stationnements')
    plt.xticks(rotation=45)
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()
plot_stationnements_par_ville(df)



In [None]:
def plot_nb_places_stationnement_par_ville(df):
    """
    Analyse et trace le nombre total de places de stationnement par ville.
    
    Args:
    data (DataFrame): DataFrame contenant les données à analyser.
    """
    plt.figure(figsize=(10, 6))
    sns.barplot(x='INSEE', y='Nbre total places', data=data)
    plt.title('Nombre total de places de stationnement par ville')
    plt.xlabel('Code INSEE')
    plt.ylabel('Nombre total de places')
    plt.xticks(rotation=45)
    plt.show()
plot_nb_places_stationnement_par_ville(df)

In [None]:
def plot_mean_tarif_by_location(df):
    """
    Analyse et trace la comparaison des tarifs moyens par emplacement.
    
    Args:
    data (DataFrame): DataFrame contenant les données à analyser.
    """
    mean_tarif_by_location = data.groupby('INSEE')['Tarif_24h'].mean()
    mean_tarif_by_location.plot(kind='bar', figsize=(12, 6))
    plt.title('Comparaison des tarifs moyens par emplacement')
    plt.xlabel('INSEE')
    plt.ylabel('Tarif moyen (24h)')
    plt.xticks(rotation=45)
    plt.show()
plot_mean_tarif_by_location(df)

In [None]:
def plot_tarif_segmentation(df):
    """
    Analyse et trace la segmentation des emplacements par tarifs.

    Args:
    data (DataFrame): DataFrame contenant les données à analyser.
    """
    # Création de la catégorie de tarif
    data['Tarif_Category'] = pd.cut(data['Tarif_24h'], bins=3, labels=['Low', 'Medium', 'High'])

    # Plot
    plt.figure(figsize=(10, 6))
    sns.countplot(data=data, x='Tarif_Category', hue='Nbre total places')
    plt.title('Segmentation des emplacements par tarifs')
    plt.xlabel('Catégorie de tarif')
    plt.ylabel('Nombre total de places')
    plt.show()
plot_tarif_segmentation(df)

In [2]:
import matplotlib.pyplot as plt
import seaborn as sns

def analyse_relation_tarif_frequentation(data, tarif_column, frequentation_column):
    """
    Analyse la relation entre les tarifs et la fréquentation.

    Args:
    data (DataFrame): DataFrame contenant les données.
    tarif_column (str): Nom de la colonne des tarifs.
    frequentation_column (str): Nom de la colonne de la fréquentation.

    Returns:
    None
    """
    plt.figure(figsize=(10, 6))
    sns.scatterplot(data=data, x=tarif_column, y=frequentation_column)
    plt.title('Relation entre les tarifs et la fréquentation')
    plt.xlabel(tarif_column)
    plt.ylabel(frequentation_column)
    plt.show()

def analyse_repartition_tarifs_emplacement(data, tarif_category_column, frequentation_column):
    """
    Analyse la répartition des tarifs par emplacement.

    Args:
    data (DataFrame): DataFrame contenant les données.
    tarif_category_column (str): Nom de la colonne de catégorie de tarif.
    frequentation_column (str): Nom de la colonne de la fréquentation.

    Returns:
    None
    """
    plt.figure(figsize=(12, 6))
    sns.boxplot(data=data, x=tarif_category_column, y=frequentation_column)
    plt.title('Répartition des tarifs par emplacement')
    plt.xlabel('Catégorie de tarif')
    plt.ylabel(frequentation_column)
    plt.show()

# Appels des fonctions pour analyser la relation entre les tarifs et la fréquentation
analyse_relation_tarif_frequentation(data, 'Tarif_24h', 'Nbre total places')
analyse_relation_tarif_frequentation(data, 'Tarif_1h', 'Nbre total places')

# Appel de la fonction pour analyser la répartition des tarifs par emplacement
analyse_repartition_tarifs_emplacement(data, 'Tarif_Category', 'Nbre total places')


NameError: name 'data' is not defined