
# Séparation des données en deux groupes : périodes 2016-2017 et 2018-2022

In [20]:
import pandas as pd

# Lire le fichier CSV
df = pd.read_csv('données/originales/Contextes/delinquance_idf.csv', encoding='utf-8')

# Renommer les colonnes mal encodées (si nécessaire)
df.columns = df.columns.str.replace('Ã©', 'é').str.replace('Ã', 'à')

# Vérifier si la colonne 'annee' existe bien
if 'annee' in df.columns:
    # Vérifier le type de la colonne 'annee'
    print("Type de la colonne 'annee' avant conversion :", df['annee'].dtype)

    # Convertir la colonne 'annee' en entier (ignorer les erreurs)
    df['annee'] = pd.to_numeric(df['annee'], errors='coerce')

    # Vérifier après la conversion
    print("Type de la colonne 'annee' après conversion :", df['annee'].dtype)

    # Filtrer les données pour la période 2018-2022
    df_2018_2022 = df[(df['annee'] >= 2018) & (df['annee'] <= 2022)]

    # Filtrer les données pour la période 2016-2017
    df_2016_2017 = df[(df['annee'] >= 2016) & (df['annee'] <= 2017)]

    # Vérifier que les filtres ne retournent pas des DataFrames vides
    print("Nombre de lignes dans le fichier 2018-2022 :", len(df_2018_2022))
    print("Nombre de lignes dans le fichier 2016-2017 :", len(df_2016_2017))

    # Sauvegarder les fichiers triés
    df_2018_2022.to_csv('delinquance_2018_2022.csv', index=False)
    df_2016_2017.to_csv('delinquance_2016_2017.csv', index=False)

    print("Les fichiers ont été nettoyés et enregistrés avec succès.")
else:
    print("La colonne 'annee' n'existe pas dans le fichier.")


Type de la colonne 'année' avant conversion : int64
Type de la colonne 'année' après conversion : int64
Les fichiers ont été nettoyés et enregistrés avec succès.
