In [2]:
import pandas as pd

# Charger le fichier
print("Chargement du fichier de pollution...")
df_pollution = pd.read_csv("data/episodes_de_pollution_prevus_ou_constates.csv", sep=",", encoding="utf-8")

# Nettoyage de base
print("\n=== Nettoyage de base ===")
df_pollution.columns = df_pollution.columns.str.strip()  # Nettoyer noms de colonnes
df_pollution = df_pollution.drop_duplicates()  # Retirer les doublons
df_pollution['date_prevision'] = pd.to_datetime(df_pollution['date_prevision'], errors='coerce')  # Convertir dates
df_pollution = df_pollution.dropna(subset=["date_prevision", "lib_zone", "lib_pol"])  # Supprimer les lignes incomplètes

# Nettoyer les chaînes de caractères
print("\n=== Nettoyage des chaînes de caractères ===")
for col in ['lib_zone', 'lib_pol', 'etat', 'com_court', 'com_long']:
    if col in df_pollution.columns:
        df_pollution[col] = df_pollution[col].astype(str).str.strip()

# Renommage clair
print("\n=== Renommage des colonnes ===")
df_pollution = df_pollution.rename(columns={
    "lib_zone": "zone",
    "date_prevision": "date",
    "lib_pol": "polluant",
    "etat": "etat",
    "couleur": "niveau",
    "com_long": "commentaire"
})

# Affichage des informations
print("\n=== Informations sur le dataset nettoyé ===")
print(f"Nombre de lignes : {len(df_pollution)}")
print(f"Nombre de colonnes : {len(df_pollution.columns)}")
print("\nColonnes :")
print(df_pollution.columns.tolist())
print("\nAperçu des données :")
print(df_pollution.head())

# Sauvegarde du fichier nettoyé
output_file = "data/output/episodes_de_pollution_nettoyes.csv"
df_pollution.to_csv(output_file, index=False, encoding='utf-8')
print(f"\nFichier nettoyé sauvegardé sous : {output_file}") 

Chargement du fichier de pollution...

=== Nettoyage de base ===

=== Nettoyage des chaînes de caractères ===

=== Renommage des colonnes ===

=== Informations sur le dataset nettoyé ===
Nombre de lignes : 630
Nombre de colonnes : 15

Colonnes :
['id', 'gid', 'code_zone', 'zone', 'date', 'date_dif', 'code_pol', 'polluant', 'etat', 'niveau', 'com_court', 'commentaire', 'OBJECTID', 'SHAPE__Area', 'SHAPE__Length']

Aperçu des données :
   id  gid  code_zone             zone                      date  \
0   1    1       2016  Zone Alpine Ain 2024-01-14 00:00:00+00:00   
1   2    2       2016  Zone Alpine Ain 2024-01-13 00:00:00+00:00   
2   3    3       2016  Zone Alpine Ain 2024-01-14 00:00:00+00:00   
3   4    4       2016  Zone Alpine Ain 2024-01-13 00:00:00+00:00   
4   5    5       2016  Zone Alpine Ain 2024-01-14 00:00:00+00:00   

                 date_dif  code_pol         polluant                etat  \
0  2024/01/13 00:00:00+00         8  Dioxyde d'azote  PAS DE DEPASSEMENT   
1 

In [4]:
df_refdir = pd.read_csv("data/refDir.csv", sep=";", encoding="utf-8")

# Nettoyage
df_refdir.columns = df_refdir.columns.str.strip()
df_refdir = df_refdir.drop_duplicates()

# Gérer types de données
df_refdir["code_insee_commune"] = df_refdir["code_insee_commune"].astype(str)
df_refdir = df_refdir.dropna(subset=["x_deb", "y_deb", "x_fin", "y_fin", "axe"])

# Filtrer les lignes avec longueurs nulles ou négatives
df_refdir = df_refdir[df_refdir["longueur"] > 0]

# Colonnes utiles seulement
colonnes_utiles = [
    "code_insee_commune", "axe", "x_deb", "y_deb", "x_fin", "y_fin", "longueur", "code_traficolor"
]
df_refdir = df_refdir[colonnes_utiles]

print(df_refdir.head())

# Sauvegarde du fichier nettoyé
output_file = "data/output/infra_route_refdir.csv"
df_refdir.to_csv(output_file, index=False, encoding='utf-8')


  code_insee_commune   axe     x_deb      y_deb      x_fin      y_fin  \
0        237676517.0   A28  569981.6  6938140.0  568217.60  6935783.5   
2        733131555.0  A620  572626.2  6284049.5  572552.90  6283075.0   
4        237676517.0   A28  569985.7  6938129.5  568226.06  6935779.0   
6        723333075.0  A630  414987.7  6427724.5  414042.70  6427039.0   
9        723333075.0  A630  414969.9  6427708.0  414051.80  6427035.0   

   longueur code_traficolor  
0      3035            RO76  
2       834            TO31  
4      3042            RO76  
6      1030            BX33  
9      1000            BX33  


In [15]:
import pandas as pd
from dbfread import DBF
import os

# Chemin du fichier DBF
dbf_file = 'data/pvo_patrimoine_voirie_pvocomptagecriter.dbf'
# Chemin du fichier CSV de sortie
csv_file = 'data/pvo_patrimoine_voirie_pvocomptagecriter.csv'

# Lire le fichier DBF
print("Lecture du fichier DBF en cours...")
table = DBF(dbf_file, encoding='latin1')

# Convertir en DataFrame pandas
df = pd.DataFrame(iter(table))

# Sauvegarder en CSV
print("Conversion en CSV en cours...")
df.to_csv(csv_file, index=False, encoding='utf-8')

print(f"Conversion terminée ! Le fichier a été sauvegardé sous : {csv_file}")
print(f"Nombre de lignes converties : {len(df)}")
print("\nAperçu des colonnes :")
print(df.columns.tolist()) 

Lecture du fichier DBF en cours...
Conversion en CSV en cours...
Conversion terminée ! Le fichier a été sauvegardé sous : data/pvo_patrimoine_voirie_pvocomptagecriter.csv
Nombre de lignes converties : 2776

Aperçu des colonnes :
['positionne', 'distanceli', 'nom', 'typecapteu', 'typepostem', 'nbvoies', 'moyennejou', 'debithorai', 'horairedeb', 'identifian', 'identifia0', 'anneerefer', 'estvalide', 'gid']


In [16]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de l'affichage pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 150)

# Lecture du fichier CSV
print("Lecture du fichier CSV...")
df = pd.read_csv('data/pvo_patrimoine_voirie_pvocomptagecriter.csv')

# Affichage des informations générales
print("\n=== Informations générales sur le dataset ===")
print(f"Nombre total de lignes : {len(df)}")
print(f"Nombre total de colonnes : {len(df.columns)}")
print("\nTypes de données par colonne :")
print(df.dtypes)

# Analyse des valeurs manquantes
print("\n=== Analyse des valeurs manquantes ===")
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100
missing_info = pd.DataFrame({
    'Valeurs manquantes': missing_values,
    'Pourcentage': missing_percentage
})
print(missing_info[missing_info['Valeurs manquantes'] > 0])

# Statistiques descriptives pour les colonnes numériques
numeric_columns = ['distanceli', 'nbvoies', 'moyennejou', 'debithorai', 'anneerefer']
print("\n=== Statistiques descriptives des variables numériques ===")
print(df[numeric_columns].describe())

# Analyse des valeurs uniques pour les colonnes catégorielles
categorical_columns = ['typecapteu', 'typepostem', 'horairedeb']
print("\n=== Analyse des valeurs uniques pour les variables catégorielles ===")
for col in categorical_columns:
    print(f"\nValeurs uniques dans {col}:")
    print(df[col].value_counts().head())

# Nettoyage des données
print("\n=== Nettoyage des données ===")

# Conversion et nettoyage des colonnes numériques
for col in numeric_columns:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Nettoyage des colonnes catégorielles
for col in categorical_columns:
    if df[col].dtype == 'object':
        df[col] = df[col].astype(str).str.strip().str.upper()

# Création de visualisations
print("\n=== Création des visualisations ===")

# 1. Distribution des variables numériques
plt.figure(figsize=(15, 8))
for i, col in enumerate(numeric_columns, 1):
    plt.subplot(2, 3, i)
    sns.histplot(data=df, x=col, bins=30)
    plt.title(f'Distribution de {col}')
    plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('data/output/distributions_numeriques.png')
plt.close()

# 2. Boîtes à moustaches pour les variables numériques
plt.figure(figsize=(12, 6))
sns.boxplot(data=df[numeric_columns])
plt.title('Distribution des variables numériques (boîtes à moustaches)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('data/output/boxplots_numeriques.png')
plt.close()

# Sauvegarde du dataset nettoyé
df.to_csv('data/output/pvo_patrimoine_voirie_pvocomptagecriter_nettoye.csv', index=False)
print("\nDataset nettoyé sauvegardé sous : data/output/pvo_patrimoine_voirie_pvocomptagecriter_nettoye.csv")
print("\nVisualisations sauvegardées sous :")
print("- data/distributions_numeriques.png")
print("- data/boxplots_numeriques.png") 

Lecture du fichier CSV...

=== Informations générales sur le dataset ===
Nombre total de lignes : 2776
Nombre total de colonnes : 14

Types de données par colonne :
positionne     object
distanceli      int64
nom            object
typecapteu     object
typepostem     object
nbvoies         int64
moyennejou    float64
debithorai    float64
horairedeb     object
identifian      int64
identifia0      int64
anneerefer    float64
estvalide     float64
gid             int64
dtype: object

=== Analyse des valeurs manquantes ===
            Valeurs manquantes  Pourcentage
moyennejou                 139     5.007205
debithorai                 139     5.007205
horairedeb                 139     5.007205
anneerefer                 139     5.007205
estvalide                 2776   100.000000

=== Statistiques descriptives des variables numériques ===
        distanceli      nbvoies     moyennejou    debithorai   anneerefer
count  2776.000000  2776.000000    2637.000000   2637.000000  2637.000000
m

In [10]:
pip install psycopg2-binary sqlalchemy python-dotenv

Collecting python-dotenv
  Downloading python_dotenv-1.1.0-py3-none-any.whl.metadata (24 kB)
Downloading python_dotenv-1.1.0-py3-none-any.whl (20 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.1.0
Note: you may need to restart the kernel to use updated packages.




In [12]:
import requests
import pandas as pd
import json
from datetime import datetime

# URL de l'API
API_URL = "https://www.data.gouv.fr/fr/datasets/r/66c8dc0e-c4b5-472e-96ea-f957edfba50f"

def recuperer_donnees():
    """Récupère les données brutes de l'API"""
    try:
        response = requests.get(API_URL)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors de la récupération des données: {e}")
        return None

def analyser_structure(data):
    """Analyse la structure des données"""
    print("\n=== Structure des données ===")
    print(f"Type de données principal: {type(data)}")
    print(f"Clés principales: {data.keys()}")
    
    if 'features' in data:
        print(f"\nNombre de features: {len(data['features'])}")
        if len(data['features']) > 0:
            premier_feature = data['features'][0]
            print("\nStructure d'un feature:")
            print(f"- Type: {premier_feature.get('type')}")
            print("\nPropriétés disponibles:")
            for key, value in premier_feature['properties'].items():
                print(f"- {key}: {type(value)}")

def nettoyer_donnees(data):
    """Nettoie et transforme les données"""
    features = data.get('features', [])
    donnees_nettoyees = []
    
    for feature in features:
        if 'properties' in feature and 'geometry' in feature:
            proprietes = feature['properties']
            geometrie = feature['geometry']
            
            # Extraction du premier point des coordonnées du polygone
            coords = geometrie['coordinates'][0][0] if geometrie['coordinates'] else [None, None]
            
            # Création d'un dictionnaire nettoyé
            donnee_nettoyee = {
                'id': proprietes.get('id'),
                'code_zone': proprietes.get('code_zone'),
                'lib_zone': proprietes.get('lib_zone'),
                'date_ech': pd.to_datetime(proprietes.get('date_ech')),
                'date_dif': pd.to_datetime(proprietes.get('date_dif')),
                'code_pol': proprietes.get('code_pol'),
                'lib_pol': proprietes.get('lib_pol'),
                'etat': proprietes.get('etat'),
                'couleur': proprietes.get('couleur'),
                'com_court': proprietes.get('com_court'),
                'com_long': proprietes.get('com_long'),
                'longitude': coords[0],
                'latitude': coords[1]
            }
            donnees_nettoyees.append(donnee_nettoyee)
    
    return pd.DataFrame(donnees_nettoyees)

def sauvegarder_csv(df, nom_fichier='donnees_pollution.csv'):
    """Sauvegarde les données dans un fichier CSV"""
    try:
        df.to_csv(nom_fichier, index=False)
        print(f"\nDonnées sauvegardées dans {nom_fichier}")
        
        # Afficher un aperçu des données et des informations
        print("\n=== Aperçu des données ===")
        print(df.head())
        print("\n=== Informations sur les données ===")
        print(df.info())
    except Exception as e:
        print(f"Erreur lors de la sauvegarde du fichier CSV: {e}")

def main():
    # Récupération des données
    donnees_brutes = recuperer_donnees()
    
    if donnees_brutes:
        # Analyse de la structure
        analyser_structure(donnees_brutes)
        
        # Nettoyage des données
        df_nettoye = nettoyer_donnees(donnees_brutes)
        
        # Sauvegarde en CSV
        sauvegarder_csv(df_nettoye)
        
        # Création du script SQL pour la table
        print("\n=== Script SQL pour création de la table ===")
        print("""
CREATE TABLE IF NOT EXISTS pollution_air (
    id INTEGER PRIMARY KEY,
    code_zone INTEGER,
    lib_zone VARCHAR(255),
    date_ech TIMESTAMP,
    date_dif TIMESTAMP,
    code_pol INTEGER,
    lib_pol VARCHAR(255),
    etat VARCHAR(50),
    couleur VARCHAR(7),
    com_court TEXT,
    com_long TEXT,
    longitude FLOAT,
    latitude FLOAT
);
        """)
    else:
        print("Impossible de procéder au traitement des données")

if __name__ == "__main__":
    main() 


=== Structure des données ===
Type de données principal: <class 'dict'>
Clés principales: dict_keys(['type', 'name', 'crs', 'features'])

Nombre de features: 630

Structure d'un feature:
- Type: Feature

Propriétés disponibles:
- id: <class 'int'>
- gid: <class 'int'>
- code_zone: <class 'int'>
- lib_zone: <class 'str'>
- date_ech: <class 'str'>
- date_dif: <class 'str'>
- code_pol: <class 'int'>
- lib_pol: <class 'str'>
- etat: <class 'str'>
- couleur: <class 'str'>
- com_court: <class 'str'>
- com_long: <class 'str'>
- OBJECTID: <class 'int'>
- SHAPE__Area: <class 'float'>
- SHAPE__Length: <class 'float'>

Données sauvegardées dans donnees_pollution.csv

=== Aperçu des données ===
   id  code_zone         lib_zone                  date_ech  \
0   1       2016  Zone Alpine Ain 2024-01-14 00:00:00+00:00   
1   2       2016  Zone Alpine Ain 2024-01-13 00:00:00+00:00   
2   3       2016  Zone Alpine Ain 2024-01-14 00:00:00+00:00   
3   4       2016  Zone Alpine Ain 2024-01-13 00:00:00+0

In [14]:
import pandas as pd
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv()

# Configuration de la connexion PostgreSQL
DB_USER = os.getenv('DB_USER')
DB_PASSWORD = os.getenv('DB_PASSWORD')
DB_HOST = os.getenv('DB_HOST', 'localhost')
DB_PORT = os.getenv('DB_PORT', '5432')
DB_NAME = os.getenv('DB_NAME')

# Création de l'URL de connexion
DATABASE_URL = f"postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"

# Création du moteur SQLAlchemy
engine = create_engine(DATABASE_URL)

# Fonction pour charger un fichier CSV dans une table PostgreSQL
def load_csv_to_postgres(csv_file, table_name):
    try:
        # Lecture du fichier CSV
        df = pd.read_csv(f"data/output/{csv_file}")
        
        # Chargement dans PostgreSQL
        df.to_sql(
            name=table_name,
            con=engine,
            if_exists='replace',
            index=False
        )
        print(f"✅ {csv_file} chargé avec succès dans la table {table_name}")
    except Exception as e:
        print(f"❌ Erreur lors du chargement de {csv_file}: {str(e)}")

# Chargement des fichiers
files_to_load = {
    'episodes_de_pollution_nettoyes.csv': 'episodes_pollution',
    'infra_route_refdir.csv': 'infrastructure_route',
    'pvo_patrimoine_voirie_pvocomptagecriter_nettoye.csv': 'comptage_trafic',
    'donnees_pollution.csv': 'pollution_air'
    
}

for csv_file, table_name in files_to_load.items():
    load_csv_to_postgres(csv_file, table_name) 

✅ episodes_de_pollution_nettoyes.csv chargé avec succès dans la table episodes_pollution
✅ infra_route_refdir.csv chargé avec succès dans la table infrastructure_route
✅ pvo_patrimoine_voirie_pvocomptagecriter_nettoye.csv chargé avec succès dans la table comptage_trafic
✅ donnees_pollution.csv chargé avec succès dans la table pollution_air
