In [2]:
import pandas as pd
import json

In [None]:
df = pd.read_csv("data/travaux-engages-metropole-lyon.csv", sep=";")
print(df.describe())
display(df)

### Pretraitement

In [15]:
# --- 1. GÃ‰NÃ‰RATION DU FICHIER POINTS ROUGES (CoordonnÃ©es + Description) ---

with open('data_coord/points-rouges-200046977.geojson', 'r') as f:
    geojson_data = json.load(f)

# Extraction des coordonnÃ©es (longitude, latitude) et des propriÃ©tÃ©s
points_rouges_data = []
for feature in geojson_data['features']:
    props = feature['properties']
    coords = feature['geometry']['coordinates']
    
    points_rouges_data.append({
        'longitude': coords[0],
        'latitude': coords[1],
        'commune_insee': props.get('commune'), # 
        'description': props.get('description') # 
    })

df_points_rouges_final = pd.DataFrame(points_rouges_data)

# Sauvegarde du premier fichier
df_points_rouges_final.to_csv('points_rouges_lyon_complet.csv', index=False)


# --- 2. GÃ‰NÃ‰RATION DU FICHIER RÃ‰PONSES (Questionnaire + Lieu) ---

# Chargement du CSV original
df_reponses = pd.read_csv('data_coord/reponses-epci-200046977.csv', low_memory=False, quotechar='"')

# SÃ©lection des colonnes stratÃ©giques selon la notice [cite: 86, 88, 90]
cols_reponses = [
    'insee',        # Lieu (Code INSEE) [cite: 21, 29]
    'q6',           # FrÃ©quence de pratique [cite: 86]
    'q14',          # Sentiment de sÃ©curitÃ© [cite: 86]
    'q18',          # DangerositÃ© carrefours [cite: 88]
    'q21',          # Ã‰tat de l'entretien [cite: 88]
    'q28',          # Conflit stationnement motorisÃ© [cite: 88]
    'q34_texte',    # Les 3 prioritÃ©s d'amÃ©lioration [cite: 88]
    'q35',          # Commentaire libre (NLP) [cite: 88]
    'q38_texte',    # Situations de violence vÃ©cues [cite: 90]
    'score'         # Note globale de la commune [cite: 30]
]

# Filtrage et nettoyage
df_reponses_final = df_reponses[cols_reponses].copy()
df_reponses_final['q35'] = df_reponses_final['q35'].str.replace(r'\r+|\n+', ' ', regex=True).fillna('')

# Sauvegarde du second fichier
df_reponses_final.to_csv('reponses_questionnaire_lyon.csv', index=False)

print("Les deux fichiers ont Ã©tÃ© gÃ©nÃ©rÃ©s avec succÃ¨s :")
print("- points_rouges_lyon_complet.csv (DonnÃ©es cartographiques)")
print("- reponses_questionnaire_lyon.csv (DonnÃ©es thÃ©matiques et profils)")

Les deux fichiers ont Ã©tÃ© gÃ©nÃ©rÃ©s avec succÃ¨s :
- points_rouges_lyon_complet.csv (DonnÃ©es cartographiques)
- reponses_questionnaire_lyon.csv (DonnÃ©es thÃ©matiques et profils)


### NLP

In [21]:
import pandas as pd
import numpy as np
from collections import Counter
import re

# --- 1. CONFIGURATION RÃ‰FÃ‰RENTIELLE ---
# On centralise ici la connaissance mÃ©tier : Urgence et FacilitÃ© par type de problÃ¨me
CONFIG_PROBLEMES = {
    'Infrastructure manquante': {'mots': r'piste|manque|absence|discontinuitÃ©|coupure', 'urgence': 3, 'facilite': 3},
    'Carrefours dangereux': {'mots': r'carrefour|intersection|rond-point|traversÃ©e', 'urgence': 3, 'facilite': 3},
    'Vitesse excessive': {'mots': r'vitesse|rapide|trop vite|ralentir', 'urgence': 3, 'facilite': 2},
    'Violence routiÃ¨re': {'mots': r'violence|insulte|intimidation|agression', 'urgence': 3, 'facilite': 2},
    'Entretien pistes': {'mots': r'entretien|entretenir|nid de poule|trou|verre', 'urgence': 2, 'facilite': 1},
    'Stationnement gÃªnant': {'mots': r'stationnement|garÃ©|voiture|parking|double file', 'urgence': 2, 'facilite': 2},
    'Stationnement vÃ©lo': {'mots': r'stationnement vÃ©lo|parking vÃ©lo|garage vÃ©lo', 'urgence': 2, 'facilite': 1},
    'Limitation trafic': {'mots': r'limiter trafic|rÃ©duire trafic|moins de voiture', 'urgence': 2, 'facilite': 3},
    'Signalisation': {'mots': r'panneau|feu|signalisation|marquage', 'urgence': 1, 'facilite': 1},
    'Conflit piÃ©tons': {'mots': r'piÃ©ton|trottoir|partagÃ©|quai', 'urgence': 1, 'facilite': 2},
}

def get_label_facilite(score):
    if score <= 1.5: return "ğŸŸ¢ Facile"
    if score <= 2.5: return "ğŸŸ¡ Moyen"
    return "ğŸ”´ Difficile"

# --- 2. FONCTIONS D'ANALYSE ---
def detecter_themes(texte):
    if pd.isna(texte) or texte == "": return []
    return [nom for nom, cfg in CONFIG_PROBLEMES.items() if re.search(cfg['mots'], str(texte).lower())]

# --- 3. CHARGEMENT ET TRAITEMENT ---
print("ğŸš€ Chargement des donnÃ©es...")
df = pd.read_csv('reponses_questionnaire_lyon.csv', low_memory=False)

# Fusion des textes et dÃ©tection
df['verbatim'] = df[['q34_texte', 'q35', 'q38_texte']].fillna('').agg(' '.join, axis=1)
df['problemes_list'] = df['verbatim'].apply(detecter_themes)

# --- 4. ANALYSE PAR TYPE DE PROBLÃˆME (FACILITÃ‰ GÃ‰NÃ‰RALE) ---
print("\nğŸ“Š ANALYSE DE LA FACILITÃ‰ PAR TYPE DE PROBLÃˆME")
all_p = [p for sub in df['problemes_list'] for p in sub]
counts_global = Counter(all_p)

analyse_p = []
for nom, cfg in CONFIG_PROBLEMES.items():
    analyse_p.append({
        'ProblÃ¨me': nom,
        'Citations': counts_global[nom],
        'Urgence': cfg['urgence'],
        'FacilitÃ©': cfg['facilite'],
        'Type': get_label_facilite(cfg['facilite'])
    })

df_facilite_theme = pd.DataFrame(analyse_p).sort_values(by='FacilitÃ©')
print(df_facilite_theme.to_string(index=False))

# --- 5. ANALYSE PAR COMMUNE (TOP 10 + FACILITÃ‰ MOYENNE) ---
print("\n ANALYSE PAR COMMUNE (TOP 10 ET FAISABILITÃ‰)")

resultats_communes = []
for insee, group in df.groupby('insee'):
    # Extraction de tous les problÃ¨mes de la commune
    commune_probs = [p for sub in group['problemes_list'] for p in sub]
    top_10_list = Counter(commune_probs).most_common(10)
    
    if top_10_list:
        # Calcul de la facilitÃ© moyenne des problÃ¨mes citÃ©s dans cette commune
        moy_facilite = np.mean([CONFIG_PROBLEMES[p]['facilite'] for p, _ in top_10_list])
        top_10_str = " | ".join([f"{p} ({c})" for p, c in top_10_list])
        
        resultats_communes.append({
            'INSEE': insee,
            'RÃ©ponses': len(group),
            'SÃ©curitÃ©_Moy': round(group['q14'].mean(), 2),
            'FacilitÃ©_Action': get_label_facilite(moy_facilite),
            'Top_10_Problemes': top_10_str
        })

df_communes = pd.DataFrame(resultats_communes).sort_values(by='RÃ©ponses', ascending=False)

# --- 6. AFFICHAGE FINAL ---
pd.set_option('display.max_colwidth', 100)
print("\n" + "="*120)
print(df_communes.head(15).to_string(index=False))
print("="*120)



ğŸš€ Chargement des donnÃ©es...

ğŸ“Š ANALYSE DE LA FACILITÃ‰ PAR TYPE DE PROBLÃˆME
                ProblÃ¨me  Citations  Urgence  FacilitÃ©        Type
        Entretien pistes       5754        2         1    ğŸŸ¢ Facile
      Stationnement vÃ©lo         32        2         1    ğŸŸ¢ Facile
           Signalisation        465        1         1    ğŸŸ¢ Facile
       Vitesse excessive       9720        3         2     ğŸŸ¡ Moyen
       Violence routiÃ¨re       7171        3         2     ğŸŸ¡ Moyen
    Stationnement gÃªnant       5199        2         2     ğŸŸ¡ Moyen
         Conflit piÃ©tons       6363        1         2     ğŸŸ¡ Moyen
Infrastructure manquante      10169        3         3 ğŸ”´ Difficile
    Carrefours dangereux        348        3         3 ğŸ”´ Difficile
       Limitation trafic         11        2         3 ğŸ”´ Difficile

 ANALYSE PAR COMMUNE (TOP 10 ET FAISABILITÃ‰)

 INSEE  RÃ©ponses  SÃ©curitÃ©_Moy FacilitÃ©_Action                                             