⚡️ Ingénieure avec 8 ans d’expérience dans l’énergie et l’aménagement urbain, j’ai ajouté une brique data science à mon profil en 2021.
🌍️ Curieuse, méthodique et organisée, j’aime me confronter à des problématiques métier variées, dans un contexte français ou international.
🌿 Je suis particulièrement intéressée par les domaines suivants : efficacité énergétique, énergies renouvelables, réseaux, mobilité, comptabilité carbone ou autre aspects de la transition écologique.
👉 Mon CV et mon profil LinkedIn
- Data scientist, ENERGIENCY, 2022-2024
- Traductrice technique Anglais/Français, Freelance, 2019-2021
- Expatriation aux Etats-Unis (bénévolat, formatrice en FLE), 2014-2018
- Consultante Bâtiment, Energies & Climat, INDDIGO, 2010-2014
- Consulante Éco-quartier, INDDIGO, 2008-2010
- Data Scientist, OpenClassrooms & Centrale Supélec, 2021
- Master Recherche Sciences et Techniques des environnements urbains, École d'Architecture de Nantes, 2008
- Ingénieure Généraliste, Centrale Nantes, 2008
Voici une sélection de quelques projets réalisés dans le cadre de ma formation OpenClassrooms
Développement d’un modèle de détection du risque de faillite bancaire et déploiement d’une application de type dashboard interactif
Classification binaire / Métrique spécifique / Light GBM / Dashboard / Streamlit
Lien vers le dashboard interactif
Données
- 7 tables de données contenant des informations diverses sur plus de 300 000 clients ayant fait une ou plusieurs demandes de prêts
Démarche
- Analyse exploratoire et sélection de variables pertinentes
- Définition d’une métrique d’évaluation spécifique aux coûts et pertes associés
- Test de plusieurs méthodes pour pallier aux deséquilibres des classes
- Optimisation et comparaison de modèles en utilisant des méthodes de blending et stacking
Résultats
- Sélection du modéle Light GBM
- Création et déploiement d’un dashboard interactif avec prédiction en direct en utilisant GitHub et Streamlit
- Note méthodologique / Repo Github
Segmentation d’une base clients pour une entreprise de e-commerce et validation de la stabilité des clusters
Clustering / Réduction de dimension / Interprétabilité / Sankey Diagram
Données
- Base de données de plus de 90 000 clients. 8 fichiers de données concernant les achats, les paiements, les appréciations, etc.
Démarche
- Création de variables interprétables et actionnables en termes marketing
- Optimisation du nombre et de la taille des clusters avec les algorithmes k-Means et DB Scan
- Visualisation des clusters par réduction de dimensions (ACP, t-SNE)
- Test de la stabilité des clusters avec différents indicateurs
Résultats
- Choix de retenir 5 clusters (algorithme k-Means)
- Interprétation des caractéristiques des clusters en termes marketing
- Validation de la stabilité des clusters retenus sur une période de 6 mois et visualisation avec diagramme de Sankey
Faisabilité du classement automatique des articles d’un site de vente en ligne sur la base de la description et de la photo d’un article
NLP / Image processing / Transfer learning / Clustering
Données
- Échantillon de 1050 articles répartis en 7 catégories avec nom, image et description
Démarche
- Extraction de features texte et images avec des modèles traditionnels
- Comparaison des performances avec celles de réseaux de neurones pré-entraînés
- Segmentation des articles en groupes aux caractéristiques similaires et comparaison avec les catégories réelles
Résultats
- Meilleurs résultats obtenus avec les algorithmes de Transfert Learning :
- Textes : ARI = 71% avec algorithme USE
- Images : ARI = 41% avec algorithme ResNet50
Développement d'un modèle de prédictions des consommations d’énergie et d'émissions de gaz à effets de serre pour des bâtiments tertiaires
Régression / Feature engineering / Hyper-paramètres / Métriques
Données
- Caractéristiques, énergie et émissions de 3 400 bâtiments de la Ville de Seattle pour 2015 et 2016 (open data)
Démarche
- Analyse exploratoire
- Feature engineering : création de plusieurs variables pertinentes (catégorie de bâtiments, profil énergétique, ...)
- Comparaison et choix de métriques
- Comparaison de plusieurs modèles de régression (Lasso, ElasticNet, SVR RandomForrest, XGBoost)
- Optimisation des hyper-paramètres
Résultats
- Pertinence des variables créées, notamment le mix énergétique
- Meilleures performances obtenues avec le modèle linéaire ElasticNet