Data Scientist

⚡️ Ingénieure avec 8 ans d’expérience dans l’énergie et l’aménagement urbain, j’ai ajouté une brique data science à mon profil en 2021.

🌍️ Curieuse, méthodique et organisée, j’aime me confronter à des problématiques métier variées, dans un contexte français ou international.

🌿 Je suis particulièrement intéressée par les domaines suivants : efficacité énergétique, énergies renouvelables, réseaux, mobilité, comptabilité carbone ou autre aspects de la transition écologique.

👉 Mon CV et mon profil LinkedIn

Expériences professionnelles

Data scientist, ENERGIENCY, 2022-2024
Traductrice technique Anglais/Français, Freelance, 2019-2021
Expatriation aux Etats-Unis (bénévolat, formatrice en FLE), 2014-2018
Consultante Bâtiment, Energies & Climat, INDDIGO, 2010-2014
Consulante Éco-quartier, INDDIGO, 2008-2010

Formation

Data Scientist, OpenClassrooms & Centrale Supélec, 2021
Master Recherche Sciences et Techniques des environnements urbains, École d'Architecture de Nantes, 2008
Ingénieure Généraliste, Centrale Nantes, 2008

Portfolio Data Science

Voici une sélection de quelques projets réalisés dans le cadre de ma formation OpenClassrooms

Implémentation d'un modèle de scoring

Développement d’un modèle de détection du risque de faillite bancaire et déploiement d’une application de type dashboard interactif

Classification binaire / Métrique spécifique / Light GBM / Dashboard / Streamlit

Lien vers le dashboard interactif

Données

7 tables de données contenant des informations diverses sur plus de 300 000 clients ayant fait une ou plusieurs demandes de prêts

Démarche

Analyse exploratoire et sélection de variables pertinentes
Définition d’une métrique d’évaluation spécifique aux coûts et pertes associés
Test de plusieurs méthodes pour pallier aux deséquilibres des classes
Optimisation et comparaison de modèles en utilisant des méthodes de blending et stacking

Résultats

Sélection du modéle Light GBM
Création et déploiement d’un dashboard interactif avec prédiction en direct en utilisant GitHub et Streamlit
Note méthodologique / Repo Github

Segmentation d'une base client

Segmentation d’une base clients pour une entreprise de e-commerce et validation de la stabilité des clusters

Clustering / Réduction de dimension / Interprétabilité / Sankey Diagram

Données

Base de données de plus de 90 000 clients. 8 fichiers de données concernant les achats, les paiements, les appréciations, etc.

Démarche

Création de variables interprétables et actionnables en termes marketing
Optimisation du nombre et de la taille des clusters avec les algorithmes k-Means et DB Scan
Visualisation des clusters par réduction de dimensions (ACP, t-SNE)
Test de la stabilité des clusters avec différents indicateurs

Résultats

Choix de retenir 5 clusters (algorithme k-Means)
Interprétation des caractéristiques des clusters en termes marketing
Validation de la stabilité des clusters retenus sur une période de 6 mois et visualisation avec diagramme de Sankey

Classification automatique d'articles

Faisabilité du classement automatique des articles d’un site de vente en ligne sur la base de la description et de la photo d’un article

NLP / Image processing / Transfer learning / Clustering

Données

Échantillon de 1050 articles répartis en 7 catégories avec nom, image et description

Démarche

Extraction de features texte et images avec des modèles traditionnels
Comparaison des performances avec celles de réseaux de neurones pré-entraînés
Segmentation des articles en groupes aux caractéristiques similaires et comparaison avec les catégories réelles

Résultats

Meilleurs résultats obtenus avec les algorithmes de Transfert Learning :
- Textes : ARI = 71% avec algorithme USE
- Images : ARI = 41% avec algorithme ResNet50

Prédiction de consommation d'énergie

Développement d'un modèle de prédictions des consommations d’énergie et d'émissions de gaz à effets de serre pour des bâtiments tertiaires

Régression / Feature engineering / Hyper-paramètres / Métriques

Données

Caractéristiques, énergie et émissions de 3 400 bâtiments de la Ville de Seattle pour 2015 et 2016 (open data)

Démarche

Analyse exploratoire
Feature engineering : création de plusieurs variables pertinentes (catégorie de bâtiments, profil énergétique, ...)
Comparaison et choix de métriques
Comparaison de plusieurs modèles de régression (Lasso, ElasticNet, SVR RandomForrest, XGBoost)
Optimisation des hyper-paramètres

Résultats

Pertinence des variables créées, notamment le mix énergétique
Meilleures performances obtenues avec le modèle linéaire ElasticNet

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
assets		assets
README.md		README.md
_config.yml		_config.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Scientist

Expériences professionnelles

Formation

Portfolio Data Science

Implémentation d'un modèle de scoring

Segmentation d'une base client

Classification automatique d'articles

Prédiction de consommation d'énergie

About

Releases

Packages

cmbesnier/portofolio

Folders and files

Latest commit

History

Repository files navigation

Data Scientist

Expériences professionnelles

Formation

Portfolio Data Science

Implémentation d'un modèle de scoring

Segmentation d'une base client

Classification automatique d'articles

Prédiction de consommation d'énergie

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages