Skip to content

cmbesnier/portofolio

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

64 Commits
 
 
 
 
 
 

Repository files navigation

Data Scientist

⚡️ Ingénieure avec 8 ans d’expérience dans l’énergie et l’aménagement urbain, j’ai ajouté une brique data science à mon profil en 2021.

🌍️ Curieuse, méthodique et organisée, j’aime me confronter à des problématiques métier variées, dans un contexte français ou international.

🌿 Je suis particulièrement intéressée par les domaines suivants : efficacité énergétique, énergies renouvelables, réseaux, mobilité, comptabilité carbone ou autre aspects de la transition écologique.

👉 Mon CV et mon profil LinkedIn

Expériences professionnelles

  • Data scientist, ENERGIENCY, 2022-2024
  • Traductrice technique Anglais/Français, Freelance, 2019-2021
  • Expatriation aux Etats-Unis (bénévolat, formatrice en FLE), 2014-2018
  • Consultante Bâtiment, Energies & Climat, INDDIGO, 2010-2014
  • Consulante Éco-quartier, INDDIGO, 2008-2010

Formation

  • Data Scientist, OpenClassrooms & Centrale Supélec, 2021
  • Master Recherche Sciences et Techniques des environnements urbains, École d'Architecture de Nantes, 2008
  • Ingénieure Généraliste, Centrale Nantes, 2008

       

Portfolio Data Science

Voici une sélection de quelques projets réalisés dans le cadre de ma formation OpenClassrooms  

Implémentation d'un modèle de scoring


Développement d’un modèle de détection du risque de faillite bancaire et déploiement d’une application de type dashboard interactif

Classification binaire / Métrique spécifique / Light GBM / Dashboard / Streamlit

Dashboard Lien vers le dashboard interactif

Données

  • 7 tables de données contenant des informations diverses sur plus de 300 000 clients ayant fait une ou plusieurs demandes de prêts

Démarche

  • Analyse exploratoire et sélection de variables pertinentes
  • Définition d’une métrique d’évaluation spécifique aux coûts et pertes associés
  • Test de plusieurs méthodes pour pallier aux deséquilibres des classes
  • Optimisation et comparaison de modèles en utilisant des méthodes de blending et stacking

Résultats

  • Sélection du modéle Light GBM
  • Création et déploiement d’un dashboard interactif avec prédiction en direct en utilisant GitHub et Streamlit
  • Note méthodologique / Repo Github

       

Segmentation d'une base client


Segmentation d’une base clients pour une entreprise de e-commerce et validation de la stabilité des clusters

Clustering / Réduction de dimension / Interprétabilité / Sankey Diagram

clustering

Données

  • Base de données de plus de 90 000 clients. 8 fichiers de données concernant les achats, les paiements, les appréciations, etc.

Démarche

  • Création de variables interprétables et actionnables en termes marketing
  • Optimisation du nombre et de la taille des clusters avec les algorithmes k-Means et DB Scan
  • Visualisation des clusters par réduction de dimensions (ACP, t-SNE)
  • Test de la stabilité des clusters avec différents indicateurs

Résultats

  • Choix de retenir 5 clusters (algorithme k-Means)
  • Interprétation des caractéristiques des clusters en termes marketing
  • Validation de la stabilité des clusters retenus sur une période de 6 mois et visualisation avec diagramme de Sankey

       

Classification automatique d'articles


Faisabilité du classement automatique des articles d’un site de vente en ligne sur la base de la description et de la photo d’un article

NLP / Image processing / Transfer learning / Clustering

reconnaissance-articles-1

Données

  • Échantillon de 1050 articles répartis en 7 catégories avec nom, image et description

Démarche

  • Extraction de features texte et images avec des modèles traditionnels
  • Comparaison des performances avec celles de réseaux de neurones pré-entraînés
  • Segmentation des articles en groupes aux caractéristiques similaires et comparaison avec les catégories réelles

reconnaissance-articles-1

Résultats

  • Meilleurs résultats obtenus avec les algorithmes de Transfert Learning :
    • Textes : ARI = 71% avec algorithme USE
    • Images : ARI = 41% avec algorithme ResNet50

       

Prédiction de consommation d'énergie


Développement d'un modèle de prédictions des consommations d’énergie et d'émissions de gaz à effets de serre pour des bâtiments tertiaires

Régression / Feature engineering / Hyper-paramètres / Métriques

energy-pred

Données

  • Caractéristiques, énergie et émissions de 3 400 bâtiments de la Ville de Seattle pour 2015 et 2016 (open data)

Démarche

  • Analyse exploratoire
  • Feature engineering : création de plusieurs variables pertinentes (catégorie de bâtiments, profil énergétique, ...)
  • Comparaison et choix de métriques
  • Comparaison de plusieurs modèles de régression (Lasso, ElasticNet, SVR RandomForrest, XGBoost)
  • Optimisation des hyper-paramètres

Résultats

  • Pertinence des variables créées, notamment le mix énergétique
  • Meilleures performances obtenues avec le modèle linéaire ElasticNet

energy-pred

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published