Skip to content

Experience with time-series analysis and forecasting models, large data sets, model development and visualisation, statistics.

Notifications You must be signed in to change notification settings

tawounfouet/data-scientist-ocr-x-centralsupelec

Repository files navigation

Parcours Data Scientist - CentralSupelec x OpenClassrooms

Réalisation des analyses de données et des prédictions métiers poussées grâce à la data science.

Ce dépôt contient les projets réalisés dans le cadre du parcours Data Scientist d'OpenClassrooms. Le parcours est composé de 08 projets réalisés en Python.

  • Chaque projet est contenu dans un dossier séparé, et contient un fichier README.md décrivant le projet et les fichiers utilisés.
  • Les projets sont réalisés en Python 3.8
  • Les dépendances sont listées dans le fichier requirements.txt de chaque projet.
  • Les projets sont réalisés dans des environnements virtuels Python, créés avec virtualenv.
  • Les projets sont réalisés dans des notebooks Jupyter

Projet 1 : Analyse des données de systèmes éducatifs de la banque mondiale

Dans ce projet, nous avons travaillé pour une StartUp qui propose des formations en ligne et qui souhaite développer son activité à l'international. Pour cela, elle souhaite proposer ses formations dans des pays où le niveau d'éducation est élevé.Pour l'aider dans sa démarche, nous avons analysé les données du systèmes éducatifs, issues de l'OCDE et de la Banque Mondiale. Nous avons cherché à comprendre les facteurs qui influencent le niveau d'éducation des pays, et à prédire le niveau d'éducation d'un pays à partir de ces facteurs.

Compétences Développées :

  • Mise en place d'un environnement de development en Python (jupyter, virtualenv)
  • Réalisation de représentations graphiques à l'aide des librairies Python adaptée
  • Manipulation de données avec des librairies Python spécialisées (pandas, numpy)
  • Maîtrise des opérations fondamentales du langage Python pour la Data Science
  • Utilisation d'un notebook Jupyter pour faciliter la rédaction du code et la collaboration

Projet 2 : Conception d'une application au service de la santé publique

Dans ce projet, nous avons travaillé avec un agent de santé publique de la ville de Paris, qui souhaitait développer un outil de prédiction du nutriscore des produits alimentaires. Cet outil permettra de prédire le nutriscore d'un produit à partir de ses caractéristiques nutritionnelles, et de proposer des substituts plus sains aux produits ayant un mauvais nutriscore.

Compétences EvDéveloppéesaluées :

  • Réalisation d'une analyse statistique univariée
  • Réalisation d'une analyse statistique multivariée
  • Communication des résultats à l’aide de représentations graphiques lisibles et pertinentes
  • Réalisation d'opérations de nettoyage sur des données structurées

Projet 3 : Anticipation des besoins en consommation électrique de bâtiments

Dans ce projet, nous avons travaillé pour une entreprise de gestion de l'énergie, qui souhaitait développer un outil de prédiction de la consommation électrique de bâtiments. Cet outil permettra de prédire la consommation électrique d'un bâtiment à partir de ses caractéristiques, et de proposer des actions d'optimisation de la consommation électrique.

Compétences Développées :

  • Mise en place de modèles d'apprentissage supervisé adaptés aux problèmes métiers
  • Adaptation des hyperparamètres des algorithmes d'apprentissage supervisé pour les améliorer
  • Transformation des variables pertinentes pour les modèles d'apprentissage supervisé
  • Évaluation des performances des modèles d'apprentissage supervisé

Projet 4 : Segmentation des clients du site e-commerce Olist

Dans ce projet, nous avons travaillé pour une entreprise de e-commerce, qui souhaitait segmenter ses clients pour mieux les comprendre et adapter ses actions marketing. Nous avons réalisé une segmentation des clients à partir de leurs achats, et nous avons proposé des actions marketing adaptées à chaque segment.

Compétences Développées :

  • Adaptation des hyperparamètres des algorithmes non supervisés pour les améliorer
  • Évaluation des performances des modèles d'apprentissage non supervisé
  • Transformation des variables pertinentes pour les modèles d'apprentissage non supervisé
  • Mise en place de modèles d'apprentissage non supervisé adaptés aux problèmes métiers

Projet 5 : Classification automatique des biens de consommation du site e-commerce

Dans ce projet, nous avons travaillé pour une entreprise de e-commerce, qui souhaite développer un outil de classification automatique de ses produits. Cet outil permettra de classer automatiquement les produits à partir de leur description et image, et de proposer des catégories adaptées à chaque produit.

Compétences Développées :

  • Prétraitement de données images et textuelles pour obtenir un jeu de données exploitable
  • Représentation graphique de données à grandes dimensions
  • Mise en œuvre de techniques de réduction de dimension
  • Utilisation de techniques d’augmentation des données
  • Définition de la stratégie de collecte de données en recensant les API disponibles
  • Définition de la stratégie d’élaboration d’un modèle d'apprentissage profond
  • Évaluation de la performance des modèles d’apprentissage profond selon différents critères

Projet 6 : Implémentation un modèle de scoring de crédit

Dans ce projet, nous avons travaillé pour une entreprise de crédit à la consommation, qui souhaite développer un outil de scoring pour évaluer la solvabilité de ses clients. Cet outil permettra de prédire la probabilité de défaut de paiement d'un client à partir de ses caractéristiques, et de proposer des actions adaptées à chaque client.

Compétences Développées :

  • Définition et mise en œuvre de stratégies de suivi de la performance d’un modèle
  • Évaluation des performances des modèles d’apprentissage supervisé
  • Utilisation d'un logiciel de version de code pour assurer l’intégration du modèle
  • Définition de la stratégie d’élaboration d’un modèle d’apprentissage supervisé
  • Réalisation d'un dashboard pour présenter le travail de modélisation
  • Rédaction d'une note méthodologique pour communiquer la démarche de modélisation
  • Présentation orale du travail de modélisation
  • Déploiement d'un modèle via une API sur le Web
  • Définition et mise en œuvre d'un pipeline d’entraînement des modèles

Projet 7 : Mise en place d'un environnement Big Data et Déploiement un modèle d'un modèle de classification de fruits

Dans ce projet, nous avons travaillé pour une start-up de l'AgriTech, nommée "Fruits!". Elle souhaite dans un premier temps se faire connaître en mettant à disposition du grand public une application mobile qui permettrait aux utilisateurs de prendre en photo un fruit et d'obtenir des informations sur ce fruit. Pour cela, nous avons développé un modèle de classification des fruits, et nous l'avons déployé dans le cloud avec AWS. Nous avons également mis en place une API pour permettre à l'application mobile d'interagir avec le modèle.

Compétences Développées :

  • Utilisation des outils du cloud pour manipuler des données dans un environnement Big Data
  • Identification des outils du cloud permettant de mettre en place un environnement Big Data
  • Parallélisation des opérations de calcul avec Pyspark
  • Développement et déploiement d'un modèle de classification dans le cloud
  • Mise en place d'une API pour l'interaction avec l'application mobile

Releases

No releases published

Packages

No packages published

Languages