Parcours Data Scientist - CentralSupelec x OpenClassrooms

Réalisation des analyses de données et des prédictions métiers poussées grâce à la data science.

Ce dépôt contient les projets réalisés dans le cadre du parcours Data Scientist d'OpenClassrooms. Le parcours est composé de 08 projets réalisés en Python.

Chaque projet est contenu dans un dossier séparé, et contient un fichier README.md décrivant le projet et les fichiers utilisés.
Les projets sont réalisés en Python 3.8
Les dépendances sont listées dans le fichier requirements.txt de chaque projet.
Les projets sont réalisés dans des environnements virtuels Python, créés avec virtualenv.
Les projets sont réalisés dans des notebooks Jupyter

Projet 1 : Analyse des données de systèmes éducatifs de la banque mondiale

Dans ce projet, nous avons travaillé pour une StartUp qui propose des formations en ligne et qui souhaite développer son activité à l'international. Pour cela, elle souhaite proposer ses formations dans des pays où le niveau d'éducation est élevé.Pour l'aider dans sa démarche, nous avons analysé les données du systèmes éducatifs, issues de l'OCDE et de la Banque Mondiale. Nous avons cherché à comprendre les facteurs qui influencent le niveau d'éducation des pays, et à prédire le niveau d'éducation d'un pays à partir de ces facteurs.

Compétences Développées :

Mise en place d'un environnement de development en Python (jupyter, virtualenv)
Réalisation de représentations graphiques à l'aide des librairies Python adaptée
Manipulation de données avec des librairies Python spécialisées (pandas, numpy)
Maîtrise des opérations fondamentales du langage Python pour la Data Science
Utilisation d'un notebook Jupyter pour faciliter la rédaction du code et la collaboration

Projet 2 : Conception d'une application au service de la santé publique

Dans ce projet, nous avons travaillé avec un agent de santé publique de la ville de Paris, qui souhaitait développer un outil de prédiction du nutriscore des produits alimentaires. Cet outil permettra de prédire le nutriscore d'un produit à partir de ses caractéristiques nutritionnelles, et de proposer des substituts plus sains aux produits ayant un mauvais nutriscore.

Compétences EvDéveloppéesaluées :

Réalisation d'une analyse statistique univariée
Réalisation d'une analyse statistique multivariée
Communication des résultats à l’aide de représentations graphiques lisibles et pertinentes
Réalisation d'opérations de nettoyage sur des données structurées

Projet 3 : Anticipation des besoins en consommation électrique de bâtiments

Dans ce projet, nous avons travaillé pour une entreprise de gestion de l'énergie, qui souhaitait développer un outil de prédiction de la consommation électrique de bâtiments. Cet outil permettra de prédire la consommation électrique d'un bâtiment à partir de ses caractéristiques, et de proposer des actions d'optimisation de la consommation électrique.

Compétences Développées :

Mise en place de modèles d'apprentissage supervisé adaptés aux problèmes métiers
Adaptation des hyperparamètres des algorithmes d'apprentissage supervisé pour les améliorer
Transformation des variables pertinentes pour les modèles d'apprentissage supervisé
Évaluation des performances des modèles d'apprentissage supervisé

Projet 4 : Segmentation des clients du site e-commerce Olist

Dans ce projet, nous avons travaillé pour une entreprise de e-commerce, qui souhaitait segmenter ses clients pour mieux les comprendre et adapter ses actions marketing. Nous avons réalisé une segmentation des clients à partir de leurs achats, et nous avons proposé des actions marketing adaptées à chaque segment.

Compétences Développées :

Adaptation des hyperparamètres des algorithmes non supervisés pour les améliorer
Évaluation des performances des modèles d'apprentissage non supervisé
Transformation des variables pertinentes pour les modèles d'apprentissage non supervisé
Mise en place de modèles d'apprentissage non supervisé adaptés aux problèmes métiers

Projet 5 : Classification automatique des biens de consommation du site e-commerce

Dans ce projet, nous avons travaillé pour une entreprise de e-commerce, qui souhaite développer un outil de classification automatique de ses produits. Cet outil permettra de classer automatiquement les produits à partir de leur description et image, et de proposer des catégories adaptées à chaque produit.

Compétences Développées :

Prétraitement de données images et textuelles pour obtenir un jeu de données exploitable
Représentation graphique de données à grandes dimensions
Mise en œuvre de techniques de réduction de dimension
Utilisation de techniques d’augmentation des données
Définition de la stratégie de collecte de données en recensant les API disponibles
Définition de la stratégie d’élaboration d’un modèle d'apprentissage profond
Évaluation de la performance des modèles d’apprentissage profond selon différents critères

Projet 6 : Implémentation un modèle de scoring de crédit

Dans ce projet, nous avons travaillé pour une entreprise de crédit à la consommation, qui souhaite développer un outil de scoring pour évaluer la solvabilité de ses clients. Cet outil permettra de prédire la probabilité de défaut de paiement d'un client à partir de ses caractéristiques, et de proposer des actions adaptées à chaque client.

Compétences Développées :

Définition et mise en œuvre de stratégies de suivi de la performance d’un modèle
Évaluation des performances des modèles d’apprentissage supervisé
Utilisation d'un logiciel de version de code pour assurer l’intégration du modèle
Définition de la stratégie d’élaboration d’un modèle d’apprentissage supervisé
Réalisation d'un dashboard pour présenter le travail de modélisation
Rédaction d'une note méthodologique pour communiquer la démarche de modélisation
Présentation orale du travail de modélisation
Déploiement d'un modèle via une API sur le Web
Définition et mise en œuvre d'un pipeline d’entraînement des modèles

Projet 7 : Mise en place d'un environnement Big Data et Déploiement un modèle d'un modèle de classification de fruits

Dans ce projet, nous avons travaillé pour une start-up de l'AgriTech, nommée "Fruits!". Elle souhaite dans un premier temps se faire connaître en mettant à disposition du grand public une application mobile qui permettrait aux utilisateurs de prendre en photo un fruit et d'obtenir des informations sur ce fruit. Pour cela, nous avons développé un modèle de classification des fruits, et nous l'avons déployé dans le cloud avec AWS. Nous avons également mis en place une API pour permettre à l'application mobile d'interagir avec le modèle.

Compétences Développées :

Utilisation des outils du cloud pour manipuler des données dans un environnement Big Data
Identification des outils du cloud permettant de mettre en place un environnement Big Data
Parallélisation des opérations de calcul avec Pyspark
Développement et déploiement d'un modèle de classification dans le cloud
Mise en place d'une API pour l'interaction avec l'application mobile

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
Projet 1 - Analysez des données de la banque mondiale		Projet 1 - Analysez des données de la banque mondiale
Projet 2 - Conception d'une application au service de la santé publique		Projet 2 - Conception d'une application au service de la santé publique
Projet 3 - Anticipation des besoins en consommation électrique de bâtiments		Projet 3 - Anticipation des besoins en consommation électrique de bâtiments
Projet 4 - Segmentation des clients d'un site e-commerce		Projet 4 - Segmentation des clients d'un site e-commerce
Projet 5 - Classification automatiquement des biens de consommation		Projet 5 - Classification automatiquement des biens de consommation
Projet 6 - Implémentation d'un modèle de scoring		Projet 6 - Implémentation d'un modèle de scoring
Projet 7 - Déploiement d'un modèle dans le cloud		Projet 7 - Déploiement d'un modèle dans le cloud
.gitignore		.gitignore
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Parcours Data Scientist - CentralSupelec x OpenClassrooms

Projet 1 : Analyse des données de systèmes éducatifs de la banque mondiale

Projet 2 : Conception d'une application au service de la santé publique

Projet 3 : Anticipation des besoins en consommation électrique de bâtiments

Projet 4 : Segmentation des clients du site e-commerce Olist

Projet 5 : Classification automatique des biens de consommation du site e-commerce

Projet 6 : Implémentation un modèle de scoring de crédit

Projet 7 : Mise en place d'un environnement Big Data et Déploiement un modèle d'un modèle de classification de fruits

About

Releases

Packages

Languages

tawounfouet/data-scientist-ocr-x-centralsupelec

Folders and files

Latest commit

History

Repository files navigation

Parcours Data Scientist - CentralSupelec x OpenClassrooms

Projet 1 : Analyse des données de systèmes éducatifs de la banque mondiale

Projet 2 : Conception d'une application au service de la santé publique

Projet 3 : Anticipation des besoins en consommation électrique de bâtiments

Projet 4 : Segmentation des clients du site e-commerce Olist

Projet 5 : Classification automatique des biens de consommation du site e-commerce

Projet 6 : Implémentation un modèle de scoring de crédit

Projet 7 : Mise en place d'un environnement Big Data et Déploiement un modèle d'un modèle de classification de fruits

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages