Liste des ressources pour le cours de DataMining
- CM1 - Introduction et premiers concepts
- CM1 (bis) - Rappels Statistiques
- CM2 - Déroulement d’une étude de Data Mining
- CM2 - Notebook - Analyse descriptive
- CM3- Déroulement d’une étude de Data Mining (Suite) + Clustering
- CM4 - Modèles DM + Modélisation prévisionnelle d’une série temporelle
Voir les consignes du Projet Collectif.
Installer la distribution Anaconda sur votre ordinateur: https://www.anaconda.com/products/individual
Anaconda contient déjà de nombreuses librairies en son sein, mais des librairies supplémentaires sont requises pour pouvoir suivre les TD en entier.
Pour les installer, ouvrir une invite de commande Anaconda (menu démarrer -> Anaconda -> "Anaconda Prompt") et exécuter la commande suivante :
conda install -y -c conda-forge -c plotly pandas==0.25.3 numpy==1.17.4 jupyter notebook plotly==4.4.1 matplotlib==3.1.2 plotly-orca requests psutil pandas-profiling scikit-learn==0.22.1 numba==0.42.0 umap-learn fbprophet hdbscan
Ouvrir un terminal et tapez:
conda install -y -c conda-forge -c plotly pandas==0.25.3 numpy==1.17.4 jupyter notebook plotly==4.4.1 matplotlib==3.1.2 plotly-orca requests psutil pandas-profiling scikit-learn==0.22.1 numba==0.42.0 umap-learn fbprophet hdbscan
Un notebook Jupyter est une représentation interactive sous forme de page Web de l'interpréteur Python. On peut le voir comme une évolution visuelle de taille d'un interpréteur sous forme "lignes de commandes" classique.
Tous les TD sont sous formes de notebook. Pour ouvrir des notebooks, les instructions ci-dessous seront à reproduire à chaque fois :
- Menu démarrer -> Anaconda -> Jupyter Notebook
- (Si applicable) choisir le navigateur à utiliser pour ouvrir les notebooks
- Naviguer vers le dossier où vous avez extrait les zip des TD
- Cliquer sur un notebook pour l'ouvrir dans une nouvelle page
Pour terminer une session, fermez les pages et la fenêtre du terminal.
Vous pouvez également lancer le notebook sur Google Colab : https://colab.research.google.com Le Notebook s'exécutera dans le Cloud de Google (jusqu'à atteinte d'un quota maximum d'exécution).
Vous pouvez aussi directement appuyer sur le bouton suivant :
⚠️ Pensez toujours à charger un fichier le fichier CSV correspondant lorsqu'il y a la ligne suivante :pd.read_csv("fichier.csv")
et adapter le chemin vers le fichier. Lisez la suite pour en savoir comment faire.
Pour télécharger des fichiers sources dans Google Colab, merci de lire ce lien : https://medium.com/@simonprdhm/2-mani%C3%A8res-simple-de-charger-un-fichier-csv-dans-google-colab-3b86616d248a
Pour se familiariser avec Colab: https://colab.research.google.com/notebooks/welcome.ipynb?hl=fr
- Une autre plateforme de Notebook en ligne (créé par JetBrains): https://datalore.jetbrains.com
- Un IDE pour scientifique - Spyder (intégré à Anaconda) : https://www.spyder-ide.org
- Un IDE pour codeur - gratuit comme ou VS Code: https://code.visualstudio.com
- Un IDE commercial Pycharm Pro (la version gratuite ne prend pas en charge les Notebooks): https://www.jetbrains.com/fr-fr/pycharm/
Sincère remerciement à :
- Thomas CATTELLE pour m'avoir communiqué ses supports de cours (revue pour l'occasion) et de TDs
- Michael PENARANDA et Trimane qui m'ont permis de reprendre ce cours en partenariat avec l'UTC Capitole de Toulouse.
- a l'équipe de pédogique du master MIAGE / ISIAD de l'UTC Capitole
- aux élèves sans qui il n'y aurait pas de cours !