# Des modules Python

# Extraction de données



## Web Scraping (Extraction de données web)


### Définition :
Le web scraping est une technique utilisée pour extraire des données spécifiques à partir de sites web. Ces données sont généralement structurées (comme des tableaux, des listes, des articles, etc.) et sont récupérées pour être analysées ou stockées.

### Utilisation :

Récupérer des informations comme les prix de produits, les actualités, les avis clients, etc.
Automatiser la collecte de données à partir de pages web.

### Outils courants :

Bibliothèques Python : BeautifulSoup, Scrapy, Selenium.
Outils visuels : Octoparse, ParseHub.

### Exemple :
Extraire les titres et les prix des produits d'une page e-commerce.

### Capsule YT : 
https://www.youtube.com/playlist?list=PLgsHA8XfvCeV2zaWXDDBx75sPfVLYNHW6


## Web Crawling (Indexation ou exploration web)

### Définition :
Le web crawling est un processus automatisé qui consiste à parcourir le web de manière systématique pour découvrir et indexer des pages web. Les crawlers (ou robots d'indexation) suivent les liens d'une page à l'autre.

### Utilisation :

Utilisé par les moteurs de recherche (comme Google) pour indexer les pages web.
Découvrir de nouvelles pages et mettre à jour les informations existantes.

### Outils courants :

Bibliothèques Python : Scrapy, requests + BeautifulSoup.
Crawlers de moteurs de recherche : Googlebot, Bingbot.

### Exemple :
Un robot qui parcourt le web pour indexer les pages et les ajouter à une base de données de moteur de recherche.

## 1. Scrapy

Scrapy (l’une des bibliothèques de science des données en Python les plus populaires) aide à construire des programmes d’exploration (spider bots) qui peuvent récupérer des données structurées sur le web – par exemple, des URL ou des informations de contact.  
C’est un excellent outil pour scraper les données utilisées, par exemple, dans les modèles de Machine Learning en Python.

Les développeurs l’utilisent pour collecter des données à partir d’API.   
Ce framework à part entière suit le principe “Don’t Repeat Yourself” dans la conception de son interface.  
En conséquence, l’outil incite les utilisateurs à écrire un code universel qui peut être réutilisé pour la construction et la mise à l’échelle de grands robots d’exploration. 

(lien vers le github scrapy https://github.com/scrapy/scrapy)


Apprendre sur  YT : https://www.youtube.com/playlist?list=PLEn9o0UAh_cD9DtRDjq6kZFdU-6qSU_HZ

## 2. BeautifulSoup

BeautifulSoup est une autre bibliothèque très populaire pour le crawling sur le web et le scraping de données. Si vous souhaitez collecter des données disponibles sur un site web mais non via un fichier CSV ou une API, BeautifulSoup peut vous aider à les scraper et à les organiser dans le format dont vous avez besoin. 

(lien documentation BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/)





# Traitement et modélisation des données

## Traitement des données (Data Processing)
### Définition
Le traitement des données désigne l'ensemble des opérations visant à nettoyer, transformer, organiser et analyser des données brutes pour les rendre exploitables. Cela inclut :

- Le nettoyage (suppression des doublons, gestion des valeurs manquantes).
- La transformation (normalisation, agrégation, calcul de nouvelles variables).
- L'exploration (statistiques descriptives, visualisation).

### Outils en Python

- Pandas : Pour manipuler des tableaux de données (DataFrames) et effectuer des opérations de nettoyage/transformation.
- NumPy : Pour les calculs numériques avancés (tableaux multidimensionnels, opérations mathématiques).
- OpenRefine (hors Python) : Pour le nettoyage interactif.

### Exemples en science des matériaux/chimie

#### Nettoyage :
Supprimer les valeurs aberrantes dans un jeu de données de mesures de résistance mécanique.

In [None]:
import pandas as pd
df = pd.read_csv("mesures_resistance.csv")
df_clean = df.dropna()  # Supprime les lignes avec des valeurs manquantes

#### Transformation :
Convertir des unités (ex. : Celsius → Kelvin) ou calculer des moyennes mobiles pour lisser des courbes expérimentales.

In [None]:
df["temperature_K"] = df["temperature_C"] + 273.15

#### Agrégation :
Calculer la moyenne des propriétés d'un matériau pour différentes conditions expérimentales.

In [None]:
df_grouped = df.groupby("condition").mean()

## Modélisation des données (Data Modeling)
### Définition
La modélisation des données consiste à utiliser des algorithmes ou des équations pour représenter des phénomènes réels à partir des données. Cela inclut :

- La régression (prédire une variable continue, ex. : propriété mécanique en fonction de la composition chimique).
- La classification (catégoriser des échantillons, ex. : identifier des phases cristallines).
- La simulation (modèles physiques ou empiriques, ex. : cinétique de réaction).

### Outils en Python

- Scikit-learn : Pour le machine learning (régression, classification, clustering).
- SciPy : Pour les modèles mathématiques/physiques (équations différentielles, optimisation).
- TensorFlow/PyTorch : Pour les modèles complexes (réseaux de neurones).
- Statsmodels : Pour les statistiques avancées (régression linéaire/multiple).

### Exemples en science des matériaux/chimie

#### Régression linéaire :
Prédire la conductivité thermique d'un matériau en fonction de sa porosité.

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X=df[["porosite"]], y=df["conductivite"])

#### Classification :
Classer des échantillons en fonction de leur spectre infrarouge (ex. : polymères vs céramiques).

In [None]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)  # X_train = spectres, y_train = labels

#### Modèles physiques :
Résoudre des équations différentielles pour simuler une réaction chimique avec SciPy.

In [None]:
from scipy.integrate import odeint
def model(y, t, k):
    dydt = -k * y  # Loi cinétique d'ordre 1
    return dydt
solution = odeint(model, y0=1.0, t=temps, args=(k,))

#### Réseaux de neurones :
Prédire la structure cristalline d'un matériau à partir de sa composition (avec TensorFlow).

## 3. NumPy

NumPy (pour Numerical Python) est un outil parfait pour le calcul scientifique et la réalisation d’opérations de base et avancées avec des tableaux.

La bibliothèque offre de nombreuses fonctionnalités pratiques permettant d’effectuer des opérations sur des tableaux (n-arrays) et des matrices en Python.   Elle permet de traiter des tableaux qui stockent des valeurs du même type de données et facilite l’exécution d’opérations mathématiques sur les tableaux (et leur vectorisation).   
En fait, la vectorisation des opérations mathématiques sur le type de tableau NumPy augmente les performances et accélère le temps d’exécution. 

(lien github NumPy https://github.com/numpy/numpy)

Si vous voulez en apprendre plus, regardez ce guide NumPy https://moncoachdata.com/blog/guide-bibliotheque-numpy/.

## 4. SciPy

Cette bibliothèque utile comprend des modules pour l’algèbre linéaire, l’intégration, l’optimisation et les statistiques. 

Sa fonctionnalité principale a été construite sur NumPy, donc ses tableaux utilisent cette bibliothèque.  
SciPy fonctionne parfaitement pour toutes sortes de projets de programmation scientifique (sciences, mathématiques et ingénierie).  
Il offre des routines numériques efficaces telles que l’optimisation numérique, l’intégration et d’autres dans des sous-modules. La vaste documentation rend le travail avec cette bibliothèque vraiment facile. 

(lien github de SciPy https://github.com/scipy/scipy)

## 5. Pandas

Pandas est une bibliothèque créée pour aider les développeurs à travailler intuitivement avec des données “étiquetées” et “relationnelles”.  

Elle est basée sur deux structures de données principales : “Série” (unidimensionnelle, comme une liste Python) et “Dataframe” (bidimensionnelle, comme un tableau à plusieurs colonnes).   
Pandas permet de convertir des structures de données en objets DataFrame, de gérer les données manquantes et d’ajouter/supprimer des colonnes de DataFrame, d’imputer les fichiers manquants et de tracer les données avec un histogramme ou une boîte à moustache.   
C’est un outil indispensable pour la manipulation et la visualisation des données. 

(lien github Pandas https://moncoachdata.com/blog/guide-bibliotheque-pandas/)

# Visualisation de données

## 6. Matplotlib

Matplotlib est une bibliothèque scientifique de données standard qui aide à générer des visualisations de données telles que des diagrammes et des graphiques bidimensionnels (histogrammes, diagrammes de dispersion, graphiques de coordonnées non cartésiennes). Matplotlib est l’une de ces bibliothèques de tracés qui sont vraiment utiles dans les projets de science des données – elle fournit une API orientée objet pour intégrer des tracés dans les applications.

C’est grâce à cette bibliothèque que Python peut rivaliser avec des outils scientifiques comme MatLab ou Mathematica. Cependant, les développeurs doivent écrire plus de code que d’habitude en utilisant cette bibliothèque pour générer des visualisations avancées. Notez que les bibliothèques de tracés populaires fonctionnent sans problème avec Matplotlib. (lien github Matplotlib https://github.com/matplotlib/matplotlib)

## 7. Seaborn

Seaborn est basé sur Matplotlib et sert d’outil de Machine Learning Python utile pour la visualisation de modèles statistiques – cartes thermiques et autres types de visualisations qui résument les données et dépeignent les distributions globales. En utilisant cette bibliothèque, vous bénéficiez d’une vaste galerie de visualisations (y compris des visualisations complexes comme les séries temporelles, les tracés conjoints et les diagrammes de violon). (lien github Seaborn https://github.com/mwaskom/seaborn)

## 8. Bokeh

Cette bibliothèque est un excellent outil pour créer des visualisations interactives et évolutives à l’intérieur des navigateurs en utilisant des widgets JavaScript. Bokeh est totalement indépendant de Matplotlib. Elle se concentre sur l’interactivité et présente des visualisations à travers les navigateurs modernes – de manière similaire aux documents pilotés par les données (d3.js). Il offre un ensemble de graphiques, de capacités d’interaction (comme la liaison de tracés ou l’ajout de widgets JavaScript) et de style. (lien github Bokeh https://github.com/bokeh/bokeh)

## 9. Plotly

Cet outil web de visualisation des données qui offre de nombreux graphiques utiles prêts à l’emploi – vous pouvez les trouver sur le site Plot.ly https://plotly.com/. La bibliothèque fonctionne très bien dans les applications web interactives. Ses créateurs s’emploient à enrichir la bibliothèque avec de nouveaux graphiques et de nouvelles fonctionnalités permettant de prendre en charge plusieurs vues liées, l’animation et l’intégration de la diaphonie. (lien github Plotly https://github.com/plotly/plotly.py)

## 10. pydot

Cette bibliothèque permet de générer des graphes orientés et non orientés. Elle sert d’interface à Graphviz (écrit en pur Python). Vous pouvez facilement montrer la structure des graphes à l’aide de cette bibliothèque. Cela s’avère pratique lorsque vous développez des algorithmes basés sur des réseaux de neurones et des arbres de décision. (lien github pydot https://github.com/pydot/pydot)

# "IA"

## 11. Keras

Keras est une excellente bibliothèque pour la construction de réseaux de neurones et la modélisation. Elle est très simple à utiliser et offre aux développeurs un bon degré d’extensibilité. La bibliothèque tire parti d’autres paquets (Theano ou TensorFlow) comme terminaux. De plus, Microsoft a intégré CNTK (Microsoft Cognitive Toolkit) pour servir d’autre backend. C’est un excellent choix si vous voulez expérimenter rapidement en utilisant des systèmes compacts – l’approche minimaliste de la conception est vraiment top ! (lien github Keras https://github.com/keras-team/keras)

## 12. Scikit-Learn

Il s’agit d’une norme industrielle pour les projets de science des données basés en Python. Scikits est un groupe de paquets de SciPy qui ont été créés pour des fonctionnalités spécifiques – par exemple, le traitement d’images. Scikit-learn utilise les opérations mathématiques de SciPy pour exposer une interface concise aux algorithmes d’apprentissage machine les plus courants.

Les spécialistes des données l’utilisent pour traiter les tâches standard de Machine Learning et d’exploration de données telles que le regroupement, la régression, la sélection de modèles, la réduction de la dimensionnalité et la classification. Un autre avantage ? Il s’accompagne d’une documentation de qualité et offre des performances élevées. (lien github scikit-learn https://github.com/scikit-learn/scikit-learn)

## 13. PyTorch

PyTorch est un framework qui est parfait pour les data scientists qui veulent effectuer facilement des tâches de Deep Learning. L’outil permet d’effectuer des calculs de tenseurs avec une accélération GPU. Il est également utilisé pour d’autres tâches – par exemple, pour créer des graphiques de calcul dynamiques et calculer automatiquement des gradients. PyTorch est basé sur Torch, qui est une bibliothèque open-source de Deep Learning, implémentée en C, avec un habillage en Lua. (lien github PyTorch https://github.com/pytorch/pytorch)

## 14. TensorFlow

TensorFlow est un framework Python populaire pour le Machine Learning et le Deep Learning, qui a été développé à Google Brain. C’est le meilleur outil pour des tâches comme l’identification d’objets, la reconnaissance vocale et bien d’autres. Il permet de travailler avec des réseaux neuronaux artificiels qui doivent gérer plusieurs ensembles de données. La bibliothèque comprend plusieurs aides de couches (tflearn, tf-slim, skflow), qui la rendent encore plus fonctionnelle. TensorFlow s’enrichit constamment de nouvelles versions, notamment en corrigeant les éventuelles failles de sécurité ou en améliorant l’intégration de TensorFlow et du GPU. (lien github de TensorFlow https://github.com/tensorflow/tensorflow)

## 15. XGBoost

Utilisez cette bibliothèque pour mettre en œuvre des algorithmes de Machine Learning dans le framework du Gradient Boosting. XGBoost est portable, flexible et efficace. Il offre un boosting d’arbres parallèles qui aide les équipes à résoudre de nombreux problèmes de science des données. Un autre avantage est que les développeurs peuvent exécuter le même code sur les principaux environnements distribués tels que Hadoop, SGE et MPI. (lien github de XGBoost https://github.com/dmlc/xgboost)