In [1]:
import os
import sys

print(os.getcwd())
cwd0 = './config/'
sys.path.append(cwd0)

import visualID as vID
from visualID import color
vID.init(cwd0)

/home/romuald/ENSEIGNEMENT/0-JupyterNotebooks/pyPhysChem


**Début à:** Wednesday 05 April 2023, 12:28:02  
**Hostname:** insa-12842 (Linux)

<p style="text-align: center"><img width="800px" src="./config/svg/logoDebut.svg" style="margin-left:auto; margin-right:auto"/></p>

# Traitement statistique de données<br>(data science pour débutants)
contact: romuald.poteau@univ-tlse3.fr

## Introduction  

### Contexte de cette série de Cours/TP

#### La science des données

<div class="intro">
    
La communauté scientifique est aujourd'hui productrice d'un nombre gigantesque de données de recherche, qui s'inscrivent dans le contexte actuel du Big Data et de la Science Ouverte, dépeint par Jim Gray (Microsoft, 2007) comme l’ère d'un 4ème [paradigme](https://www.cnrtl.fr/definition/paradigme/substantif), dit de la “**science dirigée par les données massives**”. Quels sont les trois premiers paradigmes ? Ils sont résumés dans la [figure](https://gricad-gitlab.univ-grenoble-alpes.fr/talks/fidle/-/wikis/home) ci-dessous :

<p style="text-align: center"><img width="750px" src="DS4B-svg/4thParadigm.png" style="margin-left:auto; margin-right:auto" id="img_4thParadigm"></img></p>

<ol type="1">
<li> L'activité scientifique a démarré il y a quelques millénaires avec une méthodologie empirique basée sur l'observation des phénomènes observables
<li> Depuis quelques siècles, les pratiques scientifiques deviennent de plus en plus théoriques, utilisent des modèles, font massivement appel à des lois et des concepts
<li> Depuis le milieu du XXème siècle environ, les scientifiques utilisent des ordinateurs pour modéliser des phénomènes complexes. Programmation et simulations numériques deviennent un outil de travail du chercheur
</ol>

Pour citer [wikipedia](https://fr.wikipedia.org/wiki/Science_des_donn%C3%A9es), "*la science des données est l'<span style="color:red"><b>extraction de connaissances</b></span> [à partir] d’ensembles de données*". On va dans cette série de cours/TP apprendre à lire des données et à en extraire des connaissances :
    
- soit sous forme de relation mathématique
- soit sous forme d'une boîte noire qui va trouver à notre place une relation qui semblerait exister entre ces donnnées, sans hélas nous délivrer une relation mathématique.
</div>

#### La base de données utilisée ici pour illustrer cette thématique

<div class="intro">

Ce sujet exploite une base de données très utilisées pour l'apprentissage de méthodes statistiques, la base **IRIS** : 
- elle regroupe les caractéristiques de trois espèces de fleurs d’Iris : Setosa, Versicolor et Virginica
- la base regroupe 50 observations par espèce (soit 150 **individus**)
- chaque observation repose sur 4 caractéristiques (c'est-à-dire 4 **variables**): longueur et largeur de sépales ainsi que longueur et largeur de pétales

<p style="text-align: center"><img width="500px" src="./DS4B-iris-images/iris.png" style="margin-left:auto; margin-right:auto" id="img_iris"></img></p>

Une page [wikipedia](https://fr.wikipedia.org/wiki/Iris_de_Fisher) porte sur ce dataset, qui contient à la fois des données numériques (largeur & longueur de pétales et sépales) et descriptives (types d'iris).
</div>

### Objectifs

<div class="intro">
- Lecture de données numériques et descriptives
- Analyse graphique des données
- Savoir identifier des corrélations statistiques entre données
- Etablissement de relations mathématiques entres données numériques (régression)
- Mise au point d'algorithmes prédictifs
- Posséder le bagage minimal pour participer à des travaux de R&D&I mêlant travaux expérimentaux et sciences des données
- Utiliser une méthode de compression des données (ici l'analyse en composantes principales) 
</div>

### Compétences

<div class="rq">
    
**À l'issue de cette série de TP, vous saurez :**

<span style="color:red"><b>1ère partie (Lecture et analyse de la base de données par la librairie pandas)</b></span>  
<li> <b>lire</b> un tableau de données et les en-têtes de colonnes
<li> <b>manipuler</b> un ensemble de données
<li> <b>visualiser</b> graphiquement les données
<li> <b>identifier graphiquement</b> d'éventuelles <b>corrélations statistiques</b> entre données
</div><br>


<div class="rq">
<span style="color:red"><b>2ème partie (Statistiques et régression)</b></span>
<li> <b>déterminer</b>, à partir de données connues, une <b>relation mathématique</b> estimée entre deux variables <i>x</i> et <i>y</i> (<b>ajustement de courbes</b>)
<li> <b>calculer<b> la précision de cette <b>relation hypothétique</b>
    <li> <b>prévoir</b>, <u>grâce à cette relation mathématique</u>, la valeur de <i>y</i> en fonction d'une valeur quelconque de <i>x</i>
</div><br>


<div class="rq">
<span style="color:red"><b>3ème partie (Apprentissage automatique appliqué à la classification = régression logistique)</b></span>
<li> <b>définir</b> un <b>réseau de neurones</b> simple
<li> <b>séparer</b> les données en deux jeux, d'<b>apprentissage</b> et de <b>test</b>
<li> <b>prévoir</b>, <u>sur la base d'un réseau de neurones qui a appris de données connues</u>, la valeur d'une variable <i>y</i> en fonction de plusieurs descripteurs <i>x</i>
<li> <b>dialoguer</b>, dans un contexte R&D&I, avec un data scientist qui voudra exploiter vos données chimiques (théoriques ou expérimentales) pour faire de l'analyse prédictive
</div><br>
    
<!-- <div class="rq">
<span style="color:red"><b>4th part (Machine Learning)</b></span>
<li> <b>simplification of the complexity</b> in high-dimensional data while <b>retaining trends and patterns</b>
<li> <b>data compression</b>
<li> <b>advanced use</b> of machine learning methods, in the context of logistic regression
</div>
 -->
### Prérequis / *Prerequisite*

<div class="intro">

- des connaissances de bases en statistiques / *basic knowledge in statistics*
- la notion de régression linéaire, pratiquée par exemple avec un tableur type excel ou libreoffice calc / *the notion of linear regression, practiced for example with a spreadsheet like excel or libreoffice calc*
- débutant avancé avec / *advanced beginner with*
    - numpy
    - matplotlib
    - listes et tableaux / *lists and arrays*
    - boucles (for) / *loops (for)*
    - tests conditionnels (if) / *conditional testing (if)*
- connaître les bases de seaborn serait un plus / *knowledge of seaborn basics would be a plus*

</div>

## **Table des matières / *Table of contents***

- **1**. [Lecture et analyse de la base de données "iris" par la librairie pandas](./DS4B-Iris1.ipynb). en Français / *in French*

    - [Exercices.](./DS4B-Exercices/DS4B-Iris1-Exercice.ipynb)
    - [Corrigé.](./DS4B-Exercices/DS4B-Iris1-Correction-Exercice.ipynb)
- **2**. [Statistiques et régression](./DS4B-Iris2.ipynb). en Français / *in French*
    - [Exercices.](./DS4B-Exercices/DS4B-Iris2-Exercice.ipynb)
    - [Corrigé.](./DS4B-Exercices/DS4B-Iris2-Correction-Exercice.ipynb)
- **3**. [Apprentissage supervisé (supervised Machine Learning) appliqué à la classification (régression logistique)](./DS4B-Iris3.ipynb). en Français / *in French*
    - [Exercices.](./DS4B-Exercices/DS4B-Iris3-Exercice.ipynb)
    - [Corrigé.](./DS4B-Exercices/DS4B-Iris3-Correction-Exercice.ipynb)  

In [4]:
vID.end(cwd0)

**Fin à:** Sunday 30 October 2022, 18:39:22  
**Durée:** 00:00:13 380ms

<p style="text-align: center"><img width="800px" src="./config/svg/logoFin.svg" style="margin-left:auto; margin-right:auto"/></p>