# Mégadonnées, intelligence d'affaires et intelligence artificielle

Le comité sectoriel en technologie de l’information et des communication (TechnoCompétences) définit l’intelligence numérique comme englobant notamment le domaine des **mégadonnées**, de l’**intelligence d’affaires** et de l’**intelligence artificielle**.  Mais qu'est-ce que ces concepts représentent?  Comment intéragissent-ils ensemble?  Quelles sont les différences entre l'intelligence d'affaires et l'intelligence artificielle?  Ce sont, entre autres, les questions que nous explorerons dans cette séance.

## Plan de la séance

* Les mégadonnées
    - Les trois V
         - Volume
         - Vitesse
         - Variété
* L'intelligence d'affaires
    - Collecte
    - Exploitation
    - Présentation
    - Utilisation
* L'intelligence artificielle
    - Méthodes traditionnelles
    - Apprentissage automatique
* Considérations
    - Vie privée
    - Biais et débalancement
    - Confiance absolue en l'intelligence artificielle

## Mégadonnées

 > "Without Big Data Analytics, companies are blind and deaf, wandering out onto the web like deer on a freeway." - Geoffrey Moore, Consultant en management et théoriste

Les mégadonnées (big data) désignent d'énormes ensembles de données qui sont simplement trop volumineux pour être traités avec des méthodes statistiques traditionnelles.

### Les trois V
Les mégadonnées sont habituellement définies par ce qu'on appelle les trois V:
 - **Volume**: La quantité de données générée est astronomique.
 - **Vitesse** (ou Vélocité): Les données sont produites, capturées et partagées à une fréquence extrême.
 - **Variété**: Les données proviennent de diverses sources.

Parfois, on entend aussi parler des six V.  Les V supplémentaires sont Véracité, Valeur et Variabilité.  Cependant, nous nous concentrerons seulement sur les trois principaux éléments mentionnés plus haut.

#### Volume
Une quantité de données gigantesque est produite à chaque jour dans le monde entier.  Ces données peuvent être générées par des personnes, par exemple lors de l'utilisation des médias sociaux.  Elles peuvent aussi être générées par des machines, par exemple des capteurs sur des objets connectés.

D'après une recherche effectuée par DOMO, les utilisateurs de la plateforme Instagram ont publiés près de 47,000 photos par minute en 2017.  Ces images doivent être analysées en temps réel pour s'assurer que du contenu n'adhérant pas aux règles de la plateforme ne s'y retrouve.  Il faut donc des méthodes permettant de travailler avec cette quantité absurde de données dans un temps raisonnable.


![17_domo_data-never-sleeps-5-01.png](attachment:17_domo_data-never-sleeps-5-01.png)

#### Vitesse
Comme mentionné dans l'exemple précédent, les données massives sont générées très rapidement.  Si les 47,000 photos étaient téléversées sur Instagram à minuit, puis que la fonction de téléversement était désactivée jusqu'au lendemain, le traitement de ces données serait relativement facile.  Cependant, ce n'est pas le cas, au contraire.  Les serveurs d'Instagram doivent traiter les images en continu, car à chaque seconde, de nouvelles photos leur sont envoyées (783 photos par seconde).  De plus, ceci ne prend en compte que les photos nouvellement téléversées.  Instagram doit aussi prendre en compte les commentaires, les partages, les "J'aime"...

Dans certains cas, la vitesse de traitement des données est moins importante, par exemple en marketing.  Des données sont accumulées pendant un certain temps, puis elles sont analysées pour trouver les tendances et faire des choix éclairés.

#### Variété
On peut classifier les données en trois types:
 - **Structurées**: les données sont bien organisées et étiquettées. ex: base de données
 - **Semi-structurées**: les données ont une certaines structure, mais celle-ci n'est pas rigide. ex: emails
 - **Non structurées**: les données ne sont pas structurées et peuvent être sous différents formats, par exemple du texte, des vidéos, des images...

Lors d'un projet utilisant des données massives, il se peut que des données de plusieurs sources soient utilisées.  Par exemple une étude de marché pourrait utiliser des données de plusieurs médias sociaux.  Puisque les données proviennent de différentes sources, celles-ci peuvent être structurées de manière différentes et quelques-unes pourraient ne pas être structurées du tout.  Il est donc impératif de savoir faire le ménage et garder seulement ce qui est important pour le projet en cours.

## Intelligence d'affaires

 > "If you torture data long enough, it will confess to anything" - Ronald Coase, Lauréat du prix Nobel d'économie
 
L'intelligence d'affaires désigne l'ensemble des méthodes permettant la collecte, l'exploitation, la présentation et l'utilisation des données massives pour l'aide à la décision.

### Collecte
Comme vu précédemment, les données peuvent provenir de différentes sources.  Ces données doivent donc être consolidées dans un même jeu de données afin d'être facilement analysée.

### Exploitation
Une fois les données consolidées, il faut les analyser pour trouver de l'information pertinente (insights) nous permettant de prendre une décision.  Par exemple, une entreprise pourrait utiliser les données de ses ventes pour trouver quel produit discontinuer.

### Présentation
Analyser des données, c'est bien, mais encore faut-il pouvoir présenter nos trouvailles aux personnes concernées.  L'intelligence d'affaires est utilisée pour aider les entreprises à prendre des décisions.  Il est donc impératif de savoir présenter simplement ce que les données indiquent.  Souvent, les données clés sont présentées dans un tableau de bord, par exemple avec l'outil PowerBI.

![power-bi-dashboard2.png](attachment:power-bi-dashboard2.png)

### Utilisation
Après avoir pris connaissance de l'information contenue dans le tableau de bord, les personnes concernées peuvent prendre des décisions éclairées.  Nous sommes passés d'une montagne de données massives à un simple tableau de bord de quelques diagrammes qui permet aux dirigeants de bien comprendre l'état de leur entreprise.

## Intelligence artificielle

> "Some people call this artificial intelligence, but the reality is this technology will enhance us. So instead of artificial intelligence, I think we’ll augment our intelligence." - Ginny Rometty, ancienne PDG du groupe IBM

L'intelligence artificielle concerne la création de systèmes informatiques capables d'effectuer des tâches qui nécessitent normalement une intelligence humaine.  L'apprentissage machine (machine learning) est un sous-ensemble des méthodes qui peuvent être utilisées pour créer ces systèmes.  Les systèmes d'intelligence artificielle peuvent être utilisés, notamment, pour prendre des décisions.

### Méthodes traditionnelles
Les méthodes traditionnelles d'intelligence artificielle ne sont plus beaucoup utilisées depuis l'arrivée de l'apprentissage profond.  Ces méthodes ne sont pas adaptées pour les mégadonnées, principalement par leur complexité et la capacité de calcul nécessaire pour les utiliser.  Parmis ces méthodes, nous retrouvons les systèmes à base de règles, la recherche heuristique et les réseaux bayésiens.

### Apprentissage automatique
Dans les méthodes d'apprentissage automatique, on retrouve les réseaux de neurones, les algorithmes de partitio0nnement (clustering) comme les KNNs, les arbres de décisions, etc.  Ces méthodes, plus particulièrement les réseaux de neurones, sont bien adaptées pour l'utilisation des mégadonnées.  Les réseaux de neurones sont capables de trouver automatiquement des relations entre les données, peu importe la taille de celles-ci.  Ils sont aussi capable d'apprendre une représentation simplifiée des données et en générer de nouvelles.  C'est ce que font les réseaux à la mode comme ChatGPT (texte) et DALL-E (images).

![dotdash_Final_Neural_Network_Apr_2020-01-5f4088dfda4c49d99a4d927c9a3a5ba0.jpg](attachment:dotdash_Final_Neural_Network_Apr_2020-01-5f4088dfda4c49d99a4d927c9a3a5ba0.jpg)

## Considérations
Comme nous l'avons vu, la prise de décision dans le monde numérique repose sur les mégadonnées.  Que le processus de prise de décision soit manuel (intelligence d'affaires) ou automatique (intelligence artificielle), les données restent les mêmes.  Des considérations sont à prendre pour s'assurer que tout fonctionne bien, de manière équitable et légale.

### Vie privée
Bien que les données soient essentielles au processus, il faut s'assurer de ne pas aller trop loin.  La collecte de données sensibles est un sujet toujours chaud qui pose souvent problème.

### Biais et débalancement
Les données sont souvent biaisées ou débalancées, ce qui fait en sorte que les décisions prises peuvent ne pas être optimales du tout.  Pour donner un exemple sans entrer dans un débat politique, imaginons que nous voulions entraîner un modèle d'intelligence artificielle pour détecter des chiens dans des images.  Si notre jeu de données ne comporte que des photos de dalmatiens, le modèle ne réussira pas à détecter les chiens qui ne sont pas des dalmatiens.

### Confiance absolue en l'intelligence artificielle
Les modèles d'intelligence artificielle ne doivent pas être être considérés comme infaillibles.  Ils sont souvent comparés à une boîte noire, car ils ne sont pas explicables.  Les données sont insérées dans le modèle, une sortie est affichée, mais on ne peut savoir *pourquoi* le modèle en est arrivé à cette sortie.  Il est donc important de toujours valider ce que le modèle prédit.