In [None]:
import zipfile
import pandas as pd

import torch
import torch.nn as nn

# Introduction en Intelligence Artificielle

Bienvenue dans ce notebook, je vais tenter de vous introduire au domaine de l'**intelligence artificielle** (alias IA).

## Comment définir le terme intelligence artificielle ? C'est quoi une IA ?

L'intelligence artificielle n'est autre que la construction et l'utilisation d'**algorithmes** qui vont **aider**/**soutenir** une personne dans son travail/quotidien. Autrement dit, de **réduire la charge mentale/physique** d'une personne.  
En une phrase, nous parlons de **systèmes décisionnels** car ces algorithmes ont la responsabilité de prendre des décisions.

## Ok mais à quoi ça sert ?
Excellente question ! Il faut savoir que c'est un domaine qui est un **croisement de toutes les sciences** que nous connaissons aujourd'hui. En effet, l'**IA** peut être utilisé dans tous les domaines scientifiques, aussi bien en **physique** (ex : modélisation des phénomènes, simulation), en **chimie** (ex : découverte de propriétés chimiques) qu'en **médecine** (ex : diagnostique de cancer de la peau).

Vous l'aurez compris, avec l'intelligence artificielle nous avons une infinité de possibilité et de projets intéressants, mystérieux et stimulants.

## Suis-je moi même exposé à l'intelligence artificielle ?
Nous y faisons face au quotidien ... Avez vous un **smartphone** ? Êtes vous inscris sur **Facebook** ? Commandez vous sur **Amazon** ? Naviguez vous avec **Google** ? Jouez-vous aux **jeux-vidéos** ?  
Bon ok, j'arrête avec mes questions stupides, je vais plutôt vous apporter les réponses à ses questions, et je vais même aller plus loin en vous présentant des sujets d'actualités autant *délirant* que *fous* !

1. Les smartphones, et plus généralement les ordinateurs. Prenez l'exemple de **SIRI** sur iPhone, vos demandes vocales sont analysées par un **modèle** (ou algorithme) d'IA afin de les comprendre et d'y répondre au mieux. Il en va de même pour **cortana** sur un ordinateur fonctionnant sur Windows 10/11. 

2. Facebook et Amazon sont deux entreprises qui collectent et analyse vos données afin de vous **recommander** du contenu adapté à vos goûts, que ce soit la dernière carte graphique à acheter sur Amazon, où un article sur les derniers résultats de la KCorp sur Facebook.

3. Google ... Le mal ou le bien ? Nombreuses sont les personnes qui clament que Google vous connaissent mieux que vos propres parents. En effet, au travers de vos recherches, Google accumule des informations sur vous et sont capables de **dresser votre profil** afin de mieux vous **cibler les publicités**.

4. Les jeux-vidéos oui ! Quand vous jouez à GTA V et que vous placez un point de repère sur la carte. Le parcours le plus court à suivre est calculé à l'aide d'un algorithme d'IA. Plus classique, je peux vous citer les monstres que vous combattez dans Elden Ring, vos adversaires dans Takken ou bien les ennemis dans Call of Duty.

## L'IA c'est aussi ça
*Ah ouais quand même, c'est pas rien ! T'as pas plus excitant comme applications ?*  
Bon si vous le demandez, parlons des modèles les plus surprenants !

1. Quel est le point commun entre ces deux personnes ?  
<img src="../../images/person_1.jpeg" alt="drawing" width="200"/>
<img src="../../images/person_2.jpeg" alt="drawing" width="200"/>

<details>
    <summary>Réponse</summary>
    Elles n'existent tout simplement pas ! Ces visages ont été générées aléatoirement par un algorithme.</br>
    <a href="https://thispersondoesnotexist.com/">Pour en voir plus</a>
</details>

2. Des oeuvres d'arts générés par un algorithme  
On décrit ce que l'on souhaite généré, par exemple *un fauteuil en forme d'avocat* et on observe les résultats :  
<img src="../../images/chaise_avocat_1.png" alt="drawing" width="150"/>
<img src="../../images/chaise_avocat_2.png" alt="drawing" width="150"/>
<img src="../../images/chaise_avocat_3.png" alt="drawing" width="150"/>[  
[Site source](https://openai.com/blog/dall-e/)

3. Une petite vidéo de bagnoles pour changer  
[Vidéo voiture autonome (Tesla)](https://www.youtube.com/watch?v=tlThdr3O5Qo)

4. On peut aussi s'imaginer converser avec un robot un jour :  
Des modèles permettent de comprendre le langage, on pourrait communiquer avec ou avoir des réponses à nos questions existentielles. Exemple avec un modèle de langue français :  
Saisie : `Le camembert est un <à deviner>`.  
Réponse du modèle : fromage, produit, dessert, aliment, incontournable.

## Passons aux choses sérieuses, construisons notre premier modèle !

Hop hop hop, avant de se lancer dans le coeur de l'intelligence artificielle, il est important de mentionner que bien que ce soit un croisement des domaines scientifiques, l'accès à ce domaine spécifique est large. Si vous voulez travailler dans le domaine, **plusieurs voies sont possibles**, les profils sont divers et variés et ont majoritairement suivi ces formations :
- *Informatique*
- *Physique*
- *Éléctronique*
- *Mathématiques*

Le point commun de tous ces domaines sont les **mathématiques**. C'est de mon point de vue, le meilleur domaine d'application des mathématiques. En effet, bien que les mathématiques soient (à tord) détester des élèves, l'IA est l'un des rares domaines qui va vous faire aimer les maths !

Si je vous prends un exemple, les fonctions affines de la forme : $y = ax + b$ est à la base de beaucoup de modèles/algorithmes en IA ! On en verra un cas d'exemple un peu plus tard !  
Sinon $y = ax + b$ est **LA BASE** dans l'un des domaines que vous avez sûrement dû entendre parler ... Les **réseaux de neurones** !

### Première étude de cas sur le diabète

J'ai oublié de vous parler de l'**or** des professionnels en intelligence artificielle : **les données**.  
[Les données ne sont autres que des informations qui sont utilisés dans le but d'être traitées informatiquement](https://www.larousse.fr/dictionnaires/francais/donn%C3%A9e/26436).

Je préfère plutôt décrire les données comme un ensemble de mesures décrivant un concept.

**Dans notre cas quelles données allons nous utiliser ?**  
Excellente question ! Dans ce premier cas de figure, nous utiliserons des données de santé, et plus précisément sur le diabète !  
Attention, je ne me prétends pas médecin, **mais** j'utilise des mesures d'une expérimentation effectuée dans un cadre médicale et scientifique. Nos conclusions peuvent être tout à fait honnête et qui va dans le sens de nos données. Autrement dit, sans être expert, juste avec les bonnes données, nous pouvons étudier et tirer des conclusions sur des phénomènes qui seraient potentiellement liés. C'est l'une des raisons qui poussent les entreprises à avoir besoin de nous au quotidien.

In [None]:
# Téléchargement, extraction et chargement des données sur le diabète
!kaggle datasets download -d mathchi/diabetes-data-set -p ../../data/

with zipfile.ZipFile('../../data/diabetes-data-set.zip', 'r') as zip_ref:
    zip_ref.extract('diabetes.csv', path='../../data/')

df = pd.read_csv('../../data/diabetes.csv')

Maintenant que nous avons ouvert nos données, regardons à quoi elles ressemblent un peu plus en détail.

In [None]:
df

À première vue, nous avons accès aux informations suivantes :
- Pregnancies : Le nombre de fois où la personne a été enceinte.
- Glucose : La concentration de glucose dans le sang 2 heures après un test de tolérance au glucose.
- BloodPressure : La pression sanguine en mm HG.
- SkinThickness : L'épaisseur de la peau au niveau du triceps en mm.
- Insulin : Le taux d'insuline dans un serum en mu U/ml.
- BMI : L'indice de masse corporelle (IMC) en kg/m^2.
- DiabetesPedigreeFunction : Une fonction sur les antécédents diabétiques.
- Age : L'âge de la personne.
- Outcome : Si la personne est diabétique (1) ou non (0).

Je ne sais pas si vous vous posez la même question que moi, mais la voici :  
*Sommes nous capables de savoir quel(s) est/sont le(s) facteur(s) qui impact le plus le fait d'être diabétique ?*

Pour avoir une réponse je vous propose que l'on construise un modèle tout simple qui se base sur cette fonction :
$$y_{Outcome} = \beta_0 + \beta_1 \times x_{Pregnancies} + \beta_2 \times x_{Glucose} + \beta_3 \times x_{BloodPressure} + \beta_4 \times x_{SkinThickness} + \beta_5 \times x_{Insulin} + \beta_6 \times x_{BMI} + \beta_7 \times x_{DiabetesPedigreeFunction} + \beta_8 \times x_{Age}$$
avec $x$ notre exemple, $x_i$ la donnée de la mesure de $i$ de l'exemple et $\beta_i$ le coefficient associé à la mesure.

Vous l'aurez peut être compris, mais ce que l'on cherche à **apprendre**/**déterminer** sont les coefficients $\beta$.

**Remarque :**  
Vous n'avez pas remarqué quelque chose ? La forme de l'équation précédente ne vous dit rien ? AH bah oui quand même !!!
$$y = \boldsymbol\beta \cdot \textbf{x} + \beta_0$$
Une forme linéaire avec des vecteurs !