# Les base de Kerras

[Video](https://www.loom.com/share/c20254fb8aa0456d976290b31d79194e?t=3)

In [1]:
from tensorflow.keras.layers import Dense

## Couche Dense

Keras permet de créer des réseaux de neurones par couches.

Il existe de nombreuses couches différentes comme par exemple les couches Dense. 

Dans une couche Dense, chaque neurone d'une couche est connecté à tous les neurones de la couche précédente

Le code suivant permet de créer une couche Dense qui contient 45 neurones. Modifier le code pour qu'il contienne 60 neurones.

<Dense name=dense_2, built=False>


## Couche Dense Relu

La plupart des neurones ont ce qu'on appelle une fonction d'activation. 

Il s'agit d'une fonction non linéaire qui modifie la sortie. 

En Keras on peut spécifier la fonction d'activation de la couche grâce au paramètre  "activation".


Créer une couche Dense avec 60 neurones dont la fonction d'activation est "relu"

<Dense name=dense_4, built=False>


## Premier réseau de neurone régression

Il existe deux manières de créer des réseaux de neurones en Keras : l'API dite séquentielle et l'API dite fonctionnelle. 

Dans cet exercice on s'intéresse à  l'API séquentielle. 

Le code ci-dessous permet de créer un réseau de neurone à deux couches. 

Modifier le réseau pour que : 

la première couche contienne 30 neurones et utilise la fonction d’activation relu

La seconde couche contienne 1 neurone et utilise la fonction d'activation linear

<Sequential name=sequential_1, built=False>


## Compiler le modèle

On a créé un réseau de neurone simple qui est stocké dans la variable   model (le code est caché)

Compilez le avec l'optimiseur “sgd" et la fonction de coût "mse"

Il est possible de mettre ces arguments sous forme de chaîne de caractère

## Entraîner le modèle

On dispose de données simple contenant le prix de maison en fonction de leur caractéristiques. 

    1. Importer le fichier csv houses.csv avec pandas

    2. Faire un train_test_split de votre dataframe

    3. Créer un modèle avec deux couches et compiler le modèle avec la bonne loss et l'optimiser “sgd”

    4. Créer une variable X_train contenant les colonne size et nb_rooms

    5. Créer une variable y_train

    6. Entraîner votre modèle avec la fonction fit de votre modèle. On prendra epochs=1

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: inf               


<keras.src.callbacks.history.History at 0x15545394c50>

## Couche softmax

Expliquer à quoi sert une couche de neurone ayant une fonction d'activiation softmax 

Dans quels cas est-ce utilisé ? 

Une couche de neurones avec une fonction d'activation softmax est utilisée pour convertir les scores (aussi appelés logits) de la couche précédente en probabilités. Chaque sortie de la couche softmax représente la probabilité que l'entrée appartienne à une des classes spécifiques, avec la particularité que la somme de toutes ces probabilités est égale à 1. Cela rend la fonction softmax particulièrement utile pour les tâches de classification où l'on souhaite déterminer la probabilité d'appartenance à chaque classe possible.

La fonction softmax est typiquement utilisée dans la dernière couche d'un réseau de neurones pour les tâches de classification multiclasse. Par exemple, dans un modèle destiné à reconnaître des images de chiffres (0 à 9), la couche softmax pourrait être utilisée pour indiquer la probabilité que l'image donnée appartienne à chacun des dix chiffres.

## Couche Dense avec softmax

Créer une couche dense à l'aide de keras qui contiendrait 10 neurones et aura pour fonction d'activation  "softmax".

Il n'y a pas besoin de créer de réseau, juste une simple couche

## Premier réseau de neurone pour la classification

On veut faire un petite réseau de neurone pour faire de la classification de tumeur (bénin / malin) à partir de deux caractéristiques.

Créer un réseau de neurone avec : 

    1. Une première couche contenant 20 neurones et avec la fonction d'activation relu. Il faudra spécifier l'argument input_shape.

    2. Une seconde couche avec fonction d'activation softmax (quel est le bon nombre de neurones ?)

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


## Entraînement d'un modèle de classification Dense

On veut faire de la classification de tumeur (bénin ou cancéreux) à partir de deux caractéristique (la taille et la concentration en protéine p53). 

    1. Avec pandas, charger le fichier tumors.csv dans un dataframe nommé df

    2. Faire un train_test_split des données

    3. Créer une variable X_train avec les colonne size et p53_concentration et une variable y_train

    4. Créer un réseaux de neurones avec 2 couches. La première aura 5 neurones respectivement. On utilisera une couche softmax pour la dernière couche.

    5. Compiler le modèle avec la loss adéquate et l'optimiser sgd

    6. Entraîner le modèle en mettant epochs= 1

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m8/8[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 0.6926  


<keras.src.callbacks.history.History at 0x15548edcc90>

## Keras cross entropy loss : différences

Quelle est la différence entre la binary cross entropy, la categorical_crossentropy et la sparse_categorical_entropy ? 

La différence entre la binary cross entropy, la categorical_crossentropy et la sparse_categorical_crossentropy réside dans le type de problème de classification qu'elles visent à résoudre et la manière dont les étiquettes (labels) sont formatées :

Binary Cross Entropy : Utilisée pour les problèmes de classification binaire où chaque entrée appartient à l'une des deux classes. Les étiquettes sont généralement encodées sous forme de 0 et 1. Par exemple, pour un problème de classification de mails en "spam" ou "non-spam".

Categorical Crossentropy : Utilisée pour les problèmes de classification multiclasse où chaque entrée peut appartenir à une seule classe parmi plusieurs. Les étiquettes doivent être encodées sous forme de vecteurs one-hot. Par exemple, pour un problème de classification d'images où une image peut être classée comme "chat", "chien" ou "oiseau", l'étiquette pour "chat" pourrait être [1, 0, 0], pour "chien" [0, 1, 0], et pour "oiseau" [0, 0, 1].

Sparse Categorical Crossentropy : C'est une variation de la categorical crossentropy qui est utilisée également pour les problèmes de classification multiclasse, mais les étiquettes sont encodées sous forme d'entiers, plutôt que de vecteurs one-hot. Cela est utile pour économiser de l'espace mémoire et du temps de calcul lorsque le nombre de classes est grand. Par exemple, pour le même problème de classification d'images mentionné ci-dessus, l'étiquette pour "chat" pourrait être simplement 0, pour "chien" 1, et pour "oiseau" 2.

En résumé, le choix entre ces fonctions de perte dépend du type de problème de classification (binaire ou multiclasse) et de la manière dont les étiquettes sont formatées (one-hot encoding ou entiers).

## Choix du learning rate

Comment faut-il choisir le learning rate pour que le modèle apprenne ? 

Pourquoi il ne faut pas qu'il soit trop gros ? 

Que se passe-t-il si il est trop petit ? 

Le choix du learning rate est crucial pour l'apprentissage d'un modèle, car il détermine la taille des pas que l'algorithme d'optimisation fait vers le minimum de la fonction de coût. Voici quelques principes pour choisir le learning rate :

Choix du learning rate : Il n'existe pas de règle universelle pour le choix du learning rate parfait. Cependant, commencer avec un learning rate relativement petit (par exemple, 0.001) et l'ajuster en fonction des performances du modèle sur les données de validation est une pratique courante. Des techniques comme le learning rate scheduling (diminuer le learning rate au fil du temps) ou des méthodes adaptatives (Adam, RMSprop) qui ajustent le learning rate automatiquement peuvent également être utiles.

Learning rate trop élevé : Si le learning rate est trop élevé, l'algorithme d'optimisation peut "sauter" par-dessus le minimum de la fonction de coût, entraînant une convergence instable ou même une divergence des poids du modèle. Cela signifie que le modèle ne pourra pas apprendre correctement et que la performance sur les données de validation peut empirer au lieu de s'améliorer.

Learning rate trop faible : À l'inverse, si le learning rate est trop faible, l'algorithme d'optimisation avancera très lentement vers le minimum de la fonction de coût. Cela peut signifier que l'entraînement prendra beaucoup de temps et, dans certains cas, l'algorithme peut se retrouver piégé dans un minimum local au lieu de trouver le minimum global de la fonction de coût.

En résumé, le learning rate doit être choisi soigneusement pour équilibrer entre une convergence rapide et stable vers le minimum de la fonction de coût sans "sauter" par-dessus ni avancer trop lentement. Des expérimentations et des ajustements basés sur les performances observées sont souvent nécessaires pour trouver le bon learning rate pour un problème donné.

## Batch et epochs
Explique ce qu'est un batch et ce qu'est une epoch.

Prenez bien soin d'expliquer la différence entre les deux

Un batch et une epoch sont deux concepts fondamentaux dans l'entraînement des réseaux de neurones :

Batch : Un batch fait référence à un sous-ensemble de l'ensemble de données d'entraînement utilisé pour entraîner le modèle pour une seule itération de mise à jour des poids. Au lieu d'entraîner le modèle sur l'ensemble complet des données à chaque itération (ce qui peut être très coûteux en termes de mémoire et de temps de calcul), les données sont divisées en plusieurs petits lots (batches). Le modèle est ensuite entraîné séquentiellement sur chaque batch, permettant une mise à jour plus fréquente des poids et une convergence plus rapide. La taille du batch, souvent désignée par "batch size", est un hyperparamètre important qui peut affecter les performances du modèle.

Epoch : Une epoch est une passe complète à travers l'ensemble des données d'entraînement. Cela signifie que chaque échantillon de l'ensemble de données a été utilisé une fois pour l'entraînement du modèle. L'entraînement d'un modèle implique généralement de nombreuses epochs, permettant au modèle de voir les données d'entraînement plusieurs fois et d'ajuster ses poids pour minimiser la fonction de perte. Plus le nombre d'epochs est élevé, plus le modèle a de chances d'apprendre de l'ensemble des données, mais cela augmente également le risque de surapprentissage, où le modèle apprend trop bien les données d'entraînement au détriment de sa capacité à généraliser à de nouvelles données.

Différence principale : La différence clé entre un batch et une epoch réside dans le fait qu'un batch se réfère à l'utilisation d'un sous-ensemble de l'ensemble de données pour une mise à jour des poids, tandis qu'une epoch fait référence à une passe complète sur l'ensemble des données d'entraînement. En d'autres termes, une epoch est composée de plusieurs itérations de batches.

## Différence ADAM et SGD

La descente de gradient stochastique n'est pas la seule méthode pour trouver le minimum de la fonction de coût. Il existe de nombreuses autres méthodes : 

- RMSprop
- Adagrad
- Adam

Adam est une des variantes les plus populaires. 

Expliquer rapidement son fonctionnement et ses différences avec la SGD

ADAM et SGD (Stochastic Gradient Descent) sont deux algorithmes d'optimisation utilisés pour minimiser la fonction de coût lors de l'entraînement des modèles de machine learning, notamment les réseaux de neurones. Voici leurs principales différences et le fonctionnement d'Adam :

SGD (Descente de Gradient Stochastique) : SGD met à jour les paramètres du modèle en utilisant chaque échantillon de l'ensemble de données à la fois (ou un petit batch), ce qui le rend plus rapide et moins coûteux en mémoire pour de grands ensembles de données. Cependant, SGD peut être sujet à des oscillations et à une convergence lente, surtout dans des régions de faible gradient ou pour des fonctions de coût irrégulières.

Adam (Adaptive Moment Estimation) : Adam combine les idées de deux autres extensions de SGD, RMSprop et Momentum. Comme RMSprop, Adam ajuste le taux d'apprentissage de chaque paramètre individuellement, ce qui le rend efficace dans des contextes avec des gradients variables. De plus, Adam incorpore le concept de momentum en gardant une trace des gradients passés pour lisser les mises à jour des paramètres. Cela aide à accélérer la convergence, surtout dans les premières phases de l'entraînement et dans des régions de faible gradient.

Différences clés :

Taux d'apprentissage adaptatif : Adam ajuste le taux d'apprentissage pour chaque paramètre individuellement, tandis que SGD utilise le même taux d'apprentissage pour tous les paramètres.
Momentum : Adam utilise le momentum en calculant la moyenne mobile exponentielle des gradients passés, ce qui aide à accélérer la convergence. SGD peut également être modifié pour inclure le momentum, mais ce n'est pas une caractéristique par défaut.
Convergence : Adam tend à converger plus rapidement que SGD dans de nombreux cas, grâce à son ajustement adaptatif du taux d'apprentissage et à l'utilisation du momentum.
En résumé, bien qu'Adam soit souvent préféré pour sa rapidité de convergence et son ajustement automatique du taux d'apprentissage, le choix entre Adam et SGD (avec ou sans modifications comme le momentum) peut dépendre du problème spécifique, de la taille de l'ensemble de données, et des préférences de l'utilisateur.

## Neurone feedforward

[Video de liaison de neurone](https://www.loom.com/share/b327747c1fb94c108e14354600531162)

## Premier neurone feedforward
Le neurone feedforward est le neurone le plus simple. 

Pour calculer sa sortie il faut enchaîner deux opérations :

une combinaison linéaire des entrées du neurones avec ses paramètres.
une fonction non linéaire (souvent appelée fonction d'activation)
Compléter la class SigmoidNeuron qui calcule la sortie d'un seul neurone avec une fonction d'activation sigmoid

Vous utiliserez comme fonction non linéaire la fonction sigmoid