# Sujet de veille
## Log Loss

### Théorie et petit exemple...

### Log Loss et Python !

### Log-loss comme évaluation Kaggle ?

### Un super secret pour gagner toutes les compètes Kaggle......... 8-)

### Introduction

Log Loss est la **métrique basée sur la probabilité de la classe positive** pour les problèmes de **classification**.

Elle répond à cette question :

### A quel point le modèle est-il certain que sa prédiction appartient à la classe positive/négative ?

## La théorie
C'est difficile d'interpréter une valeur isolée de log-loss, en revanche elle est très utile pour **comparer plusieurs modèles** entre eux.

Pour chaque problème donné, **plus la valeur de log loss est faible, meilleure est la prédiction.**

Log Loss s'apparente à la **Likelihood Function** (fonction de ressemblance). 

### En fait, Log Loss est **-1 fois le log de la likelihood function**.

## Petit exemple 

Un modèle prédit les probabilités de vente suivantes pour 3 maisons : **[0.8, 0.4, 0.1]**. Les 2 premières sont vendues, pas la dernière. L'output réel serait donc : **[1, 1, 0]**.

Calculons la likelihood fonction pour chacune des maisons.

La première maison est vendue, estimation à 80% sûre. La likelihood est donc de **0.8** après une prédiction.

La deuxième maison est vendue, cette fois estimation 40%. La règle de probabilité veut que la proba de plusieurs éléments indépendents soit le produit de chacune de leur proba. Donc ça nous donne une likelihood combinée de **0.8 * 0.4 = 0.32**.

La troisième maison n'est pas vendue. Le modèle a dit qu'elle avait 10% de chances de se vendre, donc **90% de ne PAS se vendre**. On multiplie donc le résultat précédent de **0.32 par 0.9 = 0.288**.

On pourrait itérer comme ça pour toutes les prédictions : c'est la Likelihood.

### From Likelihood to Log Loss

Chaque **probabilité est entre 0 et 1**. En multipliant des nombres si petits entre eux on atteint des nombres de plus en plus minuscules, difficiles à calculer.

On a donc choisi d'utiliser **le log de Likelihood**. On multiplie le résultat par -1 pour garder à l'esprit que des scores bas sont meilleurs.

**A suivre, la formule mathématique et un aperçu de sa courbe.**

![formule](images_veille/formule.png)

![9](images_veille/9.png)

### Log Loss et Python !

In [None]:
# Définition de la fonction logloss

import numpy as np

def logloss(true_label, predicted, eps=1e-15):
#     p = np.clip(predicted, eps, 1 - eps)
    p = predicted
    if true_label == 1:
        return -np.log(p) 
    else: 
        return -np.log(1 - p)

logloss(1, )

In [6]:
# La librairie Sklearn nous permet d'importer cette fonction

from sklearn.metrics import log_loss

log_loss(["spam", "ham", "ham", "spam"],[[.1, .9], [.9, .1], [.8, .2], [.35, .65]]) 

0.21616187468057912

In [None]:
# Keras propose aussi une estimation calculée après chaque époque, appelée categorical_crossentropy. 

model.compile(loss='categorical_crossentropy', optimizer='sgd') 

### Un autre exemple: 

### binary cross-entropy / log loss as your loss function

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import log_loss
import numpy as np

x = np.array([-2.2, -1.4, -.8, .2, .4, .8, 1.2, 2.2, 2.9, 4.6])
y = np.array([0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]) # Labels ; 1 positive class

logr = LogisticRegression(solver='lbfgs')
logr.fit(x.reshape(-1, 1), y)

y_pred = logr.predict_proba(x.reshape(-1, 1))[:, 1].ravel()
loss = log_loss(y, y_pred)

print('x = {}'.format(x))
print('y = {}'.format(y))
print('p(y) = {}'.format(np.round(y_pred, 2)))
print('Log Loss / Cross Entropy = {:.4f}'.format(loss))

x = [-2.2 -1.4 -0.8  0.2  0.4  0.8  1.2  2.2  2.9  4.6]
y = [0. 0. 1. 0. 1. 1. 1. 1. 1. 1.]
p(y) = [0.19 0.33 0.47 0.7  0.74 0.81 0.86 0.94 0.97 0.99]
Log Loss / Cross Entropy = 0.3329


#### Given our feature x, we need to predict its label: red or green

![1](1.png)

#### Splitting the data in negative class & positive class

![2](2.png)

**Now, let’s train a Logistic Regression to classify our points.**

**The fitted regression is a sigmoid curve representing the probability of a point being green for any given x.**

**It looks like this:**

![3](3.png)

#### Probabilities of classifying points in the POSITIVE class correctly

![4](4.png)

#### Probabilities of classifying points in the NEGATIVE class correctly

![5](5.png)

#### All probabilities put together

![6](6.png)

#### These probabilities are all we need, so, let’s get rid of the x axis and bring the bars next to each other:

![7](7.png)

#### Repositioning

![8](8.png)

#### The plot below gives us a clear picture —as the predicted probability of the true class gets closer to zero,
#### the loss increases exponentially:

![9](9.png)

#### Let’s take the (negative) log of the probabilities — these are the corresponding losses of each and every point.
#### Finally, we compute the mean of all these losses.
#### We have successfully computed the binary cross-entropy / log loss of this toy example. It is 0.3329.



   ![10](10.png)

In [20]:
#Et pour rappel, sklearn nous donnait :
print('Log Loss / Cross Entropy = {:.4f}'.format(loss))

Log Loss / Cross Entropy = 0.3329


## Le log loss comme évaluation Kaggle ?

## + Google Cloud & NCAA®️ ML Competition 2018-Men's

Compétition organisée par Google Cloud et la NCAA (National Collegiate Athletic Association)

Objectif : Prédire les résultats des matchs du tournoi de 1ere division de basket Universitaire appelé tournoi 'March Madness'(la folie de mars).

Prévision : pour 68 équipes dans l'année du tournoi
        - Phase 1 : 2014-2017 : 68 * 67/2 * 4 an = 9112 prévisions 
        - Phase 2 : 2018 : 2278 prévisions.
   
Evaluation kaggle : log-loss

Vainqueur March Madness de 2018 : Villanova (Université de Pensilvanie)
[Feuille des matchs](https://fr.wikipedia.org/wiki/Championnat_NCAA_de_basket-ball_2018)

### Top 1 Kaggle (25.000 USD) : mtodisco10 avec un score de 0.53194

[Lien de la compétition](https://www.kaggle.com/c/mens-machine-learning-competition-2018/overview/description)

## + PLAsTiCC Astronomical Classification

Compétition organisée par la LSST Corporation et l'Université de Toronto.

Objectif : Classer entre plusieurs catégories des images issues de l'espace qui évoluent avec le temps, le tout avec des datasets devenant de plus en plus volumineux, jusqu'au type de données récupérées par le **Large Synoptic Survey Telescope** (LSST), nouveau téléscope à la pointe de la technologie.

L'université se sert ensuite des prédictions des Kagglers pour calibrer ses propres modèles pour mieux interpréter les images !

Evaluation kaggle : weighted multi-class logarithmic loss

### Top 1 Kaggle (12.000 USD) : Kyle Boone avec un score de 0.68503

[Lien de la compétition](https://www.kaggle.com/c/PLAsTiCC-2018/overview/description)

![kaggle2](kaggle_2.png)

Ici on ne soumet pas qu'une probabilité mais la probabilité d'appartenance **à chacune des classes** ! La somme de ces probas faisant bien sûr 1.

Par exemple :

  *object_id,class_6,class_15,class_16,class_42,class_52,class_53*
  
  13,0,0.1,0,0.1,0,0.8
  
  25,0,0.05,0.15,0,0,0.8

## Un petit récap...



### Log Loss est une métrique à utiliser pour les problèmes de classification. Elle peut s'appliquer aux problèmes binaires comme de classification multiple.

### Elle sera toujours entre 0 et 1 et on cherche à ce qu'elle soit la plus petite possible.

### Elle punit fortement les grosses erreurs, permettant de différencier un modèle qui se trompe de beaucoup par rapport à un autre qui serait plus confiant dans ses prédicitons.

### Sklearn et Keras fournissent des outils pour la calculer aisément.

# Et enfin ce que vous attendiez tous, l'astuce pour rafler la mise à chaque fois sur Kaggle !!

The use of the logarithm provides extreme punishments for **being both confident and wrong**. 

In the worst possible case, a prediction that something is true when it is actually false will add an infinite amount to your error score, it would be much better to keep our probabilities between 0.05–0.95 so that we are never very sure about our prediction. 

**In this case, we won’t see the massive growth of an error function.**

![courbe](trick.png)


## The Trick: np.clip

### We need to change all values that less than 0.025 to be equal to 0.025 and all values that are more than 0.975 to be equal to 0.975

In [None]:
import numpy as np

y_pred = model.predict(data)
# => [0.3, 0.0021, 0.5, 0.98...]

y_pred_clipped = np.clip(y_pred, 0.025, 0.975)
# => [0.3, 0.025, 0.5, 0.975...]

## On peut même faire :
```
    submission['prediction'] = model.predict(data).clip(0.025, 0.975)
    submission.to_csv('clipped_sumbission.csv', index=False)
```

## A vous la gloire et les dollars !!!

# Liens utiles :

* [understanding-binary-cross-entropy-log-loss](https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a)

* [sklearn.metrics.log_loss](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html)

* [Log_Loss Wikipedia](http://wiki.fast.ai/index.php/Log_Loss)
    