# Revue de compétitions Kaggle (2017)

Les gagnants des compétitions [Kaggle](https://www.kaggle.com/) décrivent parfois leurs solutions sur le blog de Kaggle [No Free Hunch](http://blog.kaggle.com/). Il y a toujours de bonnes idées à glaner.

In [1]:
%matplotlib inline
from jyquickhelper import add_notebook_menu
add_notebook_menu()

Le [blog Kaggle](http://blog.kaggle.com/) publie régulièrement des interviews des gagnants des compétitions. C'est l'occasion de découvrir la meilleur solution et les outils qui ont permis de la mettre en place. Certains sujets sont des compétitions académiques et les gagnants mettent parfois leur code à disposition sous Github.

## The Nature Conservancy Fisheries Monitoring

[kaggle](https://www.kaggle.com/c/the-nature-conservancy-fisheries-monitoring)

* **Objectif :** classification d'images de poissons
* **données :** images de poisssons et l'espèces à reconnaître

[The Nature Conservancy Fisheries Monitoring Competition, 1st Place Winner's Interview: Team 'Towards Robust-Optimal Learning of Learning'](http://blog.kaggle.com/2017/07/07/the-nature-conservancy-fisheries-monitoring-competition-1st-place-winners-interview-team-towards-robust-optimal-learning-of-learning/)

### Eléments clés de la solution

* La solution s'inspire de **transfer learning** : [VGG-16](https://gist.github.com/baraldilorenzo/07d7802847aaad0a35d3), [ResNet-101](https://gist.github.com/flyyufelix/65018873f8cb2bbe95f429c474aa1294).
* Un modèle de **Fast-RNN** a été utilisée pour extraire les boîtes englobantes des poissons.
* Les images étaient de **tailles différentes**, grandes et petites. Plutôt que de les normaliser toutes à la même taille, **deux modèles** pré-entraînés sur des tailles différentes ont été mis en concurrence.
* Les images ont été réannotées avec des **boîtes englobantes polygonales**. Les poissons sur le pont d'un bateau sont différentes des images de poissons habituelles. Il fallait faire attention à ce que le modèle de classification n'utilise pas le bateau comme features pour classer un type de poisson que ce bateau pêche souvent.
* La base d'images d'apprentissage a été augmentée avec des opérations classiques (**rotations, flous, ...**)
* Il y avait des **images prises de nuits** mais sous-représentées. Une des tâches à consister à créer plus d'images de nuits à partir des images prises de jours en redressant les distributions des couleurs.
* Carte NVIDIA : 2x NVIDIA GTX 1080, 1x NVIDIA TITAN X
* Le meilleur modèle a nécessité 4h d'apprentissage et nécessitait 0.5 secondes pour la prédiction.

Sur GitHub : [amsqr/Allen_AI_Kaggle](https://github.com/amsqr/Allen_AI_Kaggle)

### Idées à récupérer

* Le bateau et l'espèce de poisson étaient corrélés. Il fallait réduire cette corrélation.
* Certaines images étaient très types (de nuit) et sous-représentées. Il a fallu redresser la base d'apprentissage de ces petits biais.
* Transfer Learning en première approche.

## Data Science Bowl 2017: Can you improve lung cancer detection?

[kaggle](https://www.kaggle.com/c/data-science-bowl-2017)

* **objectif :** détecter la présence d'un cancer du poumon
* **données :** scan 3D des poumons haute résolution

[2017 Data Science Bowl, Predicting Lung Cancer: 2nd Place Solution Write-up, Daniel Hammack and Julian de Wit](http://blog.kaggle.com/2017/06/29/2017-data-science-bowl-predicting-lung-cancer-2nd-place-solution-write-up-daniel-hammack-and-julian-de-wit/), [2nd place solution for the 2017 national datascience bowl](http://juliandewit.github.io/kaggle-ndsb2017/)

### Eléments de solutions

* Les gagnants ont **augmentés leurs données** avec les résultats du challenge [Lung Nodule Andalysis 2016](https://luna16.grand-challenge.org/) (de cet article [Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: The LUNA16 challenge](http://www.medicalimageanalysisjournal.com/article/S1361-8415(17)30102-0/fulltext)), et des tutoriels [Full Preprocessing Tutorial](https://www.kaggle.com/gzuidhof/full-preprocessing-tutorial) ainsi que les [autres](https://www.kaggle.com/c/data-science-bowl-2017/kernels) comme celui-ci [Applying a 3D convolutional neural network to the data](https://www.kaggle.com/sentdex/first-pass-through-data-w-3d-convnet)
* La première étape a été de **reconstituer les images 3D** (une image 3D = séquence d'images 2D prise à intervalle régulier)
* Le problèmes **a été modifié** en prédictions de la taille des nodules (à partir d'autres jeux de données [LIDC](https://www.ncbi.nlm.nih.gov/pubmed/18035277)) sur des bouts de scans puis prédiction de la probabilités de cancer.
* Utilisation de la méthode [Curriculum Learning](https://ronan.collobert.com/pub/matos/2009_curriculum_icml.pdf) qui consiste à apprendre un modèle **d'abord sur des données propres** puis à ajouter petit à petit des exemples plus difficiles à classer.
* Pas d'utilisation de modèles connus [U-net](https://arxiv.org/abs/1505.04597) (modèles de deep learning spécialisés dans la segmentation d'images médicales) mais utilisation de **CNN sur des fenêtres glissantes**.
* Le modèle [C3D](http://vlg.cs.dartmouth.edu/c3d/) (**Convolution 3D**) n'a pas marché tel quel mais le modèle final est très proche de la même architecture ([github/C3D](https://github.com/facebook/C3D)).
* Deux auteurs, deux codes : [code 1](https://github.com/juliandewit/kaggle_ndsb2017),
[code 2](https://github.com/dhammack/DSB2017), [rapport](https://github.com/dhammack/DSB2017/blob/master/dsb_2017_daniel_hammack.pdf) et autres références.
* L'équipe arrivée 9ème a décrit sa solution [Predicting lung cancer](https://eliasvansteenkiste.github.io/machine%20learning/lung-cancer-pred/) - un peu plus clair et didactique.

### Idées à récupérer

* Utilisation de modèles existants pour prédire des résultats intermédiaires sur les nodules pour augmenter les données.
* Exemple de code avec des modèles de convolution 3D.
* Architecture gagnante : U-net](https://arxiv.org/abs/1505.04597), [C3D](http://vlg.cs.dartmouth.edu/c3d/)
* Base de données médicales : [Lung Nodule Andalysis 2016](https://luna16.grand-challenge.org/), [LIDC](https://www.ncbi.nlm.nih.gov/pubmed/18035277)

## March Machine Learning Mania 2017: Predict the 2017 NCAA Basketball Tournament

[kaggle](https://www.kaggle.com/c/march-machine-learning-mania-2017)

* **objectif :** prédire des résultats de basket-ball
* **données :** données des matchs passés

[March Machine Learning Mania, 5th Place Winner's Interview: David Scott](http://blog.kaggle.com/2017/05/23/march-machine-learning-mania-5th-place-winners-interview-david-scott/)

### Elements de solution

* Le participant arrivé 5ème est un **passionné de basket et de régression logistique** et c'est tout ce qu'il avouera.
* Le premier a réutilisé la solution d'ancien vainqueur [Building an NCAA mens basketball predictive model and quantifying its success](https://arxiv.org/abs/1412.0248).
* Utilisation de [Linear Mixed Effects Models](http://www.statsmodels.org/dev/mixed_linear.html) qui s'appliquent sur des **données non indépendantes** : utilisation d'une variable de groupe.
* Le challenge était évalué avec la formule suivante : $LogLoss = -\frac{1}{n} \sum_{i=1}^{n} y_i \log \hat{y_i} + (1-y_i) \log (1-\hat{y_i})$ avec $\hat{y_i}$ la probabilité pour l'équipe 1 de battre l'équipe 2. Ce type d'erreur marche plutôt bien pour la régression logistique puisqu'elle optimise cette erreur.
* Le gagnant a construit **15 features** issues de la connaissance du basket (degré d'offensivité...).
* Il fallait aussi **prédire le gagnant d'un tournoi** : cette prédiction a été réalisée à partir de simulation faite à partir du modèle appris.

### Idées à récupérer

* Il vaut connaître le basket.

## Dstl Satellite Imagery Feature Detection

[kaggle](https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection)

* **objectif :** reconnaître des objets (voitures, bâtiments, routes, arbres, cours d'eau, lacs...) dans de grandes images satellites
* **données :** grandes images satellistes, la même zone est recouverte avec différents types de capteurs (noir et blanc, infra...)

[Dstl Satellite Imagery Competition, 3rd Place Winners' Interview: Vladimir & Sergey](http://blog.kaggle.com/2017/05/09/dstl-satellite-imagery-competition-3rd-place-winners-interview-vladimir-sergey/)

### Eléments de la solution

* Pas d'utilisation de [Fast-RNN](https://arxiv.org/abs/1506.01497) ou [SSD](https://arxiv.org/abs/1512.02325) trop complexes à mettre en oeuvre.
* **Distributions des classes** : il y a plus d'arbres que de voitures, les prédictions doivent refléter cette distribution. Il est possible de modifier les prédictions afin de respecter cette distribution.
* Utilisation des **détecteurs d'images simples** tels que [NDWI](https://en.wikipedia.org/wiki/Normalized_difference_water_index), cela marche assez bien pour les cours d'eau
* Utilisation de **réseaux de neurones** : [u-net](https://arxiv.org/abs/1505.04597), [Tiramisu](https://arxiv.org/abs/1611.09326), un optimiseur différent [Incorporating Nesterov Momentum into Adam](http://cs229.stanford.edu/proj2015/054_report.pdf)
* **Choisir les features** pour le réseau de neurones : RBG, M, P images, on laisse tomber [ECI](https://en.wikipedia.org/wiki/Enhanced_vegetation_index), [SAVI](https://en.wikipedia.org/wiki/Soil-Adjusted_Vegetation_Index), [NDWI](https://en.wikipedia.org/wiki/Normalized_difference_water_index)
* **Découper les images** plutôt que les normaliser : un réseau de neurones est appliqué sur chaque image. Problème : les prédictions sont moins bonnes sur les bords. On résoud cela avec un quadrillage qui se superposent (**overlapping** grid) et on ajoute une couche dans le réseau de neurones qui enlève les bords [Cropping2D](https://keras.io/layers/convolutional/#cropping2d).
* Les images 3600x3600 ont été découpées en zones 112x112 : cela laisse des zones incomplètes de l'autre côté de l'image. Ces zones sont complétées avec une image symétrique (comme dans un miroir).
* Prédire sur les images symétriques et réconcilier les prédictions.

### Idées à retenir

* Détecteurs d'images pour les arbres, les cours d'eau [ECI](https://en.wikipedia.org/wiki/Enhanced_vegetation_index), [SAVI](https://en.wikipedia.org/wiki/Soil-Adjusted_Vegetation_Index), [NDWI](https://en.wikipedia.org/wiki/Normalized_difference_water_index)
* Corriger les sorties avec des informations sur une distribution a priori des objets à détecter

## Autres compétitions

* [Two Sigma Financial Modeling Code Competition, 5th Place Winners' Interview: Team Best Fitting | Bestfitting, Zero, & CircleCircle](http://blog.kaggle.com/2017/05/11/two-sigma-financial-modeling-code-competition-5th-place-winners-interview-team-best-fitting-bestfitting-zero-circlecircle/) - algorithme de trading, la solution est assez classique et introduit des caractéristiques que les modèles ont du mal à capturer comme des courtes périodes de fortes volatilités, des périodes assez calmes...

* [Santander Product Recommendation Competition: 3rd Place Winner's Interview, Ryuji Sakata](http://blog.kaggle.com/2017/02/22/santander-product-recommendation-competition-3rd-place-winners-interview-ryuji-sakata/) - recommandation de produits, ce participant a isolé deux catégories de produits (tendances inhabituelles pour l'un des groupes) pour lesquels deux modèles et deux jeux de features distincts ont été construits.

* [Seizure Prediction Competition, 3rd Place Winner's Interview: Gareth Jones](http://blog.kaggle.com/2017/01/10/seizure-prediction-competition-3rd-place-winners-interview-gareth-jones/) - prédire les crises (épilepsie, ...). Les features s'appuient sur des électro-encéphalogramme (EEG). A noter l'utlisation de [RUSboost](http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=9260A5C92AC5F8FA3B8590A53A06248D?doi=10.1.1.309.2305&rep=rep1&type=pdf) pour les problèmes de données mal balancées.