# TME 2 &mdash; Estimation de densité

Ariana CARNIELLI &mdash; 3525837

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import pickle
import importlib
import monModele as mm

%matplotlib notebook

## Affichage des données

Affichage brut des points d'intérêt d'un type donné sur la carte :

In [2]:
plt.ion()
plt.figure()
parismap = mpimg.imread('data/paris-48.806-2.23--48.916-2.48.jpg')

## coordonnees GPS de la carte
xmin,xmax = 2.23,2.48   ## coord_x min et max
ymin,ymax = 48.806,48.916 ## coord_y min et max

def show_map():
    plt.imshow(parismap,extent=[xmin,xmax,ymin,ymax],aspect=1.5)
    ## extent pour controler l'echelle du plan

poidata = pickle.load(open("data/poi-paris.pkl","rb"))
## liste des types de point of interest (poi)
print("Liste des types de POI" , ", ".join(poidata.keys()))

## Choix d'un poi
typepoi = "night_club"

## Creation de la matrice des coordonnees des POI
geo_mat = np.zeros((len(poidata[typepoi]),2))
for i,(k,v) in enumerate(poidata[typepoi].items()):
    geo_mat[i,:]=v[0]

## Affichage brut des poi
show_map()
## alpha permet de regler la transparence, s la taille
plt.scatter(geo_mat[:,1],geo_mat[:,0],alpha=0.8,s=3)
plt.show()

<IPython.core.display.Javascript object>

Liste des types de POI furniture_store, laundry, bakery, cafe, home_goods_store, clothing_store, atm, lodging, night_club, convenience_store, restaurant, bar


## Méthode par histogramme

Les fonctions permettant l'estimation de densité ont été codées dans le fichier `monModele.py`. Les fonctions `histogramme_simple` et `histogramme_opt` permettent de construire un histogramme simple pour une region donnée avec des comptages du nombre de points qui tombent dans chaque sous-region. Le nombre de pas de discrétisation pour la construction des sous-regions est passé en argument (le même pour les deux axes). Ces deux fonctions font la même chose, mais la fonction `histogramme_opt` est optimisée pour s'exécuter plus rapidement. La fonction `histogramme` utilise `histogramme_opt` pour retourner, plutôt qu'un histogramme de comptage, un histogramme normalisé en volume.

On teste maintenant cette fonction pour divers pas de discrétisation.

In [3]:
# discretisation pour l'affichage des modeles d'estimation de densite
for steps in [4, 10, 20, 50]:
    res = mm.histogramme(geo_mat, xmin, xmax, ymin, ymax, steps)

    plt.figure()
    show_map()
    plt.imshow(res,extent=[xmin,xmax,ymin,ymax],interpolation='none',\
                   alpha=0.5, origin = "center", aspect=1.5)
    plt.colorbar(orientation = 'horizontal')
    #plt.scatter(geo_mat[:,1],geo_mat[:,0],alpha=0.05, c='C1')
    plt.title("Histogramme avec steps = {:d}".format(steps))
    plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

On remarque que, avec `steps` petit (pas de discrétisation grand), l'histogramme donne une idée très vague de la distribution des points sur le plan, car il y a trop peu de catégories dans l'histogramme. Avec `steps = 10`, on commence à avoir une meilleure idée de la distribution des points d'intérêt, même si c'est difficile à identifier des clusters. Avec `step = 20`, on identifie mieux des clusters de points. Cependant, avec `steps = 50`, on a des catégories trop petites et l'histogramme se confond presque avec les points réels, il ne fournit quasiment plus d'information intéressante.

On remarque aussi l'effet de bord de la méthode des histogrammes. Par exemple, avec `steps = 20`, on remarque qu'il y a une région dans la figure avec une grande concentration de points d'intérêt (autour de la place Franklin Roosevelt sur l'avenue des Champs-Elysées), mais ces points sont concentrés dans le coin en haut à gauche du rectangle correspondant (on peut le voir en activant l'affichage des points réels, ce qui se fait en supprimant le commentaire de la ligne avec le `plt.scatter`). Cela veut dire que, en cas de leger changement de la grille, ces points seront pris en compte dans une autre sous-region, modifiant ainsi l'allure de l'histogramme.

## Méthode des noyaux

On a implémenté dans le fichier `monModele.py` des fonctions permettant d'estimer la densité à travers la méthode des noyaux. La fonction principale est `noyau`, qui prend en argument les données à utiliser, `geo_mat` et les bornes du domaine à considérer, `xmin`, `xmax`, `ymin` et `ymax`. Les arguments `hx` et `hy` permettent de contrôler la taille du noyau dans les deux directions. Le noyau lui-même est l'argument `phi` pris par la fonction. Finalement, pour représenter la densité ainsi obtenue, il faut faire une grille de discrétisation dans les deux axes, et l'argument `steps` donne le nombre de points dans cette grille dans les deux directions (le même pour les deux).

On calcule d'abord ces histogrammes avec des noyaux uniformes. Les dimensions `hx` et `hy` du noyau sont choisies comme la taille totale dans chaque dimension divisée par un nombre `N`, que l'on fait varier pour tester différentes tailles de noyaux.

In [4]:
steps = 200
for N in [5, 10, 25]:
    hx = (xmax - xmin) / N
    hy = (ymax - ymin) / N
    res = mm.noyau(geo_mat, xmin, xmax, ymin, ymax, steps, hx, hy, mm.uniform)

    plt.figure()
    show_map()
    plt.imshow(res,extent=[xmin,xmax,ymin,ymax],interpolation='none',\
                   alpha=0.5, origin = "center", aspect=1.5)
    plt.colorbar(orientation = 'horizontal')
    #plt.scatter(geo_mat[:,1],geo_mat[:,0],alpha=0.05, c='C1')
    plt.title("Histogramme avec N = {:d}".format(N))
    plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Même avec des noyaux uniformes, dont le format est rectangulaire, la méthode des noyaux donne un affichage beaucoup plus lisse que par rapport à la méthode des histogrammes. Elle permet aussi de surmonter la difficulté liée à sensibilité des histogrammes par rapport à la grille de discrétisation. La taille des noyaux change beaucoup le comportement des densités estimées : avec des noyaux grands (`N = 5`), les densités sont très lissées, et on a une idée générale de la concentration de points d'intérêt sans pouvoir être trop précis. En augmentant `N`, on diminue la taille des noyaux et on obtient des informations plus précises, mais avec `N` trop grand, comme `N = 25` sur la troisième figure, on commence à perdre trop d'information et à ne plus rien voir sur la carte à part une densité qui ressemble déjà beaucoup aux points réels.

On fait maintenant de même avec le noyau gaussien.

In [5]:
steps = 200
for N in [10, 25, 50]:
    hx = (xmax - xmin) / N
    hy = (ymax - ymin) / N
    res = mm.noyau(geo_mat, xmin, xmax, ymin, ymax, steps, hx, hy, mm.normal)

    plt.figure()
    show_map()
    plt.imshow(res,extent=[xmin,xmax,ymin,ymax],interpolation='none',\
                   alpha=0.5, origin = "center", aspect=1.5)
    plt.colorbar(orientation = 'horizontal')
    #plt.scatter(geo_mat[:,1],geo_mat[:,0],alpha=0.05, c='C1')
    plt.title("Histogramme avec N = {:d}".format(N))
    plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Les résultats avec le noyau gaussien, comme attendu, sont plus lisses, et les mêmes remarques qu'avant s'appliquent quant à la taille du noyau : des noyaux trop concentrés (`N` grand) donnent des densités trop concentrées avec peu d'information, les noyaux trop grands (`N` petit) donnent des densités avec peu d'information car trop floues. Dans ce cas, `N = 25` semble être un bon compromis.

Une idée pour régler la taille du noyau automatiquement serait de minimiser la vraisemblance de la densité par rapport aux points fournis. Cependant, cette minimisation naïve donne comme solution des noyaux avec des rayons infiniment petits. Ainsi, une stratégie plus intéressante est de séparer l'ensemble des points en deux sous-ensembles, ceux d'apprentissage et ceux de test. Les points d'apprentissage sont utilisés pour estimer la densité en soi, et on utilise ensuite les points de test pour calculer leur vraisemblance pour divers choix de taille de noyau et choisir celle avec la plus grande vraisemblance.

Pour implémenter cette technique, une fonction `separation_test_app` a été codée dans `monModele.py`, qui permet de séparer les données d'apprentissage et de test en spécifiant la proportion de données d'apprentissage souhaitée.

In [7]:
# Séparation de geo_mat en apprentissage et test
geo_test, geo_app = mm.separation_test_app(geo_mat, p_app = 0.75)

On a ensuite crée une fonction `noyau_vraisemblance` qui, étant donnés un ensemble d'apprentissage et un ensemble de test, calcule la log-vraisemblance de l'ensemble de test par rapport à la densité estimée par l'ensemble d'apprentissage. On peut ainsi chercher les paramètres qui maximisent cette vraisemblance par *grid search*.

In [26]:
N = np.logspace(0, 2, 30)
L = np.empty(N.shape)
for i in range(N.size):
    hx = (xmax - xmin) / N[i]
    hy = (ymax - ymin) / N[i]
    L[i] = mm.noyau_vraisemblance(geo_app, geo_test, xmin, xmax, ymin, ymax, hx, hy, mm.normal)

In [27]:
fig, ax = plt.subplots()
ax.grid(True)
ax.set_axisbelow(True)
ax.plot(N, L)
ax.set_xlabel('N')
ax.set_ylabel('log-vraisemblance');

<IPython.core.display.Javascript object>

In [22]:
print("Valeur optimale de N par grid search :",N[L.argmax()])

Valeur optimale de N par grid search : 28.072162039411772


On trouve donc une valeur optimale de `N` proche de `30`. Il faut cependant noter que cette valeur peut dépendre beaucoup de la séparation entre ensemble de test et ensemble d'apprentissage. Pour avoir un choix de valeur de `N` plus robuste par rapport à cette séparation, il serait mieux de faire une procédure de cross-validation plutôt que la simple séparation en ensembles d'apprentissage et test fixés.

On remarque aussi que la séparation en ensembles d'apprentissage et de test ou la cross-validation avec calcul de log-vraissemblance permet en outre d'estimer la qualité du modèle, qui est d'autant meilleure que la log-vraisemblance est grande sur les données non-utilisées pour l'estimation de densité.