# Processus ponctuels 

Les processus ponctuels sont des modèles probabilistes permettant de décrire la position aléatoire de points dans un domaine spatial. Ils peuvent être utilisés pour modéliser un grand nombre de phénomènes, parmi lesquels on peut citer l'implantation des essences d'arbres au sein d'une forêt, la position des épicentres de séismes ou des départs de feux, la mortalité dans une épidémie, ou encore l'occurence de crimes ou délits en zone urbaine. 

Dans ce projet, on se propose d'étudier et de simuler un certain nombre de modèles dans $\mathbb{R}^2$, de complexité croissante, de manière à construire un prototype de modèle écologique visant à simuler la plantation puis l'évolution d'une forêt.

On admet que l'on caractérise la loi de probabilité d'un processus ponctuel spatial $\mathcal{P}$ par le biais de sa *mesure de comptage*, qui est l'application qui à $A \in \mathcal{B}(\mathbb{R}^2)$ associe $N(A)$, la variable aléatoire qui donne le nombre de points de $\mathcal{P}$ contenus dans $A$. 

La *loi spatiale de la mesure de comptage* est définie $\forall p \in \mathbb{N^\star}, \forall n_1,\ldots,n_p \in \mathbb{N}^p, \forall A_1,\ldots,A_p \in \mathcal{B}(\mathbb{R}^2)$ par $\mathbb{P}(N(A_1)= n_1, \ldots, N(A_n)=n_p)$.

## Processus de Poisson homogène

On définit le processus de Poisson homogène de la manière suivante :

1. Si $ A \in {\cal B} (\R^2) $, alors $N (A)$ suit
      une loi de Poisson de paramètre $\theta \, | A |$, avec $|A| = \lambda(A)$, où $\lambda$ est la mesure de Lebesgue
      $$ \mathbb{P} ( N (A) = n) = \exp \bigl( - \theta | A | \bigr) \frac{
        \bigl( \theta | A | \bigr)^n }{n!},~n \in \N $$

2. Pour tout $p\ge 2$, si $A_1,...,A_p \in {\cal B} (\R^2) $ sont 
      disjoints deux à deux, alors $ N(A_1),...,N(A_p)$ sont 
      mutuellement indépendants

Le paramètre $\theta$ est appelé l'intensité du processus.

**Question 1.** 

a. Montrer que cette définition permet de caractériser la loi spatiale de la mesure de comptage du processus pour un couple de boréliens. c'est-à-dire qu'elle permet de calculer $\mathbb{P}(N(A)= n, N(B)=p),~\forall \,n,p \in \mathbb{N^\star} \,\forall A, B \in \mathcal{B}(\mathbb{R}^2)$.

b. *(facultatif)* Montrer que cette définition permet de caractériser la loi spatiale de la mesure de comptage du processus.


**Question 2.** Soit $n \in \mathbb{N}^\star$, montrer que pour tout $A, B\in\mathbb{R}^2$ tels que  $B \subset A$, on a
 $$ \mathbb{P}(N(B) = i | N(A) = n)={ n \choose i } \left( \frac{ | B | }{ | A | } \right)^i 
\, \left( 1 - \frac{ | B | }{ | A | } \right)^{n - i}$$
En déduire que conditionnellement à $N(A)=n$, les $n$ points sont indépendamment et uniformément distribués dans $A$ 
 
*(Indication: On pourra faire un parallèle avec des expériences de Bernoulli indépendantes)*.


**Question 3.** Soient $A, B \in \cal{B}(\mathbb{R}^2)$, montrer que $\mathrm{Cov}(N(A),N(B)) = \theta |A \cap B|$.

**Question 4.** Proposer et implémenter un algorithme de simulation d'un processus de Poisson de paramètre $\theta = 0.05$ sur $[0,100]\times [0,100]$. Représenter graphiquement une réalisation.

*(Indication: On pourra utiliser les fonctions `random.poisson` et `random.uniform` de `numpy`)*

In [None]:
import numpy as np
rng = np.random.default_rng(seed=42)
import matplotlib.pyplot as plt
import scipy.stats as sps

In [None]:
# Parameters
theta =

# Poisson simulation function
def poisson_simulation(theta, a, b):
    S =   # Surface
    N =   # Simulation of the number of points
    x =   # Simulation of the first coordinate
    y =   # Simulation of the second coordinate
    print(N)
    return np.column_stack((x, y))

# Plotting
data = poisson_simulation(theta, a, b)
plt.scatter(data[:, 0], data[:, 1], s =2)
plt.show()


Cette première simulation peut représenter l'implantation de pousses d'arbres (en nombre poissonnien) réalisée "au hasard", par exemple après une coupe rase. On peut imaginer que des facteurs extérieurs puissent interférer avec ce processus, ce que l'on va décrire avec les processus de Poisson hétérogènes.

## Processus de Poisson hétérogène

Dans le cas du processus de Poisson hétérogène, l'intensité du processus $ \theta = \left( \theta (x), x \in \R^2 \right)$ varie. Il se définit comme suit :

1. Si $ A \in {\cal B} (\R^2) $, alors $N (A)$
      suit une loi de Poisson de paramètre
      $$ \theta (A) \ = \ \int_A \theta (x) \, dx. $$

2. Si $A_1,...,A_p \in {\cal B} (\R^2) $ sont 
      disjoints deux à deux, alors $ N(A_1),...,N(A_p)$ sont 
      mutuellement indépendants



**Question 1.**  Soit $n \in \mathbb{N}^\star$, montrer que si $N(A)=n$ les $n$ points sont indépendamment distribués dans $A$ avec la même densité de probabilité 
  $$ f (x)=\frac{\theta (x)}{\theta (A)}, \qquad x \in A $$

*(Indication : On pourra considérer $B \subset A$ quelconque et identifier la loi de $\mathbb{P}(N(B) = i | N(A) = n)$. On pourra ensuite étudier $\mathbb{P}(N(B) = 1 | N(A) = 1)$ pour identifier la loi de probabilité de l'implantation des points)*

 <!-- <font color='blue'> Au vu de ce qu'ils connaissent de la notion d'indépendance, est-ce qu'on pourrait pas plutôt leur faire montrer que pour tous $B_1, \dots, B_p \subset A$, 
 $$ \mathbb{P}(X_1\in B_1, \dots, X_n \in B_n | N(A) = n) = \prod_{i=1}^n\mathbb{P}(U\in B_i)$$
 où $(X_1, \dots, X_n)$ représente le processus ponctuel conditionné et $U$ une variable uniforme dans A.

 Je propose:


**Question 1.** Soit $n\ge 1$ et $A \in {\cal B} (\R^2)$. Supposons que le processus ponctuel vérifie $N(A)=n$ et notons $(X_1,\dots, X_n)$ les positions aléatoires, dans $A$, des points du processus. 

**a.** Montrer que, pour tous $B_1, \dots, B_n \subset A$ deux à deux disjoints
$$ \mathbb{P}(X_1\in B_1, \dots, X_n \in B_n | N(A) = n) = \frac{1}{n!} \mathbb{P}(N(B_1)=1, \dots, N(B_n)=1 | N(A) = n) $$

**b.** En déduire que, pour tous $B_1, \dots, B_n \subset A$ deux à deux disjoints
$$ \mathbb{P}(X_1\in B_1, \dots, X_n \in B_n | N(A) = n) = \prod_{i=1}^n\mathbb{P}(U\in B_i)$$
où $U$ est la variable aléatoire de densité de probabilité 
  $$ f_U (x)=\frac{\theta (x)}{\theta (A)}, \qquad x \in A. $$

Et on admet que ca reste vrai quand les $B_i$ ne sont pas disjoints (ou alors on met ca en question bonus, acr c'est plus galère à faire...).

-> l'idée est ici de leur faire utiliser la même démarche qu'en homogène pour établir l'indépendance

  </font> -->

**Question 3.** Soient $A, B \in \cal{B}(\mathbb{R}^2)$, montrer que $\mathrm{Cov}(N(A),N(B)) = \theta (A \cap B)$.

Si la plantation se fait en plusieurs campagnes, ou bien si on s'intéresse à différentes essences d'arbres, on peut être amené à combiner plusieurs processus ponctuels.

**Question 4.** Montrer que l'union de deux processus de Poisson indépendants d'intensités respectives $\theta_1$ et $\theta_2$ est un processus de Poisson d'intensité $\theta = \theta_1+\theta_2$.

On suppose que l'altitude (en mètres) du domaine d'étude $D=[0,100]\times [0,100]$ peut être décrite par la fonction suivante : 
$$f(x) = 10^4 \left(f_{(30,20),\Sigma_1}(x) + f_{(80,45),\Sigma_2}(x) + f_{(30,70),\Sigma_3}(x)\right), x\in \mathbb{R^2}$$

où $f_{\mu, \Sigma}$ est la densité gaussienne bivariée d'espérance $\mu$ et de matrice de covariance $\Sigma$.

**Question 5.** Représenter la topologie du domaine d'étude, avec
$$\Sigma_1 = \begin{pmatrix} 400 & 30 \\ 30 & 100\end{pmatrix}, \Sigma_2 = \begin{pmatrix} 100 & 20 \\ 20 & 200\end{pmatrix}, \Sigma_3 = \begin{pmatrix} 150 & -30 \\ -30 & 100\end{pmatrix}.$$
*(Indication: On pourra utiliser la fonction `multivariate_normal`  de `scipy.stats` pour évaluer les fonctions $f_{\mu, \Sigma}$)*

In [None]:
x, y = np.mgrid[0:100:.05, 0:100:.05]

pos = np.dstack((x, y))


def topo(x): 

    return

fig = plt.figure()

ax = fig.add_subplot(111)

CS = ax.contourf(x, y, topo(pos))
CS2 = ax.contour(CS, levels=CS.levels)
# Make a colorbar for the ContourSet returned by the contourf call.
cbar = fig.colorbar(CS)
cbar.ax.set_ylabel('altitude')
# Add the contour line levels to the colorbar
cbar.add_lines(CS2)
plt.show()

On supposera en première approximation que l'on peut considérer les supports des fonctions $f_{(30,20),\Sigma_1}$, $f_{(80,45),\Sigma_2}$ et $f_{(30,70),\Sigma_3}$ comme disjoints, que le maximum de la fonction $f$ vaut
$$ f_{\max}=\max_{x\in D} f(x)=10^4\times f_{(30,70),\Sigma_3}(30,70) $$
et que son minimum vaut
$$ f_{\min}=\min_{x\in D} f(x)=0$$
<!-- et que 
$$ \int_D f_{(3,2),\Sigma_1}(x) dx=\int_D f_{(8,4.5),\Sigma_2}(x) dx=\int_D f_{(3,7),\Sigma_3}(x) dx=1$$ -> ça j'aimerais bien qu'ils s'en aperçoivent par eux même !-->

Le processus d'implantation des arbres étant entravé par l'altitude, on choisi désormais de modéliser leur position par un processus de Poisson hétérogène dont l'intensité $\theta$ est de la forme :
$$ \theta(x)=\alpha\times(f_{\max} - f(x) )$$
avec $ \alpha>0$. 


**Question 6.** Déterminer le paramètre $\alpha$ de la fonction d'intensité $\theta$ tel que le nombre moyen d'arbres dans $D$ soit le même que celui obtenu à la Question 4 de la section précédente (cas homogène). Implémenter un algorithme de simulation d'un processus de Poisson suivant cette intensité sur $D$. Représenter graphiquement une réalisation.



In [None]:
def theta(x):
    return 

# Rejection sampling for theta
def rtheta(n, a, b):
    k = 0
    pts = np.empty((0, 2))
    while k < n:
        x = 
        y = 
        u = 
        if u < theta((x[0],y[0])): # remark: no need to know the normalization constant!
            pts = np.vstack((pts, [x[0], y[0]]))
            k += 1 
    return pts

# Poisson simulation function with rejection sampling
def poisson2(a, b):
    Theta = 
    N = 
    return rtheta(N, a, b)


# Plotting
X = poisson2(a, b)
plt.scatter(X[:, 0], X[:, 1],s=2)
plt.show()

# Plot 2D histogram
plt.hist2d(X[:,0],X[:,1],50)
plt.show()

## Processus ponctuels marqués et extension spatio-temporelle

En complément de la coordonnée en chaque point du processus, on peut attribuer une ou plusieurs variables aléatoires. Celles-ci peuvent représenter des caractéristiques du phénomène étudié comme la magnitude d'un séisme ou bien la hauteur d'un arbre. 

**Question 1.** On suppose que chaque arbre croît indépendamment chaque année $t$ selon une loi exponentielle de paramètre $4 + B_t/2$, où les $B_t$ sont des variables de Bernoulli indépendantes de paramètre $2/5$. $B_t$ vaudra 0 si les conditions météorologiques de l'année sont favorables et 1 sinon. Calculer la hauteur moyenne d' un arbre au bout de 10 ans. Vérifier le résultat expérimentalement en proposant un estimateur calculé sur un ensemble de simulations ainsi qu'un intervalle de confiance.

In [None]:
## True mean 
h_mean=

## Growth after one year
def height_1(b):
    return 

## Height after ten years
def height_n(nyears=10):
    
    for i in range(nyears):
        
        
    return h

## Mean of simulations
nbsim= # large number of trees
hsim=
hsim_mean=
print("True mean: ",h_mean)
print("Mean of simulations: ",hsim_mean)

## Proposed confidence interval: 
hsim_std=
hsim_conf=
print("Confidence interval: ",hsim_conf)



On suppose maintenant que dès qu'un arbre a dépassé les 3m de hauteur, il va disperser un nombre poissonien d'intensité 3 de graines qui germeront dans un rayon exponentiel de paramètre 1/20. Ceci définit un processus ponctuel représentant des agrégats, connu sous le nom de processus de Neyman-Scott. On fait de plus l'hypothèse que la proximité entre arbres va entraver leur croissance annuelle, de fait que celle-ci suivra une loi exponentielle de paramètre $4 + B_t/2 + 2\exp(-d)$, où $d$ est la distance à l'arbre le plus proche. Enfin, on considère que lors des années où la météo est défavorable, les arbres sont décimés indépendamment les uns des autres avec une probabilité $\min(0.15,1/T^2)$ où $T$ est la taille de l'arbre en mètres.



**Question 2.** Simuler cette dynamique sur une période de 100 ans à partir de l'état initial de la forêt généré à la question 6 de la section précédente. Représenter l'état final en faisant apparaître la hauteur des arbres via une échelle de couleur (on négligera les arbres qui pousseront en dehors du domaine d'étude).

In [None]:

## Growth after one year
def height_1(b):
    return 

## Compute distance to closest tree
def computeMinDist(X):
    

## Definition of the probability of decimation
### h : Height of the tree
### pmax : Maximum of the probability
def probDecim(h,pmax):  

## Function to simulate the forest
def simForest(nbyears,lam,param,pmin):


    ## Simulate the position of initial trees: (x,y,time of birth)
    
    X = poisson2(100, 100)
    X = np.hstack((X,np.zeros((np.shape(X)[0],1))))

    ## Heights
    # Initial heights

    ## Age
    

    for i in range(nbyears):
        
        ## Weather

        ## Compute distance to closest tree

        ## Add heights
        
        ## Decimate
            
        if len(h_new)==0:
            print("All trees have died...")
            break
            
        
        ## Find which trees have just reached 3m
        
        ## Spawn new trees
        
        ## Update heights

    return X, h



In [None]:
## Intensity of the offsprings
lam=3

## Parameter of the radius
param=1/20

## Maximal probability of decimation
pmax=0.15

## Number of years
nbyears=100

## Generate simulation
X, h = simForest(nbyears,lam,param,pmax)

## Plot
plt.scatter(X[:,0],X[:,1],c=h,s=1)
plt.xlim(0,100)
plt.ylim(0,100)
plt.colorbar()
plt.title("Number of trees: "+str(X.shape[0]))
plt.show()


**Question 3.** Répéter la simulation précédente un grand nombre de fois. Proposer une estimation accompagnée d'un intervalle de confiance du nombre moyen d'arbres, de l'âge moyen des arbres ainsi que de leur taille moyenne à l'issue des 100 années d'évolution.

In [None]:
## Number of simulations
nbsim = 1000

## Generate simulations
Nlist=np.zeros(nbsim)
hlist=np.zeros(nbsim)
for i in range(nbsim):
    
## Means
print("Mean number of trees:",Nlist.mean())
print("Mean height of trees:",hlist.mean())

**Question 4.** (facultatif) Proposer et implémenter un algorithme rendant la simulation plus réaliste, au regard des ressources que vous pourriez trouver par vous même.

**Question 5.** (facultatif) Représenter sous forme dynamique (animation) l'évolution de la forêt sur la période considérée.