<a href="https://colab.research.google.com/github/DanicPy/SommeBernoulli/blob/master/Analyse_SommeBern.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Somme de loi de bernoulli non identiquement distribué.
L'objet Risk a pour attribut un vecteur de probabilité. On traite  l'objet Risk comme étant un porte-feuille de risque où chaque risque est une variable aléatoire se comportant comme une loi de Bernouilli. On s'intéresse aux nombres de sinistres dans le portefeuille. Le porte-feuille n'est pas identiquement distribué mais les risques sont indépendant.

Ce genre de porte-feuille est utile pour calculer les probabilités associées aux nombres de décès dans un porte-feuille d'assurance vie. Ce genre de portefeuille est aussi utile pour calculer des probabilité lié à la rétention des clients si chaque client a une probabilité idépendante mais non identiquement distribué de rester avec la compagnie ou bien lorsqu'il vient le temps d'évaluer le nombre de retraite dans une organisation en ayant modélisé la probabilité de retraite de chacun des employés éligible à la retraite.

# Calcul de $Pr⁡(S_n=k)$
Prenons par exemple le cas où nous avons un groupe d'employé éligible à la retraite, 

Étant donné que les risques dans le porte-feuille sont indépendants, mais non identiquement distribué, c’est à dire que chaque employé n’a pas la même probabilité de partir à la retraite durant la prochaine année, il faut utiliser l’analyse combinatoire pour calculer $Pr⁡(S_n=k)$ . 

Par exemple, si nous voulons calculer $Pr⁡(S_5=2)$, il faut sommer les probabilités que chaque sous-groupe de 2 personnes prenne leur retraite l’année suivante. Voici toutes les combinaisons de numéro d’employé possible :

 $$A_i = [(0, 1), (0, 2), (0, 3), (0, 4), (1, 2), (1, 3), (1, 4), (2, 3), (2, 4), (3, 4)]$$
 
On dénote Ai comme étant l’ensemble des partitions de k employés parmi le nombre d’employés dans le portefeuille.
Il y a 10 combinaisons différentes de 2 employés parmi 5.
Lorsqu’il y a 50 employés dans le portefeuille, il y a 10 272 278 170 combinaisons différentes de 10 employés.
La formule générale pour le nombre de combinaison est la suivante :
>$$\binom{n}{k} = \frac{n!}{k!(n-k)!} $$

La formule générale pour $Pr⁡(S_n=k)$ :
>$$Pr⁡(S_n=k)=\sum_{i=0}^\binom{n}{k}\rho_{i}$$

>$$\rho_{i} = \prod_{A_{i}}q^{(A_{i})}\cdot\prod_{A'_{i}}p^{(A'_{i})} $$


In [2]:
import numpy as np
from itertools import combinations

class Risk:
    #ptf : list
  def __init__(self, ptf):
      self.ptf = ptf
  
  #Une méthode pour calculer l'espérance
  def expected_value(self):
    return np.sum(self.ptf)
  
  def all_combinations(cls, sous_groupe, total):     
      return [*combinations([*range(0, total, 1)], sous_groupe)]

  #Une méthode pour calculer la probabilité qu'il se produise x sinistres
  def mass_at_x(self, x):
    
    nbProb = len(self.ptf)
    qx = np.array(self.ptf)
    px = 1 - qx
    if x == 0:
      return np.prod(px)
    else:
      a = self.all_combinations(x, nbProb)
      rho = []
      for i in range(len(a)):
        prod_qx = 1
        prod_px = 1
        for element in a[i]:
          prod_qx *= qx[element]
        temp_list_px = np.array(np.setdiff1d(range(nbProb), a[i]))
        for j in temp_list_px:
          prod_px *= px[j] 
        rho.append(prod_qx * prod_px)
      return sum(rho)
  
  #une méthode pour print la fonction de masse des probabilitées
  def print_pmf(self):
    for i in range(len(self.ptf) + 1):
      print("Pr(Sn = " + str(i) + ") = " + str(self.mass_at_x(i)))
  
  # Une méthode qui mutualise les risques de 2 ptf et qui instancie un objet avec le nouveau vecteur de probabilitées
  def add(self, array):
    return Risk(np.concatenate((self.ptf, array)))
  
  #Une méthode de validation qui somme les risques pour confirmer si la somme est 1
  # Changer pour optmiser
  def validation(self):
    somme = 0
    count = 0
    while self.mass_at_x(count) != 0:
      somme += self.mass_at_x(count)
      count += 1
    return somme

Instanciation de 2 objets "Risk"' avec des probabilitées indépendantes mais non identiquement distribuées

In [3]:
retraite_groupe1 = Risk([0.5, 0.08, 0.086, 0.6, 0.035, 0.078, 0.2, 0.07, 0.02, 0.2]) 
retraite_groupe2= Risk([0.2, 0.3, 0.07, 0.089, 0.21, 0.02, 0.01, 0.14])
retraite_groupe3= Risk([0.2, 0.3, 0.7, 0.89, 0.21, 0.02, 0.01, 0.5, 0.8, 0.86, 0.6, 0.35, 0.78, 0.2, 0.7, 0.2, 0.3, 0.7, 0.89])

In [4]:
retraite_groupe2.validation()

1.0000000000000002

Voici comment utiliser la méthode .print_pmf()


In [5]:
retraite_groupe1.print_pmf()
print()
retraite_groupe2.print_pmf()

Pr(Sn = 0) = 0.0872792993806541
Pr(Sn = 1) = 0.2965395832680858
Pr(Sn = 2) = 0.3551251904212315
Pr(Sn = 3) = 0.19378863055185214
Pr(Sn = 4) = 0.05660747959935616
Pr(Sn = 5) = 0.009610491338377602
Pr(Sn = 6) = 0.00098581220058624
Pr(Sn = 7) = 6.125272528064003e-05
Pr(Sn = 8) = 2.2180826278400002e-06
Pr(Sn = 9) = 4.211640384000002e-08
Pr(Sn = 10) = 3.1554432000000014e-10

Pr(Sn = 0) = 0.312734767381344
Pr(Sn = 1) = 0.40988824420504805
Pr(Sn = 2) = 0.212465665579432
Pr(Sn = 3) = 0.05614966948213598
Pr(Sn = 4) = 0.008102626027080001
Pr(Sn = 5) = 0.0006336689497359997
Pr(Sn = 6) = 2.4943491832e-05
Pr(Sn = 7) = 4.12685448e-07
Pr(Sn = 8) = 2.197944000000001e-09


In [6]:
 # trouver un meilleur nom
%%time
mutualisation_groupe1_et_groupe2 = retraite_groupe1.add(retraite_groupe2.ptf)
mutualisation_groupe1_et_groupe2.print_pmf()

Pr(Sn = 0) = 0.027295271389015538
Pr(Sn = 1) = 0.12851299637128855
Pr(Sn = 2) = 0.2511519373749087
Pr(Sn = 3) = 0.274071266814082
Pr(Sn = 4) = 0.18994450954687878
Pr(Sn = 5) = 0.08977992316125898
Pr(Sn = 6) = 0.030223370142155603
Pr(Sn = 7) = 0.007446280756951247
Pr(Sn = 8) = 0.0013653253083315599
Pr(Sn = 9) = 0.00018801105883256057
Pr(Sn = 10) = 1.949822842695877e-05
Pr(Sn = 11) = 1.518114973825867e-06
Pr(Sn = 12) = 8.789823718379077e-08
Pr(Sn = 13) = 3.7203117925493953e-09
Pr(Sn = 14) = 1.1201618930317486e-10
Pr(Sn = 15) = 2.3004812960112113e-12
Pr(Sn = 16) = 3.012682555877849e-14
Pr(Sn = 17) = 2.2279004618476047e-16
Pr(Sn = 18) = 6.935487448780804e-19
CPU times: user 18.5 s, sys: 1.06 s, total: 19.6 s
Wall time: 18.5 s
