# Indépendance

On va ici fair plus de simulation que dans la partie dénombrement, on utilisera ainsi beaucoup la librairie random de python, et aussi peut-être, numpy.random.

In [None]:
import numpy as np
from random import randint

#Imaginons qu'on lance 2 dé :
(randint(1, 6), randint(1, 6))

In [None]:
#si l'on fait maintenant 1000 lancés :
jets = [(randint(1,6), randint(1,6)) for _ in range(100000)]

In [None]:
#on peut alors faire un peu ce que l'on veut avec notre echantillonage:

#on peut simplement faire :
print(f'proba empirique : {len([0 for jet in jets if jet[0] == 1 and jet[1] == 1]) / len(jets)}\nvrai proba : {1/36}')

In [None]:
#ou alors compter toutes les possibilités :
d = {} #dictionnaire vide, équivalent à dict()
for jet in jets:
    if jet in d:
        d[jet] += 1
    else:
        d[jet] = 1
d[(1,1)]

In [None]:
#Soit nos jets : (X, Y), si on veut approximer P(Y = 1 | X = 1) :
print(f'proba empirique : {sum([d[(1, i)] for i in range(1, 7)]) / len(jets)}\nvrai proba : {1/6}')

In [None]:
#si maintenant on regarde le nombre de fois où on a eu un 1 :
sum([d[(1, i)] + d[(i, 1)] for i in range(1, 7)]) / len(jets)
#si vous êtes attentifs un truc devrait vous déranger

Truc sympa quand vous voulez approximer une proba ou un 
pourcentage dans la vie de tous les jours, l'erreur du calcul entre
la multiplication et l'addition est souvent assez faible :

Imaginons :
* pour $1.05 * 1.05 = 1.1 + 0.05 * 0.05$
* pour $5/6 * 5/6 = 2/3 + 1/6 * 1/6$

Ainsi au dessus de 1, c'est une addition, en dessous, une soustraction, et on rajoute l'erreur
qui est alors la multiplication de la distance à 1 des 2 chiffres.

Pour aussi partir un peu loin quand vous faisiez des dérivés en terminal S (si jamais), vous auriez sûrement aimé connaitre : 
https://en.wikipedia.org/wiki/Automatic_differentiation#Automatic_differentiation_using_dual_numbers

Ca paraît compliqué, car c'est la définition formelle mais en vrai, c'est hyper simple, soit votre variable $x + \epsilon$ en argument, vous développez tout, et vous dîtes par définition que $\epsilon^2 = 0$.

Par exemple : pour $f(x) = x^2$, on a alors $f(x + \epsilon) = (x + \epsilon)^2 = x^2 + 2x\epsilon + \epsilon^2 = x^2 + 2x\epsilon$ soit la fonction normal plus sa dérivée multiplié par $\epsilon$.

Très pratique pour approximer !

In [None]:
# On voit que la proba empirique approche 1/3

# or la proba de n'avoir aucun 1 étant normalement de 5/6 * 5/6 = 25/36, on devrait avoir une proba empirique de 11/36 soit environ 1/3, mais pas tout à fait...
# 1/3 = 0.3333 alors que 11/36 = 0,305555.
# ici, on approche clairement plus de 1/3 du coup... Et c'est là que ça doit tout de suite vous alertez, on a trop de valeurs !
# tout à l'heure on a prit tous les (1, x) et (x, 1) et on a donc compté les (1, 1) 2 fois.
# Comme ils représentent 1/36 de la échantillon total, si on les prend en compte 2 fois, on a alors (11/36 + 1/36 soit 1/3 de notre échantillon), tout est logique.
print(f'proba empirique : {(sum([d[(1, i)] + d[(i, 1)] for i in range(1, 7)]) - d[(1,1)]) / len(jets)}')

On trouve donc une proba beaucoup plus proche de ce que l'on attendait, donc approximez, mais pas trop en cours de stats (gardez ça pour la vie de tous les jours).

Les 2 évènements au-dessus étant clairement indépendant, enfin ça dépend de la génération de random qui est probablement seulement pseudo-aléatoire, mais bon... C'est indépendant, ou presque, ...

# Dépendance

Si on a maintenant deux variables aléatoires, mais que l'une dépend de l'autre :

In [None]:
#soit par exemple, un truc assez classique :
x = randint(1, 7)
y = randint(1, x)
(x, y)

In [None]:
d = {}
tirages = [(x, randint(1, x)) for x in [randint(1, 6) for _ in range(100000)]]
for i in tirages:
    if i in d:
        d[i] += 1
    else:
        d[i] = 1
d = {k : v / len(tirages) for k, v in d.items()}
d[(1,1)]

In [None]:
#On peut alors donner la répartition empirique de la loi jointe
p = np.zeros((6,6))
for (i, j), v in d.items():
    p[i - 1, j - 1] = v
print(p)

Si on veut maintenant la loi de X = i, sachant que Y = j :

On applique la formule, directement, on a alors :
    $P(X = i | Y = j) = \frac{P(X = i, Y = j)}{P(Y = j)}$

In [None]:
#On commence par calculer la loi de Y
p_y = sum(p)
print(p_y)

In [None]:
#Ainsi, on peut avoir la loi de X, sachant Y :
p_x = p / p_y
print(p_x)
# On voit alors, même si on le savait depuis le début que X et Y ne sont pas du tout indépendant...

Un autre problème, assez connu des statistiques, est le suivant :

Vous êtes testé positif à une maladie très rare, qu'elle est à posteriori là probabilité que vous soyez vraiment positif ?

https://www.youtube.com/watch?v=lG4VkPoG3ko

La réponse est alors, tout dépend de la rareté de la maladie.

Si nous simulons un échantillon de 10000 personnes :


In [None]:
from random import random

#soit p l'accuracy du test (en anglais, accuracy et precision sont deux valeurs distinctes.) :
# https://en.wikipedia.org/wiki/Precision_and_recall
p = 0.99

#soit apriori, la probabilité d'avoir la maladie :
apriori = 0.01

#On a alors le groupe positif :
positif = 0
negatif = 0
for _ in range(10000):
    if random() < apriori:
        positif += 1
    else:
        negatif += 1
print(f'Positifs : {positif}\nNégatifs : {negatif}')



In [None]:

vrai_positif = 0
faux_positif = 0
vrai_negatif = 0
faux_negatif = 0
for _ in range(positif):
    if random() <= p:
        vrai_positif += 1
    else:
        faux_negatif += 1

for _ in range(negatif):
    if random() <= p:
        vrai_negatif += 1
    else:
        faux_positif += 1


print(f'Vrai positifs : {vrai_positif}\nFaux positifs : {faux_positif}\nPositifs au tests : {vrai_positif + faux_positif}\n\nVrai négatifs : {vrai_negatif}\nFaux négatif : {faux_negatif}\nNégatifs au tests : {vrai_negatif + faux_negatif}')

Il faut voir ces stats comme:

Il est très peu probable que vous ayez cette maladie, ainsi si le test vous donne négatif, alors vous êtes presque sûr de l'être vraiment (ici, ona une chance de FauxNégatif / NégatifAuTest (2/9809 avec mes données) d'être positifs en ayant été testé négatif), alors que si vous êtes testé positif, il est autant probable que le teste dise n'importe quoi ou que vous ayez vraiment la maladie (99/191 dans mes données). 

Cela est dû aux valeurs opposés de l'accuracy et de la rareté de la maladie, si on change le ratio, alors on changera l'information que nous apporte ce test. On voit assez bien que si la maladie est plus rare, il y a ura en fait plus de chance que le test rate, plutôt que vous ayez vriament la maladie. Ainsi, pour des  valeurs un peu plus extrême, le test n'apporte que très peu d'information.

Si on va un peu plus loin, on parle ici d'un test qu'on fait avec l'apriori de base, c'est à dire que vous avez autant de chance d'avoir cette maladie que quelqu'un d'autre, mais si vous demandez à vous faire dépister, ou que votre médecin décide de vous dépister, vous n'avez généralement pas vraiment l'apriori de base. En effet, les symptômes, les gênes, et tous les autres facteurs de risques peuvent venir appuyer le test, (en locurence c'est plutôt le test qui vient appuyer les données).

Le résultat du test viendra alors update vos chances de vraiment avoir cette maladie. Il ne faut pas voir le résultat comme une réponse, mais comme une indication (plus ou moins fiable).

In [None]:
print(f"Chance d'être positif sachant que le test est positif : {vrai_positif/(vrai_positif + faux_positif)}  (C'est ça que l'on appelle precision en anglais)")
print(f"Chance d'être négatif sachant que le test est négatif : {vrai_negatif/(vrai_negatif + faux_negatif)}")
print(f"Chance d'être testé positif sachant que vous êtes positif : {vrai_positif/(vrai_positif + faux_negatif)}(C'est ça que l'on appelle recall en anglais)")