# TP 3 - Simulation d'Intervalle de Confiance pour une Proportion en Python

**Introduction :** Les intervalles de confiance sont une composante cruciale de la statistique qui permet de quantifier l'incertitude dans les estimations. Dans ce TP, vous allez apprendre à calculer un intervalle de confiance pour une proportion en utilisant des simulations avec Python. Vous utiliserez des méthodes de simulation pour estimer la proportion d'une caractéristique binaire dans une population, ainsi que l'intervalle de confiance associé.

**Objectif :** À la fin de ce TP, vous serez en mesure de simuler et d'interpréter un intervalle de confiance pour une proportion, d'explorer la variation des paramètres de simulation et de déterminer la taille de l'échantillon nécessaire pour obtenir un intervalle de confiance donné avec un niveau de confiance donné.

**Matériel requis :** Un environnement Python (tel que Jupyter Notebook) pour effectuer des simulations.

**Théorie :** Avant de commencer, voici quelques concepts clés à comprendre :

- **Intervalle de Confiance (IC) :** Un intervalle de confiance est une plage de valeurs à l'intérieur de laquelle vous êtes confiant à un certain niveau de confiance que le vrai paramètre (dans ce cas, la proportion) se trouve.

- **Proportion (p) :** La proportion est une mesure de la fréquence d'une caractéristique binaire (par exemple, la proportion de personnes qui préfèrent un produit A parmi un groupe de personnes).

- **Simulation :** Dans ce TP, nous allons utiliser des simulations pour estimer la proportion et calculer l'intervalle de confiance. Cela signifie que nous allons générer des échantillons de données aléatoires.

Dans ce TP, les données simulées reflèteront les hypothèses du Devoir Maison INTDE qui cherche à étudier la validité de sondages effectués au niveau des Etats Unis pour la présidentielle dans deux états la Californie et le Michigan. Un objectif est de comparer les résultats théoriques obtenus dans ce devoir de math et les résultats numériques obtenus dans ce TP.

**Quand vous réaliserez vos simulations (aux étapes 4 et 5), vous indiquerez aussi les données théoriques trouvées dans le devoir Maison et vous commenterez.**


# Au travail!

In [92]:
# Importez les bibliothèques nécessaires
import numpy as np
import random

random.seed(10) ## je mets ici une seed pour que si vous relancez votre notebook, vous retrouviez bien les même résultats
np.random.seed(10) ## idem pour numpy

### Étape 1 : Génération des Données Simulées

Création d'une fonction **sondage** permettant de simuler un sondage.



Les données d'entrée seront:
- **n_echant** : un entier donnant la taille de l'échantillon (ici le nombre de personnes interrogées pour le sondage)
- **p** : un réel compris entre 0 et 1 donnant la valeur du paramètre du schéma de Bernoulli (ici le pourcentage d'électeurs votant pour le candidat considéré) si on on considère que le vote d'une personne $i$ est représenté par une variable $X_i$ qui vaut $0$ si la personne ne vote pas pour le candidat et $1$ si il vote pour le candidat.

Les données de sortie seront:
- **p_simul** : un réel compris entre 0 et 1 donnant la valeur de la proportion simulée lors de ce sondage ($\dfrac{\sum X_i}{n\_echant}$) 

**Attention: Les seules fonctions autorisées pour générer des nombres aléatoires seront np.random.random() si vous voulez utiliser numpy ou random() si vous souhaitez rester en python "standard".**


In [93]:
def sondage(n_echant, p):
    votes = np.random.random(n_echant)
    p_simul = (np.sum(votes<p)/n_echant)
    return float(p_simul)

### Étape 2 : Simulation d'un grand nombre de sondages

Création d'une fonction **multi_sondage** permettant de simuler qu'on va répéter un grand nombre de fois un sondage élémentaire afin de pouvoir utiliser ces résultats pour regarder la dispersion des résultats. Bien sûr on appellera la fonction **sondage** pour cela.



Les données d'entrée seront:
- **nb_sond** : un entier indiquant le nombre de sondages qu'on souhaite réaliser
- **n_echant** : un entier donnant la taille de l'échantillon (ici le nombre de personnes interrogées pour le sondage)
- **p** : un réel compris entre 0 et 1 donnant la valeur du paramètre du schéma de Bernoulli (ici le pourcentage d'électeurs votant pour le candidat considéré) si on on considère que le vote d'une personne $i$ est représenté par une variable $X_i$ qui vaut $0$ si la personne ne vote pas pour le candidat et $1$ si il vote pour le candidat.

Les données de sortie seront:
- **p_simul_vect** : un tableau numpy de taille **nb_sond** contenant les résultats des valeurs de la proportion simulée lors de l'ensemble de ces sondage

**Le nombre de sondage doit être au moins de 1000, peut-être plus pour donner ensuite des intervalles de confiance "stables"**, Je vous laisse regarder quelle valeur vous semble adaptée.


In [94]:
def multi_sondage(nb_sond,n_echant,p):
    votes = np.zeros(nb_sond)
    for i in range(len(votes)):
        votes[i] = sondage(n_echant, p)
    p_simul_vect = votes
    return p_simul_vect

In [95]:
test = multi_sondage(1000,100,0.68)

### Étape 3 : Calcul d'un intervalle de confiance

Création d'une fonction **IC** permettant de calculer un intervalle de confiance à partir de la donnée d'un nombre important de données simulées



Les données d'entrée seront:
- **p_donnees** : un tableau numpy contennant l'ensemble de proportions simulées 
- **p** : un réel compris entre 0 et 1 contenant la proportion visée
- **confiance** : un réel compris entre 0 et 1 contenant le pourcentage de confiance visé

Les données de sortie seront:
- **delta** : un réel tel que on ait une proportion égale à **confiance** de proportions simulées comprises entre **p - delta/2** et **p+delta/2** 


In [96]:
def IC(p_donnees,p,confiance):
    R_max = np.percentile(p_donnees,0.99)
    R_min = np.percentile(p_donnees,0.01)
    delta = R_max - R_min
    return float(delta)

In [97]:
IC(test, 0.68, 0.98)

0.056902999999999926

### Étape 4 : Je fixe **n_echant**, je regarde la taille de mon intervalle de confiance


**LA CALIFORNIE**

Ici

- **n_echant** vaut 1000
- **p** vaut 0.45
- **confiance** =0.98



In [98]:
# Effectuez la simulation pour calculer l'intervalle de confiance correspondant au sondage en Californie
IC(multi_sondage(100000, 1000, 0.45), 0.45, 0.98)

0.021000099999999966

**LE MICHIGAN**

Ici

- **n_echant** vaut 1000
- **p** vaut 0.49
- **confiance** =0.98



In [99]:
IC(multi_sondage(100000, 1000, 0.49), 0.49, 0.98)

0.02200000000000002

### Étape 5 : Je fixe mon intervalle de confiance, je cherche **n_echant** qui me permet de l'atteindre


Dans cette étape, vous allez "tatonner" en augmentant progressivement **n_echant** jusqu'à ce que l'intervalle de confiance corresponde à ce que vous visez


**LA CALIFORNIE**

Ici
- **p** vaut 0.45
- **delta/2** vaut 0.05 pour ne pas se tromper dans le résultat
- **confiance** =0.98




In [100]:
# Effectuez la simulation pour calculer n_echant "optimal"
def optimal_echant(p, delta_final, confiance):
    n_echant = 100  # Commencer avec une petite taille d'échantillon
    found = False

    while not found:
        # Effectuer plusieurs sondages avec la taille d'échantillon actuelle
        p_donnees = multi_sondage(1000000, n_echant, p)
        
        # Calculer l'intervalle de confiance
        delta = IC(p_donnees, p, confiance)
        
        # Vérifier si l'intervalle de confiance est assez petit
        if delta / 2 <= delta_final:
            found = True
        else:
            n_echant += 100  # Augmenter progressivement la taille de l'échantillon

    return n_echant, delta

In [101]:
# Utiliser les paramètres pour la Californie
optimal_n_echant, final_delta = optimal_echant(0.45, 0.05, 0.98)
print(f"Taille d'échantillon optimale : {optimal_n_echant}, Intervalle de confiance atteint : {final_delta}")


Taille d'échantillon optimale : 100, Intervalle de confiance atteint : 0.07


**LE MICHIGAN**

Ici
- **p** vaut 0.49
- **delta/2** vaut 0.01 pour ne pas se tromper dans le résultat
- **confiance** =0.98




In [102]:
# Effectuez la simulation pour calculer n_echant "optimal"
# Effectuez la simulation pour calculer n_echant "optimal"
def optimal_echant(p, delta_final, confiance):
    n_echant = 100  # Commencer avec une petite taille d'échantillon
    found = False

    while not found:
        # Effectuer plusieurs sondages avec la taille d'échantillon actuelle
        p_donnees = multi_sondage(1000000, n_echant, p)
        
        # Calculer l'intervalle de confiance
        delta = IC(p_donnees, p, confiance)
        
        # Vérifier si l'intervalle de confiance est assez petit
        if delta / 2 <= delta_final:
            found = True
        else:
            n_echant += 100  # Augmenter progressivement la taille de l'échantillon

    return n_echant, delta

In [103]:
# Utiliser les paramètres pour la Californie
optimal_n_echant, final_delta = optimal_echant(0.49, 0.01, 0.98)
print(f"Taille d'échantillon optimale : {optimal_n_echant}, Intervalle de confiance atteint : {final_delta}")


Taille d'échantillon optimale : 1100, Intervalle de confiance atteint : 0.019999999999999962
