In [5]:
import numpy as np
import scipy.stats

In [7]:
# Intervalles de Confiance / Confidence Intervals

In [8]:
# Une série de données : par exemple une colonne dans un dataframe
# Cette série de données, elle est issue d'un échantillonage aléatoire tiré d'une population plus grande

In [9]:
# Par exemple : on fait un sondage téléphonique en France pour savoir si les gens sont content de telle mesure politique.

In [10]:
# Pour cela, on appelle "au hasard" 1000 personnes en France, et on leur demande si oui ou non ils sont contents.

In [11]:
# On calcule la proportion empirique de personnes contentes, qu'on appelle p.

In [12]:
# Question : Dans quelle mesure p représente bien la proportion de gens contents à l'échelle nationale ?
# A quelle marge d'erreur plus exactement ?

In [13]:
# Réponse : Intervalle de Confiance

In [17]:
# Hypothèse de base : la population générale a une proportion moyenne de gens contents égale à mu, et d'écart type sigma

In [16]:
# La moyenne empirique / proportion empirique p est tirée d'une loi aléatoire connue.

In [18]:
# TCL : p est tiré d'une loi normale / gaussienne de moyenne mu, et d'écart type sigma / sqrt(1000)

In [19]:
# P(-V <= p <= V) = ? (CDF : Cumulative Distribution Function)

In [20]:
# P(-V <= p <= V) = 0.95 (par exemple) : Intervalle de Confiance à 95%

In [21]:
# p ~ N(mu, sigma/sqrt(1000))

In [22]:
# (p - mu) / (sigma / sqrt(1000)) ~ N(0, 1)

In [23]:
# P(-V <= (p - mu) / (sigma / sqrt(1000)) <= V) = 0.95
# scipy => V ?

In [25]:
# P(-V * (sigma / sqrt(1000)) + p <= mu <= V*(sigma /sqrt(1000) + p)) = 0.95
# mu a 95% de chances d'être dans l'intervalle [-V * (sigma / sqrt(1000)) + p, V*(sigma /sqrt(1000) + p]
# marge d'erreur à 95 % = V * (sigma / sqrt(1000))

In [26]:
# On connaît l'écart type de la population générale : sigma
# Dans le cas où on ne connaît pas sigma, on a une deuxième version du TCL qui nous dit :
# moyenne empirique converge vers une distribution de student d'écart type l'écart type empirique du tirage aléatoire

In [27]:
# V calculé dans ce cas à partir d'une loi de Student plutôt qu'une Gaussienne

In [29]:
sample = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
sigma = 2

In [62]:
# tx de confiance = 95% = 1 - alpha
# alpha = 0.05
# tx de confiance = 1 - alpha /2
# alpha = 0.05 => tx de confiance = 0.975

In [31]:
z_critical = scipy.stats.norm.ppf(0.975)

In [32]:
z_critical

1.6448536269514722

In [33]:
margin_of_error = z_critical * (sigma / np.sqrt(9))

In [34]:
margin_of_error

1.0965690846343148

In [35]:
sample.mean() - margin_of_error

3.903430915365685

In [36]:
sample.mean() + margin_of_error

6.096569084634314

In [37]:
sample = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
sample.std()

2.581988897471611

In [57]:
t_critical = scipy.stats.t.ppf(0.9, df=8)

In [58]:
t_critical

1.396815309743419

In [59]:
margin_of_error = t_critical * (sample.std() / np.sqrt(9))

In [60]:
sample.mean() - margin_of_error

3.797812792808041

In [61]:
sample.mean() + margin_of_error

6.202187207191959