# Mini-projet de statistiques

Informatique 2

2022 2023

# Importation des dépendances

In [None]:
import warnings
import Typing

x = var('x')

## 1 Génération de lois continues

### 1. Ecriture de la fonction VAuniforme qui renvoie une valeur issue de la loi uniforme continue $\mathcal{U}(a, b)$

In [None]:
def VAuniforme(a, b):
    if a > b:
        warnings.warn(f"[ERREUR] : VAUniforme, support invalide {a} > {b}")
        return
    
    return a + random() * (b-a)

In [None]:
VAuniforme(1, 10)

### 2.

In [None]:
def genereEchantillons(loiProba, nbrEchantillons, *args):
    '''
    Génère nbrEchantillons echantillons issues d'une variable aléatoire suivant loiProba avec les paramètres *args
    Exemple : genereEchantillons(VAuniforme, 100, 0, 1)
    '''
    
    listeEchantillon = [] # On stocke les échantillons
    for i in range(nbrEchantillons):
        echantillon = loiProba(*args)
        listeEchantillon.append(echantillon)
    
    return listeEchantillon

In [None]:
def ErreurQuadratique(listeEchantillon, parametreCible):
    '''
    Calcul la moyenne des erreurs quadratiques moyennes entre le paramètre cible (parametreCible) et les estimations issues de l'estimateur (listeEchantillon)
    '''
    
    listeDiffCarre = [(echantillon-parametreCible)**2 for echantillon in listeEchantillon]
    return mean(listeDiffCarre)

Vérification pour la loi exponentielle $\epsilon(\lambda)$ de paramètre $ \lambda $ entier variant de 1 à 10

In [None]:
for lambd in range(1, 11):
    Ereel = 1/lambd
    Vreel = 1/(lambd**2)
    listeEobs = []
    listeVobs = []
    
    # for i in range(1000):
    listeEchantillon = genereEchantillons(expovariate, 1000, lambd)
    Eobs = mean(listeEchantillon)
    Vobs = variance(listeEchantillon)

    listeEobs.append(Eobs)
    listeVobs.append(Vobs)

    print(f'Lambda = {lambd}')
    print('Erreur quadratique :')
    print(f'- de la moyenne estimée : {ErreurQuadratique(listeEobs, Ereel)}')
    print(f'- de la variance estimée : {ErreurQuadratique(listeVobs, Vreel)}')

Vérification pour la loi gamma $\Gamma(k,\theta)$ de paramètres $k=5, \theta=2$

In [None]:
k = 5
theta = 2

listeEchantillon = genereEchantillons(gammavariate, 1000, k, theta) # 1000 observations d'une variable aléatoire suivant la loi

Eobs = mean(listeEchantillon)
Vobs = variance(listeEchantillon)

print(f'Espérance réelle {k*theta}')
print(f'Espérance estimée {Eobs}')
print(f'Variance réelle {k*theta**2}')
print(f'Variance estimée {Vobs}')

Vérification pour la loi gamma $\Gamma(k,\theta)$ où k et $\theta$ entiers variant de 1 à 10

In [None]:
for k in range(1, 11):
    for theta in range(1, 11):
        Eree = k*theta
        Vreel = k*(theta**2)
        listeEobs = []
        listeVobs = []

        #for i in range(10):
        listeEchantillon = genereEchantillons(gammavariate, 1000, k, theta)
        Eobs = mean(listeEchantillon)
        Vobs = variance(listeEchantillon)

        listeEobs.append(Eobs)
        listeVobs.append(Vobs)

        print(f'k = {k}, theta = {theta}')
        print('Erreur quadratique :')
        print(f'- de la moyenne estimée : {ErreurQuadratique(listeEobs, Eree)}')
        print(f'- de la variance estimée : {ErreurQuadratique(listeVobs, Vree)}')

Vérification pour la loi normale $\mathcal{N}(\mu,\,\sigma^{2})$ où $\mu$ et $\sigma$ entiers variant de -5 à 5 et 1 à 10 respectivement

In [None]:
for mu in range(-5, 6):
    for sigma in range(1, 11):
        Eree = mu
        Vree = sigma**2
        listeEobs = []
        listeVobs = []

        #for i in range(10):
        listeEchantillon = genereEchantillons(normalvariate, 1000, mu, sigma)
        Eobs = mean(listeEchantillon)
        Vobs = variance(listeEchantillon)

        listeEobs.append(Eobs)
        listeVobs.append(Vobs)

        print(f'mu = {mu}, sigma = {sigma}')
        print('Erreur quadratique :')
        print(f'- de la moyenne estimée : {ErreurQuadratique(listeEobs, Eree)}')
        print(f'- de la variance estimée : {ErreurQuadratique(listeVobs, Vree)}')

Vérification pour la loi normale $\mathcal{N}(\mu,\,\sigma^{2})$ de paramètre $\mu=5, \sigma=2$

In [None]:
mu = 5
sigma = 2

listeEchantillon = genereEchantillons(normalvariate, 1000, mu, sigma)

Eobs = mean(listeEchantillon)
Vobs = variance(listeEchantillon)

print(f'Espérance réelle {mu}')
print(f'Espérance estimée {Eobs}')
print(f'Variance réelle {sigma**2}')
print(f'Variance estimée {Vobs}')

### 3.

Histogramme pour 500 échantillons répartiés sur 20 classes pour une loi :

- $\epsilon(\lambda)$ de paramètre $\lambda= 5$

In [None]:
lamb = 5

listeEchExpo = genereEchantillons(expovariate, 500, lambd)

In [None]:
def densite_expo(x,lamb): #TODO
    return lambd * exp(-lamb*x)

In [None]:
histogram(listeEchExpo,bins=20)+plot(densite_expo(x,lambd), (x, min(listeEchExpo)*0.95, max(listeEchExpo)*1.05), color='red', linestyle='-')

In [None]:
min_fact = min(listeEchExpo)
max_fact = max(listeEchExpo)

min_fact *= 0.95 if min(listeEchExpo) > 0 else 1.05
max_fact *= 1.05 if max(listeEchExpo) > 0 else 0.95

histogram(listeEchExpo,bins=20,density=True)+plot(densite_expo(x,lambd), (x, min_fact, max_fact), color='red', linestyle='-')

- $\Gamma(k,\theta)$ de paramètre $ k = 5 $ et $ \theta = 2 $

In [None]:
k = 5
theta = 2

listeEchGamma = genereEchantillons(gammavariate, 500, k, theta)

In [None]:
def densite_gamma(x, k, theta): #TODO
    numerateur = (x**(k-1) * exp(-x/theta))
    denominateur = gamma(k) * theta**(k)
    
    return numerateur/denominateur

In [None]:
min_fact = min(listeEchGamma)
max_fact = max(listeEchGamma)

min_fact *= 0.95 if min(listeEchGamma) > 0 else 1.05
max_fact *= 1.05 if max(listeEchGamma) > 0 else 0.95

histogram(listeEchGamma,bins=20,density=True)+plot(densite_gamma(x, k, theta), (x, min_fact, max_fact), color='red', linestyle='-')

- $\mathcal{N}(\mu,\,\sigma^{2})$ de paramètre $ \mu = 5 $ et $ \sigma = 4 $

In [None]:
mu = 5
sigma = 4

listeEchNorm = genereEchantillons(normalvariate, 500, mu, sigma)

In [None]:
def densite_normale(x, mu, sigma):
    variance = sigma**2
    facteur = 1/(sigma*sqrt(2*pi))
    argument = -((x-mu)**2)/(2*variance)
    
    return facteur * exp(argument)

In [None]:
min_fact = min(listeEchNorm)
max_fact = max(listeEchNorm)

min_fact *= 0.95 if min(listeEchNorm) > 0 else 1.05
max_fact *= 1.05 if max(listeEchNorm) > 0 else 0.95

histogram(listeEchNorm,bins=20,density=True)+plot(densite_normale(x, mu, sigma), (x, min_fact, max_fact), color='red', linestyle='-')

L'option "density", lorsqu'elle est placée à "False", affiche le nombre de valeurs pour chaque classe.
Lorsqu'elle est placée à "True", il y a une normalisation des valeurs en ordonnée de façon à obtenir une intégrale (plutôt une somme) égale à 1 sur la plage de valeur prise en abscisse.

## 2 Programmation du test du ${\chi}^2$

### 2.1 Ajustement à la loi de Poisson

### 1.

In [None]:
def probabilitePoisson(k, lamb):
    
    facteur = (lamb**k)/factorial(k)
    expo = math.exp(-lamb)
    
    return facteur*expo

In [None]:
def DistTheoriquePoisson(LoiDiscObs, lamb):
    # LoiDiscObs = [[effectif observée], [modalité]]
    
    distributionPoisson = [] #[probabilite théorique]
    
    listeModalite = LoiDiscObs[1]
    
    for modalite in listeModalite:
        distributionPoisson.append(probabilitePoisson(modalite, lamb))
    
    return distributionPoisson

### 2.

In [None]:
def DistributionaEffectifTheorique(distributionTheorique, tailleEchantillon):
    # distributionTheorique = [probabilité théorique]
    
    effTheorique = [tailleEchantillon * probabiliteTheorique for probabiliteTheorique in distributionTheorique]
    
    return effTheorique # [effectif théorique]

def DistanceChiDeux(EffObs, EffTheorique):
    # EffObs = [effectif observée]
    # EffTheorique = [effectif théorique]
    
    distance = 0
    
    nbrModalite = len(EffObs)
    listeEffectifObs = EffObs[0]
    
    for k in range(nbrModalite):
        distance = distance + ((EffObs[k] - EffTheorique[k])**2)/EffTheorique[k]
    
    return distance

### 2.2 Convergence de la loi binomiale vers la loi de Poisson

### 1.

In [None]:
def Bernoulli(p):
    valeur = 0
    
    a = random()
    if a <= p:
        valeur = 1
    else:
        valeur = 0
    
    return valeur

In [None]:
l = []
for i in range(10000):
    l.append(Bernoulli(0.25))

print(float(mean(l)))

### 2.

In [None]:
def Binomiale(n, p):
    tirageBernoulli = genereEchantillons(Bernoulli, n, p)
    
    valeur = sum(tirageBernoulli)
    
    return valeur

In [None]:
n = 8
p = 0.25

l = []
for i in range(10000):
    l.append(Binomiale(n, p))

moyObs = float(mean(l))
moyTheo = n*p

print(f'Moyenne théorique : {moyTheo}')
print(f'Moyenne observée : {moyObs}')

### 3.

In [None]:
def LoiDiscreteObs(L, a, b):
    
    L_ord = [x for x in L] # copie carbone sinon on ne fait que copier la référence à la liste
    L_ord.sort() # trie en place de la liste copiée, la liste originale est intouchée
    
    elt = []
    eff = []
    
    index = 0
    
    while(index < len(L_ord)):
        val = L_ord[index]
        
        if val < a:
            index = index + 1
        if val >= a:
            if val <= b:
                elt.append(val)
                occurence = L_ord.count(val)
                eff.append(occurence)
                index = index + occurence
            else: # val > b
                index = len(L_ord) # equivalent à break
    
    return [eff, elt]

In [None]:
L = [randint(0, 10) for i in range(20)]

print(L)
print(LoiDiscreteObs(L, 3, 7))

### 4.
$n \geq 50$ et $\lambda \leq 0,1$

In [None]:
#n = randint(50, 10000)

n = 50
p = VAuniforme(0, 0.1)

param_estim = 0

tailleEchantillon = 1000

print(f'n = {n}')
print(f'p = {p}')
print(f'taille d\'échantillon = {tailleEchantillon}')

In [None]:
echantillon_binomiale = genereEchantillons(Binomiale, tailleEchantillon, n, p)

moyObs = mean(echantillon_binomiale)
varObs = variance(echantillon_binomiale)

moyTheo = n*p
varTheo = n*p*(1-p)

print(f'Moyenne observée : {float(moyObs)}')
print(f'Moyenne théorique : {moyTheo}')
print()
print(f'Variance observée : {float(varObs)}')
print(f'Variance théorique : {varTheo}')

In [None]:
loiObs = LoiDiscreteObs(echantillon_binomiale, 0, max(echantillon_binomiale))
print(f'Observations de la loi discrète :\n{loiObs}')

lModalite = loiObs[1]
nbrModalite = len(lModalite)

print(f'Nombres de modalités : {nbrModalite}')

modalitePauvre = []
for i in range(nbrModalite):
    effectif = loiObs[0][i]
    if effectif < 5:
        modalitePauvre.append(lModalite[i])

if len(modalitePauvre) > 0:
    print("Attention les modalités suivantes ont moins de 5 observations :")
    print(', '.join(map(str, modalitePauvre)))

In [None]:
lamb = moyObs
param_estim += 1

distributionTheorique = DistTheoriquePoisson(loiObs, lamb)

print(distributionTheorique)

effectifTheorique = DistributionaEffectifTheorique(distributionTheorique, tailleEchantillon)

print(effectifTheorique)

In [None]:
print('Observations :')
print(loiObs)
    
print('Théorie : ')
print(effectifTheorique)

distKhi2 = DistanceChiDeux(loiObs[0], effectifTheorique)

print(f'Il y a {nbrModalite} classes')
print(f'Il a été estimé {param_estim} paramètre{"s" if param_estim > 1 else ""}')
print(f'Le degré de liberté est {nbrModalite-1-param_estim}')

print(f'La valeur de la distance suite au test du khi 2 est : {distKhi2}')

### 2.3 Ajustement à la loi exponentielle

### Etude de la structure de donnée LoiObs

In [None]:
lamb = 1
taille_echan = 100

echan_exp = genereEchantillons(expovariate, taille_echan, lamb)
print(echan_exp[0:100//10])

echan_exp = finance.TimeSeries(echan_exp)

print(echan_exp)

LoiObs = echan_exp.histogram(lamb*4)

print(LoiObs)

echan_exp.plot_histogram(bins=lamb*5, normalize=True, aspect_ratio=1)

### Détermination de la moyenne empirique sur des classes

In [None]:
def moyenneSurClasses(loiObs):
    # LoiObs = [[effectif observée], [classe]]
    
    effObs = loiObs[0]
    classes = loiObs[1]
    
    moyObs = 0
    for i in range(len(classes)):
        classe = classes[i]
        classeMoyenne = (classe[0]+classe[1])/2
        effectif = effObs[i]

        moyObs = moyObs + (classeMoyenne * effectif)/tailleEchantillon
        
    return moyObs

### 1.

$ \mathbb{P}(X \in [a;b[) = \int_{a}^{b} \lambda e^{-\lambda x} \,dx = e^{-\lambda a} - e^{-\lambda b} $

Cas particulier où $ b = +\infty$

$ \mathbb{P}(X \in [a;+\infty[) = \int_{a}^{+\infty} \lambda e^{-\lambda x} \,dx = e^{-\lambda a}$

In [None]:
def DistTheoriqueExp(LoiObs, lamb):
    # LoiObs = [[effectif observée], [classe]]
    
    distriExp = [] #[probabilité théorique]
    
    classes = LoiObs[1]
    
    for i in range(len(classes)-1):
        classe = classes[i]
        a = classe[0]
        b = classe[1]
        
        proba = exp(-lamb*a) - exp(-lamb*b)
        distriExp.append(proba)
    
    derniereClasse = classes[-1]
    derniereProba = exp(-lamb*derniereClasse[0])
    distriExp.append(derniereProba)
    
    return distriExp

### 2.

In [None]:
effObs = [39, 26, 17 ,10, 6, 2]
classes = [(i, i+10) for i in range(0, 60, 10)]

tailleEchantillon = sum(effObs)

paramEstime = 0

'''for i in range(len(classes)):
    classe = classes[i]
    classeMoyenne = (classe[0]+classe[1])/2
    effectif = effObs[i]
    
    moyObs = moyObs + (classeMoyenne * effectif)/tailleEchantillon'''

loiObs = [effObs, classes]

print(f'Observations de la loi discrète :\n{loiObs}')

moyObs = moyenneSurClasses(loiObs)
    
print(f'Moyenne observée : {float(moyObs)}')

nbrClasse = len(classes)

print(f'Nombres de classes : {nbrClasse}')

classePauvre = []
for i in range(nbrClasse):
    effectif = effObs[i]
    if effectif < 5:
        classePauvre.append(classes[i])

if len(classePauvre) > 0:
    print(f'Attention il y a {len(classePauvre)} classe{"s" if len(classePauvre) > 1 else ""} avec moins de 5 observations :')
    print(', '.join(map(str, classePauvre)))

In [None]:
lamb = 1/moyObs
paramEstime += 1

distributionTheorique = DistTheoriqueExp(loiObs, lamb)

print(distributionTheorique)

effectifTheorique = DistributionaEffectifTheorique(distributionTheorique, tailleEchantillon)

print(effectifTheorique)

In [None]:
print('Observations :')
print(loiObs)
    
print('Théorie : ')
print(effectifTheorique)

distKhi2 = DistanceChiDeux(loiObs[0], effectifTheorique)

print(f'Il y a {nbrClasse} classes')
print(f'Il a été estimé {paramEstime} paramètre{"s" if paramEstime > 1 else ""}')
print(f'Le degré de liberté est {nbrClasse-1-paramEstime}')

print(f'La valeur de la distance suite au test du khi 2 est : {float(distKhi2)}')

### 2.4 Ajustement à la loi normale

### 1.

In [None]:
def DistTheoriqueNorm(LoiObs, moy, sig):
    # LoiObs = [[effectif observée], [classe]]
    
    distriNorm = [] #[probabilité théorique]
    
    classes = LoiObs[1]
    
    for i in range(len(classes)-1):
        classe = classes[i]
        a = classe[0]
        b = classe[1]
        
        proba = numerical_integral(densite_normale(x, moy, sig), a=a, b=b)[0]
        distriNorm.append(proba)
        
    derniereClasse = classes[-1]
    a = derniereClasse[0]
    derniereProba = numerical_integral(densite_normale(x, moy, sig), a=a, b=+infinity)[0]
    
    distriNorm.append(derniereProba)
    
    return distriNorm

### 2.

In [None]:
moyTheo = 0
varTheo = 1

paramEstime = 0

tailleEchantillon = 1000

normObs = genereEchantillons(normalvariate, tailleEchantillon, moyTheo, varTheo)
normObs = finance.TimeSeries(normObs)

In [None]:
loiObs = normObs.histogram(10)
effObs = loiObs[0]
classes = loiObs[1]
nbrClasse = len(classes)

moyObs = mean(normObs)
print(f'Moyenne empirique observée : {moyObs}')

varObs = variance(normObs)
print(f'Variance empirique observée : {varObs}')

'''moyObs = moyenneSurClasses(loiObs)
print(f'Moyenne empirique observée : {moyObs}')

varObs = moyenneSurClasses([[eff**2 for eff in effObs] , classes]) - moyObs**2
print(f'Variance empirique observée : {varObs}')'''

print(f'Observations de la loi discrète :\n{loiObs}')

print(f'Nombres de classes : {nbrClasse}')

classePauvre = []
for i in range(nbrClasse):
    effectif = effObs[i]
    if effectif < 5:
        classePauvre.append(classes[i])

if len(classePauvre) > 0:
    print(f'Attention il y a {len(classePauvre)} classe{"s" if len(classePauvre) > 1 else ""} avec moins de 5 observations :')
    print(', '.join(map(str, classePauvre)))

normObs.plot_histogram(bins=nbrClasse, normalize=True, aspect_ratio=1)

In [None]:
mu = moyObs
paramEstime += 1
sig = sqrt(varObs)
paramEstime += 1

distributionTheorique = DistTheoriqueNorm(loiObs, mu, sig)

print(distributionTheorique)

effectifTheorique = DistributionaEffectifTheorique(distributionTheorique, tailleEchantillon)

print(effectifTheorique)

In [None]:
print('Observations :')
print(loiObs)
    
print('Théorie : ')
print(effectifTheorique)

distKhi2 = DistanceChiDeux(loiObs[0], effectifTheorique)

print(f'Il y a {nbrClasse} classes')
print(f'Il a été estimé {paramEstime} paramètre{"s" if paramEstime > 1 else ""}')
print(f'Le degré de liberté est {nbrClasse-1-paramEstime}')

print(f'La valeur de la distance suite au test du khi 2 est : {float(distKhi2)}')

## 3 Théorème central limite avec $SageMath$

### 3.1 Génération d'un échantillon de taille m issue de la moyenne empirique de n v.a i.i.d de loi $\Gamma(\alpha,\beta)$

In [None]:
n = 100
m = 1000
alpha = 2
beta = 5

lMoyenneObs = []

for i in range(m):
    lEchantillon = genereEchantillons(gammavariate, n, alpha, beta)
    mObs = mean(lEchantillon)
    lMoyenneObs.append(mObs)

### 3.2 Visualisation des effets du théorème central limite

In [None]:
sigma_TCL = mean(lMoyenneObs)
mu_TCL_nb = sqrt(variance(lMoyenneObs)) # s'
mu_TCL_b = sqrt(variance(lMoyenneObs), bias=True) # s

min_fact = min(lMoyenneObs)
max_fact = max(lMoyenneObs)

min_fact *= 0.95 if min(lMoyenneObs) > 0 else 1.05
max_fact *= 1.05 if max(lMoyenneObs) > 0 else 0.95

histogram(lMoyenneObs,bins=20,density=true)+plot(densite_normale(x, sigma_TCL, mu_TCL_nb), (min_fact, max_fact), color='red', linestyle='-')#+plot(densite_normale(x, sigma_TCL, mu_TCL_b), (min(l_m_emp_obs)*0.9, max(l_m_emp_obs)*1.1), color='blue', linestyle='-')

In [None]:
normObs = finance.TimeSeries(lMoyenneObs)

paramEstime = 0
tailleEchantillon = m

loiObs = normObs.histogram(20)
effObs = loiObs[0]
classes = loiObs[1]
nbrClasse = len(classes)

moyObs = mean(normObs)
print(f'Moyenne empirique observée : {moyObs}')

varObs = variance(normObs)
print(f'Variance empirique observée : {varObs}')

print(f'Observations de la loi discrète :\n{loiObs}')

print(f'Nombres de classes : {nbrClasse}')

classePauvre = []
for i in range(nbrClasse):
    effectif = effObs[i]
    if effectif < 5:
        classePauvre.append(classes[i])

if len(classePauvre) > 0:
    print(f'Attention il y a {len(classePauvre)} classe{"s" if len(classePauvre) > 1 else ""} avec moins de 5 observations :')
    print(', '.join(map(str, classePauvre)))

normObs.plot_histogram(bins=nbrClasse, normalize=True, aspect_ratio=1)

In [None]:
mu = moyObs
paramEstime += 1
sig = sqrt(varObs)
paramEstime += 1

distributionTheorique = DistTheoriqueNorm(loiObs, mu, sig)

print(distributionTheorique)

effectifTheorique = DistributionaEffectifTheorique(distributionTheorique, tailleEchantillon)

print(effectifTheorique)

In [None]:
print('Observations :')
print(loiObs)
    
print('Théorie : ')
print(effectifTheorique)

distKhi2 = DistanceChiDeux(loiObs[0], effectifTheorique)

print(f'Il y a {nbrClasse} classes')
print(f'Il a été estimé {paramEstime} paramètre{"s" if paramEstime > 1 else ""}')
print(f'Le degré de liberté est {nbrClasse-1-paramEstime}')

print(f'La valeur de la distance suite au test du khi 2 est : {float(distKhi2)}')