# Statistiques descriptives

# Description univariée

## 1 Préambule

### 1.1 Vocabulaire

- **Individu statistique** : chaque objet sur lequel on effectue des observations.
- **Population ou échantillon** : ensemble des objets étudiés.
- **Variable** : ensemble des valeurs issues de l’observation.
- **jeu de données** : un ou plusieurs ensembles de variables observées.

### 1.2 Codage

- Utilisation de valeurs numériques réelles ou/et entières.
- Utilisation de texte.

### 1.3 Types des variables

- **Variables qualitatives** : pas quantifiables et caractérisées par des modalités comme des catégories ou classes.
- **Variables quantitatives** : quantifiables et utilisent des valeurs numériques réelles.

#### Exercice : Types de variables
- Qualitative nominale --> Code postal de la résidence : 51100, 08200, 51120, 02150, ...
- Quantitative continue --> Taille en cm : 184,164,178,192, ...
- Qualitative nominale --> Série du BAC : G, T, G, G, ...
- Quantitative continue --> Moyenne au S1 : 12.75, 10.5, 8.333, 15.125, ...
- Quantitative discrète --> Satisfaction à propos de la formation : 1, 5, 3, 1, ...

## 2 Préparation des données

#### Exercice : Modification d'une série

In [1]:
def where_none(dat: list) -> list:
    res = []
    for i in range(len(dat)):
        if dat[i] == None:
            res += [i]
    return res

In [5]:
def remove_data(dat: list, pos: list) -> list:
    res = []
    for i in range(len(dat)):
        if i not in pos:
            res += [dat[i]]
    return res

In [53]:
def replace_value(dat: list, value: list, repvalue: list) -> list:
    res = dat.copy()
    for i in range(len(res)):
        for j in range(len(value)):
            if res[i] == value[j]:
                res[i] = repvalue[j]
    return res

In [54]:
data1 = [11,5,6,7,5,2,3,6,None,1,2,5,4,9,6,3,5,8,None]
data2 = ["toto","toto","tata","toto","titi","toto","tata","tata"]
data3 = [None, "None"]

print(where_none(data1))

[8, 18]


In [55]:
print(where_none(data2))

[]


In [56]:
print(where_none(data3))

[0]


In [57]:
print(remove_data(data1,where_none(data1)))

[11, 5, 6, 7, 5, 2, 3, 6, 1, 2, 5, 4, 9, 6, 3, 5, 8]


In [58]:
print(data1)
replace_value(data1,[8,11,None],[-8,-11,0])

[11, 5, 6, 7, 5, 2, 3, 6, None, 1, 2, 5, 4, 9, 6, 3, 5, 8, None]


[-11, 5, 6, 7, 5, 2, 3, 6, 0, 1, 2, 5, 4, 9, 6, 3, 5, -8, 0]

#### Exercice  : Discrétisation

In [72]:
def cut(dat: list, split: list) -> list:
    res = []
    for i in range (len(dat)):
        for j in range(0, len(split)):
            if (dat[i] >= split[j-1]) and (dat[i] <= split[j]):
                res += [f'{split[j-1]}, {split[j]}']
    return res

In [73]:
# Générons des données aléatoires (des float arrondis à 10^-2 entre 0 et 20)
import random
data = [round(random.random()*20,2) for _ in range(10)]
print(data)

[7.21, 5.48, 19.3, 16.81, 0.28, 1.3, 17.75, 16.91, 13.99, 7.4]


In [75]:
# Discrétisation
cut(dat=data, split=[0,5,10,15,20])

['5, 10',
 '5, 10',
 '15, 20',
 '15, 20',
 '0, 5',
 '0, 5',
 '15, 20',
 '15, 20',
 '10, 15',
 '5, 10']

## 3 Statistiques univariées

### 3.1 Distribution groupée

#### Exercice : Distribution groupée

In [122]:
def get_gdistr(dat: list) -> dict:
    dictio = {}
    for i in range(len(dat)):
        if dat[i] in dictio:
            dictio[dat[i]] += 1
        else:
            dictio[dat[i]] = 1
    for j in dictio.keys():
        dictio[j] = (dictio[j], dictio[j]/len(dat))
    return dictio

In [123]:
# Données de test
data = ["toto","toto","tata","toto","titi",
        "toto","tata","tata","toto","toto",
        "toto","toto","titi","toto","titi",
        "tata","toto","tata","tata","toto"]

In [124]:
# Construction de la ditribution groupée
gd_data = get_gdistr(data)

# Affichage
print(gd_data)

{'toto': (11, 0.55), 'tata': (6, 0.3), 'titi': (3, 0.15)}


In [125]:
# Fonction pour un plus chouette affichage
def pprint_gd(gd):
    mod_max_size  = max([len(str(m)) for m in gd.keys()]+[len("Modalité")])
    eff_max_size  = max([len(str(gd[m][0])) for m in gd.keys()]+[len("Effectif")])
    freq_max_size = max([len(str(gd[m][1])) for m in gd.keys()]+[len("Fréquence")])
    print('-'*(mod_max_size+3+eff_max_size+3+freq_max_size+3))
    print("Modalité".ljust(mod_max_size+3,' ')+"Effectif".rjust(eff_max_size+3,' ')+"Fréquence".rjust(freq_max_size+3,' '))
    print('-'*(mod_max_size+3+eff_max_size+3+freq_max_size+3))
    for k in gd.keys():
        print(str(k).ljust(mod_max_size+3,' ')+str(gd[k][0]).rjust(eff_max_size+3,' ')+str(gd[k][1]).rjust(freq_max_size+3,' '))
    return None

In [127]:
pprint_gd(gd_data)

----------------------------------
Modalité      Effectif   Fréquence
----------------------------------
toto                11        0.55
tata                 6         0.3
titi                 3        0.15


In [128]:
# Générons des données aléatoires (des float arrondis à 10^-2 entre 0 et 20)
import random
data = [round(random.random()*20,2) for _ in range(10)]
print("Données initiales : ",data,"\n")
data2 = cut(dat=data, split=[0,5,10,15,20])
print("Données dicrétisées : ",data2,"\n")
print("Tableau de la distribution groupée :")
pprint_gd(get_gdistr(data2))

Données initiales :  [8.03, 3.64, 2.7, 17.88, 11.06, 19.54, 5.24, 19.9, 12.4, 18.0] 

Données dicrétisées :  ['5, 10', '0, 5', '0, 5', '15, 20', '10, 15', '15, 20', '5, 10', '15, 20', '10, 15', '15, 20'] 

Tableau de la distribution groupée :
----------------------------------
Modalité      Effectif   Fréquence
----------------------------------
5, 10                2         0.2
0, 5                 2         0.2
15, 20               4         0.4
10, 15               2         0.2


### 3.2 Distribution d’une variable quantitative

Indicateurs de position :
- **Moyenne** : somme des valeurs de la série divisé par leur nombre.
- **Médiane** : la valeur qui sépare la série en deux parties de même effectif.
- **Quantile** : la valeur qui sépare la série en deux parties (proportion p ou p*100% de valeurs dans la première partie).

Indicateurs de dispersion :
- **Ecart-type** : la racine carrée de la moyenne des écarts au carré, entre les valeurs et leur moyenne.
- **Coefficient de variation** : le rapport entre l’écart-type et la moyenne, exprimé comme un pourcentage de la moyenne.
- **Etendue** : différence entre la plus grande valeur de la série et la plus petite.
- **Ecart interquartiles** : différence entre le quantile à 0,75 et le quantile à 0,25.

Indicateurs de forme :
- **Coefficient d’asymétrie de Pearson** : 3 multiplié par la différence entre la moyenne et la médiane, divisée par l’écart-type.
- **Coefficient d’applatissement (kurtosis)** : moyenne des écarts entre les valeurs et leur moyenne, élevés à la puissance 4, divisée par l’écart-type à la puissance 4.

#### Exercice : Calcul des indicateurs

In [129]:
def mean(dat: list) -> float:
    res = 0
    for valeur in dat:
        res += valeur
    return res/len(dat)

In [None]:
def quantile(dat: list, p: int) -> float:
    

In [None]:
def median(dat: list, p: int) -> float:
    

In [133]:
def valrange(dat: list) -> float:
    return max(dat) - min(dat)

In [134]:
# Génération de données aléatoires
import random
data = [round(random.random()*20,2) for _ in range(25)]

# Affichage des inficateurs
print("Moyenne         : ",round(mean(data),2))
print("Médiane         : ",round(median(data),2))
print("Écart-type      : ",round(stdev(data),2))
print("Coef. de var.   : ",round(cofvar(data),2))
print("Étendue         : ",round(valrange(data),2))
print("Éc. interquart. : ",round(iquarange(data),2))
print("Prem.  quartile : ",round(quantile(data,0.25),2))
print("Trois. quartile : ",round(quantile(data,0.75),2))

Moyenne         :  11.94


NameError: name 'median' is not defined