# Création aléatoire d'observations de propriétés concernant une population

Version du 11 avril 2022

130 personnes, cinq caractères: age, personnes dans le même foyer, fréquence de lecture du journal, orientation politique, revenu mensuel

La finalité de ce document est de produire des observations similaires à celles du tableau 1.1, Hamon : Hamon Philippe, Hamon Agnès, et Jégou Nicolas, _Statistique descriptive. Cours et exercices corrigés_, Rennes, PUR, 2008, p.4. Et ce à défaut de disposer de données réelles avec ces mêmes variables.

Afin de reproduire ce tableau, on utilise des fonctions produisant des valeur aléatoires.

* On produit d'abord les valeurs aléatoires (remplaçant les observations) pour chaque variable
* On les regroupe ensuite dans un dataframe Pandas
* 130 individus fictifs ont été créés
* Les données on été ensuite exportées vers un fichier csv ('data/observations.csv')
* Elles on été ensuite modifiées manuellement afin de renforcer certaines tendances en vue des analysess ('data/observations.csv') — Fichier à conserver et copie de sauvegarde



## Importer les librairies nécessaires

In [1]:
import random
import pandas as pd


## Produire les observations

Cf. Hamon, p.4, tableau 1.1

Afin de reproduire ce tableau, on utilise des fonctions produisant des valeur aléatoires.

* On produit d'abord les valeurs aléatoires (remplaçant les observations) pour chaque variable
* On les regroupe ensuite dans un dataframe Pandas
* 130 individus fictifs ont été créés

In [2]:
### Créer une liste d'identifiants
id_list = []
[id_list.append(x) for x in range(1,131)]

print(id_list[-5:])
len(id_list)

[126, 127, 128, 129, 130]


130

In [3]:
### Créer une liste d'âges
age_list = []
for x in range(1,131):
    age_list.append(random.randint(18,90))

print(age_list[:5])
len(age_list)

[67, 63, 39, 68, 62]


130

In [4]:
### Créer une liste de nombre de personne dans un foyer
nfoyer_list = []
for x in range(1,131): 
    nfoyer_list.append(random.randint(1,7))

print(nfoyer_list[:5])
len(nfoyer_list)

[3, 5, 6, 3, 7]


130

In [5]:
### Créer une liste de fréquences de lecture des journaux
lecture_list = []
for x in range(1,131): 
    lecture_list.append(random.choice(['tous les jours', 'de temps en temps', 'très rarement', 'trois-quatre fois par semaine', 'le week-end']))

print(lecture_list[:5])
len(lecture_list)

['de temps en temps', 'tous les jours', 'le week-end', 'de temps en temps', 'tous les jours']


130

In [6]:
### Créer une liste d'orientations politiques
politique_list = []
for x in range(1,131): 
    politique_list.append(random.choice(['gauche', 'écologiste', 'droite', 'centre', 'populiste']))

print(politique_list[:5])
len(politique_list)

['gauche', 'gauche', 'écologiste', 'gauche', 'droite']


130

In [7]:
### Créer une liste de revenus mensuels
revenu_list = []
for x in range(1,131): 
    revenu_list.append(random.randint(2500,12000))

print(revenu_list[:5])
len(revenu_list)

[8111, 8860, 7030, 10834, 4229]


130

### Création du dataframe

In [8]:
#  https://www.statology.org/add-column-pandas-dataframe/

observations = pd.DataFrame({'id' : id_list, 'age' : age_list, 'n_foyer' : nfoyer_list, 
                             'lecture_journal' : lecture_list, 'parti' : politique_list, 
                             'revenu_mensuel' : revenu_list})

In [9]:
print(len(observations))
observations.head()

130


Unnamed: 0,id,age,n_foyer,lecture_journal,parti,revenu_mensuel
0,1,67,3,de temps en temps,gauche,8111
1,2,63,5,tous les jours,gauche,8860
2,3,39,6,le week-end,écologiste,7030
3,4,68,3,de temps en temps,gauche,10834
4,5,62,7,tous les jours,droite,4229


In [10]:
observations.set_index('id', inplace=True)
observations.head()

Unnamed: 0_level_0,age,n_foyer,lecture_journal,parti,revenu_mensuel
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,67,3,de temps en temps,gauche,8111
2,63,5,tous les jours,gauche,8860
3,39,6,le week-end,écologiste,7030
4,68,3,de temps en temps,gauche,10834
5,62,7,tous les jours,droite,4229


In [11]:
### Ecrire le fichier sur le disque afin de le corriger manuellement

path = 'data/observations.csv'
observations.to_csv(path)