/
3.5-importer-explorer.R
138 lines (73 loc) · 5.27 KB
/
3.5-importer-explorer.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
############################################################
# #
#### ---- Importer et explorer une base de données ---- ####
# Caroline Patenaude #
# Mooc - ISDS #
############################################################
# Installation et chargement des modules nécessaires
install.packages("questionr", dep = TRUE)
library("questionr")
# ==================== 1. Importer une base de données ====================
# Procédures varient selon l'environnement de travail
#** 1.2. Dans R, RStudio, ... --------------------------
# Il existe plusieurs fonctions (natives R ou de modules divers) pour importer des fichiers de divers formats (.txt, .csv, .sav, .xls, .dta, .sas7bdat, ...).
# Chaque fonction a ses particularités (arguments) qui auront un impact sur la conversion des données, par exemple: le traitement des valeurs manquantes, des étiquettes de valeurs, le format des variables qualitatives (facteur ou chaine de caractères), des dates, des décimales.
# RStudio permet également d'importer un fichier via des fonctions automatisées dans le menu du haut.
### Fichiers csv
read.table("fichier.csv", sep=",", header=TRUE)
### Fichiers txt
read.table("fichier.txt", header = TRUE, sep = " ", na.strings = c(".", "99"))
# read.table: fonction de base, il faut spécifier les arguments sep et header
# header=TRUE: la première ligne contient le nom des variables
# sep=" ":les données sont séparées par ...
# na.strings=c(".", "99") indique que les valeurs manquantes sont codées par ...
# À noter: tout dépendant de la configuration de votre espace de travail, il se peut qu'il soit nécessaire d'indiquer le chemin complet menant
# vers l'emplacement du fichier de données (C:/Users/.../.../MonFichier.csv")
# Par souci de reproductibilité, utiliser des chemins relatifs et non absolus.
### Fichier excel
read_excel("fichier.xls")
# Module readxl (fait partie de tidyverse mais doit être chargé individuellement)
### Fichier SPSS
read_spss("fichier.sav", user_na = TRUE)
# Module haven (fait partie de tidyverse mais doit être chargé individuellement)
# Pour les codes de valeurs manquantes, utiliser l’option user_na = TRUE
# Les valeurs manquantes codées ne seront pas converties en NA et conserveront leur statut manquant
# Plusieurs autres fonctions disponibles dans haven: read_sav, read_dta, read_sas, read_csv, read_csv2, ...
#** 1.3 Les bases de données intégrées aux modules --------------------------
# Voir toutes les bases de données intégrées aux modules (installés ou non)
data(package = .packages(all.available = TRUE))
## À noter:, plusieurs modules ont été développés spécifiquement pour importer et travailler avec des données publiques
# [WDI](https://cran.r-project.org/web/packages/WDI/index.html) (indicateurs de développement de la Banque mondiale)
# [cancensus](https://cran.r-project.org/web/packages/cancensus/vignettes/cancensus.html) (recensements canadiens)
# Importer une base de données d'un module chargé
## Voir les bases de données dans un module chargé particulier
data(package="questionr")
## Importer une base de données dans un module chargé particulier
data(hdv2003)
# Extrait de l'enquête "Histoire de vie" de l'Insee - https://www.insee.fr/fr/statistiques/2532244
# R a automatiquement créé un objet au nom de la base importée dans notre environnement de travail
hdv2003
# ==================== 2. Faire une copie (et renommer) sa base dans un nouvel objet ====================
bd <- hdv2003
# À noter: dans les capsules suivantes, les commandes pour importer et copier la base de données hdv2003 seront intégrées au premier bloc de code (installation des modules) du notebook*.
# ==================== 3. Voir la liste des objets (base de données) présents dans la session ====================
ls()
# ==================== 4. Supprimer un objet ====================
rm(hdv2003) # Supprimer la base de données originale
rm(aaa, bbb, ccc) # Supprimer plus d'un objet
rm(list = ls()) # Supprimer tous les objets
# ==================== 5. Afficher le contenu de sa base de données ====================
bd # visualiser la base de données complète
head(bd) # visualiser les 6 premières observations (modifier le nombre par défaut après une virgule: (bd, 4))
tail(bd) # visualiser les 6 dernières observations
# ==================== 6. Afficher les noms de variables/colonnes ====================
names(bd) # noms des variables
# ==================== 7. Afficher le nombre de rangées et de colonnes (dimensions) ====================
length(bd) # nombre de variables
ncol(bd) # nombre de variables
nrow(bd) # nombre d'observations
dim(bd) # nombre de dimensions (colonnes et lignes)
# ============ 8. Examiner les caractéristiques sa base de données: classe, taille, structure =============
class(bd) # type d'objet
str(bd) # description plus détaillée de la structure du tableau
describe(bd) # Module questionr - description plus détaillée des variables du tableau