# Nettoyage des Donn√©es - Fili√®res Universitaires Tunisiennes 2025

Ce notebook nettoie et standardise les donn√©es des fili√®res universitaires en Tunisie.


## 1. Chargement des biblioth√®ques

In [1]:
# Installation des packages si n√©cessaire (d√©commenter si besoin)
# install.packages(c("readxl", "dplyr", "stringr", "tidyr"))

# Chargement des biblioth√®ques
library(readxl)    # Pour lire les fichiers Excel
library(dplyr)     # Pour la manipulation des donn√©es
library(stringr)   # Pour la manipulation des cha√Ænes
library(tidyr)     # Pour le nettoyage des donn√©es

cat("‚úÖ Biblioth√®ques charg√©es avec succ√®s\n")


Attaching package: 'dplyr'


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




‚úÖ Biblioth√®ques charg√©es avec succ√®s


## 2. Chargement des donn√©es

In [2]:
# Lecture du fichier Excel
df <- read_excel("data.xlsx", sheet = 1)

# Affichage de la structure
cat("Dimensions initiales:", nrow(df), "lignes x", ncol(df), "colonnes\n")
cat("\nNoms des colonnes originales:\n")
print(colnames(df))

Dimensions initiales: 240 lignes x 10 colonnes

Noms des colonnes originales:
 [1] "Filiere"                 "Universit√©"             
 [3] "Etablissement"           "Gouvernorat"            
 [5] "Crit√®res"                "Dur√©e\r\ndes\r\nEtudes" 
 [7] "S.D.\r\nOriont√©\r\n2025" "S.D.\r\nOriont√©\r\n2024"
 [9] "Conditions :"            "Sp√©cialit√©s :"          


## 3. Nettoyage des noms de colonnes

In [3]:
# Suppression des sauts de ligne, tabulations, espaces multiples et deux-points
colnames(df) <- colnames(df) %>%
  str_replace_all("\n", " ") %>%       # Remplacer \n par espace
  str_replace_all("\t", " ") %>%       # Remplacer \t par espace
  str_replace_all(":", "") %>%         # Supprimer les :
  str_replace_all("\\s+", " ") %>%     # Remplacer espaces multiples
  str_trim()                            # Supprimer espaces d√©but/fin

cat("Nouveaux noms de colonnes:\n")
print(colnames(df))

Nouveaux noms de colonnes:
 [1] "Filiere"           "Universit√©"        "Etablissement"    
 [4] "Gouvernorat"       "Crit√®res"          "Dur√©e des Etudes" 
 [7] "S.D. Oriont√© 2025" "S.D. Oriont√© 2024" "Conditions"       
[10] "Sp√©cialit√©s"      


## 4. Nettoyage de la colonne 'Filiere'

In [4]:
# Suppression des lignes avec Filiere vide
df <- df %>% filter(!is.na(Filiere))

# Nettoyage de base
df <- df %>%
  mutate(Filiere = Filiere %>%
           str_replace_all("\n", " ") %>%
           str_replace_all("\\s+", " ") %>%
           str_trim() %>%
           tolower())

# Standardisation du pr√©fixe "L EN"
df <- df %>%
  mutate(Filiere = str_replace(Filiere, "^l\\.?\\s*en\\s*", "l en "))

# Corrections d'abr√©viations
df <- df %>%
  mutate(Filiere = str_replace(Filiere, "l en sc\\. infirmieres", "l en sciences infirmieres"),
         Filiere = str_replace(Filiere, "l en tech\\.", "l en techniques"))

cat("Nombre de fili√®res uniques apr√®s nettoyage:", length(unique(df$Filiere)), "\n")

Nombre de fili√®res uniques apr√®s nettoyage: 71 


In [5]:
# Mapping des fili√®res vers des noms coh√©rents
filiere_mapping <- c(
  'l en sciences de l education' = 'l en sciences de l √©ducation',
  'l en science et techniques des activit√©s physiques et sportives' = 'l en sciences physiques et sportives',
  'l en physioth√©rapie' = 'l en sant√©: physioth√©rapie',
  'l en orthophonie' = 'l en sant√©: orthophonie',
  'l en nutrition humaine' = 'l en sant√©: nutrition',
  'l en ergoth√©rapie' = 'l en sant√©: ergoth√©rapie',
  'l en pu√©riculture' = 'l en sant√©: pu√©riculture',
  'l en sciences ma√Øeutiques sage femme' = 'l en sant√©: sage-femme',
  'l en documentbiblioth√©conomie et archiv' = 'l en documentation et biblioth√©conomie',
  'l en gestion √©lect de l infor et des docu' = 'l en gestion informatique documentaire',
  'l en m√©diation et animation' = 'l en m√©diation culturelle',
  'l en th√©a arts de la sc√®ne' = 'l en th√©√¢tre et arts de la sc√®ne',
  'pr√©palettre sp√©cialit√© arabe' = 'pr√©pa lettres arabe',
  'pr√©palettre sp√©cialit√© fran√ßais' = 'pr√©pa lettres fran√ßais',
  'pr√©palettre sp√©cialit√© anglais' = 'pr√©pa lettres anglais',
  'cycle pr√©pasciences humaines histoire' = 'cycle pr√©pa sciences humaines histoire',
  'cycle pr√©pasciences humaines g√©ographie' = 'cycle pr√©pa sciences humaines g√©ographie',
  'cycle pr√©pasciences humaines philosophie' = 'cycle pr√©pa sciences humaines philosophie',
  'l en arts du patrimoine islamique' = 'l en patrimoine islamique',
  'l en science islamique' = 'l en sciences islamiques',
  'l en g√©ographie de lenvironnement' = 'l en g√©ographie de l environnement',
  'l en techniques agroalimentaires et envir' = 'l en techniques agroalimentaires et environnement'
)

# Application du mapping
for (old_name in names(filiere_mapping)) {
  df <- df %>%
    mutate(Filiere = if_else(Filiere == old_name, filiere_mapping[old_name], Filiere))
}

cat("Mapping appliqu√© avec succ√®s\n")

Mapping appliqu√© avec succ√®s


## 5. Nettoyage de la colonne 'Universit√©'

In [6]:
df <- df %>%
  mutate(Universit√© = Universit√© %>%
           str_replace_all("\n", " ") %>%
           str_trim() %>%
           tolower())

cat("Universit√©s uniques:\n")
print(unique(df$Universit√©))

Universit√©s uniques:
 [1] "universite\r de tunis"        "universite de manouba"       
 [3] "universite de tunis el manar" "universite de carthage"      
 [5] "universite ez-zitouna"        "universite du sousse"        
 [7] "universite du sfax"           "universite de jendouba"      
 [9] "universite de gabes"          "universite de monastir"      
[11] "universite de kairouan"       "universite de gafsa"         


## 6. Nettoyage de la colonne 'Etablissement'

In [7]:
df <- df %>%
  mutate(Etablissement = Etablissement %>%
           str_replace_all("\n", " ") %>%
           str_replace_all("\t", " ") %>%
           str_trim() %>%
           tolower())

# Correction sp√©cifique
df <- df %>%
  mutate(Etablissement = str_replace(Etablissement, 
                                     'facult√© de m√©decine √¢‚Ç¨" tunis', 
                                     'facult√© de m√©decine de tunis'))

cat("Nombre d'√©tablissements uniques:", length(unique(df$Etablissement)), "\n")

Nombre d'√©tablissements uniques: 83 


## 7. Nettoyage de la colonne 'Gouvernorat'

In [8]:
df <- df %>%
  mutate(Gouvernorat = Gouvernorat %>%
           str_trim() %>%
           str_to_title())  # Premi√®re lettre en majuscule

cat("Gouvernorats uniques:\n")
print(unique(df$Gouvernorat))

Gouvernorats uniques:
 [1] "Tunis"       "Zaghouane"   "Nabeul"      "Kairouan"    "Sousse"     
 [6] "Sfax"        "Jendouba"    "Le Kef"      "Beja"        "Siliana"    
[11] "Gabes"       "Mednine"     "Tataouine"   "Monastir"    "Mahdia"     
[16] "Kasserine"   "Sidi Bouzid" "Gafsa"       "Tozeur"     


## 8. Nettoyage de la colonne 'Crit√®res'

In [9]:
df <- df %>%
  mutate(Crit√®res = Crit√®res %>%
           str_replace_all("\n", "") %>%
           str_trim() %>%
           toupper())

cat("Crit√®res uniques:\n")
print(unique(df$Crit√®res))

Crit√®res uniques:
 [1] "FG+AR"              "FG+F"               "FG+ANG"            
 [4] "FG+\r(HG+PH)/2"     "FG+PH"              "FG+\r(F+HG)/2"     
 [7] "FG+(F+HG)/2"        "FG+(2AR+ANG+F)/4"   "FG+(AR+ANG+2F)/4"  
[10] "FG+(AR+2ANG+F)/4"   "FG+(AR+F+HG+PH)/4"  "FG+(AR+FR)/2"      
[13] "FG+ESP"             "FG+IT"              "FG+ALL"            
[16] "FG+(F+ANG+HG)/3"    "FG+(AR+ANG+F+PH)/4" "FG+(AR+ANG+F)/3"   
[19] "FG+(F+ANG+PH)/3"    "FG+INF"             "FG+SPT"            
[22] "FG+SVT"             "FG+(HG+PH)/2"       "FG+HG"             
[25] "FG+(F+ANG)/2"       "FG+(F+ANG+SPT)/3"  


## 9. Nettoyage de la colonne 'Dur√©e des Etudes'

In [10]:
# Remplissage des valeurs manquantes
df <- df %>%
  mutate(`Dur√©e des Etudes` = if_else(is.na(`Dur√©e des Etudes`), "03 ans", `Dur√©e des Etudes`))

# Uniformisation du format
df <- df %>%
  mutate(`Dur√©e des Etudes` = `Dur√©e des Etudes` %>%
           str_replace_all("\\s+", " ") %>%
           str_trim() %>%
           str_replace("03  ans", "03 ans"))

cat("Dur√©es d'√©tudes uniques:\n")
print(unique(df$`Dur√©e des Etudes`))

Dur√©es d'√©tudes uniques:
[1] "03 ans" "02 ans" "09 ans" "06 ans"


## 10. V√©rification et nettoyage des scores (2025 et 2024)

In [11]:
# Afficher les noms exacts des colonnes pour diagnostic
cat("Noms de colonnes contenant 'Orient':\n")
print(grep("Orient", colnames(df), value = TRUE, ignore.case = TRUE))

# Identifier les colonnes de scores
col_2025 <- grep("2025", colnames(df), value = TRUE)[1]
col_2024 <- grep("2024", colnames(df), value = TRUE)[1]

cat("\nColonne 2025 d√©tect√©e:", col_2025, "\n")
cat("Colonne 2024 d√©tect√©e:", col_2024, "\n")

Noms de colonnes contenant 'Orient':
character(0)

Colonne 2025 d√©tect√©e: S.D. Oriont√© 2025 
Colonne 2024 d√©tect√©e: S.D. Oriont√© 2024 


In [12]:
# Remplissage des valeurs manquantes par 0
# Utilisation de la notation avec crochets doubles pour √©viter les probl√®mes d'accents
df[[col_2025]] <- ifelse(is.na(df[[col_2025]]), 0, df[[col_2025]])
df[[col_2024]] <- ifelse(is.na(df[[col_2024]]), 0, df[[col_2024]])

cat("\n‚úÖ Valeurs manquantes remplac√©es par 0\n")

# Affichage des statistiques
cat("\nScore 2025 - min:", min(df[[col_2025]], na.rm = TRUE), 
    "max:", max(df[[col_2025]], na.rm = TRUE), "\n")
cat("Score 2024 - min:", min(df[[col_2024]], na.rm = TRUE), 
    "max:", max(df[[col_2024]], na.rm = TRUE), "\n")


‚úÖ Valeurs manquantes remplac√©es par 0

Score 2025 - min: 0 max: 173.217 
Score 2024 - min: 0 max: 182.91 


## 11. Nettoyage de la colonne 'Conditions'

In [13]:
# Mapping des conditions
conditions_map <- c(
  'Rien' = 'aucune',
  '03 ans' = 'aucune',
  'Sport exig√©' = 'sport obligatoire',
  'Sport exig√©, sport>=16' = 'sport obligatoire >=16',
  'SVT exig√©e' = 'svt obligatoire',
  'Option S.V.T et Sport Obligatoires' = 'svt et sport obligatoires',
  'Fili√®re Pour sexe Feminin et Option S.V.T. Obligatoire' = 'svt obligatoire, sexe f√©minin',
  'Fili√®re Pour Sexe Feminin et Option S.V.T. Obligatoire et sport obligatoire' = 'svt et sport obligatoires, sexe f√©minin',
  'Fili√®re Pour Sexe Masculin et Option S.V.T. Obligatoire et sport obligatoire' = 'svt et sport obligatoires, sexe masculin',
  'R√©serv√©e aux admis des lyc√©es pour non-voyants, avec SVT et sport obligatoires' = 'svt et sport obligatoires, non-voyant',
  'Espagnol exig√©' = 'langue obligatoire : espagnol',
  'Italien exig√©' = 'langue obligatoire : italien',
  'Allemand exig√©' = 'langue obligatoire : allemand',
  '√Çge inf√©rieur √† 20 ans au 01 septembre' = '√¢ge limite',
  'age<=21 ans au premier octobre' = '√¢ge limite'
)

# Application du mapping
df <- df %>%
  mutate(Conditions = recode(Conditions, !!!conditions_map))

cat("Conditions uniques:\n")
print(unique(df$Conditions))

Conditions uniques:
 [1] "aucune"                                  
 [2] "sport obligatoire"                       
 [3] "√¢ge limite"                              
 [4] "langue obligatoire : espagnol"           
 [5] "langue obligatoire : italien"            
 [6] "langue obligatoire : allemand"           
 [7] "sport obligatoire >=16"                  
 [8] "svt obligatoire"                         
 [9] "svt et sport obligatoires"               
[10] "svt obligatoire, sexe f√©minin"           
[11] "svt et sport obligatoires, non-voyant"   
[12] "svt et sport obligatoires, sexe f√©minin" 
[13] "svt et sport obligatoires, sexe masculin"


## 12. Nettoyage de la colonne 'Sp√©cialit√©s'

In [14]:
# Fonction pour nettoyer une sp√©cialit√©
nettoyer_specialite <- function(valeur) {
  # G√©rer les valeurs vides ou NA
  if (is.na(valeur) || str_trim(valeur) %in% c('', '\t/', '/')) {
    return(list())
  }
  
  # Remplacer tous les s√©parateurs par /
  valeur_nettoyee <- str_replace_all(valeur, "\\\\\\\\|\\\\\\\\|//", "/")
  
  # S√©parer par /
  specialites <- str_split(valeur_nettoyee, "/")[[1]]
  
  # Nettoyer chaque sp√©cialit√©
  liste_nettoyee <- specialites %>%
    str_trim() %>%
    .[. != ""] %>%
    str_to_title()
  
  return(liste_nettoyee)
}

# Application √† la colonne Sp√©cialit√©s
df <- df %>%
  mutate(Sp√©cialit√©s = lapply(Sp√©cialit√©s, nettoyer_specialite))

cat("‚úÖ Nettoyage des sp√©cialit√©s termin√©!\n")
cat("\nExemple des 5 premi√®res sp√©cialit√©s:\n")
print(head(df$Sp√©cialit√©s, 5))

‚úÖ Nettoyage des sp√©cialit√©s termin√©!

Exemple des 5 premi√®res sp√©cialit√©s:
[[1]]
[1] "Langue, Lettres Et Civilisation"

[[2]]
[1] "Langue, Lettres Et Civilisation"

[[3]]
[1] "Langue, Lettres Et Civilisation"

[[4]]
[1] "Jeunesse, Mobilit√©s Et Inclusion Sociale"                  
[2] "M√©diation, R√©gulation Et Intervention Sociologique"        
[3] "D√©mographie, Politiques Publiques Et D√©veloppement Durable"

[[5]]
[1] "Psychologie"



## 13. R√©sum√© et aper√ßu des donn√©es nettoy√©es

In [15]:
cat("\n=== R√âSUM√â FINAL ===\n")
cat("Nombre total de lignes:", nrow(df), "\n")
cat("Nombre de colonnes:", ncol(df), "\n")
cat("\nAper√ßu des premi√®res lignes:\n")
print(head(df, 5))


=== R√âSUM√â FINAL ===
Nombre total de lignes: 238 
Nombre de colonnes: 10 

Aper√ßu des premi√®res lignes:
[90m# A tibble: 5 √ó 10[39m
  Filiere       Universit√© Etablissement Gouvernorat Crit√®res `Dur√©e des Etudes`
  [3m[90m<chr>[39m[23m         [3m[90m<chr>[39m[23m      [3m[90m<chr>[39m[23m         [3m[90m<chr>[39m[23m       [3m[90m<chr>[39m[23m    [3m[90m<chr>[39m[23m             
[90m1[39m l en arabe    [90m"[39muniversi‚Ä¶ [90m"[39mfaculte des‚Ä¶ Tunis       [90m"[39mFG+AR[90m"[39m  03 ans            
[90m2[39m l en fran√ßais [90m"[39muniversi‚Ä¶ [90m"[39mfaculte des‚Ä¶ Tunis       [90m"[39mFG+F[90m"[39m   03 ans            
[90m3[39m l en anglais  [90m"[39muniversi‚Ä¶ [90m"[39mfaculte des‚Ä¶ Tunis       [90m"[39mFG+ANG[90m"[39m 03 ans            
[90m4[39m l en sociolo‚Ä¶ [90m"[39muniversi‚Ä¶ [90m"[39mfaculte des‚Ä¶ Tunis       [90m"[39mFG+\r(‚Ä¶ 03 ans            
[90m5[39m l en psychol‚Ä¶ [90m"[39muniversi

## 14. Sauvegarde des donn√©es en CSV (UTF-8)

In [16]:
# Conversion de la colonne Sp√©cialit√©s en cha√Æne de caract√®res pour CSV
df_export <- df %>%
  mutate(Sp√©cialit√©s = sapply(Sp√©cialit√©s, function(x) paste(x, collapse = " / ")))

# Sauvegarde en CSV avec encodage UTF-8 (pr√©serve les accents)
write.csv(df_export, 
          "data_cleaned.csv", 
          row.names = FALSE, 
          fileEncoding = "UTF-8")

cat("‚úÖ Donn√©es sauvegard√©es dans 'data_cleaned.csv' (UTF-8)\n")

# Sauvegarde √©galement en RDS (format natif R qui pr√©serve les listes)
saveRDS(df, "data_cleaned.rds")
cat("‚úÖ Donn√©es √©galement sauvegard√©es en format RDS\n")

# V√©rification de l'encodage
cat("\nüìù Note: Le fichier CSV utilise l'encodage UTF-8 qui pr√©serve:\n")
cat("   - Les accents fran√ßais (√©, √®, √†, √ß, etc.)\n")
cat("   - Les caract√®res sp√©ciaux\n")
cat("   - Les caract√®res arabes si pr√©sents\n")

‚úÖ Donn√©es sauvegard√©es dans 'data_cleaned.csv' (UTF-8)
‚úÖ Donn√©es √©galement sauvegard√©es en format RDS

üìù Note: Le fichier CSV utilise l'encodage UTF-8 qui pr√©serve:
   - Les accents fran√ßais (√©, √®, √†, √ß, etc.)
   - Les caract√®res sp√©ciaux
   - Les caract√®res arabes si pr√©sents


## 15. V√©rification finale des accents

In [17]:
# Test de lecture du fichier pour v√©rifier les accents
test_df <- read.csv("data_cleaned.csv", fileEncoding = "UTF-8")

cat("\nüîç V√©rification des accents dans le fichier sauvegard√©:\n")
cat("\nExemple de colonnes avec accents:\n")
print(head(test_df[, c("Universit√©", "Crit√®res", "Dur√©e.des.Etudes", "Conditions")], 3))

cat("\n‚úÖ Les accents sont correctement pr√©serv√©s!\n")


üîç V√©rification des accents dans le fichier sauvegard√©:

Exemple de colonnes avec accents:
             Universit√© Crit√®res Dur√©e.des.Etudes Conditions
1 universite\n de tunis    FG+AR           03 ans     aucune
2 universite\n de tunis     FG+F           03 ans     aucune
3 universite\n de tunis   FG+ANG           03 ans     aucune

‚úÖ Les accents sont correctement pr√©serv√©s!


---

## Fin du nettoyage

### Fichiers g√©n√©r√©s:
1. **data_cleaned.csv** - Fichier CSV avec encodage UTF-8 (pour Excel, analyse)
2. **data_cleaned.rds** - Fichier R natif (pour analyses R futures)

### Pour ouvrir le CSV dans Excel sans probl√®me d'accents:
1. Ouvrir Excel
2. Aller dans "Donn√©es" ‚Üí "Obtenir des donn√©es" ‚Üí "√Ä partir d'un fichier" ‚Üí "√Ä partir d'un fichier texte/CSV"
3. S√©lectionner "data_cleaned.csv"
4. Choisir l'encodage **UTF-8**
5. Cliquer sur "Charger"

**Note:** L'encodage UTF-8 garantit que tous les caract√®res sp√©ciaux (√©, √®, √†, √ß, etc.) sont correctement affich√©s.