# Phase 1 : Préparation et Exploration des Données (EDA)

## 1.1. Importation des bibliothèques
Dans cette première étape, nous importons les bibliothèques Python qui nous seront utiles tout au long de l'analyse.
- **pandas** : Pour la manipulation et l'analyse des données.
- **pyreadstat** : Pour lire les formats de fichiers statistiques comme `.sav` (SPSS).
- **matplotlib.pyplot** et **seaborn** : Pour la visualisation des données.
- **numpy** : Pour les opérations numériques.

In [1]:

import pandas as pd
import pyreadstat
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configuration pour un meilleur affichage des graphiques
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

print("Bibliothèques importées avec succès !")


Bibliothèques importées avec succès !


## 1.2. Chargement de la base de données

Nous allons maintenant charger le fichier de données `BJMR71DT.sav`. Ce fichier contient les données sur les hommes (MR) de l'enquête EDS 2017-2018 pour le Bénin. Nous utilisons la bibliothèque `pyreadstat` qui est spécialisée dans la lecture de ce type de format.

In [2]:

# Chemin vers le fichier de données
file_path = 'BJMR71DT/BJMR71DT.sav'
#file_path = 'BJBR71DT/BJBR71DT.sav'

# Chargement des données avec pyreadstat
try:
    df, meta = pyreadstat.read_sav(file_path)
    print("La base de données a été chargée avec succès.")
    print(f"Dimensions de la base de données : {df.shape[0]} lignes et {df.shape[1]} colonnes.")
except FileNotFoundError:
    print(f"Erreur : Le fichier '{file_path}' n'a pas été trouvé. Veuillez vérifier le chemin.")
except Exception as e:
    print(f"Une erreur est survenue : {e}")

# Afficher les 5 premières lignes pour avoir un aperçu
if 'df' in locals(): # Vérifie si df 
    display(df.head(10))


La base de données a été chargée avec succès.
Dimensions de la base de données : 7595 lignes et 621 colonnes.


Unnamed: 0,mcaseid,mv000,mv001,mv002,mv003,mv004,mv005,mv006,mv007,mv008,...,sm933s,sm933d,sm934s,sm934d,sm936s,sm936d,sm940s,sm940d,sm941s,sm941d
0,1 3 1,BJ7,1.0,3.0,1.0,1.0,1130086.0,1.0,2018.0,1417.0,...,104.0,64.0,108.0,68.0,106.0,66.0,997.0,997.0,106.0,66.0
1,1 3 8,BJ7,1.0,3.0,8.0,1.0,1130086.0,1.0,2018.0,1417.0,...,,,,,,,,,,
2,1 15 3,BJ7,1.0,15.0,3.0,1.0,1130086.0,2.0,2018.0,1418.0,...,123.0,98.0,125.0,80.0,124.0,89.0,997.0,997.0,124.0,89.0
3,1 15 9,BJ7,1.0,15.0,9.0,1.0,1130086.0,2.0,2018.0,1418.0,...,115.0,78.0,115.0,82.0,115.0,80.0,997.0,997.0,115.0,80.0
4,1 15 11,BJ7,1.0,15.0,11.0,1.0,1130086.0,2.0,2018.0,1418.0,...,,,,,,,,,,
5,1 15 19,BJ7,1.0,15.0,19.0,1.0,1130086.0,2.0,2018.0,1418.0,...,,,,,,,,,,
6,1 15 24,BJ7,1.0,15.0,24.0,1.0,1130086.0,2.0,2018.0,1418.0,...,136.0,84.0,132.0,84.0,134.0,84.0,997.0,997.0,134.0,84.0
7,1 39 1,BJ7,1.0,39.0,1.0,1.0,1130086.0,1.0,2018.0,1417.0,...,116.0,76.0,119.0,81.0,118.0,79.0,997.0,997.0,118.0,79.0
8,1 39 3,BJ7,1.0,39.0,3.0,1.0,1130086.0,1.0,2018.0,1417.0,...,,,,,,,,,,
9,1 39 5,BJ7,1.0,39.0,5.0,1.0,1130086.0,1.0,2018.0,1417.0,...,,,,,,,,,,


## 1.3. Compréhension Initiale des Données

Maintenant que les données sont chargées, nous allons en explorer les caractéristiques générales. La fonction `.info()` de pandas est parfaite pour cela, car elle nous donne un résumé concis du DataFrame, incluant le type de chaque colonne et le nombre de valeurs non-nulles. Cela nous aidera à repérer d'éventuelles données manquantes.

In [3]:

# Afficher les informations générales sur le DataFrame
if 'df' in locals():
    print("Informations générales sur le DataFrame :")
    df.info(verbose=False, show_counts=True)


Informations générales sur le DataFrame :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7595 entries, 0 to 7594
Columns: 621 entries, mcaseid to sm941d
dtypes: float64(619), object(2)
memory usage: 36.0+ MB


## 1.4. Exploration Exhaustive des Variables

Pour garantir une sélection rigoureuse et ne manquer aucune variable potentiellement importante, nous allons maintenant générer un tableau complet de toutes les variables présentes dans la base de données, avec leur libellé correspondant.

Cette liste exhaustive servira de base pour notre sélection manuelle des variables clés.

In [4]:

if 'meta' in locals():
    # Créer un DataFrame avec toutes les variables et leurs libellés
    all_vars_df = pd.DataFrame({
        'Variable': meta.column_names,
        'Libellé': meta.column_labels
    })
    
    print("Tableau de toutes les variables et leurs libellés :")
    # Configurer pandas pour afficher toutes les lignes
    pd.set_option('display.max_rows', None)
    display(all_vars_df)
    # Rétablir l'option par défaut pour ne pas surcharger les affichages suivants
    pd.reset_option('display.max_rows')
else:
    print("Les métadonnées (meta) ne sont pas disponibles.")


Tableau de toutes les variables et leurs libellés :


Unnamed: 0,Variable,Libellé
0,mcaseid,case identification
1,mv000,country code and phase
2,mv001,cluster number
3,mv002,household number
4,mv003,respondent's line number
5,mv004,ultimate area unit
6,mv005,men's sample weight (6 decimals)
7,mv006,month of interview
8,mv007,year of interview
9,mv008,date of interview (cmc)


## 1.5. Appropriation du Thème et Cadre d'Analyse

Avant de sélectionner nos variables finales, il est essentiel de décomposer notre thème de recherche pour bien comprendre ce que nous cherchons à mesurer.

**Thème :** *Influence du niveau d'instruction des partenaires sexuels sur la prévention des maladies sexuellement transmissibles (MST) dans le Borgou.*


Décomposition du thème et axes d'analyse :

1. Population cible :
	- Hommes du Borgou (département), issus de la base BJMR71DT.

2. Variable explicative principale :
	- Niveau d'instruction des partenaires sexuels (si disponible).
	- À défaut, niveau d'instruction de l'homme interrogé.

3. Variable dépendante :
	- Prévention des MST (maladies sexuellement transmissibles).
	- Mesurée par :
		 * Utilisation du préservatif lors du dernier rapport sexuel.
		 * Connaissance des méthodes de prévention (ex : sait que le préservatif réduit le risque VIH).

4. Variables de contrôle/contextuelles :
	- Nombre de partenaires sexuels.
	- Âge, milieu de résidence, indice de richesse, etc.

 Exemples
    L'Âge (mv012) :

    - Le problème : Les personnes plus âgées ont peut-être eu moins accès à l'éducation et sont aussi moins habituées à utiliser des préservatifs, pour des raisons culturelles ou générationnelles.
    Le risque : Si on ne contrôle pas l'âge, on pourrait croire que c'est le faible niveau d'instruction qui explique la non-utilisation du préservatif, alors qu'en réalité, c'est surtout le fait d'être plus âgé.
    La solution : En incluant l'âge dans notre analyse, on peut "neutraliser" son effet et voir l'influence de l'instruction à âge égal.

    - L'Indice de bien-être économique (mv190) :
    
    Le problème : Les personnes plus riches ont souvent un niveau d'instruction plus élevé et ont aussi plus facilement les moyens d'acheter des préservatifs ou d'accéder à l'information.
    Le risque : On pourrait penser que l'instruction mène à la prévention, alors que c'est peut-être la richesse qui cause les deux.
    La solution : En contrôlant l'indice de bien-être, on peut isoler l'effet de l'instruction, indépendamment de la richesse.

Objectif :
	- Mesurer l'influence du niveau d'instruction (idéalement du partenaire, sinon du répondant) sur les comportements et connaissances de prévention des MST.
	- Identifier les facteurs associés à une meilleure prévention.

Prochaine étape :
	- Parcourir la liste complète des variables pour sélectionner celles qui correspondent à ces concepts.
	- Formaliser la sélection dans un tableau de synthèse.



## 1.6. Sélection Finale des Variables

Suite à l'exploration du dictionnaire des variables et en s'appuyant sur notre cadre d'analyse, voici une proposition de classification des variables à retenir pour notre étude.

---
### **Tableau de Classification des Variables Pertinentes**

| Catégorie Principale | Sous-catégorie | Nom de la Variable | Libellé | Rôle / Justification |
| :--- | :--- | :--- | :--- | :--- |
| **Variable Dépendante** | **Comportement de Prévention** | `mv761` | Condom used during last sex with most recent partner | **Cœur de l'analyse.** Mesure l'action de prévention. |
| | **Connaissance de la Prévention** | `mv754cp` | Reduce risk of getting HIV: always use condoms during sex | Mesure si l'efficacité du préservatif est connue. |
| | | `mv756` | A healthy looking person can have HIV | Mesure la connaissance de la transmission asymptomatique. |
| | **Perception du Risque** | `mv763a` | Had any STI in last 12 months | Indique si le répondant a déjà été confronté directement au risque. |
| | **Comportement de Dépistage** | `mv781` | Ever been tested for HIV | Action de prévention secondaire. |
| **Variable Indépendante** | **Instruction du Répondant** | `mv106` | Educational level | **Variable explicative principale.** Mesure le niveau d'étude (catégoriel). |
| | | `mv133` | Total number of years of education | Alternative continue au niveau d'instruction. |
| | | `mv155` | Literacy | Mesure la capacité à lire, une compétence de base. |
| | <span style="color:red;font-weight:bold;">Instruction du Partenaire</span> | <span style="color:red;font-weight:bold;">N/A</span> | <span style="color:red;font-weight:bold;">Non trouvée</span> | **Point crucial :** La base de données ne semble pas contenir de variable sur le niveau d'instruction des partenaires. Nous devrons nous concentrer sur l'instruction du répondant et le mentionner comme une **limitation de l'étude**. |
| **Variables de Contrôle** | **Démographie** | `mv012` | Current age | L'âge peut influencer à la fois l'éducation et le comportement sexuel. |
| | | `mv025` | Type of place of residence | Le milieu (urbain/rural) impacte l'accès à l'information et aux services. |
| | | `mv501` | Current marital status | Le statut marital est fortement lié au comportement sexuel. |
| | **Socio-économie** | `mv190` | Wealth index combined | La richesse influence l'accès à l'éducation et aux moyens de prévention. |
| | | `mv714` | Currently working | Le statut d'emploi peut être lié au statut social et aux comportements. |
| | **Exposition à l'Information** | `mv158` | Frequency of listening to radio | Mesure l'exposition aux campagnes de sensibilisation. |
| | | `mv159` | Frequency of watching television | Mesure l'exposition aux campagnes de sensibilisation. |
| | | `mv171a` | Use of internet | L'accès à internet est une source majeure d'information. |
| | **Comportements à Risque** | `mv525` | Age at first sex | Un début précoce peut indiquer un profil de risque différent. |
| | | `mv766b` | Number of sex partners, including spouse, in last 12 months | Le nombre de partenaires est un indicateur de risque direct. |
| **Variable de Filtrage** | **Géographie** | `mv024` | Region | Pour isoler notre population d'étude : le **Borgou**. |

---
### **Prochaine Étape**

Nous allons passer à la création du DataFrame d'analyse final (`df_analyse`) contenant uniquement ces colonnes, puis nous commencerons le nettoyage et la préparation de chaque variable.

# Phase 2 : Préparation et Nettoyage du Jeu de Données Final

Maintenant que nous avons rigoureusement sélectionné nos variables, nous entrons dans la phase de préparation. L'objectif est de construire un jeu de données propre et prêt pour l'analyse (`df_analyse`).

Nous allons procéder étape par étape :
1.  Définir la liste des variables retenues.
2.  Filtrer les données pour ne garder que la population du Borgou.
3.  Créer le DataFrame final.
4.  Inspecter ce nouveau DataFrame.

## 2.1. Définition de la Liste des Colonnes

La première étape consiste à lister explicitement les noms des variables que nous avons retenues dans notre tableau de sélection.

In [5]:

# Liste des variables sélectionnées
colonnes_finales = [
    # Variable de filtrage
    'mv024',   # Région
    # Variables dépendantes
    'mv761',   # Utilisation préservatif dernier rapport
    'mv754cp', # Sait que le préservatif réduit le risque
    'mv756',   # Sait qu'une personne saine peut avoir le VIH
    'mv763a',  # A eu une IST
    'mv781',   # A déjà été testé pour le VIH
    # Variables indépendantes
    'mv106',   # Niveau d'instruction
    'mv133',   # Années d'éducation
    'mv155',   # Alphabétisation
    # Variables de contrôle
    'mv012',   # Âge
    'mv025',   # Milieu de résidence
    'mv501',   # Statut marital
    'mv190',   # Indice de richesse
    'mv714',   # Travaille actuellement
    'mv158',   # Écoute la radio
    'mv159',   # Regarde la télévision
    'mv171a',  # Utilise internet
    'mv525',   # Âge au premier rapport sexuel
    'mv766b',  # Nombre de partenaires sexuels (12 mois)
]

print(f"{len(colonnes_finales)} variables ont été sélectionnées pour l'analyse.")


19 variables ont été sélectionnées pour l'analyse.


## 2.2. Filtrage sur la Région du Borgou

Nous allons maintenant utiliser la variable `mv024` pour isoler les observations correspondant à notre population d'étude.

In [6]:

# Identification du code pour la région "Borgou"
borgou_code = None
if 'mv024' in meta.variable_value_labels:
    for value, label in meta.variable_value_labels['mv024'].items():
        if 'borgou' in label.lower():
            borgou_code = value
            break

if borgou_code is not None:
    print(f"Le code pour la région 'Borgou' est : {borgou_code}")
    # Filtrage du DataFrame original
    df_borgou = df[df['mv024'] == borgou_code].copy()
    print(f"Il y a {len(df_borgou)} observations pour le Borgou.")
else:
    print("Erreur : Le code pour 'Borgou' n'a pas été trouvé.")


Le code pour la région 'Borgou' est : 4.0
Il y a 880 observations pour le Borgou.


## 2.3. Création du DataFrame d'Analyse

Avec les données du Borgou isolées et notre liste de colonnes définie, nous pouvons maintenant créer le jeu de données final pour notre analyse.

In [7]:

# Création du DataFrame d'analyse avec les colonnes sélectionnées
if 'df_borgou' in locals():
    df_analyse = df_borgou[colonnes_finales].copy()
    print("DataFrame 'df_analyse' créé avec succès.")
    
    # Afficher les informations pour vérifier
    print("\nInformations sur le nouveau DataFrame :")
    df_analyse.info()
    
    print("\nAperçu des premières lignes :")
    display(df_analyse.head())
else:
    print("Le DataFrame 'df_borgou' n'a pas été créé. Veuillez exécuter l'étape précédente.")


DataFrame 'df_analyse' créé avec succès.

Informations sur le nouveau DataFrame :
<class 'pandas.core.frame.DataFrame'>
Index: 880 entries, 2358 to 3237
Data columns (total 19 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   mv024    880 non-null    float64
 1   mv761    638 non-null    float64
 2   mv754cp  864 non-null    float64
 3   mv756    864 non-null    float64
 4   mv763a   880 non-null    float64
 5   mv781    880 non-null    float64
 6   mv106    880 non-null    float64
 7   mv133    880 non-null    float64
 8   mv155    823 non-null    float64
 9   mv012    880 non-null    float64
 10  mv025    880 non-null    float64
 11  mv501    880 non-null    float64
 12  mv190    880 non-null    float64
 13  mv714    880 non-null    float64
 14  mv158    880 non-null    float64
 15  mv159    880 non-null    float64
 16  mv171a   880 non-null    float64
 17  mv525    880 non-null    float64
 18  mv766b   880 non-null    float64
dtypes: float64(

Unnamed: 0,mv024,mv761,mv754cp,mv756,mv763a,mv781,mv106,mv133,mv155,mv012,mv025,mv501,mv190,mv714,mv158,mv159,mv171a,mv525,mv766b
2358,4.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,3.0,27.0,2.0,1.0,2.0,1.0,0.0,0.0,0.0,19.0,1.0
2359,4.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,20.0,2.0,1.0,2.0,1.0,2.0,1.0,0.0,19.0,1.0
2360,4.0,0.0,1.0,8.0,0.0,0.0,0.0,0.0,0.0,23.0,2.0,1.0,2.0,1.0,2.0,0.0,0.0,19.0,3.0
2361,4.0,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,15.0,2.0,0.0,1.0,1.0,2.0,1.0,0.0,13.0,0.0
2362,4.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,40.0,2.0,1.0,1.0,1.0,0.0,0.0,0.0,19.0,1.0


## 2.4. Vérification des Libellés des Variables Sélectionnées

Pour nous assurer que nous travaillons avec les bonnes données, affichons un tableau récapitulatif de nos 19 variables sélectionnées avec leurs libellés correspondants.

In [8]:

# Créer un dictionnaire des libellés pour toutes les variables
libelles_dict = dict(zip(meta.column_names, meta.column_labels))

# Filtrer les libellés pour ne garder que ceux des colonnes finales
libelles_selectionnes = {col: libelles_dict[col] for col in colonnes_finales if col in libelles_dict}

# Créer un DataFrame pour l'affichage
df_libelles = pd.DataFrame(list(libelles_selectionnes.items()), columns=['Nom de la Variable', 'Libellé'])

print("Tableau des variables sélectionnées pour l'analyse :")
display(df_libelles)


Tableau des variables sélectionnées pour l'analyse :


Unnamed: 0,Nom de la Variable,Libellé
0,mv024,region
1,mv761,condom used during last sex with most recent p...
2,mv754cp,reduce risk of getting hiv: always use condoms...
3,mv756,a healthy looking person can have hiv
4,mv763a,had any sti in last 12 months
5,mv781,ever been tested for hiv
6,mv106,educational level
7,mv133,total number of years of education
8,mv155,literacy
9,mv012,current age


## 2.5. Renommage des Colonnes

Pour faciliter la manipulation et l'interprétation des données, nous allons maintenant renommer les colonnes de `df_analyse` avec des noms plus explicites et en français.

In [9]:

# Dictionnaire de renommage
nouveaux_noms = {
    'mv024': 'region',
    'mv761': 'usage_preservatif',
    'mv754cp': 'connaissance_preservatif_vih',
    'mv756': 'connaissance_transmission_sain',
    'mv763a': 'a_eu_ist_12mois',
    'mv781': 'deja_teste_vih',
    'mv106': 'niveau_instruction',
    'mv133': 'annees_education',
    'mv155': 'alphabetisation',
    'mv012': 'age',
    'mv025': 'milieu_residence',
    'mv501': 'statut_marital',
    'mv190': 'indice_richesse',
    'mv714': 'travaille_actuellement',
    'mv158': 'frequence_radio',
    'mv159': 'frequence_tv',
    'mv171a': 'utilise_internet',
    'mv525': 'age_premier_rapport',
    'mv766b': 'nb_partenaires_12mois'
}

# Appliquer le renommage
if 'df_analyse' in locals():
    df_analyse = df_analyse.rename(columns=nouveaux_noms)
    print("Les colonnes ont été renommées avec succès.")
    
    # Afficher les nouvelles colonnes et l'aperçu du DataFrame
    print("\nNouveaux noms de colonnes :", df_analyse.columns.tolist())
    print("\nAperçu du DataFrame avec les nouveaux noms :")
    display(df_analyse.head())
else:
    print("Le DataFrame 'df_analyse' n'est pas encore créé. Veuillez exécuter les cellules précédentes.")


Les colonnes ont été renommées avec succès.

Nouveaux noms de colonnes : ['region', 'usage_preservatif', 'connaissance_preservatif_vih', 'connaissance_transmission_sain', 'a_eu_ist_12mois', 'deja_teste_vih', 'niveau_instruction', 'annees_education', 'alphabetisation', 'age', 'milieu_residence', 'statut_marital', 'indice_richesse', 'travaille_actuellement', 'frequence_radio', 'frequence_tv', 'utilise_internet', 'age_premier_rapport', 'nb_partenaires_12mois']

Aperçu du DataFrame avec les nouveaux noms :


Unnamed: 0,region,usage_preservatif,connaissance_preservatif_vih,connaissance_transmission_sain,a_eu_ist_12mois,deja_teste_vih,niveau_instruction,annees_education,alphabetisation,age,milieu_residence,statut_marital,indice_richesse,travaille_actuellement,frequence_radio,frequence_tv,utilise_internet,age_premier_rapport,nb_partenaires_12mois
2358,4.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,3.0,27.0,2.0,1.0,2.0,1.0,0.0,0.0,0.0,19.0,1.0
2359,4.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,20.0,2.0,1.0,2.0,1.0,2.0,1.0,0.0,19.0,1.0
2360,4.0,0.0,1.0,8.0,0.0,0.0,0.0,0.0,0.0,23.0,2.0,1.0,2.0,1.0,2.0,0.0,0.0,19.0,3.0
2361,4.0,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,15.0,2.0,0.0,1.0,1.0,2.0,1.0,0.0,13.0,0.0
2362,4.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,40.0,2.0,1.0,1.0,1.0,0.0,0.0,0.0,19.0,1.0



# Phase 3 : Exportation du Jeu de Données Nettoyé

Pour finaliser ce notebook, nous allons exporter notre DataFrame `df_analyse` dans un fichier CSV.

Cela nous permettra de le réutiliser directement dans notre prochain notebook dédié à l'analyse et à la modélisation, sans avoir à refaire toutes les étapes de préparation.


In [10]:

# Définir le nom du fichier de sortie
output_filename = 'df_analyse_borgou.csv'

# Exporter le DataFrame
if 'df_analyse' in locals():
    df_analyse.to_csv(output_filename, index=False)
    print(f"Le DataFrame a été exporté avec succès dans le fichier '{output_filename}'.")
else:
    print("Le DataFrame 'df_analyse' n'a pas été trouvé. L'exportation a échoué.")


Le DataFrame a été exporté avec succès dans le fichier 'df_analyse_borgou.csv'.
