# Enjeux économiques, sociaux et environnementaux à Madagascar: Cas pratique en Data Science

# Amélioration de l’accès aux données ouvertes à Madagascar: Création d’une base de données réutilisable des entreprises créées à Madagascar



## Introduction et problématiques

Madagascar est un pays où l’accès aux données ouvertes est difficile. Des associations comme Openstat proposent déjà des listes d’entreprises au format réutilisable, mais ces listes ne sont pas exhaustives car elles ne reprennent que les entreprises créées au sein de l’EDBM1. Dans le cadre du projet “Analyse des enjeux économiques et sociaux à Madagascar”, nous avons entrepris un sous-projet visant à améliorer l’accès aux données ouvertes en créant une base de données réutilisable des entreprises créées à Madagascar. Cette base de données comprendra des informations telles que le type d’activité des entreprises et d’autres informations pertinentes. Nous prévoyons de récupérer toutes les entreprises enregistrées sur le Registre du Commerce et des Sociétés de Madagascar2 ainsi que d’autres sources comme des annuaires3. Pour ce faire, nous utiliserons des techniques telles que le web scraping et l’apprentissage automatique pour extraire et traiter les données. Nous prévoyons également de proposer nos données à des associations telles que Openstat1 ou des blogs d’annuaire comme Agoramada4 qui souhaitent améliorer les données ouvertes à Madagascar. Ce projet nous permet également de nous améliorer grandement dans le nettoyage et le traitement des données, qui sont les processus les plus difficiles dans l’analyse de données.

# Web scraping
Le web scraping est le processus d'extraction automatique d'informations et de données à partir de pages web. Cela implique l'utilisation de programmes informatiques pour naviguer sur des sites web, extraire le contenu, analyser la structure des pages et récupérer les données pertinentes. Le but du web scraping est de collecter et d'organiser les données à partir de différentes sources en ligne pour une utilisation ultérieure, comme l'analyse de données, la visualisation, la recherche, la surveillance, etc.

On va récupérer les données directement sur internet. On va prenre la liste des sociétés créées à l'EDBM en 2017. On va utiliser la bibliothèque Beautiful Soup. Beautiful Soup est une bibliothèque Python largement utilisée pour analyser et extraire des informations à partir de documents HTML et XML. En data analyse, Beautiful Soup permet de traiter et d'organiser les données contenues dans des pages web, en les transformant en structures de données compréhensibles par Python.

Ici, on va utiliser principalement deux bibliothèques: *Beautiful Soup* et *Requests*. Request  est utilisée pour effectuer des requêtes HTTP vers des serveurs web et récupérer le contenu HTML des pages. Elle permet d'obtenir le code source brut des pages web. Cela peut être comparé à ouvrir un lien dans un navigateur et voir le code source de la page.
Une fois qu'on a le contenu HTML de la page à partir de "requests", Beautiful Soup entre en jeu. Beautiful Soup analyse le contenu HTML et le transforme en une structure d'objet Python avec laquelle on peut interagir facilement. Elle fournit des méthodes pour extraire des données, rechercher des balises, accéder aux attributs et au contenu, et naviguer dans la structure du document HTML.

# Importation des bibliothèques

In [None]:
from bs4 import BeautifulSoup
import requests

import pandas as pd


## Utilisation de BeautifulSoup avant Panda pour plus de précision

In [None]:
url="https://edbm.mg/actualites_statistiques_liste-des-societes-creees-a-l-edbm/"

page=requests.get(url)  # la fonction  envoie une requête GET à l'URL spécifiée au serveur web correspondant et le serveur web répond à la requête en renvoyant les données associées à cette URL


On va maintenant créer un objet BeautifulSoup. Un objet Beautiful Soup est une structure de données créée à l'aide de la bibliothèque Beautiful Soup en Python. Un objet Beautiful Soup est un moyen pratique de transformer le contenu HTML ou XML d'une page web en une structure d'objet Python avec laquelle vous pouvez interagir facilement pour extraire des informations et effectuer des manipulations.

**page.text** permet d'obtenir le contenu sous forme de chaîne de caractères.

**html.parser** est le nom du parseur qu'on utilise pour analyser le contenu HTML. Un parseur est un programme qui analyse une chaîne de caractères en fonction d’une grammaire spécifiée et construit une structure de données représentant la structure logique de la chaîne.

In [None]:
soup=BeautifulSoup(page.text,"html.parser")  #BeautifulSoup s'attend à recevoir une chaîne de caractère
#soup

table=soup.find_all("table")[0]  #On cherche à afficher la première table mais s'il n'y a qu'une table, on peut juste faire soup;find("table")

In [None]:
df=pd.read_html(str(table))  #On convertit la table en chaîne de caractère
#df[0]

La méthode read_html de la bibliothèque pandas peut être utilisée pour extraire des données tabulaires à partir d’un document HTML. Cette méthode prend en entrée une chaîne de caractères contenant du code HTML et renvoie une liste de DataFrames, chacun contenant les données d’une table HTML trouvée dans le document.

Cependant, dans certains cas, on peut avoir besoin de plus de contrôle sur la manière dont les données sont extraites du document HTML. Par exemple, si le document contient plusieurs tables et qu'on ne veut extraire les données que d’une seule table spécifique, ou si on veut prétraiter les données avant de les charger dans un DataFrame. Dans ces cas, on peut utiliser la bibliothèque BeautifulSoup pour analyser le document HTML et extraire les données de la table que l'on veut.

En utilisant BeautifulSoup, on peut parcourir le document HTML et sélectionner la table que l'on veut en utilisant des sélecteurs CSS ou des méthodes de recherche. Une fois que l'on a trouvé la table, on peut la convertir en chaîne de caractères en utilisant la fonction str et passer cette chaîne à la méthode read_html de pandas pour créer un DataFrame.

En résumé, l’utilisation de BeautifulSoup avant d’utiliser pandas peut nous donner plus de contrôle sur la manière dont les données sont extraites du document HTML. Si on n’a pas besoin de ce niveau de contrôle, on peut utiliser directement la méthode read_html de pandas pour extraire les données des tables HTML.

## Utilisation directe de Panda sans passer par BeautifulSoup


Maintenant, on va juste utiliser Panda pour extraire les tables de la page

In [None]:
url="https://edbm.mg/actualites_statistiques_liste-des-societes-creees-a-l-edbm/"
df = pd.read_html(url,header=0)  # Renvoye une liste de dataframe, qui sont les tableux de la page

# Vu que df est une liste, pour selectionner le premier tableau, on va faire comme ceci:
#df[0]

# Application sur la plus grande base de données répertoriant les sociétés auprès de RNCS

RNCS-CM Madagascar est le Registre National du Commerce et des Sociétés de Madagascar.
Il a pour but de recueillir et de publier des informations juridiquement importantes relatives aux commerçants et aux personnes morales assujetties à l’immatriculation. C’est un outil pour la transparence des entreprises, accessible à tous

In [None]:
url="https://www.rcsmada.mg/index.php?pgdown=consultation&soc=1-1#"

page=requests.get(url)
soup=BeautifulSoup(page.text)
#soup

## 1er problème rencontré


Lorsque je copie le lien de la page contenant le tableau, le tableau n'apparaît pas dans le nouvel onglet. On est donc obligé d'automatiser les tâches en utilisant la bibliothèque Selenium pour appuyer automatiquement sur le bouton "Rechercher" afin d'afficher le tableau contenant la liste des entreprises. Selenium est souvent utilisé pour automatiser l'interaction avec des pages web dynamiques. Les pages web dynamiques sont celles qui changent ou se mettent à jour en réponse à des actions de l'utilisateur, telles que des clics de boutons, des remplissages de formulaires, des défilements, etc. Cela peut également inclure des pages qui utilisent des technologies comme JavaScript pour modifier le contenu de la page sans nécessiter de rechargement complet.

Selenium permet de simuler ces interactions et actions de l'utilisateur, ce qui en fait un outil précieux pour automatiser le test de sites web, la récupération de données à partir de pages web dynamiques, et d'autres tâches similaires.

En utilisant Selenium, vous pouvez automatiser des tâches comme cliquer sur des boutons, remplir des formulaires, faire défiler la page, attendre que certaines parties de la page se chargent, et même capturer des captures d'écran à différentes étapes du processus. Cela en fait une option populaire pour les développeurs, les testeurs et les professionnels du web scraping qui ont besoin d'interagir avec des pages web complexes.

# Utilisation de Selinium

## Selenium

Selenium est une bibliothèque qui permet de naviguer sur une page web de façon automatisée et donc de mettre en place divers degrés d’interaction

## Explication du driver


un driver est une interface entre votre code de test (généralement écrit en Python, Java, C#, etc.) et le navigateur que vous souhaitez contrôler automatiquement. Le driver agit comme un pont de communication entre votre script et le navigateur, ce qui permet à votre script de simuler des actions d'utilisateur, telles que le clic sur des boutons, la saisie de texte et la navigation.

Chaque navigateur (comme Chrome, Firefox, Edge, etc.) a son propre driver spécifique qui doit être utilisé avec Selenium pour automatiser ce navigateur particulier. Les drivers permettent à Selenium de contrôler le navigateur en simulant des interactions humaines, ce qui est particulièrement utile pour tester des applications web, extraire des données de pages web ou effectuer d'autres tâches automatisées.

Lorsque vous utilisez Selenium, vous devez télécharger le driver correspondant au navigateur que vous souhaitez contrôler, et vous devez également installer la bibliothèque Selenium pour le langage de programmation que vous utilisez (comme selenium en Python). Ensuite, vous utiliserez le driver pour ouvrir une instance du navigateur et effectuer des actions automatisées.

Par exemple, si vous utilisez le navigateur Chrome, vous devrez télécharger le ChromeDriver et l'utiliser avec la bibliothèque Selenium pour contrôler les interactions avec le navigateur Chrome. De même, pour Firefox, vous devrez utiliser le GeckoDriver, et ainsi de suite

In [None]:
#!apt-get update      : met à jour la liste des paquets disponibles pour l’installation
#!apt install chromium-chromedriver  # Installation du driver chrome
#!cp /usr/lib/chromium-browser/chromedriver /usr/bin   #Le répertoire /usr/bin est un répertoire système qui contient des programmes exécutables accessibles à tous les utilisateurs. En copiant le pilote Chrome dans ce répertoire, vous vous assurez que Selenium peut le trouver et l’utiliser pour contrôler Chrome
!pip install selenium

In [None]:

# Importation des classes et modules nécessaires
from selenium.webdriver.common.by import By  # Pour identifier les éléments sur une page web
from selenium import webdriver  # Classe de base pour automatiser les navigateurs
import pandas as pd  # Pour la manipulation de données tabulaires
from time import sleep  # Pour introduire des délais

# Configuration des options du navigateur
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # Exécution sans afficher l'interface graphique du navigateur
options.add_argument('--no-sandbox')  # Options de sécurité pour l'exécution
options.add_argument('--disable-dev-shm-usage')  # Options pour gérer l'utilisation de la mémoire
driver = webdriver.Chrome(options=options)  # Création de l'instance du navigateur Chrome avec les options

# Ouvrir la page web
page = driver.get("https://www.rcsmada.mg/index.php?pgdown=liste2")

# Trouver et cliquer sur le lien "Liste d'Entreprise"
lien_liste_entreprises = driver.find_element(By.LINK_TEXT, "Liste d'Entreprise")
lien_liste_entreprises.click()

# Attendre pendant 5 secondes pour que la page se charge complètement
sleep(5)

# Extraire le code source HTML de la page chargée
html = driver.page_source






un objet WebElement n’est pas le code HTML de l’élément, mais plutôt une représentation d’un élément HTML dans la page web. Un objet WebElement fournit des méthodes pour interagir avec l’élément, comme click, send_keys et submit, ainsi que des méthodes pour récupérer les attributs et le texte de l’élément, comme get_attribute et text. Si vous voulez récupérer le code HTML d’un élément WebElement, vous pouvez utiliser la méthode get_attribute avec l’attribut 'outerHTML'.

outerHTML est un attribut de l’interface DOM Element qui permet de récupérer le fragment HTML sérialisé décrivant l’élément ainsi que ses descendants1. Il peut également être utilisé pour remplacer l’élément avec les nœuds générés à partir de la chaîne fournie1. En d’autres termes, outerHTML renvoie une chaîne contenant le code HTML de l’élément, y compris ses balises de début et de fin, ainsi que le code HTML de tous ses éléments enfants1.

Lorsque vous utilisez la méthode get_attribute avec l’attribut 'outerHTML', vous récupérez le code HTML de l’élément WebElement sous forme de chaîne. Vous pouvez ensuite utiliser cette chaîne pour effectuer du web scraping avec pandas ou une autre bibliothèque.

In [None]:
# On va selectionner les valeurs du champ Par Greffe RCS

bouton_rechercher=driver.find_element(By.XPATH,'//input[@type="submit" and @value="Rechercher"]')

bouton_rechercher.click()
sleep(5)

**//input:** Sélectionne tous les éléments input dans la page, quel que soit leur emplacement dans la hiérarchie du document.

**[@type="submit"]:** Restreint la sélection aux éléments input dont l’attribut type est égal à “submit”.
and: Combine les deux conditions précédentes en utilisant l’opérateur logique “et”.

**[@value="Rechercher"]:** Restreint la sélection aux éléments input dont l’attribut value est égal à “Rechercher”.

 Le symbole @ est utilisé pour indiquer que vous faites référence à un attribut d’un élément dans un chemin d’accès XPath.

In [None]:

html_liste_ambositra=driver.page_source

df=pd.read_html(html_liste_ambositra)[0]
#df


## 2eme problème rencontré

On a réussi à récupérer le tableau, mais ce qui nous intéresse, c'est ce qu'il y a dans *+d'Infos*. Il y a plus de détails donc on va éssayer de récupérer les tableaux se trouvant dans *+d'infos* pour chaque ligne.

In [None]:
links = driver.find_elements(By.XPATH,'//a[text()="+ d\'Infos"]')
# Initialiser le DataFrame resultat
resultat = pd.DataFrame()
for link in links:
    # Récupérer l'URL du lien
    href = link.get_attribute('href')
    # Lire le tableau HTML à partir de l'URL
    df = pd.read_html(href)[0]

    #Définir la première colonne comme index
    df=df.set_index(df.columns[0])

    # Transposer le DataFrame

    df=df.transpose()

    # Vérifier si le DataFrame resultat est vide
    if resultat.empty:
        # Si oui, initialiser le DataFrame resultat avec le premier DataFrame
        resultat = df
    else:
        # Sinon, effectuer la jointure avec le DataFrame courant
        common_columns = list(set(resultat.columns) & set(df.columns))
        resultat=pd.merge(resultat,df,on=common_columns,how="outer")


Le critère XPATH utilisé ici est '//a[text()="+ d\'Infos"]'. Cela signifie que nous recherchons tous les éléments "a" (liens hypertextes) sur la page Web dont le texte est égal à "+ d'Infos". En d’autres termes, nous recherchons tous les liens sur la page Web qui ont le texte "+ d'Infos".

**text()** n’est pas un attribut dans ce cas. text() est une fonction XPATH qui renvoie le texte contenu dans un élément. Dans l’expression XPATH '//a[text()="+ d\'Infos"]', la fonction text() est utilisée pour sélectionner tous les éléments "a"dont le texte est égal à "+ d'Infos".

Dans un chemin XPATH, un attribut est une caractéristique d’un élément, tandis qu’une fonction est une opération qui peut être effectuée sur un élément ou un ensemble d’éléments.

Un attribut est spécifié en utilisant la syntaxe @attribut dans un chemin XPATH. Par exemple, pour sélectionner tous les éléments "a" qui ont un attribut href éga à "https://www.example.com", vous pouvez utiliser l’expression XPATH suivante: //a[@href="https://www.example.com"].

Les fonctions XPATH, en revanche, sont des opérations qui peuvent être effectuées sur des éléments ou des ensembles d’éléments. Par exemple, la fonction text() renvoie le texte contenu dans un élément, tandis que la fonction count() renvoie le nombre d’éléments dans un ensemble d’éléments.

In [None]:
#resultat

On a réussi à afficher la liste des entreprises d'une ville sur la première page. La liste s'étend sur plusieurs pages donc on va devoir parcourir toutes les pages pour récuperer toutes les entreprises.

**On va supprimer les accents dans les noms des colonnes pour ne pas causer d'erreurs lors de la jointure des dataframes. Pour cela, on va utiliser la bibliothèque unidecode**

In [None]:
!pip install unidecode

In [None]:
from unidecode import unidecode
import chardet
import urllib.request


In [None]:
liens_pages=driver.find_elements(By.XPATH,"//span[@class='butons']/a")

#On stocke tous les liens comme ça on n'a pas besoin d'utiliser la méthode click qui cause souvent des erreurs
liens_href=[]
for lien in liens_pages:
  liens_href.append(lien.get_attribute('href'))

#On peut simplifier l'écriture comme ceci:
#liens_href = [lien.get_attribute('href') for lien in liens_pages]


resultat = pd.DataFrame()
for lien_href in liens_href:
  driver.get(lien_href)
  links = driver.find_elements(By.XPATH,'//a[text()="+ d\'Infos"]')
  # Initialiser le DataFrame resultat

  for link in links:
      # Récupérer l'URL du lien
      href = link.get_attribute('href')

      # Lire les données brutes à partir de l'URL
      rawdata = urllib.request.urlopen(href).read()

      # Détecter l'encodage des données brutes

      encoding = chardet.detect(rawdata)['encoding']

      # Lire le tableau HTML à partir de l'URL en utilisant l'encodage détecté
      df = pd.read_html(href, encoding=encoding)[0]



      #Définir la première colonne comme index
      df=df.set_index(df.columns[0])

      # Transposer le DataFrame
      df=df.transpose()


      # Supprimer les colonnes en double sauf la première
      df = df.loc[:, ~df.columns.duplicated(keep='first')]

      #supprimer les accents dans les noms des colonnes
      df.columns = df.columns.map(unidecode)

      # Vérifier si le DataFrame resultat est vide
      if resultat.empty:
          # Si oui, initialiser le DataFrame resultat avec le premier DataFrame
          resultat = df
      else:
          # Sinon, effectuer la jointure avec le DataFrame courant
          common_columns = list(set(resultat.columns) & set(df.columns))
          resultat=pd.merge(resultat,df,on=common_columns,how="outer")


## Important: .get() vs .click()

**La méthode .get** charge une nouvelle page Web dans la fenêtre du navigateur en effectuant une requête HTTP GET vers l’URL spécifiée. La méthode bloque jusqu’à ce que la page soit complètement chargée.

**La méthode .click()** ne bloque pas en attendant que la nouvelle page soit chargée, elle renvoie immédiatement le contrôle à votre script.



# Apprentissage automatique supervisé VS apprentissage non supervisé


Dans cette partie, on va essayer de regrouper les entreprises par type d'activités. On n'a que les descriptions des activités des des entreprises sans le type donc on va utiliser l'apprentissage automatique pour les regrouper. On va d'abord le tester sur une petite base de données.

## Apprentissage automatique non supervisé

Premièrement, utilisons le clustering pour regrouper les activités automatiquement.

In [None]:
import pandas as pd

In [None]:
ambositra=pd.read_csv("/content/ambositra_encodage_automatique.txt")


In [None]:
colonne_activite=ambositra["Activite"]

In [None]:
colonne_activite

In [None]:
listes_ambositra=list(colonne_activite)

In [None]:
listes_ambositra

### Vectorisation par TF-IDF

In [None]:
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import math



# Les descriptions des activités des entreprises
descriptions = listes_ambositra

# Supprimer les valeurs NaN de la liste
descriptions = [desc for desc in descriptions if not isinstance(desc, float) or not math.isnan(desc)]


# Prétraitement des descriptions (en minuscules, suppression de la ponctuation)
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    return text

preprocessed_descriptions = [preprocess_text(desc) for desc in descriptions]

# Vectorisation TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(preprocessed_descriptions)

# Clustering KMeans
num_clusters = 21  # ajuster ce nombre en fonction des cas
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(X)

# Assigner chaque description à un cluster
cluster_assignments = kmeans.labels_

# Afficher les descriptions groupées par cluster
clusters = {}
for i, cluster_id in enumerate(cluster_assignments):
    if cluster_id not in clusters:
        clusters[cluster_id] = []
    clusters[cluster_id].append(descriptions[i])

for cluster_id, cluster_items in clusters.items():
    print(f"Cluster {cluster_id + 1}:\n")
    for item in cluster_items:
        print(item)
    print("\n")


#BERT


In [None]:
!pip install transformers

In [None]:
import re
from transformers import BertTokenizer, BertModel
from sklearn.cluster import KMeans
import math
import torch
import numpy as np

In [None]:

# Charger le tokenizer et le modèle BERT pré-entraînés

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-uncased')
model = BertModel.from_pretrained('bert-base-multilingual-uncased')



# Les descriptions des activités des entreprises
descriptions = listes_ambositra

# Supprimer les valeurs NaN de la liste
descriptions = [desc for desc in descriptions if not isinstance(desc, float) or not math.isnan(desc)]

# Prétraitement des descriptions (en minuscules, suppression de la ponctuation)
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    return text

preprocessed_descriptions = [preprocess_text(desc) for desc in descriptions]

# Encodage des descriptions avec BERT
encoded_descriptions = []
for desc in preprocessed_descriptions:
    input_ids = tokenizer.encode(desc, add_special_tokens=True)
    input_ids = torch.tensor(input_ids).unsqueeze(0)
    with torch.no_grad():
        output = model(input_ids)
        encoded_desc = output[0][:, 0, :].numpy()
        averaged_encoded_desc = np.mean(encoded_desc, axis=1)  # Aplatir en moyennant
        encoded_descriptions.append(averaged_encoded_desc)



In [None]:
!pip install sentencepiece


In [None]:
import re
import math
import torch
import numpy as np
from transformers import CamembertTokenizer, CamembertModel


# Charger le tokenizer et le modèle CamemBERT pré-entraînés
tokenizer = CamembertTokenizer.from_pretrained('camembert-base')
model = CamembertModel.from_pretrained('camembert-base')

# Les descriptions des activités des entreprises
descriptions = listes_ambositra

# Supprimer les valeurs NaN de la liste
descriptions = [desc for desc in descriptions if not isinstance(desc, float) or not math.isnan(desc)]

# Prétraitement des descriptions (en minuscules, suppression de la ponctuation)
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    return text

preprocessed_descriptions = [preprocess_text(desc) for desc in descriptions]

# Encodage des descriptions avec CamemBERT
encoded_descriptions = []
for desc in preprocessed_descriptions:
    input_ids = tokenizer.encode(desc, add_special_tokens=True)
    input_ids = torch.tensor(input_ids).unsqueeze(0)
    with torch.no_grad():
        output = model(input_ids)
        encoded_desc = output[0][:, 0, :].numpy()
        averaged_encoded_desc = np.mean(encoded_desc, axis=1)  # Aplatir en moyennant
        encoded_descriptions.append(averaged_encoded_desc)


In [None]:
from sklearn.cluster import KMeans
# Clustering KMeans
num_clusters = 5  # Vous pouvez ajuster ce nombre en fonction de votre cas
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(encoded_descriptions)

# Assigner chaque description à un cluster
cluster_assignments = kmeans.labels_

# Afficher les descriptions groupées par cluster
clusters = {}
for i, cluster_id in enumerate(cluster_assignments):
    if cluster_id not in clusters:
        clusters[cluster_id] = []
    clusters[cluster_id].append(descriptions[i])

for cluster_id, cluster_items in clusters.items():
    print(f"Cluster {cluster_id + 1}:\n")
    for item in cluster_items:
        print(item)
    print("\n")

# Importation des données CSV

In [None]:
#from google.colab import drive
#drive.mount('/content/gdrive')
#my_local_drive='/content/gdrive/My Drive/Colab Notebooks/Madagascar'

# Importation des données

