In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import csv
import re

In [3]:
# URL du site web
url = 'https://www.esb.tn/programmes/masters-professionnels/master-en-management-digital-systemes-dinformation/'
# Charger le contenu HTML depuis la page web
response = requests.get(url)
response.raise_for_status()  # Vérifier que la requête s'est bien passée
html = response.text

In [4]:
# Parser le HTML avec BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

In [6]:
# Extraire l'objectif du parcours BI
# On recherche les éléments contenant le mot "BI" et vérifie le contexte
objective_bi = []
for element in soup.find_all(string=lambda text: "BI" in text if text else False):
    parent = element.find_parent()
    if parent and 'objectif' in parent.get_text().lower():
        # Extraire seulement la phrase contenant l'objectif souhaité
        full_text = parent.get_text(strip=True)
        target_text = "Le Master Professionnel en Management Digital et Systèmes d’Information permet de former des spécialistes en management des systèmes d’information et intégration des technologies de l’information et de la communication capables d’accompagner les entreprises dans leurs processus de transformation digitale. Le Master Professionnel en Management digital & systèmes d’information est disponible en double diplôme en International Management avec IMT-BS et en Management et Stratégie d’Entreprise avec Ascencia Business School"
        if target_text in full_text:
            objective_bi.append(target_text)

# Afficher le résultat
if objective_bi:
    # Créer un DataFrame à partir de la liste
    df = pd.DataFrame(objective_bi, columns=['Objectif BI'])
 # Exporter vers un fichier CSV
    df.to_csv('objectif_bi.csv', index=False, encoding='utf-8-sig')

    print("Les objectifs ont été enregistrés dans le fichier 'objectif_bi.csv'.")
else:
    print("Aucun objectif spécifique pour le parcours BI trouvé.")


Aucun objectif spécifique pour le parcours BI trouvé.


In [19]:
# Trouver la section "Contenu"
contenu_section = soup.find('h3', text="Contenu")

if contenu_section:
    # Trouver le premier <ul> qui suit cette section
    ul_section = contenu_section.find_next('ul')

    # Liste pour stocker les données extraites
    contenu_data = []

    # Extraire tous les <li> de la liste
    if ul_section:
        for li in ul_section.find_all('li'):
            # Récupérer uniquement le texte dans <strong> et le texte qui suit
            contenu_data.append(li.get_text(strip=True))

    # Afficher les résultats extraits
    print("Contenu trouvé :")
    for item in contenu_data:
        print(item)

    # Enregistrer dans un fichier CSV
    with open('contenu_programme.csv', mode='w', newline='', encoding='utf-8-sig') as file:
        writer = csv.writer(file)
        writer.writerow(["Contenu"])  # En-tête du fichier CSV
        for item in contenu_data:
            writer.writerow([item])  # Écriture de chaque ligne

    print("Le contenu a été enregistré dans 'contenu_programme.csv'.")
else:
    print("Section 'Contenu' non trouvée sur la page.")

Contenu trouvé :
MANAGEMENT :Business Process Management, Conduite du Changement, Management de projets, Supply Chain, etc.
DIGITAL :ERP, Business Intelligence, Big Data, SAP, CRM
SOFT SKILLS :Séminaires, Développement Personnel, Business Games, Langues, etc.
PROJET PROFESSIONNEL :Stages, PFE, Projets intégrés, Visites d’entreprises, etc.
Le contenu a été enregistré dans 'contenu_programme.csv'.


  contenu_section = soup.find('h3', text="Contenu")


In [20]:
# Trouver la section "Compétences"
competences_section = soup.find('h3', text="Compétences")

if competences_section:
    # Trouver le premier <ul> qui suit cette section
    ul_section = competences_section.find_next('ul')

    # Liste pour stocker les données extraites
    competences_data = []

    # Extraire tous les <li> de la liste
    if ul_section:
        for li in ul_section.find_all('li'):
            # Récupérer le texte de chaque <li>
            competences_data.append(li.get_text(strip=True))

    # Afficher les résultats extraits
    print("Compétences trouvées :")
    for item in competences_data:
        print(item)

    # Enregistrer dans un fichier CSV
    with open('competences_programme.csv', mode='w', newline='', encoding='utf-8-sig') as file:
        writer = csv.writer(file)
        writer.writerow(["Compétences"])  # En-tête du fichier CSV
        for item in competences_data:
            writer.writerow([item])  # Écriture de chaque ligne

    print("Les compétences ont été enregistrées dans 'competences_programme.csv'.")
else:
    print("Section 'Compétences' non trouvée sur la page.")

Compétences trouvées :
Anticiper et gérer les changements liés à la transformation digitale.
Identifier les choix stratégiques appropriés pour le management et l’optimisation des systèmes d’information des entreprises .
Intégrer le management des systèmes d’information et des outils technologiques IT dans la stratégie globale de l’entreprise.
Assurer la veille technologique et évaluer la pertinence des technologies émergentes dans le développement des affaires pour une entreprise.
Conduire des projets à fort contenu technologique et s’assurer de la performance économique, sociale et sociétale des entreprises.
Les compétences ont été enregistrées dans 'competences_programme.csv'.


  competences_section = soup.find('h3', text="Compétences")


In [26]:
# Trouver la section <div class="master"> (seulement cette section)
master_div = soup.find('div', class_='master')

# Vérifier que l'on est bien dans la bonne div
if master_div:
    print("Trouvé div.master !")
else:
    print("Div.master introuvable.")

# Extraire les sections "Métiers", "Secteurs d’activité" et "Partenariats professionnels"
sections = {
    "Métiers": [],
    "Secteurs d’activité": [],
    "Partenariats professionnels": []
}

# Extraire "Métiers"
metiers_section = master_div.find('h3', text='Métiers')
if metiers_section:
    metiers_list = metiers_section.find_next('ul').find_all('li')
    for item in metiers_list:
        # Nettoyer et formater le texte
        sections["Métiers"].append(item.get_text(strip=True))

# Extraire "Secteurs d’activité"
secteurs_section = master_div.find('h3', text='Secteurs d’activité')
if secteurs_section:
    secteurs_list = secteurs_section.find_next('ul').find_all('li')
    for item in secteurs_list:
        sections["Secteurs d’activité"].append(item.get_text(strip=True))

# Extraire "Partenariats professionnels"
partenariats_section = master_div.find('h3', text='Partenariats professionnels')
if partenariats_section:
    partenariats_list = partenariats_section.find_next('p').find_all_next('p')  # Prendre les paragraphes qui suivent
    for item in partenariats_list:
        # Si le texte commence par un ">", on l'ajoute
        if item.get_text(strip=True).startswith(">"):
            sections["Partenariats professionnels"].append(item.get_text(strip=True))

# Afficher les résultats extraits
print("Métiers :")
for item in sections["Métiers"]:
    print(item)
print("\nSecteurs d’activité :")
for item in sections["Secteurs d’activité"]:
    print(item)
print("\nPartenariats professionnels :")
for item in sections["Partenariats professionnels"]:
    print(item)

# Enregistrer dans un fichier CSV
with open('metiers_secteurs_partenariats.csv', mode='w', newline='', encoding='utf-8-sig') as file:
    writer = csv.writer(file)
    writer.writerow(["Section", "Contenu"])  # En-tête du fichier
    for section, items in sections.items():
        for item in items:
            writer.writerow([section, item])  # Écriture de chaque ligne

print("Les données ont été enregistrées dans 'metiers_secteurs_partenariats.csv'.")

Trouvé div.master !
Métiers :
Responsable de la Transformation Digital :Chief Digital Officer, Responsable Stratégie Digitale
Chef de Projet Digital :Digital Account Executive, IT Project Manager, Chef de Produit / Service, Manager des Actifs Numériques.
Consultant en Systèmes d’Information :Consultant ERP, Consultant IT, Consultant CRM

Secteurs d’activité :
Entreprises de services numériques
Sociétés de conseil
Banques & Assurances
BTP
Technologies de l’information et des communications.

Partenariats professionnels :
> Opérateur de télécommunication
> Banques et Assurances
Les données ont été enregistrées dans 'metiers_secteurs_partenariats.csv'.


  metiers_section = master_div.find('h3', text='Métiers')
  secteurs_section = master_div.find('h3', text='Secteurs d’activité')
  partenariats_section = master_div.find('h3', text='Partenariats professionnels')


In [27]:
# Trouver la section "Matières par semestre"
matiere_section = soup.find('h3', text='Matières par semestre')

# Vérifier que l'on a trouvé la section
if matiere_section:
    print("Trouvé 'Matières par semestre' !")
else:
    print("'Matières par semestre' introuvable.")

# Extraire les semestres et leurs matières
semestres = []
accordion_items = matiere_section.find_next('div', class_='elementor-accordion').find_all('div', class_='elementor-accordion-item')

# Extraire les matières pour chaque semestre
for item in accordion_items:
    semestre_title = item.find('a').get_text(strip=True)
    if semestre_title:
        matières_list = item.find('div', class_='elementor-tab-content').find('ul').find_all('li')
        for matière in matières_list:
            matières = matière.get_text(strip=True)
            semestres.append([semestre_title, matières])

# Enregistrer dans un fichier CSV
with open('matieres_par_semestre.csv', mode='w', newline='', encoding='utf-8-sig') as file:
    writer = csv.writer(file)
    writer.writerow(["Semestre", "Matière"])  # En-tête du fichier
    for semestre, matière in semestres:
        writer.writerow([semestre, matière])  # Écriture de chaque ligne

print("Les données ont été enregistrées dans 'matieres_par_semestre.csv'.")

Trouvé 'Matières par semestre' !
Les données ont été enregistrées dans 'matieres_par_semestre.csv'.


  matiere_section = soup.find('h3', text='Matières par semestre')


In [None]:
data = {
    'Objectifs': objectifs,
    'Contenu': contenu,
    'Compétences': competences,
    'Métiers': metiers,
    'Secteurs d’activité': secteurs,
    'Partenariats professionnels': str(partenariats)
}

for semestre, matieres in matieres_par_semestre.items():
    data[semestre] = "\n".join(matieres)

# Écriture dans le fichier CSV
filename = 'programme_master_marketing_digital.csv'
with open(filename, mode='w', newline='', encoding='utf-8-sig') as file:
    writer = csv.writer(file)
    writer.writerow(data.keys())  # En-têtes
    writer.writerow(data.values())  # Valeurs