In [3]:
import requests
from bs4 import BeautifulSoup
import time

In [4]:
def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    
    for attempt in range(5):  # Retry up to 5 times
        try:
            response = requests.get(url, headers=headers, timeout=10)
            if response.status_code == 200:
                return BeautifulSoup(response.content, 'html.parser')
            else:
                print(f"Failed to fetch the webpage. Status code: {response.status_code}")
                return None
        except requests.ConnectionError as e:
            print(f"ConnectionError: {e}. Retrying...")
            time.sleep(5)  # Wait for 5 seconds before retrying
        except requests.Timeout as e:
            print(f"TimeoutError: {e}. Retrying...")
            time.sleep(5)  # Wait for 5 seconds before retrying
    return None

In [16]:
def presentation_Fstt(url, file_path=None):
    # Fetch and parse the page
    soup = fetch_page(url)
    if not soup:
        print(f"Failed to retrieve the page from {url}.")
        return

    # Find the specific div containing the paragraph
    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')

    if target_div:
        # Extract and clean the text from the target div
        text_content = target_div.get_text(separator='\n').strip()
        print(text_content)
        
        # Write the content to the file if file_path is provided
        if file_path:
            with open(file_path, 'a', encoding='utf-8') as file:
                file.write(text_content + '\n\n')
    else:
        print("No matching content found.")

    # Find the div containing the contact information
    contact_div = soup.find('div', class_='elementor-widget-container')

    if contact_div:
        contact_info = ""
        # Extract the phone number and email
        phone_span = contact_div.find('span', class_='elementor-icon-list-icon').find_next('span', class_='elementor-icon-list-text')
        email_span = contact_div.find('span', class_='elementor-icon-list-icon').find_next('span', class_='elementor-icon-list-text')
        
        phone = phone_span.get_text(strip=True) if phone_span else "Phone number not found."
        email = email_span.get_text(strip=True) if email_span else "Email not found."

        contact_info += f"Phone: {phone}\nEmail: {email}\n"
        print(contact_info)

        # Write the contact information to the file if file_path is provided
        if file_path:
            with open(file_path, 'a', encoding='utf-8') as file:
                file.write(contact_info + '\n\n')
    else:
        print("No contact information found.")


In [17]:
# Define the URL and file path
url = "https://fstt.ac.ma/Portail2023/presentation/"
file_path = "FSTT_DATA.txt"

# Scrape and write the content to the file
presentation_Fstt(url, file_path)

I- PRESENTATION DE LA FST DE TANGER & DIAGNOSIQUE
La Faculté des Sciences et Techniques de Tanger (FSTT), relevant de l’Université Abdelmalek Essaâdi a été créée en 1995. Elle fait partie des établissements de l’enseignement supérieur à accès régulé et a pour missions la formation initiale dans les domaines scientifiques et techniques, la formation continue ainsi que la recherche et le développement dans les domaines des sciences et techniques.
 
Formation Initiale 
La FST de Tanger offre des cursus de formation qui préparent aux diplômes suivants :
DEUST : Diplôme d’Etudes Universitaire en Sciences et Techniques (Bac +2).
LST : Diplôme de Licence en Sciences et Techniques (Bac +3)
MST : Diplôme de Master en Sciences et Techniques (Bac +5)
DI : Diplôme d’Ingénieur d’État (Bac +5)
Doctorat en Sciences et Techniques (Bac +8)
La FST de Tanger propose une panoplie de formation riches et diversifiées répondant aux divers besoins du monde socio-économique (12 filières LST, 13 filières MST, 4

In [26]:
def mot_doyen(url, file_path=None):
    # Fetch and parse the page
    soup = fetch_page(url)
    if not soup:
        print(f"Failed to retrieve the page from {url}.")
        return

    # Find the specific div containing the paragraph
    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')

    if target_div:
        # Extract and clean the text from the target div
        text_content = target_div.get_text(separator='\n').strip()
        print(f"Mot du Doyen:\n {text_content}")
        
        # Write the content to the file if file_path is provided
        if file_path:
            with open(file_path, 'a', encoding='utf-8') as file:
                file.write(text_content + '\n\n')
    else:
        print("No matching content found.")

In [27]:
# Define the URL
url = "https://fstt.ac.ma/Portail2023/mot-du-doyen/"

# Call the function with or without file_path to save the content
mot_doyen(url)

Mot du Doyen:
 Le monde d’aujourd’hui connait des évolutions majeures et complexes caractérisées par la globalisation des échanges et l’intensification de la concurrence. Le Maroc n’échappe pas à cette tendance. Il est confronté à des enjeux de développement et de croissance basés essentiellement sur le capital humain. D’où la nécessité, pour le Maroc, de se doter d’un système d’éducation et de formation performant productif de savoir et innovateur afin de produire des compétences et des profils qualifiés, une jeunesse en mesure de répondre au besoin du marché et de prendre en charge tant les entreprises des divers secteurs de l’économie que les organismes investis de missions de service public, de même que les chercheurs et les intellectuels indispensables au développement d’une société du savoir et d’économie.
Notre projet de développement de la FST de Tanger est conscient du rôle que doit jouer cette dernière dans le développement socio-économique régional et national où elle ne doi

In [28]:
mot_doyen(url, "FSTT_DATA.txt")

Mot du Doyen:
 Le monde d’aujourd’hui connait des évolutions majeures et complexes caractérisées par la globalisation des échanges et l’intensification de la concurrence. Le Maroc n’échappe pas à cette tendance. Il est confronté à des enjeux de développement et de croissance basés essentiellement sur le capital humain. D’où la nécessité, pour le Maroc, de se doter d’un système d’éducation et de formation performant productif de savoir et innovateur afin de produire des compétences et des profils qualifiés, une jeunesse en mesure de répondre au besoin du marché et de prendre en charge tant les entreprises des divers secteurs de l’économie que les organismes investis de missions de service public, de même que les chercheurs et les intellectuels indispensables au développement d’une société du savoir et d’économie.
Notre projet de développement de la FST de Tanger est conscient du rôle que doit jouer cette dernière dans le développement socio-économique régional et national où elle ne doi

In [49]:
def conseil_etablissement(url, file_path=None):
    # Fetch and parse the page
    soup = fetch_page(url)
    if not soup:
        print(f"Failed to retrieve the page from {url}.")
        return

    # Extract the paragraph
    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')
    if target_div:
        paragraph_text = target_div.get_text(separator='\n').strip()
        print("Conseil de l’établissement:")
        print(paragraph_text)
    else:
        print("No paragraph content found.")
        return

    # Extract the table
    table = soup.find('table', class_='tablesorter eael-data-table center')
    if table:
        table_data = []
        headers = [header.get_text(strip=True) for header in table.find_all('th')]
        rows = table.find_all('tr')
        for row in rows[1:]:  # Skip header row
            cols = row.find_all('td')
            cols = [ele.get_text(strip=True) for ele in cols]
            if len(cols) == 2:
                table_data.append(f"{cols[0]} : {cols[1]}")
        
        print("\n")
        for row in table_data:
            print(row)
    else:
        print("No table content found.")
        return

    # Write the content to the file if file_path is provided
    if file_path:
        with open(file_path, 'a', encoding='utf-8') as file:
            if paragraph_text:
                file.write("Conseil de l’établissement:\n")
                file.write(paragraph_text + '\n\n')
            if table_data:
                for row in table_data:
                    file.write(row + '\n')

In [50]:
url = "https://fstt.ac.ma/Portail2023/conseil-de-letablissement/"

# Call the function with or without file_path to save the content
conseil_etablissement(url)

Conseil de l’établissement:
La Faculté est gérée par un conseil d’établissement présidé par le Doyen. Le conseil de l’établissement comprend des membres de droit, des représentants élus des personnels enseignants et des personnels administratifs et techniques, des représentants élus des étudiants, ainsi que des membres désignés parmi des personnalités extérieures.


DIANI Mustapha : Doyen
JBILOU Mohammed : Vice Doyen de la Formation
OUARDOUZ Mustapha : Vice Doyen de la Recherche et de la coopération
BIHRI Hassan : SG chargé du secrétariat du conseil
AJDOUR Mounia : Chef du département de Physique
CHABBI Mohamed : Chef du département de Génie Chimique
EL HALIMI Rachid : Chef du département des Mathématiques
EL BRAK Mohamed : Chef du département de Génie Informatique
BOULAASSAL Hakim : Chef du département des Sciences de la Terre
HADJ BARAKA Ibrahim : Chef du département de Génie Électrique
ELAYACHI Ilham : Chef du département de Génie Mécanique
OUCHEN Mohamed : Chef du département de La

In [39]:
conseil_etablissement(url, "FSTT_DATA.txt")

Conseil de l’établissement:
La Faculté est gérée par un conseil d’établissement présidé par le Doyen. Le conseil de l’établissement comprend des membres de droit, des représentants élus des personnels enseignants et des personnels administratifs et techniques, des représentants élus des étudiants, ainsi que des membres désignés parmi des personnalités extérieures.


DIANI Mustapha : Doyen
JBILOU Mohammed : Vice Doyen de la Formation
OUARDOUZ Mustapha : Vice Doyen de la Recherche et de la coopération
BIHRI Hassan : SG chargé du secrétariat du conseil
AJDOUR Mounia : Chef du département de Physique
CHABBI Mohamed : Chef du département de Génie Chimique
EL HALIMI Rachid : Chef du département des Mathématiques
EL BRAK Mohamed : Chef du département de Génie Informatique
BOULAASSAL Hakim : Chef du département des Sciences de la Terre
HADJ BARAKA Ibrahim : Chef du département de Génie Électrique
ELAYACHI Ilham : Chef du département de Génie Mécanique
OUCHEN Mohamed : Chef du département de La

In [56]:
def departement(url, file_path=None):
    # Fetch and parse the page
    soup = fetch_page(url)
    if not soup:
        print(f"Failed to retrieve the page from {url}.")
        return

    # Extract the div elements with the class 'elementor-cta__content'
    content_divs = soup.find_all('div', class_='elementor-cta__content')
    if not content_divs:
        print("No content found.")
        return

    # Prepare the data for saving
    data_lines = []
    for div in content_divs:
        department = div.find('h3', class_='elementor-cta__title').get_text(strip=True)
        chef_info = div.find('div', class_='elementor-cta__description').get_text(separator='\n', strip=True)
        
        # Split the chef_info into individual lines
        chef_lines = chef_info.split('\n')
        
        # Construct the department information
        dept_info = f"departement : {department}"
        chef_dept = chef_lines[0]
        
        # Extract email address
        email = ''
        for line in chef_lines:
            if '@' in line:
                email = line.strip()
                break
        
        # Append the formatted information
        data_lines.append(dept_info)
        data_lines.append(f"Chef {chef_dept}")
        data_lines.append(f"Email {email}")

    # If file_path is not provided, print the data
    if file_path is None:
        for line in data_lines:
            print(line)
        return

    # Write the content to the file
    with open(file_path, 'a', encoding='utf-8') as file:
        for line in data_lines:
            file.write(line + '\n')
        print(f"Data saved to {file_path}")


In [57]:
# Define the URL
url = "https://fstt.ac.ma/Portail2023/les-departement/"

# Call the function to save the content to a file
departement(url)

departement : GÉNIE INFORMATIQUE
Chef Chef : Pr.EL BRAK Mohamed
Email melbrak@uae.ac.ma
departement : GÉNIE CHIMIQUE
Chef Chef : Pr.CHABBI Mohamed
Email mchabbi@uae.ac.ma
departement : SCIENCES DE LA TERRE
Chef Chef : Pr.BOULAASSAL Hakim
Email h.boulaassal@uae.ac.ma
departement : GÉNIE MÉCANIQUE
Chef Chef : Pr.ELAYACHI Ilham
Email i.elayachi@uae.ac.ma
departement : SCIENCES DE LA VIE
Chef Chef : Pr.HASSANI ZERROUK Mounir
Email : mhassani@uae.ac.ma
departement : GÉNIE ELECTRIQUE
Chef Chef : Pr.HADJ BARAKA Ibrahim
Email ihadjbaraka@uae.ac.ma
departement : TEC
Chef Chef : Pr.OUCHEN MOHAMED
Email mouchen@uae.ac.ma
departement : PHYSIQUE
Chef Chef  : Pr.AJDOUR Mounia
Email majdour@uae.ac.ma
departement : MATHÉMATIQUES
Chef Chef : Pr.EL HALIMI RACHID
Email r.elhalimi@uae.ac.ma


In [58]:
departement(url,"FSTT_DATA.txt")

Data saved to FSTT_DATA.txt


# as a JSON file

In [59]:
import json
def presentation_Fstt(url):
    soup = fetch_page(url)
    if not soup:
        return {}

    presentation_data = {}
    content = []

    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')
    if target_div:
        text_content = target_div.get_text(separator='\n').strip()
        content.append({"PRESENTATION DE LA FST DE TANGER & DIAGNOSIQUE": text_content})

    # Collecting other sections
    sections = [
        "Formation Initiale",
        "Formation continue",
        "Recherche scientifique",
        "Fablab Green Lab",
        "Les clubs des Etudiants"
    ]

    for section in sections:
        section_div = soup.find('div', id=f'{section.lower().replace(" ", "-")}-tab')
        if section_div:
            text_content = section_div.get_text(separator='\n').strip()
            content.append({section: text_content})

    presentation_data["presentation FSTT"] = content

    contact_div = soup.find('div', class_='elementor-widget-container')
    if contact_div:
        phone_span = contact_div.find('span', class_='elementor-icon-list-icon').find_next('span', class_='elementor-icon-list-text')
        email_span = contact_div.find('span', class_='elementor-icon-list-icon').find_next('span', class_='elementor-icon-list-text')
        
        phone = phone_span.get_text(strip=True) if phone_span else "Phone number not found."
        email = email_span.get_text(strip=True) if email_span else "Email not found."

        presentation_data["Contact"] = {
            "Phone": phone,
            "Email": email
        }
    
    return presentation_data

def mot_doyen(url):
    soup = fetch_page(url)
    if not soup:
        return {}

    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')
    if target_div:
        text_content = target_div.get_text(separator='\n').strip()
        return {"mot_doyen": text_content}
    else:
        return {}

def conseil_etablissement(url):
    soup = fetch_page(url)
    if not soup:
        return {}

    conseil_data = {}

    target_div = soup.find('div', class_='elementor-text-editor elementor-clearfix')
    if target_div:
        paragraph_text = target_div.get_text(separator='\n').strip()
        conseil_data["Conseil de l’établissement"] = paragraph_text

    table = soup.find('table', class_='tablesorter eael-data-table center')
    if table:
        table_data = {}
        rows = table.find_all('tr')
        for row in rows[1:]:  # Skip header row
            cols = row.find_all('td')
            cols = [ele.get_text(strip=True) for ele in cols]
            if len(cols) == 2:
                table_data[cols[0]] = cols[1]
        conseil_data["Conseil de l’établissement Members"] = table_data

    return conseil_data

def departement(url):
    soup = fetch_page(url)
    if not soup:
        return {}

    department_data = {}

    content_divs = soup.find_all('div', class_='elementor-cta__content')
    if not content_divs:
        return {}

    for div in content_divs:
        department = div.find('h3', class_='elementor-cta__title').get_text(strip=True)
        chef_info = div.find('div', class_='elementor-cta__description').get_text(separator='\n', strip=True)
        chef_lines = chef_info.split('\n')
        chef_dept = chef_lines[0]
        email = next((line.strip() for line in chef_lines if '@' in line), '')

        department_data[department] = {
            "Chef": chef_dept,
            "Email": email
        }

    return {"departement": department_data}

def save_as_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as file:
        json.dump(data, file, ensure_ascii=False, indent=4)

# URLs
presentation_url = "https://fstt.ac.ma/Portail2023/presentation/"
mot_doyen_url = "https://fstt.ac.ma/Portail2023/mot-du-doyen/"
conseil_etablissement_url = "https://fstt.ac.ma/Portail2023/conseil-de-letablissement/"
departement_url = "https://fstt.ac.ma/Portail2023/les-departement/"

# Collecting data
data = {
    "FSTT": {
        **presentation_Fstt(presentation_url),
        **mot_doyen(mot_doyen_url),
        **conseil_etablissement(conseil_etablissement_url),
        **departement(departement_url)
    }
}

# Saving data to a JSON file
save_as_json(data, "FSTT_DATA.json")