## Installation de bibliotheques 

**pip install beautifulsoup4**

**pip install requests**

**pip install PyPDF2**

**pip install pdfplumber**


In [21]:
import requests
from bs4 import BeautifulSoup
import sqlite3
import time
from datetime import datetime

import pdfplumber
import re, io
import PyPDF2
from io import BytesIO
import os

import time
from threading import Timer


## 1. Scraper les articles bioRxiv liés à la bioinformatique 

Parcourir les articles de la collection Bioinformatics , scraper 10 pages à chaque exécution . (run toutes les semaines puisque new articles se mette en page 1)

In [None]:

url = 'https://www.biorxiv.org'

# Créer la base de données SQLite "bioinformatics_articles"
database = sqlite3.connect('bioinformatics_articles.db')
c = database.cursor()

# Créer la table 'articles' si elle n'existe pas
c.execute('''CREATE TABLE IF NOT EXISTS articles
             (id INTEGER PRIMARY KEY AUTOINCREMENT,
             title TEXT, 
             link TEXT,
             doi TEXT UNIQUE,
             date TEXT,
             pdf_link TEXT,
             abstract TEXT)''')

# Nombre de pages à scraper (exemple : 10 pages à la fois)
total_pages = 10

# Boucle qui parcourt chaque page de la collection Bioinformatics
for page in range(1, total_pages + 1):
    print(f"Scraping page {page} sur {total_pages}")

    # Requête qui récupère la page bioinfo actuelle
    response = requests.get(f'{url}/collection/bioinformatics?page={page}')
    soup = BeautifulSoup(response.content, 'html.parser')

    # Trouver les liens vers les articles sur cette page
    articles = soup.find_all('a', class_='highwire-cite-linked-title')

    print(f'Nombre total d\'articles trouvés sur la page {page} : {len(articles)}')

    # Parcourir tous les articles de la page et enregistrer leurs titres et liens
    for article in articles:
        title = article.text.strip()
        link = url + article['href']

        # Requête pour accéder à la page de l'article
        article_response = requests.get(link)
        article_soup = BeautifulSoup(article_response.content, 'html.parser')

        # Extraire le DOI
        doi_tag = article_soup.find('meta', {'name': 'citation_doi'})
        doi = doi_tag['content'] if doi_tag else 'DOI non disponible'

        # Extraire la date de publication
        date_tag = article_soup.find('meta', {'name': 'citation_publication_date'})
        date = date_tag['content'] if date_tag else 'Date non disponible'
        if date != 'Date non disponible':
            date = date.replace('/', '-')  # Remplacer '/' par '-'
            date = datetime.strptime(date, '%Y-%m-%d').date().isoformat()

        # Extraire le lien vers le fichier PDF
        pdf_links = article_soup.find_all('a')
        pdf_link = next((url + pdf['href'] for pdf in pdf_links if 'PDF' in pdf.text and pdf['href'].endswith('.pdf')), 'Lien PDF non disponible')

        # Extraire l'abstract
        abstract_tag = article_soup.find('meta', {'name': 'citation_abstract'})
        clean_abstract = abstract_tag['content'] if abstract_tag else 'Abstract non disponible'

        # Supprimer les balises <p> au début et à la fin de l'abstract
        if clean_abstract.startswith('<p>'):
            clean_abstract = clean_abstract[3:]  # Supprimer les 3 premiers caractères
        if clean_abstract.endswith('</p>'):
            clean_abstract = clean_abstract[:-4]  # Supprimer les 4 derniers caractères

        # Insérer dans la base de données SQLite
        c.execute("SELECT * FROM articles WHERE doi = ? AND date = ?", (doi, date))
        result = c.fetchone()

        if result:
            print(f"L'article avec DOI {doi} existe déjà, ignoré.")
        else:
            c.execute("INSERT INTO articles (title, link, doi, date, pdf_link, abstract) VALUES (?, ?, ?, ?, ?, ?)", 
                      (title, link, doi, date, pdf_link, clean_abstract))
            print(f"Article ajouté : {title}")

        time.sleep(1)

    # Sauvegarder les modifications dans la base de données après chaque page
    database.commit()
    
database.close()

## 2. Extraction des URLs des Dépôts Logiciels


1.	Vérification et ajout des colonnes nécessaires dans la base de données.

2.	Validation des liens pour s’assurer qu’ils sont valides et pertinents.

3.	Vérification de l’accessibilité des URLs via des requêtes HTTP.

4.	Extraction des URLs des dépôts à partir des contenus des PDF et des abstracts.

5.	Traitement des nouveaux articles non encore traités pour l’extraction.


Les articles qui ont été vérifiés, mais sans trouver de liens logiciels, seront mis à jour avec is_article_processed = 2. Cela permet de ne pas les vérifier à nouveau lors des exécutions futures.---> Le script ne traite que les articles où is_article_processed = 0. Cela évite de revérifier les articles déjà traités.

In [None]:
import sqlite3
import requests
import re
import pdfplumber
import io
import time

# Connexion à la base de données SQLite
database = sqlite3.connect('bioinformatics_articles.db')
c = database.cursor()

# Vérifier et ajouter les colonnes software_links et is_article_processed si elles n'existent pas
try:
    c.execute("ALTER TABLE articles ADD COLUMN software_links TEXT")
except sqlite3.OperationalError:
    pass  # La colonne existe déjà

try:
    c.execute("ALTER TABLE articles ADD COLUMN is_article_processed INTEGER DEFAULT 0")
except sqlite3.OperationalError:
    pass  # La colonne existe déjà

# Fonction pour vérifier si un lien est valide et s'il est un lien GitHub ou GitLab
def is_valid_link(link):
    return link.startswith('http://') or link.startswith('https://')

def is_github_or_gitlab(link):
    return 'github.com' in link or 'gitlab.com' in link

# Fonction pour nettoyer les liens partiels ou incorrects
def clean_link(link):
    link = link.strip(').;,[]')  # Supprimer les caractères indésirables
    if is_valid_link(link) and len(link) > len('https://github.com/'):
        return link
    return None

# Fonction pour tester la validité des URLs via une requête HTTP
def check_url_validity(link):
    try:
        response = requests.get(link, timeout=10)
        if response.status_code == 200:
            print(f"Le lien est valide : {link}")
            return True
        else:
            print(f"Le lien a retourné un code de statut {response.status_code} pour : {link}")
            return False
    except requests.RequestException:
        print(f"Erreur lors de la vérification du lien : {link}")
        return False

# Fonction pour extraire les URLs des dépôts logiciels
def extract_repository_urls(text):
    url_pattern = r'(https?://[^\s]+)'
    urls = re.findall(url_pattern, text)
    repo_urls = []

    for url in urls:
        cleaned_url = clean_link(url)
        if cleaned_url and is_github_or_gitlab(cleaned_url):
            if check_url_validity(cleaned_url):  # Vérification de l'URL avant de l'ajouter
                repo_urls.append(cleaned_url)

    return repo_urls

# Fonction pour extraire les liens de dépôt logiciel
def extract_software_links(article_id, pdf_link, abstract):
    software_links_set = set()

    # Extraction des liens depuis le PDF
    if pdf_link and pdf_link != 'Lien PDF non disponible':
        try:
            print(f"Ouverture du PDF pour l'article {article_id}: {pdf_link}")
            response = requests.get(pdf_link)
            response.raise_for_status()

            with pdfplumber.open(io.BytesIO(response.content)) as pdf:
                print(f"Le PDF a été ouvert avec succès pour l'article {article_id}. Recherche de liens...")
                for page in pdf.pages:
                    text = page.extract_text()
                    if text:
                        links_from_pdf = extract_repository_urls(text)
                        if links_from_pdf:
                            software_links_set.update(links_from_pdf)
                            print(f"Liens trouvés dans le PDF pour l'article {article_id} : {links_from_pdf}")

        except Exception as e:
            print(f"Erreur lors de l'ouverture du PDF pour l'article {article_id}: {e}")

    # Extraction des liens depuis l'abstract
    if abstract and abstract != 'Abstract non disponible':
        print(f"Vérification de l'abstract pour l'article {article_id}.")
        links_from_abstract = extract_repository_urls(abstract)
        if links_from_abstract:
            software_links_set.update(links_from_abstract)
            print(f"Liens trouvés dans l'abstract pour l'article {article_id} : {links_from_abstract}")

    valid_links = [clean_link(link) for link in software_links_set if clean_link(link) and is_github_or_gitlab(link)]

    # Mise à jour de la base de données selon la présence ou non de liens valides
    if valid_links:
        print(f"Liens de dépôt logiciel valides pour l'article {article_id} : {valid_links}")
        c.execute("UPDATE articles SET software_links = ?, is_article_processed = 1 WHERE id = ?", (', '.join(valid_links), article_id))
    else:
        print(f"Aucun lien de dépôt logiciel trouvé pour l'article {article_id}.")
        c.execute("UPDATE articles SET is_article_processed = 2 WHERE id = ?", (article_id,))

    # Enregistrer les modifications dans la base de données
    database.commit()
    time.sleep(1)

# Fonction pour traiter uniquement les nouveaux articles non traités (is_article_processed = 0)
def process_new_articles():
    c.execute("SELECT id, title, pdf_link, abstract FROM articles WHERE is_article_processed = 0")
    articles_to_process = c.fetchall()

    # Vérifier s'il y a des articles à traiter
    if not articles_to_process:
        print("Aucun article à traiter.")
    else:
        print(f"{len(articles_to_process)} article(s) trouvé(s) à traiter.")

    for article in articles_to_process:
        article_id, title, pdf_link, abstract = article
        print(f"Traitement de l'article : {title} (ID: {article_id})...")
        extract_software_links(article_id, pdf_link, abstract)

# Appel de la fonction principale
try:
    process_new_articles()
except KeyboardInterrupt:
    print("Traitement interrompu. Les données sont sauvegardées.")
finally:
    database.close()

Utiliser ce code lorsqu'un article avec un temps de recherche dans le pdf trop long ,timer définit a 5min et passe après a l'abstract 

In [None]:
import sqlite3
import requests
import re
import pdfplumber
import io
import time
from threading import Timer

# Connexion à la base de données SQLite
database = sqlite3.connect('bioinformatics_articles.db')
c = database.cursor()

# Vérifier et ajouter les colonnes software_links et is_article_processed si elles n'existent pas
try:
    c.execute("ALTER TABLE articles ADD COLUMN software_links TEXT")
except sqlite3.OperationalError:
    pass  # La colonne existe déjà

try:
    c.execute("ALTER TABLE articles ADD COLUMN is_article_processed INTEGER DEFAULT 0")
except sqlite3.OperationalError:
    pass  # La colonne existe déjà

# Fonction pour vérifier si un lien est valide et s'il est un lien GitHub ou GitLab
def is_valid_link(link):
    return link.startswith('http://') or link.startswith('https://')

def is_github_or_gitlab(link):
    return 'github.com' in link or 'gitlab.com' in link

# Fonction pour nettoyer les liens partiels ou incorrects
def clean_link(link):
    link = link.strip(').;,[]')  # Supprimer les caractères indésirables
    if is_valid_link(link) and len(link) > len('https://github.com/'):
        return link
    return None

# Fonction pour tester la validité des URLs via une requête HTTP
def check_url_validity(link):
    try:
        response = requests.get(link, timeout=10)
        if response.status_code == 200:
            print(f"Le lien est valide : {link}")
            return True
        else:
            print(f"Le lien a retourné un code de statut {response.status_code} pour : {link}")
            return False
    except requests.RequestException:
        print(f"Erreur lors de la vérification du lien : {link}")
        return False

# Fonction pour extraire les URLs des dépôts logiciels
def extract_repository_urls(text):
    url_pattern = r'(https?://[^\s]+)'
    urls = re.findall(url_pattern, text)
    repo_urls = []

    for url in urls:
        cleaned_url = clean_link(url)
        if cleaned_url and is_github_or_gitlab(cleaned_url):
            if check_url_validity(cleaned_url):  # Vérification de l'URL avant de l'ajouter
                repo_urls.append(cleaned_url)

    return repo_urls

# Fonction pour extraire les liens de dépôt logiciel
def extract_software_links(article_id, pdf_link, abstract):
    software_links_set = set()

    # Timer pour contrôler le temps d'attente
    timer = None
    
    def time_up():
        nonlocal timer
        print(f"Temps écoulé pour l'article {article_id}. Passage à l'abstract.")
        timer = None  # Annule le timer

    # Extraction des liens depuis le PDF
    if pdf_link and pdf_link != 'Lien PDF non disponible':
        timer = Timer(300, time_up)  # 60 secondes = 1 minute
        timer.start()

        try:
            print(f"Ouverture du PDF pour l'article {article_id}: {pdf_link}")
            response = requests.get(pdf_link)
            response.raise_for_status()

            with pdfplumber.open(io.BytesIO(response.content)) as pdf:
                print(f"Le PDF a été ouvert avec succès pour l'article {article_id}. Recherche de liens...")
                for page in pdf.pages:
                    if timer is None:  # Vérifie si le timer est toujours actif
                        text = page.extract_text()
                        if text:
                            links_from_pdf = extract_repository_urls(text)
                            if links_from_pdf:
                                software_links_set.update(links_from_pdf)
                                print(f"Liens trouvés dans le PDF pour l'article {article_id} : {links_from_pdf}")
                                break  # Sortir de la boucle si des liens sont trouvés
                    else:
                        print("Recherche dans le PDF abandonnée en raison du dépassement de temps.")
                        break

        except Exception as e:
            print(f"Erreur lors de l'ouverture du PDF pour l'article {article_id}: {e}")

        if timer is not None:
            timer.cancel()  # Annuler le timer si l'extraction a réussi

    # Extraction des liens depuis l'abstract
    if not software_links_set and abstract and abstract != 'Abstract non disponible':
        print(f"Vérification de l'abstract pour l'article {article_id}.")
        links_from_abstract = extract_repository_urls(abstract)
        if links_from_abstract:
            software_links_set.update(links_from_abstract)
            print(f"Liens trouvés dans l'abstract pour l'article {article_id} : {links_from_abstract}")

    valid_links = [clean_link(link) for link in software_links_set if clean_link(link) and is_github_or_gitlab(link)]

    # Mise à jour de la base de données selon la présence ou non de liens valides
    if valid_links:
        print(f"Liens de dépôt logiciel valides pour l'article {article_id} : {valid_links}")
        c.execute("UPDATE articles SET software_links = ?, is_article_processed = 1 WHERE id = ?", (', '.join(valid_links), article_id))
    else:
        print(f"Aucun lien de dépôt logiciel trouvé pour l'article {article_id}.")
        c.execute("UPDATE articles SET is_article_processed = 2 WHERE id = ?", (article_id,))

    # Enregistrer les modifications dans la base de données
    database.commit()
    time.sleep(1)

# Fonction pour traiter uniquement les nouveaux articles non traités (is_article_processed = 0)
def process_new_articles():
    c.execute("SELECT id, title, pdf_link, abstract FROM articles WHERE is_article_processed = 0")
    articles_to_process = c.fetchall()

    # Vérifier s'il y a des articles à traiter
    if not articles_to_process:
        print("Aucun article à traiter.")
    else:
        print(f"{len(articles_to_process)} article(s) trouvé(s) à traiter.")

    for article in articles_to_process:
        article_id, title, pdf_link, abstract = article
        print(f"Traitement de l'article : {title} (ID: {article_id})...")
        extract_software_links(article_id, pdf_link, abstract)

# Appel de la fonction principale
try:
    process_new_articles()
except KeyboardInterrupt:
    print("Traitement interrompu. Les données sont sauvegardées.")
finally:
    database.close()

##  FOR ME --> SUPPRIMER PLUS TARD : Affichage de mes articles dans la base de données 

In [None]:
#le faire en cas de soucis and need tout recommencer 
#c.execute("DROP TABLE IF EXISTS articles")

In [None]:
import sqlite3

# Connexion à la base de données SQLite
database = sqlite3.connect('bioinformatics_articles.db')
c = database.cursor()

# Fonction pour afficher les attributs de la table articles
def display_articles():
    # Exécuter une requête pour récupérer toutes les colonnes et enregistrements de la table articles
    c.execute("SELECT * FROM articles")
    
    # Récupérer les noms de colonnes
    column_names = [description[0] for description in c.description]
    
    # Afficher les noms des colonnes
    print(f"{' | '.join(column_names)}")
    print("-" * (len(column_names) * 4))  # Ligne de séparation
    
    # Récupérer et afficher tous les enregistrements
    for row in c.fetchall():
        print(' | '.join(map(str, row)))

# Appeler la fonction pour afficher les articles
display_articles()

# Fermer la connexion à la base de données
database.close()

# suite du projet  :

3.	Archivage via Software Heritage:

Utiliser l’API de Software Heritage pour vérifier si le dépôt logiciel est déjà archivé dans leur base de données. Si le dépôt n’est pas encore archivé, soumettre automatiquement une demande d’archivage via l’API.

--->Script 3 : lire la BDD, récupérer les URL, vérifier que le dépôt est archivé dans Software Heritage


In [42]:

# Fonction pour vérifier si un dépôt est déjà archivé sur Software Heritage
def check_archived(url):
    api_url = f"https://archive.softwareheritage.org/api/1/origin/{url}/"
    try:
        response = requests.get(api_url)
        if response.status_code == 200:
            print(f"Le dépôt {url} est déjà archivé.")
            return True
        else:
            print(f"Le dépôt {url} n'est pas encore archivé.")
            return False
    except Exception as e:
        print(f"Erreur inconnue lors de la vérification de {url}: {e}")
        return False

# Fonction pour soumettre un dépôt à l'archivage sur Software Heritage
def submit_for_archiving(url):
    api_url = "https://archive.softwareheritage.org/api/1/origin/save/"
    try:
        response = requests.post(api_url, json={"url": url})
        if response.status_code == 201:
            print(f"Le dépôt {url} a été soumis pour archivage avec succès.")
        else:
            print(f"Erreur lors de la soumission pour {url}: {response.status_code}")
    except Exception as e:
        print(f"Erreur lors de la soumission pour {url}: {e}")

# Connexion à la base de données SQLite
database = sqlite3.connect('bioinformatics_articles.db')
c = database.cursor()

# Récupérer les URLs des dépôts dans la base de données
c.execute("SELECT software_links FROM articles WHERE software_links IS NOT NULL")
urls = c.fetchall()

# Boucle pour vérifier et soumettre les dépôts à Software Heritage
for url_tuple in urls:
    # Extraire l'URL du tuple, et séparer si plusieurs URLs sont présentes
    url_list = url_tuple[0].split(', ')  # Séparer par virgule et espace
    for url in url_list:
        url = url.strip()  # Retirer les espaces en trop
        if not check_archived(url):
            submit_for_archiving(url)

# Fermer la connexion à la base de données
database.close()

Le dépôt https://github.com/Cai-Lab-at-University-of-Michigan/pySISF n'est pas encore archivé.
Erreur lors de la soumission pour https://github.com/Cai-Lab-at-University-of-Michigan/pySISF: 404
Le dépôt https://github.com/Cai-Lab-at-University-of-Michigan/SISF_CDN n'est pas encore archivé.
Erreur lors de la soumission pour https://github.com/Cai-Lab-at-University-of-Michigan/SISF_CDN: 404
Le dépôt https://github.com/Cai-Lab-at-University-of-Michigan/nTracer2 n'est pas encore archivé.
Erreur lors de la soumission pour https://github.com/Cai-Lab-at-University-of-Michigan/nTracer2: 404
Le dépôt https://github.com/camlab-bioml/genbait_reproducibility n'est pas encore archivé.
Erreur lors de la soumission pour https://github.com/camlab-bioml/genbait_reproducibility: 404
Le dépôt https://github.com/camlab-bioml/genbait n'est pas encore archivé.
Erreur lors de la soumission pour https://github.com/camlab-bioml/genbait: 404
Le dépôt https://github.com/Exscientia/ab-characterisation n'est pas e

KeyboardInterrupt: 