# Projet de lois 
Les projets de lois sont déposées par le gouvernement 

URL type des projets de lois 
https://www.assemblee-nationale.fr/dyn/15/textes/l15b4324_projet-loi#

In [572]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.assemblee-nationale.fr/dyn/opendata/PRJLANR5L15B4324.html'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
name = soup.find('style="font-variant:small-caps"', text='au nom de M. Jean CASTEX')
if name:
    next_sibling = name.find_next_sibling()
    if next_sibling:
        name = next_sibling.text
        print(name)
    else:
        print("Next sibling element not found")
else:
    print("Element not found")





Element not found


## Scraping des projets de lois


URL type 

https://www.assemblee-nationale.fr/dyn/15/textes/l15bXXXX_projet-loi#

### 1. Récupération des numéro de projets de lois, date et exposée des motifs

In [None]:
import os
import pandas as pd
from bs4 import BeautifulSoup
import requests
import time
from tqdm import tqdm

class TextInformation:
    def __init__(self, url):
        self.url = url
        response = requests.get(self.url)
        self.soup = BeautifulSoup(response.text, 'html.parser', from_encoding='utf-8')
    
    def get_information(self):
        information = self.soup.find('span', {'style': 'vertical-align:3pt'})

        if information:
            next_sibling = information.next_sibling
            try:
                return next_sibling.strip()
            except AttributeError:
                return "No next sibling found"
        else:
            return "Element not found"

    
    def get_date(self):
        date = self.soup.find('p', {'class': 'assnatenregistr'})

        if date:
            date_text = date.text.strip()
            words = date_text.split(" ")
            day = words[-3]
            month = words[-2]
            year = words[-1]
            return f"{day} {month} {year}"
        else:
            return "Element not found"
    
    def get_texts(self):
        texts = self.soup.find_all('p', {'class': 'assnatLoiTexte'})
        if texts:
            return [text.text.strip() for text in texts]
        else:
            return "Elements not found"
            
def clean_data(input_file, output_file):
    # lecture des données
    data = pd.read_csv(input_file)
    to_analz = data.replace(regex=[r'\\xa0'], value=' ')
    
    # suppression du fichier existant s'il existe
    if os.path.exists(output_file):
        os.remove(output_file)

    # enregistrement des données nettoyées dans un nouveau fichier csv
    to_analz.to_csv(output_file, index=False, encoding='utf-8-sig')

def main(urls):
    start_time = time.time()
    result = []
    with tqdm(total=len(urls), bar_format='{bar}') as pbar:
        for url in urls:
            pbar.update(1)
            print("Processing: ", url)
            text_info = TextInformation(url)
            information = text_info.get_information()
            if information == "Element not found":
                continue
            date = text_info.get_date()
            texts = text_info.get_texts()
            result.append([information, date, texts])

    df = pd.DataFrame(result, columns=['Information', 'Date', 'Texts'])
    df = df.replace(regex=[r'\\xa0'], value=' ')
    
    # suppression du fichier existant s'il existe
    if os.path.exists('raw_data.csv'):
        os.remove('raw_data.csv')

    # enregistrement des données dans un fichier csv
    df.to_csv('raw_data.csv', index=False, encoding='utf-8-sig')
    
    # nettoyage des données et enregistrement dans un nouveau fichier csv
    clean_data('raw_data.csv', 'to_analz.csv')
    
    elapsed_time = time.time() - start_time
    elapsed_time_minutes = round(elapsed_time / 60, 1)
    print("--- %s minutes ---" % (elapsed_time_minutes))



urls = [f"https://www.assemblee-nationale.fr/dyn/opendata/PRJLANR5L15B{i:04d}.html" for i in range(0, 5200) if i != 3651]
main(urls)



### 2. Récupération des articles

In [28]:
# Importer les bibliothèques nécessaires
from bs4 import BeautifulSoup
import requests

# Obtenir le contenu HTML de la page web

response = requests.get(url)
html_content = response.text

# Analyser le contenu HTML avec BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

# Trouver la balise <div class="assnatSection3">
section3 = soup.find('div', {'class': 'assnatSection3'})

# Récupérer tout le texte contenu dans la balise
texte = section3.text

# Afficher le texte récupéré
print(texte)





– 1 –



projet de loi


				Le Premier ministre,
			

				Sur le rapport de la ministre des solidarités et de la santé,
			

				Vu l’article 39 de la Constitution,
			

				Décrète :
			

Le présent projet de loi ratifiant l’ordonnance n° 2017‑484 du 6 avril 2017 relative à la création d’organismes dédiés à l’exercice de l’activité de retraite professionnelle supplémentaire et à l’adaptation des régimes de retraite supplémentaire en unités de rente, délibéré en conseil des ministres après avis du Conseil d’État, sera présenté à l’Assemblée nationale par le ministre de l’économie et des finances, qui sera chargé d’en exposer les motifs et d’en soutenir la discussion.
			




Article 1er


				L’ordonnance n° 2017‑484 du 6 avril 2017 relative à la création d’organismes dédiés à l’exercice de l’activité de retraite professionnelle supplémentaire et à l’adaptation des régimes de retraite supplémentaire en unités de rente est ratifiée.
			

Article 2


Le chapitre III du titre II du li