In [None]:
import requests
import pdfplumber
import pandas as pd

In [None]:
# URL du PDF à télécharger
url = "https://www.iledefrance-mobilites.fr/medias/portail-idfm/da6142b2-d07c-474a-8aff-18c3cb9e0291_Contrat+IDFM_SNCF_Annexes_VDef_HorsConfidentielles.pdf"

# Nom du fichier local où le PDF sera enregistré
pdf_filename = "contrat_idfm_sncf.pdf"

# Étape 1 : Télécharger le fichier PDF
response = requests.get(url)
if response.status_code == 200:
    with open(pdf_filename, 'wb') as f:
        f.write(response.content)
    print(f"Le fichier PDF a été téléchargé et enregistré sous le nom : {pdf_filename}")
else:
    print(f"Erreur lors du téléchargement du PDF. Statut: {response.status_code}")

In [None]:
# Étape 2 : Ouvrir le fichier PDF et extraire les tableaux des pages 392 et 393
with pdfplumber.open(pdf_filename) as pdf:
    # Extraire les pages 392 et 393 (index starts from 0, so 391 and 392)
    page_392 = pdf.pages[167]
    page_393 = pdf.pages[168]

    # Extraire les tableaux
    tables_392 = page_392.extract_tables()
    tables_393 = page_393.extract_tables()

In [None]:
# Étape 3 : Manipuler les données extraites
if tables_392 and tables_393:
    df_392 = pd.DataFrame(tables_392[0])
    df_393 = pd.DataFrame(tables_393[0])

    # Concaténer les deux tables
    df_total = pd.concat([df_392, df_393], ignore_index=True)

    # Afficher le tableau final
    #print(df_total)

    # Sauvegarder en fichier Excel
    df_total.to_excel('tableau_extrait.xlsx', index=False)
    print("Le tableau a été extrait et enregistré dans 'tableau_extrait.xlsx'.")
else:
    print("Impossible d'extraire des tableaux des pages spécifiées.")


In [None]:
df_total

In [None]:
import pandas as pd

# Data simulée pour répliquer le tableau fourni
data = [
    ["Thématiques", None, "Montant (M€)", None, "poids de la thématique", None, "Indicateurs", None, "Montant (k€)", None, "poids de l’indicateur", None, "Maille et périodicité de l’indicateur"],
    [None, "Thématiques", None, "dans le système QS*", None, None, None, None, None, None, None, None, None],
    ["Qualité de l’offre / Ponctualité", None, 50, None, "50%", "Cf ANNEXE I-A-8", None, 50_000, None, "50%", "Cf ANNEXE I-A-8", "Cf ANNEXE I-A-8"],
    ["Information voyageurs", None, 12, None, "12,0%", "Information statique en gare/station", None, 1_200, None, "10%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information statique à bord", None, 1_200, None, "10%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information dynamique en gare/station", None, 2_400, None, "20%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information dynamique à bord", None, 2_400, None, "20%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information en cas de travaux", None, 1_200, None, "10%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information en cas de grèves", None, 1_200, None, "10%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Information en situation perturbée", None, 2_400, None, "20%", "Ligne", "Mensuelle"],
    ["Vente / validations", None, 4, None, "4,0%", "Fonctionnement des automates de ventes", None, 1_000, None, "25%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Disponibilité des équipements de validation", None, 1_000, None, "25%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Efficacité des lignes de CAB", None, 2_000, None, "50%", "Ligne", "Mensuelle"],
    ["Elévatique", None, 3, None, "3,0%", "Escaliers mécaniques : disponibilité", None, 900, None, "30%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Escaliers mécaniques : délai de remise en service", None, 450, None, "15%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Escaliers mécaniques : affichage date de remise en service", None, 150, None, "5%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Ascenseurs : disponibilité", None, 900, None, "30%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Ascenseurs : délai de remise en service", None, 450, None, "15%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Ascenseurs : affichage date de remise en service", None, 150, None, "5%", "Ligne", "Mensuelle"],
    ["Propreté", None, 3, None, "3,0%", "Propreté des gares", None, 1_500, None, "50%", "Ligne", "Trimestrielle"],
    [None, None, None, None, None, "Propreté des trains", None, 1_500, None, "50%", "Ligne", "Trimestrielle"],
    ["Contact voyageurs", None, 2, None, "2,0%", "Qualité du contact voyageurs en gare", None, 400, None, "20%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Qualité du contact voyageurs à distance", None, 400, None, "20%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Délai du contact voyageurs en gare (5mn) et à distance (1mn)", None, 1_200, None, "60%", "Ligne", "Mensuelle"],
    ["Sûreté", None, 0.5, None, "0,5%", "Disponibilité des bornes d’alarme", None, 250, None, "50%", "Ligne", "Mensuelle"],
    [None, None, None, None, None, "Disponibilité des équipements de vidéoprotection", None, 250, None, "50%", "Ligne", "Mensuelle"],
    ["Noctilien", 0.5, "0,5%", "Information statique aux points d'arrêt", 30, "6%", "Transilien", "Annuelle"],
    [None, None, None, "Information statique à bord", 30, "6%", "Transilien", "Annuelle"],
    [None, None, None, "Information dynamique à bord", 30, "6%", "Transilien", "Annuelle"],
    [None, None, None, "Information en situation perturbée prévue", 60, "12%", "Transilien", "Annuelle"],
    [None, None, None, "Arrêt aux trottoirs", 75, "15%", "Transilien", "Annuelle"],
    [None, None, None, "Disponibilité des plateformes élévatrices", 20, "4%", "Transilien", "Annuelle"],
    [None, None, None, "Propreté des véhicules", 75, "15%", "Transilien", "Annuelle"],
    [None, None, None, "Qualité du contact voyageurs", 180, "36%", "Transilien", "Annuelle"],
    ["Perception des voyageurs", 25, "25%", "Enquête perception", 25_000, "100%", "Ligne", "Annuelle"]
]

# Convertir les données en DataFrame
df = pd.DataFrame(data)

# Nettoyer les données en supprimant les lignes vides et réindexer
df_clean = df.dropna(how='all')  # Supprimer les lignes contenant uniquement des NaN
df_clean.columns = ["Thématiques", None, "Montant (M€)", None, "Poids de la thématique", None, "Indicateurs", None, "Montant (k€)", None, "Poids de l’indicateur", None, "Maille et périodicité"]

# Affichage du DataFrame nettoyé
print(df_clean)

# Sauvegarder en fichier Excel si nécessaire
df_clean.to_excel("tableau_nettoye.xlsx", index=False)


In [None]:
df_clean

In [1]:
import openai 
import os 

#os.environ.get("OPENAI_API_KEY")
#print(os.environ.get("OPENAI_API_KEY"))

openai.api_key = os.getenv("OPENAI_API_KEY")


In [2]:
print(openai.api_key)

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


In [4]:
from openai import OpenAI
client = OpenAI()

completion = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": "Write a haiku about recursion in programming."
        }
    ]
)

print(completion.choices[0].message)

RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}