In [1]:
pip install camelot-py[cv]

Collecting camelot-py[cv]
  Downloading camelot_py-1.0.9-py3-none-any.whl.metadata (9.8 kB)
Collecting pdfminer-six>=20240706 (from camelot-py[cv])
  Downloading pdfminer_six-20251107-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdf<6.0,>=4.0 (from camelot-py[cv])
  Downloading pypdf-5.9.0-py3-none-any.whl.metadata (7.1 kB)
Collecting pypdfium2>=4 (from camelot-py[cv])
  Downloading pypdfium2-5.0.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (67 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.9/67.9 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
Downloading pdfminer_six-20251107-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m23.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pypdf-5.9.0-py3-none-any.whl (313 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m313.2/313.2 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pypdfium2-5.0.0-py3-none-manyli

In [3]:
import camelot
import pandas as pd

# 1. Extraire les tableaux
tables = camelot.read_pdf("/content/acronyms-adult-adolescent-arv.pdf", pages="all")

print(f"{tables.n} tableaux trouvés")

# 2. Exporter chaque tableau en CSV
for i, table in enumerate(tables):
    table.df.to_csv(f"table_{i+1}.csv", index=False)

# 3. Exporter en un seul fichier Excel
with pd.ExcelWriter("tables_extraits.xlsx") as writer:
    for i, table in enumerate(tables):
        table.df.to_excel(writer, sheet_name=f"table_{i+1}", index=False)


11 tableaux trouvés


In [4]:
import pandas as pd

# Charger le fichier contenant les 11 feuilles
file_path = "/content/tables_extraits.xlsx"

# Lire toutes les feuilles
all_sheets = pd.read_excel(file_path, sheet_name=None, header=None)

# -----------------------------
# 1. Récupérer les en-têtes (noms de colonnes)
# -----------------------------

# La première feuille
first_sheet = list(all_sheets.values())[0]

# La première ligne de la première feuille = noms de colonnes
new_columns = first_sheet.iloc[0].tolist()

# -----------------------------
# 2. Construire un tableau unique
# -----------------------------
frames = []

for name, df in all_sheets.items():

    # Enlever la 1ère ligne (ligne des titres)
    df = df.iloc[1:].reset_index(drop=True)

    # Appliquer les noms de colonnes
    df.columns = new_columns

    # Ajouter à la liste
    frames.append(df)

# -----------------------------
# 3. Concaténer toutes les feuilles
# -----------------------------
df_final = pd.concat(frames, ignore_index=True)

# -----------------------------
# 4. Sauvegarder en nouveau Excel
# -----------------------------
df_final.to_excel("tables_concat.xlsx", index=False)

print(" Fichier créé : tables_concat.xlsx")


✅ Fichier créé : tables_concat.xlsx


In [5]:
import pandas as pd

# Charger le fichier final
df = pd.read_excel("/content/tables_concat.xlsx", header=None)

# 1. La première ligne devient les noms de colonnes
df.columns = df.iloc[0]

# 2. Supprimer la première ligne
df = df.iloc[1:].reset_index(drop=True)

# 3. Sauvegarder proprement
df.to_excel("tables_concat_clean.xlsx", index=False)

print("Fichier nettoyé : tables_concat_clean.xlsx")


Fichier nettoyé : tables_concat_clean.xlsx


In [6]:
import pandas as pd

# Charger le fichier
df = pd.read_excel("/content/tables_concat.xlsx", header=None)

# La première ligne devient les noms de colonnes
df.columns = df.iloc[0]

# Supprimer la première ligne
df = df.iloc[1:].reset_index(drop=True)

# Mettre la première colonne comme index
df.set_index(df.columns[0], inplace=True)

# Sauvegarder
df.to_excel("tables_concat_clean.xlsx")

print("Fichier nettoyé : tables_concat_clean.xlsx")


Fichier nettoyé : tables_concat_clean.xlsx


In [12]:
import pandas as pd

# Charger le fichier Excel sans header
df = pd.read_excel("/content/tables_concat.xlsx", header=None)

# Mettre la première ligne comme noms de colonnes
df.columns = df.iloc[0]

# Supprimer la première ligne du DataFrame
df = df.iloc[1:]

# Sauvegarder le fichier sans colonne d'index
df.to_excel("tables_concat_clean.xlsx", index=False)

print("Fichier nettoyé : tables_concat_clean11.xlsx")


Fichier nettoyé : tables_concat_clean11.xlsx


In [13]:
import pandas as pd

# Charger le fichier Excel sans header
df = pd.read_excel("/content/tables_concat.xlsx", header=None)

In [14]:
df

Unnamed: 0,0,1
0,0,1
1,Abbreviation,Definition
2,3TC,lamivudine
3,ABC,abacavir
4,ATV,atazanavir
...,...,...
320,START,Strategic Timing of AntiRetroviral Treatment
321,TEMPRANO,Early Antiretroviral Treatment and/or Early Is...
322,THRIVE,Targeting HIV Retention and Improved Viral Loa...
323,VACS,Veterans Aging Cohort Study


In [15]:
# Prendre la deuxième ligne comme header
df.columns = df.iloc[1]  # La ligne 1 devient header
df = df.iloc[2:]          # On supprime les lignes inutiles au-dessus

# Réinitialiser l'index
df = df.reset_index(drop=True)

In [16]:
# Sauvegarder le dataframe en fichier Excel
df.to_excel("medicaments_acronym.xlsx", index=False)