### Filtrage des chapitres qui font mention d'un g√®ne mitochondrial 

In [1]:
import pandas as pd

genereviews_chapter = pd.read_csv("../data/public_db/genereviews/NBKid_shortname_genesymbol.txt", sep="\t") ##

In [2]:
print(genereviews_chapter)

        #NBK_id       GR_shortname genesymbol
0           NaN               zttk        SON
1       NBK1103  trimethylaminuria       FMO3
2       NBK1104               cdls       BRD4
3       NBK1104               cdls      HDAC8
4       NBK1104               cdls      NIPBL
...         ...                ...        ...
2412  NBK616086           ptps-def        PTS
2413  NBK616087                jmc      PTH1R
2414  NBK616232         cdkn2a-cpd     CDKN2A
2415  NBK617054     slc19a1-ft-def    SLC19A1
2416  NBK617444         tcirg1-opt     TCIRG1

[2417 rows x 3 columns]


#### Lecture des g√®nes mitocarta3

In [3]:
import json

json_path = "../data/pivot_output/mitocarta_pivot_full.json"
with open(json_path, "r", encoding="utf8") as f:
    mitocarta_pivot = json.load(f)

# R√©cup√©rer tous les HumanGeneID
mito_symbols = set()
for gene_id, gene_info in mitocarta_pivot.items():
    symbol = gene_info.get("symbol")
    if symbol:
        mito_symbols.add(symbol)

print("Nombre de g√®nes mitochondriaux :", len(mito_symbols))
print(list(mito_symbols)[:10])  # aper√ßu des 10 premiers symbols

Nombre de g√®nes mitochondriaux : 1136
['HSD17B4', 'BAD', 'FASTKD3', 'SPTLC2', 'ME2', 'GUF1', 'ATP5F1B', 'SLC25A5', 'NDUFA1', 'COA3']


### Filtrage des chapitres

In [4]:
mito_chapter_to_keep = set()
for _, row in genereviews_chapter.iterrows():
    gene = row["genesymbol"]
    chapter = row["#NBK_id"]

    if gene in mito_symbols:
        mito_chapter_to_keep.add(chapter)

print(mito_chapter_to_keep)
print(len(mito_chapter_to_keep))

{'NBK1328', 'NBK453432', 'NBK1252', 'NBK1527', 'NBK1490', 'NBK6816', 'NBK316514', 'NBK92947', 'NBK538658', 'NBK1165', 'NBK453433', 'NBK63582', 'NBK396257', 'NBK1138', 'NBK1195', 'NBK1155', 'NBK1173', 'NBK1107', 'NBK1319', 'NBK1281', 'NBK1473', 'NBK1353', 'NBK583531', 'NBK284774', 'NBK1216', 'NBK3794', 'NBK26471', 'NBK1434', 'NBK6852', 'NBK114807', 'NBK26472', 'NBK601614', 'NBK1409', 'NBK1233', 'NBK1237', 'NBK542806', 'NBK195853', 'NBK547304', 'NBK584020', 'NBK1450', 'NBK546575', 'NBK591557', 'NBK1253', 'NBK1168', 'NBK7040', 'NBK558236', 'NBK1509', 'NBK1242', 'NBK1375', 'NBK107219', 'NBK1204', 'NBK581082', 'NBK320989', 'NBK1365', 'NBK97260', 'NBK1224', 'NBK114628', 'NBK555473', 'NBK571223', 'NBK481904', 'NBK595820', 'NBK1506', 'NBK1221', 'NBK43417', 'NBK1417', 'NBK121284', 'NBK1478', 'NBK1174', 'NBK121988', 'NBK6803', 'NBK608563', 'NBK537720', 'NBK1548', 'NBK1486', 'NBK540959', 'NBK1231', 'NBK2692', 'NBK425540', 'NBK1283', 'NBK1223', 'NBK100826', 'NBK220444', 'NBK575630', 'NBK1217', 'NB

### Download

In [None]:
import subprocess
import os

# üìÇ Dossier de sortie pour stocker les PDF
output_dir = "../data/public_db/genereviews/genereviews_pdfs"
os.makedirs(output_dir, exist_ok=True)

# üîÑ T√©l√©chargement avec curl
for nbk_id in mito_chapter_to_keep:
    url = f"https://www.ncbi.nlm.nih.gov/books/{nbk_id}/pdf/Bookshelf_{nbk_id}.pdf"
    output_file = os.path.join(output_dir, f"Bookshelf_{nbk_id}.pdf")
    
    if not os.path.exists(output_file):  # √©vite de ret√©l√©charger
        print(f"T√©l√©chargement de {nbk_id} ...")
        try:
            subprocess.run(
                ["curl", "-L", "-o", output_file, url],
                check=True
            )
        except subprocess.CalledProcessError as e:
            print(f"‚ö†Ô∏è Erreur pour {nbk_id}: {e}")
    else:
        print(f"‚úîÔ∏è D√©j√† t√©l√©charg√© : {output_file}")

print("‚úÖ T√©l√©chargements termin√©s !")


T√©l√©chargement de NBK1328 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 1211k  100 1211k    0     0  1284k      0 --:--:-- --:--:-- --:--:-- 1283k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK453432 ...


100  439k  100  439k    0     0   423k      0  0:00:01  0:00:01 --:--:--  423k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1252 ...


100  539k  100  539k    0     0   614k      0 --:--:-- --:--:-- --:--:--  613k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1527 ...


100  590k  100  590k    0     0   574k      0  0:00:01  0:00:01 --:--:--  574k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1490 ...


100  536k  100  536k    0     0   580k      0 --:--:-- --:--:-- --:--:--  580k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK6816 ...


100  578k  100  578k    0     0   592k      0 --:--:-- --:--:-- --:--:--  592k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK316514 ...


100  935k  100  935k    0     0   828k      0  0:00:01  0:00:01 --:--:--  828k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK92947 ...


100  505k  100  505k    0     0   345k      0  0:00:01  0:00:01 --:--:--  345k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK538658 ...


100  473k  100  473k    0     0   502k      0 --:--:-- --:--:-- --:--:--  502k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1165 ...


100  333k  100  333k    0     0   394k      0 --:--:-- --:--:-- --:--:--  393k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK453433 ...


100  775k  100  775k    0     0   785k      0 --:--:-- --:--:-- --:--:--  785k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK63582 ...


100  424k  100  424k    0     0   516k      0 --:--:-- --:--:-- --:--:--  516k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK396257 ...


100  507k  100  507k    0     0   701k      0 --:--:-- --:--:-- --:--:--  700k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1138 ...


100  706k  100  706k    0     0   738k      0 --:--:-- --:--:-- --:--:--  738k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1195 ...


100  533k  100  533k    0     0   548k      0 --:--:-- --:--:-- --:--:--  547k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1155 ...


100  550k  100  550k    0     0   643k      0 --:--:-- --:--:-- --:--:--  644k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1173 ...


100  925k  100  925k    0     0   952k      0 --:--:-- --:--:-- --:--:--  951k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1107 ...


100  458k  100  458k    0     0   462k      0 --:--:-- --:--:-- --:--:--  462k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1319 ...


100  865k  100  865k    0     0   909k      0 --:--:-- --:--:-- --:--:--  908k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1281 ...


100  668k  100  668k    0     0   746k      0 --:--:-- --:--:-- --:--:--  746k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1473 ...


100  492k  100  492k    0     0   588k      0 --:--:-- --:--:-- --:--:--  587k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1353 ...


100  548k  100  548k    0     0   621k      0 --:--:-- --:--:-- --:--:--  621k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK583531 ...


100  615k  100  615k    0     0   711k      0 --:--:-- --:--:-- --:--:--  710k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK284774 ...


100  448k  100  448k    0     0   482k      0 --:--:-- --:--:-- --:--:--  481k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1216 ...


100  509k  100  509k    0     0   460k      0  0:00:01  0:00:01 --:--:--  461k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK3794 ...


100 1483k  100 1483k    0     0  1587k      0 --:--:-- --:--:-- --:--:-- 1586k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK26471 ...


100  684k  100  684k    0     0   730k      0 --:--:-- --:--:-- --:--:--  729k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1434 ...


100  723k  100  723k    0     0   751k      0 --:--:-- --:--:-- --:--:--  751k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK6852 ...


100  575k  100  575k    0     0   629k      0 --:--:-- --:--:-- --:--:--  629k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK114807 ...


100  567k  100  567k    0     0   639k      0 --:--:-- --:--:-- --:--:--  639k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK26472 ...


100  518k  100  518k    0     0   576k      0 --:--:-- --:--:-- --:--:--  576k


T√©l√©chargement de NBK601614 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  611k  100  611k    0     0   717k      0 --:--:-- --:--:-- --:--:--  717k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1409 ...


100  614k  100  614k    0     0   667k      0 --:--:-- --:--:-- --:--:--  666k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1233 ...


100  550k  100  550k    0     0   645k      0 --:--:-- --:--:-- --:--:--  645k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1237 ...


100  487k  100  487k    0     0   571k      0 --:--:-- --:--:-- --:--:--  571k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK542806 ...


100  498k  100  498k    0     0   571k      0 --:--:-- --:--:-- --:--:--  571k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK195853 ...


100  489k  100  489k    0     0   523k      0 --:--:-- --:--:-- --:--:--  523k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK547304 ...


100  461k  100  461k    0     0   506k      0 --:--:-- --:--:-- --:--:--  506k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK584020 ...


100  515k  100  515k    0     0   503k      0  0:00:01  0:00:01 --:--:--  503k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1450 ...


100  546k  100  546k    0     0   540k      0  0:00:01  0:00:01 --:--:--  540k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK546575 ...


100  588k  100  588k    0     0   709k      0 --:--:-- --:--:-- --:--:--  709k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK591557 ...


100  532k  100  532k    0     0   571k      0 --:--:-- --:--:-- --:--:--  570k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1253 ...


100  503k  100  503k    0     0   577k      0 --:--:-- --:--:-- --:--:--  577k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1168 ...


100  525k  100  525k    0     0   528k      0 --:--:-- --:--:-- --:--:--  528k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK7040 ...


100  492k  100  492k    0     0   473k      0  0:00:01  0:00:01 --:--:--  473k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK558236 ...


100  587k  100  587k    0     0   698k      0 --:--:-- --:--:-- --:--:--  698k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1509 ...


100  482k  100  482k    0     0   566k      0 --:--:-- --:--:-- --:--:--  565k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1242 ...


100  932k  100  932k    0     0  1120k      0 --:--:-- --:--:-- --:--:-- 1119k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1375 ...


100  500k  100  500k    0     0   532k      0 --:--:-- --:--:-- --:--:--  533k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK107219 ...


100  557k  100  557k    0     0   603k      0 --:--:-- --:--:-- --:--:--  603k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1204 ...


100  561k  100  561k    0     0   646k      0 --:--:-- --:--:-- --:--:--  646k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK581082 ...


100  706k  100  706k    0     0   824k      0 --:--:-- --:--:-- --:--:--  824k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK320989 ...


100  750k  100  750k    0     0   704k      0  0:00:01  0:00:01 --:--:--  704k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1365 ...


100  481k  100  481k    0     0   527k      0 --:--:-- --:--:-- --:--:--  527k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK97260 ...


100  642k  100  642k    0     0   644k      0 --:--:-- --:--:-- --:--:--  644k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1224 ...


100  460k  100  460k    0     0   541k      0 --:--:-- --:--:-- --:--:--  540k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK114628 ...


100  477k  100  477k    0     0   402k      0  0:00:01  0:00:01 --:--:--  402k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK555473 ...


100  491k  100  491k    0     0   493k      0 --:--:-- --:--:-- --:--:--  493k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK571223 ...


100  497k  100  497k    0     0   416k      0  0:00:01  0:00:01 --:--:--  416k


T√©l√©chargement de NBK481904 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  441k  100  441k    0     0   442k      0 --:--:-- --:--:-- --:--:--  442k


T√©l√©chargement de NBK595820 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  591k  100  591k    0     0   755k      0 --:--:-- --:--:-- --:--:--  754k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1506 ...


100  465k  100  465k    0     0   525k      0 --:--:-- --:--:-- --:--:--  525k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1221 ...


100  439k  100  439k    0     0   410k      0  0:00:01  0:00:01 --:--:--  410k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK43417 ...


100 1481k  100 1481k    0     0  1432k      0  0:00:01  0:00:01 --:--:-- 1434k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1417 ...


100  561k  100  561k    0     0   609k      0 --:--:-- --:--:-- --:--:--  608k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK121284 ...


100  457k  100  457k    0     0   540k      0 --:--:-- --:--:-- --:--:--  540k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1478 ...


100  474k  100  474k    0     0   508k      0 --:--:-- --:--:-- --:--:--  508k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1174 ...


100  507k  100  507k    0     0   547k      0 --:--:-- --:--:-- --:--:--  547k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK121988 ...


100  516k  100  516k    0     0   445k      0  0:00:01  0:00:01 --:--:--  445k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK6803 ...


100  496k  100  496k    0     0   535k      0 --:--:-- --:--:-- --:--:--  534k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK608563 ...


100  518k  100  518k    0     0   529k      0 --:--:-- --:--:-- --:--:--  529k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK537720 ...


100  201k  100  201k    0     0   192k      0  0:00:01  0:00:01 --:--:--  192k


T√©l√©chargement de NBK1548 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  619k  100  619k    0     0   620k      0 --:--:-- --:--:-- --:--:--  620k


T√©l√©chargement de NBK1486 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 1051k  100 1051k    0     0  1099k      0 --:--:-- --:--:-- --:--:-- 1098k


T√©l√©chargement de NBK540959 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  554k  100  554k    0     0   597k      0 --:--:-- --:--:-- --:--:--  596k


T√©l√©chargement de NBK1231 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 1469k  100 1469k    0     0  1455k      0  0:00:01  0:00:01 --:--:-- 1456k


T√©l√©chargement de NBK2692 ...


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  442k  100  442k    0     0   608k      0 --:--:-- --:--:-- --:--:--  608k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK425540 ...


100  476k  100  476k    0     0   509k      0 --:--:-- --:--:-- --:--:--  510k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1283 ...


100 1022k  100 1022k    0     0  1170k      0 --:--:-- --:--:-- --:--:-- 1170k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1223 ...


100  485k  100  485k    0     0   540k      0 --:--:-- --:--:-- --:--:--  539k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK100826 ...


100  462k  100  462k    0     0   511k      0 --:--:-- --:--:-- --:--:--  511k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK220444 ...


100  540k  100  540k    0     0   607k      0 --:--:-- --:--:-- --:--:--  606k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK575630 ...


100  571k  100  571k    0     0   671k      0 --:--:-- --:--:-- --:--:--  671k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1217 ...


100  648k  100  648k    0     0   545k      0  0:00:01  0:00:01 --:--:--  546k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK304142 ...


100  462k  100  462k    0     0   465k      0 --:--:-- --:--:-- --:--:--  465k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK425223 ...


100  466k  100  466k    0     0   531k      0 --:--:-- --:--:-- --:--:--  531k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK589231 ...


100  697k  100  697k    0     0   675k      0  0:00:01  0:00:01 --:--:--  675k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1511 ...


100  478k  100  478k    0     0   479k      0 --:--:-- --:--:-- --:--:--  479k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK7041 ...


100  758k  100  758k    0     0   893k      0 --:--:-- --:--:-- --:--:--  892k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK582032 ...


100  571k  100  571k    0     0   596k      0 --:--:-- --:--:-- --:--:--  596k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1357 ...


100  686k  100  686k    0     0   773k      0 --:--:-- --:--:-- --:--:--  773k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK242617 ...


100  485k  100  485k    0     0   532k      0 --:--:-- --:--:-- --:--:--  532k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1181 ...


100  589k  100  589k    0     0   660k      0 --:--:-- --:--:-- --:--:--  659k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK596643 ...


100 1000k  100 1000k    0     0   959k      0  0:00:01  0:00:01 --:--:--  959k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK410087 ...


100  517k  100  517k    0     0   542k      0 --:--:-- --:--:-- --:--:--  542k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK304122 ...


100  549k  100  549k    0     0   609k      0 --:--:-- --:--:-- --:--:--  609k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1448 ...


100  571k  100  571k    0     0   593k      0 --:--:-- --:--:-- --:--:--  592k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK92946 ...


100  745k  100  745k    0     0   814k      0 --:--:-- --:--:-- --:--:--  814k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1358 ...


100  568k  100  568k    0     0   777k      0 --:--:-- --:--:-- --:--:--  777k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK154378 ...


100  602k  100  602k    0     0   710k      0 --:--:-- --:--:-- --:--:--  710k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK121283 ...


100  524k  100  524k    0     0   559k      0 --:--:-- --:--:-- --:--:--  559k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1424 ...


100  618k  100  618k    0     0   768k      0 --:--:-- --:--:-- --:--:--  767k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK581452 ...


100  627k  100  627k    0     0   691k      0 --:--:-- --:--:-- --:--:--  691k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK54582 ...


100  541k  100  541k    0     0   660k      0 --:--:-- --:--:-- --:--:--  660k
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0

T√©l√©chargement de NBK1315 ...


  9  582k    9 56788    0     0   121k      0  0:00:04 --:--:--  0:00:04  120k

‚úÖ T√©l√©chargements termin√©s !


100  582k  100  582k    0     0   796k      0 --:--:-- --:--:-- --:--:--  795k


In [None]:
import tarfile

tar_path = "../data/public_db/genereviews/gene_NBK1116.tar.gz"

with tarfile.open(tar_path, "r:gz") as tar:
    # Choisir un fichier √† tester (le premier fichier)
    for member in tar.getmembers():
        if member.isfile():
            f = tar.extractfile(member)
            raw = f.read(200)  # lire juste les 200 premiers bytes
            f.close()
            
            print(f"Test encodage pour {member.name}:")
            for enc in ["utf-8", "utf-16", "ISO-8859-1", "cp1252"]:
                try:
                    snippet = raw.decode(enc)
                    print(f"  ‚úÖ {enc} fonctionne : {snippet[:100]!r}")
                except UnicodeDecodeError:
                    print(f"  ‚ùå {enc} √©choue")
            break  # tester juste un fichier

Test encodage pour gene_NBK1116/ibm-Image001.jpg:
  ‚ùå utf-8 √©choue
  ‚ùå utf-16 √©choue
  ‚úÖ ISO-8859-1 fonctionne : '√ø√ò√ø√†\x00\x10JFIF\x00\x01\x01\x01\x00\x96\x00\x96\x00\x00√ø√≠\x00,Photoshop 3.0\x008BIM\x03√≠\x00\x00\x00\x00\x00\x10\x00\x96\x00\x00\x00\x01\x00\x01\x00\x96\x00\x00\x00\x01\x00\x01√ø√°N√ëhttp://ns.adobe.com/xap/1.0/\x00<'
  ‚úÖ cp1252 fonctionne : '√ø√ò√ø√†\x00\x10JFIF\x00\x01\x01\x01\x00‚Äì\x00‚Äì\x00\x00√ø√≠\x00,Photoshop 3.0\x008BIM\x03√≠\x00\x00\x00\x00\x00\x10\x00‚Äì\x00\x00\x00\x01\x00\x01\x00‚Äì\x00\x00\x00\x01\x00\x01√ø√°N√ëhttp://ns.adobe.com/xap/1.0/\x00<'
