In [13]:
import os
import pandas as pd
import time
from tqdm import tqdm
from sklearn.preprocessing import MultiLabelBinarizer

In [2]:
DF_input = input().strip()

 C:\Users\svalb\OneDrive\Escritorio\Data_40_years_cancer_studies\parsedXMLs\


In [17]:
# Import list of csvs to parse
list_csvs = []

for file in os.listdir(DF_input):
    if file[-4:] == ".csv":
        list_csvs.append(file)

n_csvs = len(list_csvs)

In [212]:
# Manage log of parsed files
path_parsed_csvs_cancer = DF_input+"csv files with Cancer and Species binarized.txt"
if not os.path.exists(path_parsed_csvs_cancer):
    open(path_parsed_csvs_cancer, 'a').close()

parsed_csvs_cancer = []
with open(path_parsed_csvs_cancer, "r") as f:
    for line in f:
        parsed_csvs_cancer.append(f)
    
for csv in tqdm(list_csvs):
    if csv not in parsed_csvs_cancer:
        start = time.time()
        print(f"Parsing csv: {csv}, {list_csvs.index(csv)+1} / {n_csvs}")

        # Import csv
        df = pd.read_csv(DF_input + csv)

        ## Binarize Cancer types
        # Use Multilabel binarizer from scikit-learn
        mlb = MultiLabelBinarizer()
        
        # Use the binarizer on the Cancer column
        df_one_hot_cancer = pd.DataFrame(
            mlb.fit_transform(df['Cancer'].astype(str)
                              .str.strip("[]")
                              .str.split(",")
                              .map(lambda x: [i.strip() for i in x])),
            columns=mlb.classes_,
            index=df.index)
        
        ## Rename the columns 
        # First column contains value 1 for articles with no found cancer
        df_one_hot_cancer.columns.values[0] = "Undetermined_Cancer"

        # Remove the '' from the names of the cancers
        for col in df_one_hot_cancer.columns[1:]:
            df_one_hot_cancer.rename(columns={col: col.strip("'")}, inplace=True)

        
        ## Binarize Species
        # Use Multilabel binarizer from scikit-learn
        mlb = MultiLabelBinarizer()
        
        # Use the binarizer on the Cancer column
        df_one_hot_species = pd.DataFrame(
            mlb.fit_transform(df['Species'].astype(str)
                              .str.strip("[]")
                              .str.split(",")
                              .map(lambda x: [i.strip() for i in x])),
            columns=mlb.classes_,
            index=df.index)
        
        ## Rename the columns 
        # First column contains value 1 for articles with no found species
        df_one_hot_species.columns.values[0] = "Undetermined_Species"

        # Remove the '' from the names of the species
        for col in df_one_hot_species.columns[1:]:
            df_one_hot_species.rename(columns={col: col.strip("'")}, inplace=True)

        # Concatenate the data with the binarized columns
        df_save = pd.concat([df, df_one_hot_cancer, df_one_hot_species], axis=1)

        # Save df, add to parsed list, clean workspace
        df_save.to_csv(DF_input+csv, index=False)
        del df, df_one_hot_cancer, df_one_hot_species, mlb, df_save
        parsed_csvs_cancer.append(csv)
        with open(path_parsed_csvs_cancer, "a") as f:
                f.write(csv+"\n")
        print(f"--Parsing time: {round(time.time()-start, 2)}")

  0%|                                                                                                                                                                                      | 0/45 [00:00<?, ?it/s]

Parsing csv: parsedX_100000.csv, 1 / 45


  2%|███▊                                                                                                                                                                          | 1/45 [00:09<06:47,  9.26s/it]

--Parsing time: 9.26
Parsing csv: parsedX_1000000.csv, 2 / 45


  4%|███████▋                                                                                                                                                                      | 2/45 [00:19<06:57,  9.72s/it]

--Parsing time: 10.03
Parsing csv: parsedX_1100000.csv, 3 / 45


  7%|███████████▌                                                                                                                                                                  | 3/45 [00:29<07:03, 10.08s/it]

--Parsing time: 10.5
Parsing csv: parsedX_1200000.csv, 4 / 45


  9%|███████████████▍                                                                                                                                                              | 4/45 [00:40<06:59, 10.24s/it]

--Parsing time: 10.5
Parsing csv: parsedX_1300000.csv, 5 / 45


 11%|███████████████████▎                                                                                                                                                          | 5/45 [00:50<06:55, 10.38s/it]

--Parsing time: 10.61
Parsing csv: parsedX_1400000.csv, 6 / 45


  df = pd.read_csv(DF_input + csv)
 13%|███████████████████████▏                                                                                                                                                      | 6/45 [01:01<06:44, 10.37s/it]

--Parsing time: 10.36
Parsing csv: parsedX_1500000.csv, 7 / 45


 16%|███████████████████████████                                                                                                                                                   | 7/45 [01:11<06:33, 10.35s/it]

--Parsing time: 10.3
Parsing csv: parsedX_1600000.csv, 8 / 45


 18%|██████████████████████████████▉                                                                                                                                               | 8/45 [01:21<06:22, 10.33s/it]

--Parsing time: 10.3
Parsing csv: parsedX_1700000.csv, 9 / 45


 20%|██████████████████████████████████▊                                                                                                                                           | 9/45 [01:31<06:07, 10.22s/it]

--Parsing time: 9.97
Parsing csv: parsedX_1800000.csv, 10 / 45


  df = pd.read_csv(DF_input + csv)
 22%|██████████████████████████████████████▍                                                                                                                                      | 10/45 [01:42<06:02, 10.35s/it]

--Parsing time: 10.64
Parsing csv: parsedX_1900000.csv, 11 / 45


  df = pd.read_csv(DF_input + csv)
 24%|██████████████████████████████████████████▎                                                                                                                                  | 11/45 [01:53<05:54, 10.43s/it]

--Parsing time: 10.62
Parsing csv: parsedX_200000.csv, 12 / 45


 27%|██████████████████████████████████████████████▏                                                                                                                              | 12/45 [02:01<05:23,  9.82s/it]

--Parsing time: 8.4
Parsing csv: parsedX_2000000.csv, 13 / 45


 29%|█████████████████████████████████████████████████▉                                                                                                                           | 13/45 [02:12<05:24, 10.13s/it]

--Parsing time: 10.85
Parsing csv: parsedX_2100000.csv, 14 / 45


 31%|█████████████████████████████████████████████████████▊                                                                                                                       | 14/45 [02:23<05:20, 10.33s/it]

--Parsing time: 10.81
Parsing csv: parsedX_2200000.csv, 15 / 45


  df = pd.read_csv(DF_input + csv)
 33%|█████████████████████████████████████████████████████████▋                                                                                                                   | 15/45 [02:34<05:16, 10.55s/it]

--Parsing time: 11.05
Parsing csv: parsedX_2300000.csv, 16 / 45


 36%|█████████████████████████████████████████████████████████████▌                                                                                                               | 16/45 [02:46<05:19, 11.03s/it]

--Parsing time: 12.15
Parsing csv: parsedX_2400000.csv, 17 / 45


  df = pd.read_csv(DF_input + csv)
 38%|█████████████████████████████████████████████████████████████████▎                                                                                                           | 17/45 [02:59<05:23, 11.56s/it]

--Parsing time: 12.8
Parsing csv: parsedX_2500000.csv, 18 / 45


  df = pd.read_csv(DF_input + csv)
 40%|█████████████████████████████████████████████████████████████████████▏                                                                                                       | 18/45 [03:12<05:23, 11.98s/it]

--Parsing time: 12.94
Parsing csv: parsedX_2600000.csv, 19 / 45


  df = pd.read_csv(DF_input + csv)
 42%|█████████████████████████████████████████████████████████████████████████                                                                                                    | 19/45 [03:24<05:15, 12.12s/it]

--Parsing time: 12.46
Parsing csv: parsedX_2700000.csv, 20 / 45


  df = pd.read_csv(DF_input + csv)
 44%|████████████████████████████████████████████████████████████████████████████▉                                                                                                | 20/45 [03:37<05:10, 12.40s/it]

--Parsing time: 13.05
Parsing csv: parsedX_2800000.csv, 21 / 45


  df = pd.read_csv(DF_input + csv)
 47%|████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 21/45 [03:50<05:01, 12.57s/it]

--Parsing time: 12.95
Parsing csv: parsedX_2900000.csv, 22 / 45


 49%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 22/45 [04:03<04:51, 12.67s/it]

--Parsing time: 12.93
Parsing csv: parsedX_300000.csv, 23 / 45


 51%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 23/45 [04:11<04:08, 11.29s/it]

--Parsing time: 8.04
Parsing csv: parsedX_3000000.csv, 24 / 45


  df = pd.read_csv(DF_input + csv)
 53%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 24/45 [04:24<04:08, 11.83s/it]

--Parsing time: 13.08
Parsing csv: parsedX_3100000.csv, 25 / 45


  df = pd.read_csv(DF_input + csv)
 56%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 25/45 [04:37<04:02, 12.15s/it]

--Parsing time: 12.9
Parsing csv: parsedX_3200000.csv, 26 / 45


  df = pd.read_csv(DF_input + csv)
 58%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 26/45 [04:50<03:53, 12.29s/it]

--Parsing time: 12.61
Parsing csv: parsedX_3300000.csv, 27 / 45


  df = pd.read_csv(DF_input + csv)
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 27/45 [05:03<03:44, 12.49s/it]

--Parsing time: 12.97
Parsing csv: parsedX_3400000.csv, 28 / 45


  df = pd.read_csv(DF_input + csv)
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 28/45 [05:16<03:37, 12.78s/it]

--Parsing time: 13.47
Parsing csv: parsedX_3500000.csv, 29 / 45


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 29/45 [05:30<03:27, 13.00s/it]

--Parsing time: 13.5
Parsing csv: parsedX_3600000.csv, 30 / 45


  df = pd.read_csv(DF_input + csv)
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 30/45 [05:43<03:14, 12.99s/it]

--Parsing time: 12.96
Parsing csv: parsedX_3700000.csv, 31 / 45


 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 31/45 [05:56<03:02, 13.04s/it]

--Parsing time: 13.15
Parsing csv: parsedX_3800000.csv, 32 / 45


  df = pd.read_csv(DF_input + csv)
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 32/45 [06:09<02:50, 13.08s/it]

--Parsing time: 13.17
Parsing csv: parsedX_3900000.csv, 33 / 45


  df = pd.read_csv(DF_input + csv)
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 33/45 [06:22<02:37, 13.13s/it]

--Parsing time: 13.25
Parsing csv: parsedX_400000.csv, 34 / 45


  df = pd.read_csv(DF_input + csv)
 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 34/45 [06:29<02:05, 11.37s/it]

--Parsing time: 7.26
Parsing csv: parsedX_4000000.csv, 35 / 45


 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 35/45 [06:43<01:59, 11.92s/it]

--Parsing time: 13.21
Parsing csv: parsedX_4100000.csv, 36 / 45


  df = pd.read_csv(DF_input + csv)
 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 36/45 [06:56<01:51, 12.38s/it]

--Parsing time: 13.44
Parsing csv: parsedX_4200000.csv, 37 / 45


  df = pd.read_csv(DF_input + csv)
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 37/45 [07:09<01:40, 12.61s/it]

--Parsing time: 13.16
Parsing csv: parsedX_4300000.csv, 38 / 45


  df = pd.read_csv(DF_input + csv)
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 38/45 [07:23<01:30, 12.87s/it]

--Parsing time: 13.48
Parsing csv: parsedX_4400000.csv, 39 / 45


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 39/45 [07:36<01:18, 13.07s/it]

--Parsing time: 13.52
Parsing csv: parsedX_4454000.csv, 40 / 45


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 40/45 [07:43<00:56, 11.27s/it]

--Parsing time: 7.06
Parsing csv: parsedX_500000.csv, 41 / 45


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 41/45 [07:53<00:43, 10.85s/it]

--Parsing time: 9.89
Parsing csv: parsedX_600000.csv, 42 / 45


 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 42/45 [08:03<00:31, 10.46s/it]

--Parsing time: 9.55
Parsing csv: parsedX_700000.csv, 43 / 45


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 43/45 [08:12<00:20, 10.22s/it]

--Parsing time: 9.65
Parsing csv: parsedX_800000.csv, 44 / 45


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 44/45 [08:22<00:10, 10.08s/it]

--Parsing time: 9.76
Parsing csv: parsedX_900000.csv, 45 / 45


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 45/45 [08:32<00:00, 11.39s/it]

--Parsing time: 9.79



