# Convert .xml from Amira Skeleton analysis to .csv files.

In [1]:
import os, sys, re, io
import numpy as np
import pandas as pd
from tqdm import tqdm
import time
from core.fileop import DirCheck, ListFiles
import core.mkplot as mkplot 

In [2]:
import xml.etree.ElementTree as etree
from core.msxml import MSXmlReader

# function
def convert_xml_csv(ippath, oppath):
    filelist, fileabslist = ListFiles(ippath, extension='.xml')
    
    for idx, f in enumerate(filelist):
        filename = f.replace('.xml', '')
        ip = os.path.join(ippath, f) 
        op = os.path.join(oppath, filename)
        
        print(ip)
        print(op)

        # create path
        if filename not in os.listdir(oppath):
            DirCheck(op)
            
            # convert *.xml to *.csv 
            csv_all = MSXmlReader(ip)
            
            # save each spreadsheet into individual *.csv file
            for key, value in csv_all.items():
                oppath_tmp = os.path.join(op, key + '.csv')
                value.to_csv(oppath_tmp, index = False)

In [3]:
mainpath = 'D:\PerlmutterData'
folder = 'segmentation_compiled_export'
data_folder = 'data'
data_subfolder = 'raw'
data_cat = 'skeleton'

ippath = os.path.join(mainpath, folder, data_folder, data_subfolder, data_cat)
oppath = os.path.join(mainpath, folder, data_folder, 'compile', 'skeleton_output')


convert_xml_csv(ippath, oppath)

D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d00_batch01_loc01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d00_batch01_loc01_mito


100%|███████████████████████████████████████████████████████████████████████████| 1207/1207 [00:00<00:00, 77256.25it/s]
100%|████████████████████████████████████████████████████████████████████████| 25485/25485 [00:00<00:00, 326202.03it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████| 1484/1484 [00:00<?, ?it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F45FB9BD8>
loading time: 0.8384649753570557





D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d00_batch02_loc02_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d00_batch02_loc02_mito


100%|██████████████████████████████████████████████████████████████████████████████████████| 1331/1331 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████| 22588/22588 [00:00<00:00, 481867.53it/s]
100%|██████████████████████████████████████████████████████████████████████████| 1579/1579 [00:00<00:00, 394825.68it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F4D68B278>
loading time: 0.806220531463623





D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d00_batch02_loc03_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d00_batch02_loc03_mito


100%|████████████████████████████████████████████████████████████████████████████████████████| 720/720 [00:00<?, ?it/s]
100%|█████████████████████████████████████████████████████████████████████████| 12644/12644 [00:00<00:00, 89911.06it/s]
  0%|                                                                                          | 0/852 [00:00<?, ?it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F46187F98>
loading time: 0.3442082405090332


100%|█████████████████████████████████████████████████████████████████████████████| 852/852 [00:00<00:00, 54516.35it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:00<?, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████| 3778/3778 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<?, ?it/s]


D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d07_batch01_loc01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d07_batch01_loc01_mito
<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F487B1F48>
loading time: 0.06250286102294922
D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d07_batch02_loc01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d07_batch02_loc01_mito


100%|████████████████████████████████████████████████████████████████████████████| 417/417 [00:00<00:00, 208689.27it/s]
100%|██████████████████████████████████████████████████████████████████████████| 9067/9067 [00:00<00:00, 412246.66it/s]
100%|████████████████████████████████████████████████████████████████████████████| 443/443 [00:00<00:00, 445368.33it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F47CC0F98>
loading time: 0.3136739730834961
D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d07_batch02_loc02_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d07_batch02_loc02_mito



100%|████████████████████████████████████████████████████████████████████████████████████████| 651/651 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████| 13666/13666 [00:00<00:00, 436649.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:00<?, ?it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F465EABD8>
loading time: 0.3906362056732178
D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d14_batch01_loc01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d14_batch01_loc01_mito



100%|███████████████████████████████████████████████████████████████████████████| 1207/1207 [00:00<00:00, 77250.36it/s]
100%|████████████████████████████████████████████████████████████████████████| 25485/25485 [00:00<00:00, 305047.04it/s]
100%|██████████████████████████████████████████████████████████████████████████| 1484/1484 [00:00<00:00, 371004.78it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F4805EBD8>
loading time: 1.016770601272583





D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d17_batch01_loc01_01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d17_batch01_loc01_01_mito


100%|████████████████████████████████████████████████████████████████████████████████████████| 353/353 [00:00<?, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████| 9210/9210 [00:00<00:00, 294740.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 395/395 [00:00<?, ?it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F4EB53DB8>
loading time: 0.2968120574951172
D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d17_batch01_loc01_02_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d17_batch01_loc01_02_mito



100%|████████████████████████████████████████████████████████████████████████████████████████| 244/244 [00:00<?, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████| 5169/5169 [00:00<00:00, 329759.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████| 272/272 [00:00<?, ?it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F4D450228>
loading time: 0.18756389617919922
D:\PerlmutterData\segmentation_compiled_export\data\raw\skeleton\data_d21_batch01_loc01_mito.xml
D:\PerlmutterData\segmentation_compiled_export\data\compile\skeleton_output\data_d21_batch01_loc01_mito



100%|████████████████████████████████████████████████████████████████████████████████████████| 606/606 [00:00<?, ?it/s]
100%|█████████████████████████████████████████████████████████████████████████| 10536/10536 [00:00<00:00, 84268.07it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 627/627 [00:00<00:00, 40242.83it/s]

<Element '{urn:schemas-microsoft-com:office:spreadsheet}Workbook' at 0x0000017F4B86DC28>
loading time: 0.3125159740447998





In [4]:
# load dependencies
from core.filamentanalysis import SegStats, PNSCount

# function
def stats_calculator(ippath, oppath):
    imglist = [x for x in os.listdir(ippath) if not x.startswith('.')]
    
    var = ['df_nodes', 'df_points', 'df_segments']
    counts_combined = []
    names= []
    
    for img in imglist:
        filelist, fileabslist = ListFiles(os.path.join(ippath, img), extension='.csv')
        
        df_points = pd.read_csv(os.path.join(ippath, img, 'points.csv')) 
        df_segments = pd.read_csv(os.path.join(ippath, img, 'segments.csv')) 
        df_nodes = pd.read_csv(os.path.join(ippath, img,'nodes.csv'))
        
        opfilename = 'segments_s.csv'
        countfilename = 'count.csv'
        countfilename_combined = 'counts_combined.csv'
    
        if opfilename not in filelist:
            df_segments_s = SegStats(df_points, df_segments)            
            
            DirCheck(os.path.join(oppath, img))
            
            df_segments_s.to_csv(os.path.join(oppath, img, opfilename), index = False)
        
        counts = (PNSCount(df_points, df_nodes, df_segments))
        counts_combined.append(counts)
        names.append(img)
    '''
    fileinfo = pd.read_csv(os.path.join('./par', 'lung_file_idx.csv'))
    print(names)
    
    img_group = []
    for i in names:
        img_group.append(fileinfo[fileinfo['data_filename'] == i]['genotype'].item())

    if countfilename_combined not in imglist:
        df_counts_combined = pd.DataFrame(counts_combined, columns= ['Points', 'Nodes', 'Segments'])
        df_counts_combined['Names'] = names
        df_counts_combined['Genotype'] = img_group
        
        df_counts_combined.to_csv(os.path.join(path, countfilename_combined), index = False)
    '''

## Define input and output path

In [5]:
ippath = os.path.join(mainpath, folder, data_folder, 'compile', 'skeleton_output')
oppath = os.path.join(mainpath, folder, data_folder, 'compile', 'skeleton_output')


stats_calculator(ippath, oppath)

100%|█████████████████████████████████████████████████████████████████████████████| 1484/1484 [00:05<00:00, 273.86it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1579/1579 [00:05<00:00, 280.62it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 852/852 [00:03<00:00, 267.02it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 316.22it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 443/443 [00:01<00:00, 259.32it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 750/750 [00:02<00:00, 262.31it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1484/1484 [00:05<00:00, 279.99it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 395/395 [00:01<00:00, 274.52it/s]
100%|███████████████████████████████████