### **metabolite_classification.ipynb**
### **Creates a model for metabolite classification**

* ##### 01 - Setup
* ##### 02 - Install packages
* ##### 03 - Import packages
* ##### 04 - Create metabolites
* ##### 05 - Download compound properties from PubChem

### 01 - Setup

In [None]:
import os
import sys

In [None]:
sys.path.append(os.path.dirname(os.getcwd()))

### 02 - Install packages

In [None]:
!{ sys.executable } -m pip install --upgrade numpy requests tqdm

### 03 - Import packages

In [None]:
import math
import numpy

from tqdm  import tqdm
from utils import pubchem

### 04 - Create metabolites

In [None]:
metabolites = [
    {
        'class'     : 'Carbohydrate',
        'compounds' : [
            { 'CID' : 5780     },
            { 'CID' : 5793     },
            { 'CID' : 5984     },
            { 'CID' : 5988     },
            { 'CID' : 6134     },
            { 'CID' : 6251     },
            { 'CID' : 6255     },
            { 'CID' : 6912     },
            { 'CID' : 7427     },
            { 'CID' : 10712    },
            { 'CID' : 18950    },
            { 'CID' : 62698    },
            { 'CID' : 135191   },
            { 'CID' : 439207   },
            { 'CID' : 439242   },
            { 'CID' : 439357   },
            { 'CID' : 439531   },
            { 'CID' : 441422   },
            { 'CID' : 14055602 },
            { 'CID' : 16211032 }
        ]
    },
    {
        'class'     : 'Lipid',
        'compounds' : [
            { 'CID' : 379     },
            { 'CID' : 985     },
            { 'CID' : 2969    },
            { 'CID' : 3893    },
            { 'CID' : 5281    },
            { 'CID' : 5997    },
            { 'CID' : 8215    },
            { 'CID' : 10467   },
            { 'CID' : 10469   },
            { 'CID' : 11005   },
            { 'CID' : 11197   },
            { 'CID' : 445580  },
            { 'CID' : 445638  },
            { 'CID' : 445639  },
            { 'CID' : 446284  },
            { 'CID' : 637517  },
            { 'CID' : 5280492 },
            { 'CID' : 5280934 },
            { 'CID' : 5282411 },
            { 'CID' : 5282457 }
        ]
    },
    {
        'class'     : 'Amino acid',
        'compounds' : [
            { 'CID' : 236     },
            { 'CID' : 750     },
            { 'CID' : 791     },
            { 'CID' : 866     },
            { 'CID' : 5862    },
            { 'CID' : 5950    },
            { 'CID' : 5951    },
            { 'CID' : 5960    },
            { 'CID' : 5961    },
            { 'CID' : 6106    },
            { 'CID' : 6137    },
            { 'CID' : 6140    },
            { 'CID' : 6274    },
            { 'CID' : 6288    },
            { 'CID' : 6305    },
            { 'CID' : 6322    },
            { 'CID' : 25076   },
            { 'CID' : 33032   },
            { 'CID' : 145742  },
            { 'CID' : 5460671 }
        ]
    },
    {
        'class'     : 'Nucleic acid',
        'compounds' : [
            { 'CID' : 190       },
            { 'CID' : 597       },
            { 'CID' : 636       },
            { 'CID' : 637       },
            { 'CID' : 649       },
            { 'CID' : 1135      },
            { 'CID' : 1174      },
            { 'CID' : 1188      },
            { 'CID' : 6029      },
            { 'CID' : 6175      },
            { 'CID' : 15047     },
            { 'CID' : 60961     },
            { 'CID' : 64959     },
            { 'CID' : 65040     },
            { 'CID' : 70751     },
            { 'CID' : 92918     },
            { 'CID' : 94312     },
            { 'CID' : 445408    },
            { 'CID' : 135398634 },
            { 'CID' : 135398679 }
        ]
    },
    {
        'class'     : 'Alkaloid',
        'compounds' : [
            { 'CID' : 1233    },
            { 'CID' : 2353    },
            { 'CID' : 4680    },
            { 'CID' : 5570    },
            { 'CID' : 10198   },
            { 'CID' : 10235   },
            { 'CID' : 46695   },
            { 'CID' : 51683   },
            { 'CID' : 68231   },
            { 'CID' : 89594   },
            { 'CID' : 91461   },
            { 'CID' : 174174  },
            { 'CID' : 197835  },
            { 'CID' : 393060  },
            { 'CID' : 441072  },
            { 'CID' : 446220  },
            { 'CID' : 638024  },
            { 'CID' : 644020  },
            { 'CID' : 1201543 },
            { 'CID' : 5281816 }
        ]
    },
    {
        'class'     : 'Phenylpropanoid',
        'compounds' : [
            { 'CID' : 1183    },
            { 'CID' : 3314    },
            { 'CID' : 4276    },
            { 'CID' : 5144    },
            { 'CID' : 6989    },
            { 'CID' : 8815    },
            { 'CID' : 10231   },
            { 'CID' : 31211   },
            { 'CID' : 68148   },
            { 'CID' : 444539  },
            { 'CID' : 636822  },
            { 'CID' : 637511  },
            { 'CID' : 637520  },
            { 'CID' : 637563  },
            { 'CID' : 853433  },
            { 'CID' : 1549095 },
            { 'CID' : 5280343 },
            { 'CID' : 5280961 },
            { 'CID' : 5281426 },
            { 'CID' : 5281787 }
        ]
    },
    {
        'class'     : 'Polyketide',
        'compounds' : [
            { 'CID' : 10208    },
            { 'CID' : 31703    },
            { 'CID' : 53232    },
            { 'CID' : 68071    },
            { 'CID' : 439246   },
            { 'CID' : 440735   },
            { 'CID' : 441140   },
            { 'CID' : 445154   },
            { 'CID' : 638297   },
            { 'CID' : 2826719  },
            { 'CID' : 5280443  },
            { 'CID' : 5287620  },
            { 'CID' : 5315472  },
            { 'CID' : 5317700  },
            { 'CID' : 5323531  },
            { 'CID' : 6858006  },
            { 'CID' : 24970762 },
            { 'CID' : 54680478 },
            { 'CID' : 54704417 },
            { 'CID' : 71607042 }
        ]
    },
    {
        'class'     : 'Terpenoid',
        'compounds' : [
            { 'CID' : 1107    },
            { 'CID' : 6989    },
            { 'CID' : 7439    },
            { 'CID' : 11173   },
            { 'CID' : 12988   },
            { 'CID' : 16078   },
            { 'CID' : 22311   },
            { 'CID' : 29746   },
            { 'CID' : 73170   },
            { 'CID' : 163263  },
            { 'CID' : 442911  },
            { 'CID' : 443484  },
            { 'CID' : 445070  },
            { 'CID' : 445354  },
            { 'CID' : 452967  },
            { 'CID' : 637566  },
            { 'CID' : 638072  },
            { 'CID' : 5281516 },
            { 'CID' : 5281520 },
            { 'CID' : 9548704 }
        ]
    }
]

### 05 - Download compound properties from PubChem

In [None]:
properties = ['MolecularFormula', 'CanonicalSMILES', 'IUPACName', 'Title']

In [None]:
for metabolite in tqdm(metabolites):

    compounds               = metabolite['compounds']
    metabolite['compounds'] = pubchem.download_compound_properties(compounds, properties)

In [None]:
pubchem.print_compound_properties(metabolites[0]['compounds'])