# Change Gene and Contig Names in pyriformis GFF 


1. Open and parse GFF file to pull out information from each column

2. Rename the contigs in column 1 

3. Rename the genes in column 9 (attributes column, ID = "StePyr_1" etc)

4. Rename the ID and Parent in column 9 for transcript, CDS, intron

5. Write file

       

 
 
 

## 1. GFF Parser
courtesy of Colleen Hannon and Mike Eisen, edited for the format of my GFF file

In [55]:
# Use class to define the gff object
# It seperates each column into a particular attribute of the gff class

class gff:
    
    def __init__(self):
        
        self.seq = ""
        self.source = ""
        self.feature = ""
        self.start = ""
        self.end = ""
        self.score = ""
        self.strand = ""
        self.frame = ""
        self.attribute = {}
        
    def __iter__(self): 
        return iter([self.seq, self.source, self.feature, self.start, self.end, self.score, self.strand, self.frame, self.attribute])

## This is a function that reads in each row of the gff, and pases them into the proper 
## Attribute class

    @classmethod
    def from_fields(cls,fields):
        gff = cls()
        if len(fields) == 9:
            gff.seq = fields[0]
            gff.source = fields[1]
            gff.feature = fields[2]
            gff.start = int(fields[3])
            gff.end = int(fields[4])
            if fields[5] != ".":
                gff.score = float(fields[5])
            gff.strand = fields[6]
            gff.frame = fields[7]
            
            atts = fields[8].split(';')
            
            while("" in atts):
                atts.remove("")
        
            for att in atts:
                (k,v) = att.split('=')
                gff.attribute[k] = v
        return gff

In [64]:
gff_file = "/Volumes/albright_postdoc/pyriformis/stentor_pyriformis.20210302_final.0.2.final.proper.gff"

gffs = {}

## Only store the ones in these category.

features = [
              'CDS',
              'enhancer',
              'exon',
              'five_prime_UTR',
              'gene',
              'golden_path_region',
              'insulator',
              'intergenic',
              'intron',
              'mRNA',
              'mature_peptide',
              'miRNA',
              'ncRNA',
              'none',
              'polyA_site',
              'pre_miRNA',
              'protein',
              'pseudogene',
              'rRNA',
              'regulatory_region',
              'repeat_region',
              'silencer',
              'snRNA',
              'snoRNA',
              'tRNA',
              'tandem_repeat',
              'three_prime_UTR',
              'transposable_element',
              'transcript'
              ]

for feature in features:
    gffs[feature] = []

gffo = open(gff_file,"r", newline = '')             

for line in gffo:
    if line[0:1] != "#":
        line = line.strip('\n')
        line = line.split("\t")
        if len(line) == 9: 
            if line[2] in features: ## makes sure the row is of a feature we are interested in  
                gffs[line[2]].append(gff.from_fields(line))

## 2. Rename contigs

Contig names are a ugly mess of a string, make it nice

In [65]:
# generate a list of unique contig names
contig_list = []

for line in gffs['gene']: 
     if line.seq not in contig_list:
            contig_list.append(line.seq)
            
# generate a list of new contig names
base = 'StePyr_contig'
new_contig_list = ["{}_{}".format(base, (i+1)) for i in range(0, len(contig_list))]

# generate a dictionary with unique contig names mapped to new name
contig_dict = dict(map(lambda i,j : (i,j) , contig_list,new_contig_list))

In [66]:
# for every feature present in GFF file, replace contig name (first column of GFF file)

for feature in features: 
    for line in gffs[feature]: 
        line.seq = (line.seq if line.seq not in contig_dict else contig_dict[line.seq])

## 3. Rename genes 


My GFF file had the contig as the gene ID, meaning I had to fix non-unique names

Some of this is from Colleen and Mike, some by me

In [67]:
class gene:
    
    def __init__(self):
        
        self.id = ""
        self.children = []
    
    @classmethod
    def from_atts(cls,atts):
        gene = cls()
        if 'ID' in atts:
            gene.id = atts['ID']
        return gene

In [72]:
i = 0

for gene_gff in gffs['gene']:

    atty = gene_gff.attribute
    
    i += 1
    
    atty['ID'] = 'StePyr_' + str(i)
        
    print(atty)

{'ID': 'StePyr_1'}
{'ID': 'StePyr_2'}
{'ID': 'StePyr_3'}
{'ID': 'StePyr_4'}
{'ID': 'StePyr_5'}
{'ID': 'StePyr_6'}
{'ID': 'StePyr_7'}
{'ID': 'StePyr_8'}
{'ID': 'StePyr_9'}
{'ID': 'StePyr_10'}
{'ID': 'StePyr_11'}
{'ID': 'StePyr_12'}
{'ID': 'StePyr_13'}
{'ID': 'StePyr_14'}
{'ID': 'StePyr_15'}
{'ID': 'StePyr_16'}
{'ID': 'StePyr_17'}
{'ID': 'StePyr_18'}
{'ID': 'StePyr_19'}
{'ID': 'StePyr_20'}
{'ID': 'StePyr_21'}
{'ID': 'StePyr_22'}
{'ID': 'StePyr_23'}
{'ID': 'StePyr_24'}
{'ID': 'StePyr_25'}
{'ID': 'StePyr_26'}
{'ID': 'StePyr_27'}
{'ID': 'StePyr_28'}
{'ID': 'StePyr_29'}
{'ID': 'StePyr_30'}
{'ID': 'StePyr_31'}
{'ID': 'StePyr_32'}
{'ID': 'StePyr_33'}
{'ID': 'StePyr_34'}
{'ID': 'StePyr_35'}
{'ID': 'StePyr_36'}
{'ID': 'StePyr_37'}
{'ID': 'StePyr_38'}
{'ID': 'StePyr_39'}
{'ID': 'StePyr_40'}
{'ID': 'StePyr_41'}
{'ID': 'StePyr_42'}
{'ID': 'StePyr_43'}
{'ID': 'StePyr_44'}
{'ID': 'StePyr_45'}
{'ID': 'StePyr_46'}
{'ID': 'StePyr_47'}
{'ID': 'StePyr_48'}
{'ID': 'StePyr_49'}
{'ID': 'StePyr_50'}
{'ID': 'S

{'ID': 'StePyr_1771'}
{'ID': 'StePyr_1772'}
{'ID': 'StePyr_1773'}
{'ID': 'StePyr_1774'}
{'ID': 'StePyr_1775'}
{'ID': 'StePyr_1776'}
{'ID': 'StePyr_1777'}
{'ID': 'StePyr_1778'}
{'ID': 'StePyr_1779'}
{'ID': 'StePyr_1780'}
{'ID': 'StePyr_1781'}
{'ID': 'StePyr_1782'}
{'ID': 'StePyr_1783'}
{'ID': 'StePyr_1784'}
{'ID': 'StePyr_1785'}
{'ID': 'StePyr_1786'}
{'ID': 'StePyr_1787'}
{'ID': 'StePyr_1788'}
{'ID': 'StePyr_1789'}
{'ID': 'StePyr_1790'}
{'ID': 'StePyr_1791'}
{'ID': 'StePyr_1792'}
{'ID': 'StePyr_1793'}
{'ID': 'StePyr_1794'}
{'ID': 'StePyr_1795'}
{'ID': 'StePyr_1796'}
{'ID': 'StePyr_1797'}
{'ID': 'StePyr_1798'}
{'ID': 'StePyr_1799'}
{'ID': 'StePyr_1800'}
{'ID': 'StePyr_1801'}
{'ID': 'StePyr_1802'}
{'ID': 'StePyr_1803'}
{'ID': 'StePyr_1804'}
{'ID': 'StePyr_1805'}
{'ID': 'StePyr_1806'}
{'ID': 'StePyr_1807'}
{'ID': 'StePyr_1808'}
{'ID': 'StePyr_1809'}
{'ID': 'StePyr_1810'}
{'ID': 'StePyr_1811'}
{'ID': 'StePyr_1812'}
{'ID': 'StePyr_1813'}
{'ID': 'StePyr_1814'}
{'ID': 'StePyr_1815'}
{'ID': 'St

{'ID': 'StePyr_3271'}
{'ID': 'StePyr_3272'}
{'ID': 'StePyr_3273'}
{'ID': 'StePyr_3274'}
{'ID': 'StePyr_3275'}
{'ID': 'StePyr_3276'}
{'ID': 'StePyr_3277'}
{'ID': 'StePyr_3278'}
{'ID': 'StePyr_3279'}
{'ID': 'StePyr_3280'}
{'ID': 'StePyr_3281'}
{'ID': 'StePyr_3282'}
{'ID': 'StePyr_3283'}
{'ID': 'StePyr_3284'}
{'ID': 'StePyr_3285'}
{'ID': 'StePyr_3286'}
{'ID': 'StePyr_3287'}
{'ID': 'StePyr_3288'}
{'ID': 'StePyr_3289'}
{'ID': 'StePyr_3290'}
{'ID': 'StePyr_3291'}
{'ID': 'StePyr_3292'}
{'ID': 'StePyr_3293'}
{'ID': 'StePyr_3294'}
{'ID': 'StePyr_3295'}
{'ID': 'StePyr_3296'}
{'ID': 'StePyr_3297'}
{'ID': 'StePyr_3298'}
{'ID': 'StePyr_3299'}
{'ID': 'StePyr_3300'}
{'ID': 'StePyr_3301'}
{'ID': 'StePyr_3302'}
{'ID': 'StePyr_3303'}
{'ID': 'StePyr_3304'}
{'ID': 'StePyr_3305'}
{'ID': 'StePyr_3306'}
{'ID': 'StePyr_3307'}
{'ID': 'StePyr_3308'}
{'ID': 'StePyr_3309'}
{'ID': 'StePyr_3310'}
{'ID': 'StePyr_3311'}
{'ID': 'StePyr_3312'}
{'ID': 'StePyr_3313'}
{'ID': 'StePyr_3314'}
{'ID': 'StePyr_3315'}
{'ID': 'St

{'ID': 'StePyr_4770'}
{'ID': 'StePyr_4771'}
{'ID': 'StePyr_4772'}
{'ID': 'StePyr_4773'}
{'ID': 'StePyr_4774'}
{'ID': 'StePyr_4775'}
{'ID': 'StePyr_4776'}
{'ID': 'StePyr_4777'}
{'ID': 'StePyr_4778'}
{'ID': 'StePyr_4779'}
{'ID': 'StePyr_4780'}
{'ID': 'StePyr_4781'}
{'ID': 'StePyr_4782'}
{'ID': 'StePyr_4783'}
{'ID': 'StePyr_4784'}
{'ID': 'StePyr_4785'}
{'ID': 'StePyr_4786'}
{'ID': 'StePyr_4787'}
{'ID': 'StePyr_4788'}
{'ID': 'StePyr_4789'}
{'ID': 'StePyr_4790'}
{'ID': 'StePyr_4791'}
{'ID': 'StePyr_4792'}
{'ID': 'StePyr_4793'}
{'ID': 'StePyr_4794'}
{'ID': 'StePyr_4795'}
{'ID': 'StePyr_4796'}
{'ID': 'StePyr_4797'}
{'ID': 'StePyr_4798'}
{'ID': 'StePyr_4799'}
{'ID': 'StePyr_4800'}
{'ID': 'StePyr_4801'}
{'ID': 'StePyr_4802'}
{'ID': 'StePyr_4803'}
{'ID': 'StePyr_4804'}
{'ID': 'StePyr_4805'}
{'ID': 'StePyr_4806'}
{'ID': 'StePyr_4807'}
{'ID': 'StePyr_4808'}
{'ID': 'StePyr_4809'}
{'ID': 'StePyr_4810'}
{'ID': 'StePyr_4811'}
{'ID': 'StePyr_4812'}
{'ID': 'StePyr_4813'}
{'ID': 'StePyr_4814'}
{'ID': 'St

{'ID': 'StePyr_6270'}
{'ID': 'StePyr_6271'}
{'ID': 'StePyr_6272'}
{'ID': 'StePyr_6273'}
{'ID': 'StePyr_6274'}
{'ID': 'StePyr_6275'}
{'ID': 'StePyr_6276'}
{'ID': 'StePyr_6277'}
{'ID': 'StePyr_6278'}
{'ID': 'StePyr_6279'}
{'ID': 'StePyr_6280'}
{'ID': 'StePyr_6281'}
{'ID': 'StePyr_6282'}
{'ID': 'StePyr_6283'}
{'ID': 'StePyr_6284'}
{'ID': 'StePyr_6285'}
{'ID': 'StePyr_6286'}
{'ID': 'StePyr_6287'}
{'ID': 'StePyr_6288'}
{'ID': 'StePyr_6289'}
{'ID': 'StePyr_6290'}
{'ID': 'StePyr_6291'}
{'ID': 'StePyr_6292'}
{'ID': 'StePyr_6293'}
{'ID': 'StePyr_6294'}
{'ID': 'StePyr_6295'}
{'ID': 'StePyr_6296'}
{'ID': 'StePyr_6297'}
{'ID': 'StePyr_6298'}
{'ID': 'StePyr_6299'}
{'ID': 'StePyr_6300'}
{'ID': 'StePyr_6301'}
{'ID': 'StePyr_6302'}
{'ID': 'StePyr_6303'}
{'ID': 'StePyr_6304'}
{'ID': 'StePyr_6305'}
{'ID': 'StePyr_6306'}
{'ID': 'StePyr_6307'}
{'ID': 'StePyr_6308'}
{'ID': 'StePyr_6309'}
{'ID': 'StePyr_6310'}
{'ID': 'StePyr_6311'}
{'ID': 'StePyr_6312'}
{'ID': 'StePyr_6313'}
{'ID': 'StePyr_6314'}
{'ID': 'St

{'ID': 'StePyr_7769'}
{'ID': 'StePyr_7770'}
{'ID': 'StePyr_7771'}
{'ID': 'StePyr_7772'}
{'ID': 'StePyr_7773'}
{'ID': 'StePyr_7774'}
{'ID': 'StePyr_7775'}
{'ID': 'StePyr_7776'}
{'ID': 'StePyr_7777'}
{'ID': 'StePyr_7778'}
{'ID': 'StePyr_7779'}
{'ID': 'StePyr_7780'}
{'ID': 'StePyr_7781'}
{'ID': 'StePyr_7782'}
{'ID': 'StePyr_7783'}
{'ID': 'StePyr_7784'}
{'ID': 'StePyr_7785'}
{'ID': 'StePyr_7786'}
{'ID': 'StePyr_7787'}
{'ID': 'StePyr_7788'}
{'ID': 'StePyr_7789'}
{'ID': 'StePyr_7790'}
{'ID': 'StePyr_7791'}
{'ID': 'StePyr_7792'}
{'ID': 'StePyr_7793'}
{'ID': 'StePyr_7794'}
{'ID': 'StePyr_7795'}
{'ID': 'StePyr_7796'}
{'ID': 'StePyr_7797'}
{'ID': 'StePyr_7798'}
{'ID': 'StePyr_7799'}
{'ID': 'StePyr_7800'}
{'ID': 'StePyr_7801'}
{'ID': 'StePyr_7802'}
{'ID': 'StePyr_7803'}
{'ID': 'StePyr_7804'}
{'ID': 'StePyr_7805'}
{'ID': 'StePyr_7806'}
{'ID': 'StePyr_7807'}
{'ID': 'StePyr_7808'}
{'ID': 'StePyr_7809'}
{'ID': 'StePyr_7810'}
{'ID': 'StePyr_7811'}
{'ID': 'StePyr_7812'}
{'ID': 'StePyr_7813'}
{'ID': 'St

{'ID': 'StePyr_9269'}
{'ID': 'StePyr_9270'}
{'ID': 'StePyr_9271'}
{'ID': 'StePyr_9272'}
{'ID': 'StePyr_9273'}
{'ID': 'StePyr_9274'}
{'ID': 'StePyr_9275'}
{'ID': 'StePyr_9276'}
{'ID': 'StePyr_9277'}
{'ID': 'StePyr_9278'}
{'ID': 'StePyr_9279'}
{'ID': 'StePyr_9280'}
{'ID': 'StePyr_9281'}
{'ID': 'StePyr_9282'}
{'ID': 'StePyr_9283'}
{'ID': 'StePyr_9284'}
{'ID': 'StePyr_9285'}
{'ID': 'StePyr_9286'}
{'ID': 'StePyr_9287'}
{'ID': 'StePyr_9288'}
{'ID': 'StePyr_9289'}
{'ID': 'StePyr_9290'}
{'ID': 'StePyr_9291'}
{'ID': 'StePyr_9292'}
{'ID': 'StePyr_9293'}
{'ID': 'StePyr_9294'}
{'ID': 'StePyr_9295'}
{'ID': 'StePyr_9296'}
{'ID': 'StePyr_9297'}
{'ID': 'StePyr_9298'}
{'ID': 'StePyr_9299'}
{'ID': 'StePyr_9300'}
{'ID': 'StePyr_9301'}
{'ID': 'StePyr_9302'}
{'ID': 'StePyr_9303'}
{'ID': 'StePyr_9304'}
{'ID': 'StePyr_9305'}
{'ID': 'StePyr_9306'}
{'ID': 'StePyr_9307'}
{'ID': 'StePyr_9308'}
{'ID': 'StePyr_9309'}
{'ID': 'StePyr_9310'}
{'ID': 'StePyr_9311'}
{'ID': 'StePyr_9312'}
{'ID': 'StePyr_9313'}
{'ID': 'St

{'ID': 'StePyr_10768'}
{'ID': 'StePyr_10769'}
{'ID': 'StePyr_10770'}
{'ID': 'StePyr_10771'}
{'ID': 'StePyr_10772'}
{'ID': 'StePyr_10773'}
{'ID': 'StePyr_10774'}
{'ID': 'StePyr_10775'}
{'ID': 'StePyr_10776'}
{'ID': 'StePyr_10777'}
{'ID': 'StePyr_10778'}
{'ID': 'StePyr_10779'}
{'ID': 'StePyr_10780'}
{'ID': 'StePyr_10781'}
{'ID': 'StePyr_10782'}
{'ID': 'StePyr_10783'}
{'ID': 'StePyr_10784'}
{'ID': 'StePyr_10785'}
{'ID': 'StePyr_10786'}
{'ID': 'StePyr_10787'}
{'ID': 'StePyr_10788'}
{'ID': 'StePyr_10789'}
{'ID': 'StePyr_10790'}
{'ID': 'StePyr_10791'}
{'ID': 'StePyr_10792'}
{'ID': 'StePyr_10793'}
{'ID': 'StePyr_10794'}
{'ID': 'StePyr_10795'}
{'ID': 'StePyr_10796'}
{'ID': 'StePyr_10797'}
{'ID': 'StePyr_10798'}
{'ID': 'StePyr_10799'}
{'ID': 'StePyr_10800'}
{'ID': 'StePyr_10801'}
{'ID': 'StePyr_10802'}
{'ID': 'StePyr_10803'}
{'ID': 'StePyr_10804'}
{'ID': 'StePyr_10805'}
{'ID': 'StePyr_10806'}
{'ID': 'StePyr_10807'}
{'ID': 'StePyr_10808'}
{'ID': 'StePyr_10809'}
{'ID': 'StePyr_10810'}
{'ID': 'Ste

{'ID': 'StePyr_12268'}
{'ID': 'StePyr_12269'}
{'ID': 'StePyr_12270'}
{'ID': 'StePyr_12271'}
{'ID': 'StePyr_12272'}
{'ID': 'StePyr_12273'}
{'ID': 'StePyr_12274'}
{'ID': 'StePyr_12275'}
{'ID': 'StePyr_12276'}
{'ID': 'StePyr_12277'}
{'ID': 'StePyr_12278'}
{'ID': 'StePyr_12279'}
{'ID': 'StePyr_12280'}
{'ID': 'StePyr_12281'}
{'ID': 'StePyr_12282'}
{'ID': 'StePyr_12283'}
{'ID': 'StePyr_12284'}
{'ID': 'StePyr_12285'}
{'ID': 'StePyr_12286'}
{'ID': 'StePyr_12287'}
{'ID': 'StePyr_12288'}
{'ID': 'StePyr_12289'}
{'ID': 'StePyr_12290'}
{'ID': 'StePyr_12291'}
{'ID': 'StePyr_12292'}
{'ID': 'StePyr_12293'}
{'ID': 'StePyr_12294'}
{'ID': 'StePyr_12295'}
{'ID': 'StePyr_12296'}
{'ID': 'StePyr_12297'}
{'ID': 'StePyr_12298'}
{'ID': 'StePyr_12299'}
{'ID': 'StePyr_12300'}
{'ID': 'StePyr_12301'}
{'ID': 'StePyr_12302'}
{'ID': 'StePyr_12303'}
{'ID': 'StePyr_12304'}
{'ID': 'StePyr_12305'}
{'ID': 'StePyr_12306'}
{'ID': 'StePyr_12307'}
{'ID': 'StePyr_12308'}
{'ID': 'StePyr_12309'}
{'ID': 'StePyr_12310'}
{'ID': 'Ste

{'ID': 'StePyr_13767'}
{'ID': 'StePyr_13768'}
{'ID': 'StePyr_13769'}
{'ID': 'StePyr_13770'}
{'ID': 'StePyr_13771'}
{'ID': 'StePyr_13772'}
{'ID': 'StePyr_13773'}
{'ID': 'StePyr_13774'}
{'ID': 'StePyr_13775'}
{'ID': 'StePyr_13776'}
{'ID': 'StePyr_13777'}
{'ID': 'StePyr_13778'}
{'ID': 'StePyr_13779'}
{'ID': 'StePyr_13780'}
{'ID': 'StePyr_13781'}
{'ID': 'StePyr_13782'}
{'ID': 'StePyr_13783'}
{'ID': 'StePyr_13784'}
{'ID': 'StePyr_13785'}
{'ID': 'StePyr_13786'}
{'ID': 'StePyr_13787'}
{'ID': 'StePyr_13788'}
{'ID': 'StePyr_13789'}
{'ID': 'StePyr_13790'}
{'ID': 'StePyr_13791'}
{'ID': 'StePyr_13792'}
{'ID': 'StePyr_13793'}
{'ID': 'StePyr_13794'}
{'ID': 'StePyr_13795'}
{'ID': 'StePyr_13796'}
{'ID': 'StePyr_13797'}
{'ID': 'StePyr_13798'}
{'ID': 'StePyr_13799'}
{'ID': 'StePyr_13800'}
{'ID': 'StePyr_13801'}
{'ID': 'StePyr_13802'}
{'ID': 'StePyr_13803'}
{'ID': 'StePyr_13804'}
{'ID': 'StePyr_13805'}
{'ID': 'StePyr_13806'}
{'ID': 'StePyr_13807'}
{'ID': 'StePyr_13808'}
{'ID': 'StePyr_13809'}
{'ID': 'Ste

{'ID': 'StePyr_15267'}
{'ID': 'StePyr_15268'}
{'ID': 'StePyr_15269'}
{'ID': 'StePyr_15270'}
{'ID': 'StePyr_15271'}
{'ID': 'StePyr_15272'}
{'ID': 'StePyr_15273'}
{'ID': 'StePyr_15274'}
{'ID': 'StePyr_15275'}
{'ID': 'StePyr_15276'}
{'ID': 'StePyr_15277'}
{'ID': 'StePyr_15278'}
{'ID': 'StePyr_15279'}
{'ID': 'StePyr_15280'}
{'ID': 'StePyr_15281'}
{'ID': 'StePyr_15282'}
{'ID': 'StePyr_15283'}
{'ID': 'StePyr_15284'}
{'ID': 'StePyr_15285'}
{'ID': 'StePyr_15286'}
{'ID': 'StePyr_15287'}
{'ID': 'StePyr_15288'}
{'ID': 'StePyr_15289'}
{'ID': 'StePyr_15290'}
{'ID': 'StePyr_15291'}
{'ID': 'StePyr_15292'}
{'ID': 'StePyr_15293'}
{'ID': 'StePyr_15294'}
{'ID': 'StePyr_15295'}
{'ID': 'StePyr_15296'}
{'ID': 'StePyr_15297'}
{'ID': 'StePyr_15298'}
{'ID': 'StePyr_15299'}
{'ID': 'StePyr_15300'}
{'ID': 'StePyr_15301'}
{'ID': 'StePyr_15302'}
{'ID': 'StePyr_15303'}
{'ID': 'StePyr_15304'}
{'ID': 'StePyr_15305'}
{'ID': 'StePyr_15306'}
{'ID': 'StePyr_15307'}
{'ID': 'StePyr_15308'}
{'ID': 'StePyr_15309'}
{'ID': 'Ste

## 4. Rename transcripts, CDS, introns

In [74]:
class transcript: 
    
    def __init__(self): 
        
        self.id = ""
        self.parent = ""
        self.children = []
        
    @classmethod
    def from_atts(cls,atts):
        transcript = cls()
        if 'ID' in atts: 
            transcript.id = atts['ID']
        if 'Parent' in atts: 
            transcript.parent = atts['Parent']
        return transcript
    
    
class CDS: 
    
    def __init__(self):
        
        self.id = ""
        self.parent = ""
        
    @classmethod
    def from_atts(cls,atts):
        CDS = cls()
        if 'ID' in atts: 
            CDS.id = atts['ID']
        if 'Parent' in atts: 
            CDS.parent = atts['Parent']
        return CDS 
    
    
class intron: 
    
    def __init__(self):
        
        #self.id = ""
        self.parent = ""
        
    @classmethod
    def from_atts(cls,atts):
        intron = cls()
        #if 'ID' in atts:
            #intron.id = atts['ID'][0]
        if 'Parent' in atts: 
            intron.parent = atts['Parent']

### Transcripts


In [75]:
old_transcript_list = []

for transcript_gff in gffs['transcript']: 
    atty = transcript_gff.attribute
    old_transcript_list.append(atty['ID'])

In [76]:
new_transcript_list = []

for i in new_genes_list: 
    new_transcript_list.append(i + '.t1')

In [77]:
new_transcript_dict = dict(zip(old_transcript_list, new_transcript_list))

In [78]:
for transcript_gff in gffs['transcript']:
   
    atty = transcript_gff.attribute
    
    for k,v in new_transcript_dict.items(): 
    
        atty['ID'] = atty['ID'].replace(k,v)
 
    atty['Parent'] = atty['ID'][:-3]

### CDSs


In [79]:
for CDS_gff in gffs['CDS']:
   
    atty = CDS_gff.attribute
    
    for k,v in new_transcript_dict.items(): 
    
        atty['ID'] = atty['ID'].replace(k,v)
 
    atty['Parent'] = atty['ID'][:-4]   

### Introns

In [80]:
for intron_gff in gffs['intron']:
    
    atty = intron_gff.attribute
    
    for k,v in new_transcript_dict.items(): 
    
        #atty['ID'] = atty['ID'].replace(k,v)
 
        atty['Parent'] = atty['Parent'].replace(k,v)

## 5. Write file

In [82]:
import csv

In [83]:
with open("draft_gff.csv", "w") as stream:
    writer = csv.writer(stream, delimiter = '\t')
    writer.writerows(gffs['CDS'] + gffs['gene'] + gffs['transcript'] + gffs['intron'])

## 6. Import file, fix it, write again

In [84]:
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("draft_gff.csv", sep = '\t', header = None)

In [85]:
data = data.sort_values([0,3])

In [86]:
# maybe there's a neater way to do this, but whatever it fixes the format!

data[8] = data[8].str.replace('{', '')
data[8] = data[8].str.replace('}', '')
data[8] = data[8].str.replace(',', ';')
data[8] = data[8].str.replace(':', '=')
data[8] = data[8].str.replace(' ', '')
data[8] = data[8].str.replace('\'', '')

In [87]:
data

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,StePyr_contig_1,AUGUSTUS,CDS,9537,19184,1.0,+,0,ID=StePyr_1.t1.cds;Parent=StePyr_1.t1
19199,StePyr_contig_1,AUGUSTUS,gene,9537,19184,1.0,+,.,ID=StePyr_1
34830,StePyr_contig_1,AUGUSTUS,transcript,9537,19184,1.0,+,.,ID=StePyr_1.t1;Parent=StePyr_1
1,StePyr_contig_1,AUGUSTUS,CDS,19876,33888,1.0,+,0,ID=StePyr_2.t1.cds;Parent=StePyr_2.t1
19200,StePyr_contig_1,AUGUSTUS,gene,19876,33888,1.0,+,.,ID=StePyr_2
...,...,...,...,...,...,...,...,...,...
12486,StePyr_contig_99,AUGUSTUS,CDS,226886,226954,1.0,+,0,ID=StePyr_10134.t1.cds;Parent=StePyr_10134.t1
29332,StePyr_contig_99,AUGUSTUS,gene,226886,227650,1.0,+,.,ID=StePyr_10134
44963,StePyr_contig_99,AUGUSTUS,transcript,226886,227650,1.0,+,.,ID=StePyr_10134.t1;Parent=StePyr_10134
52814,StePyr_contig_99,INTRONARRATOR,intron,226955,226969,1.0,+,.,Parent=StePyr_10134.t1


In [94]:
data.to_csv('/Volumes/albright_postdoc/pyriformis/stentor_pyriformis.20210302_final.0.2.final.proper.nameupdate.gff', sep = '\t', index = False, header = False)

# Final Check: 

Update contig names in the genome fasta to match these, compare to old names in IGV. 