In [40]:
# Usando o processador de xml DOM
from xml.dom import minidom

# Primeiro carregamos o arquivo .xml
dom_xml = minidom.parse('../data/CysticFibrosis/cf79.xml')

# Depois pegamos todos os elementos com a tag "AUTHOR"
authors = dom_xml.getElementsByTagName('AUTHOR')

# Então criamos o arquivo de saída 'autores.xml'
with open('autores.xml', 'w') as new_file:
    
    # Iteramos a lista de autores e escrevemos cada um em uma nova linha
    for author in authors:
        new_file.write(author.toxml())

In [39]:
# Usando o processador de xml SAX
from xml import sax

# Primeiro devemos criar um handler customizado para que o parser execute os comandos necessários
class TitleHandler(sax.ContentHandler):
    
    # A primeira função é quando um novo elemento é analizado. Determinamos a propriedade 'current'
    # para ser igual ao nome do elemento.
    def startElement(self, name, attrs):
        self.current = name
    
    # Depois de ter o nome do elemento, analisamos o que está dentro dele, portanto aqui foi feita
    # a lógica de verificar se o elemento é do tipo TITLE que estamos interessados. Caso seja, a propriedade
    # 'title' é populada com o conteúdo que está no elemento atualmente.
    def characters(self, content):
        if self.current == "TITLE":
            self.title += content
    
    # Essa função é chamada quando a tag do elemento será fechada.
    def endElement(self, name):
        if self.current == "TITLE":
            # Caso o elemento seja o de interesse (TITLE) iremos fazer um arquivo contendo todos os 
            # títulos que foram obtidos na função 'characters' por meio da propriedade 'title'. Uma
            # manipulação de string é feita para que os títulos fiquem na mesma linha e que eles tenham
            # a tag TITLE no documento xml.
            with open('titulo.xml', 'a') as new_file:
                title_string = self.title.replace("\n", " ")
                new_file.write("<TITLE>" + title_string + "</TITLE>\n")
        
        # Como esse elemento já foi analisado, podemos setar a propriedade title para uma string vazia
        # para que o próximo título possa ser preenchido sem erros.
        self.title = ""


# Agora então criamos uma instância do nosso handler
handler = TitleHandler()

# Criamos uma instância do parser da biblioteca
parser = sax.make_parser()

# Setamos o handler para ser usado no parser
parser.setContentHandler(handler)

# E por fim, realizamos o parse do arquivo .xml
parser.parse('../data/CysticFibrosis/cf79.xml')