   # Improving and developing a procedure
   ### importing a file xml
   * The xml.etree.ElementTree module implements a simple and efficient API for parsing and creating XML data.

In [1]:
import xml.etree.ElementTree as ET

tree = ET.parse('db_savoirs/BNU_04_Gfrereis.xml')
root = tree.getroot()

In [2]:
root.tag

'{http://www.tei-c.org/ns/1.0}TEI'

In [3]:
root.attrib

{'lock': 'ndufournaud',
 'time': '2020-10-07T12:20:56.726+02:00',
 '{http://www.w3.org/2001/XMLSchema-instance}schemaLocation': 'http://www.tei-c.org/ns/1.0 http://www.ehess.fr/crh/schemas/savoirs.xsd',
 '{http://www.w3.org/XML/1998/namespace}id': 'BNU_04_Gfrereis'}

In [4]:
for child in root:
    print(child.tag, child.attrib)

{http://www.tei-c.org/ns/1.0}teiHeader {}
{http://www.tei-c.org/ns/1.0}text {'{http://www.w3.org/XML/1998/namespace}id': 'text'}


In [5]:
[elem.tag for elem in root.iter()]

['{http://www.tei-c.org/ns/1.0}TEI',
 '{http://www.tei-c.org/ns/1.0}teiHeader',
 '{http://www.tei-c.org/ns/1.0}fileDesc',
 '{http://www.tei-c.org/ns/1.0}titleStmt',
 '{http://www.tei-c.org/ns/1.0}title',
 '{http://www.tei-c.org/ns/1.0}title',
 '{http://www.tei-c.org/ns/1.0}hi',
 '{http://www.tei-c.org/ns/1.0}author',
 '{http://www.tei-c.org/ns/1.0}forename',
 '{http://www.tei-c.org/ns/1.0}surname',
 '{http://www.tei-c.org/ns/1.0}idno',
 '{http://www.tei-c.org/ns/1.0}editor',
 '{http://www.tei-c.org/ns/1.0}forename',
 '{http://www.tei-c.org/ns/1.0}surname',
 '{http://www.tei-c.org/ns/1.0}idno',
 '{http://www.tei-c.org/ns/1.0}funder',
 '{http://www.tei-c.org/ns/1.0}principal',
 '{http://www.tei-c.org/ns/1.0}respStmt',
 '{http://www.tei-c.org/ns/1.0}resp',
 '{http://www.tei-c.org/ns/1.0}name',
 '{http://www.tei-c.org/ns/1.0}forename',
 '{http://www.tei-c.org/ns/1.0}surname',
 '{http://www.tei-c.org/ns/1.0}respStmt',
 '{http://www.tei-c.org/ns/1.0}resp',
 '{http://www.tei-c.org/ns/1.0}name

## print of text element xml

### it still has its tag, next steps:
    * save it with its tags
    * remove its page

In [6]:
print(ET.tostring(child, encoding='utf8').decode('utf8'))




<?xml version='1.0' encoding='utf8'?>
<ns0:text xmlns:ns0="http://www.tei-c.org/ns/1.0" xml:id="text">
    <ns0:front>
      <ns0:titlePage>
        <ns0:docTitle>
          <ns0:titlePart type="main">Dé-construire en exposant : <ns0:hi rend="italic">Ernst Jünger, travailleur au bord de l’abîme</ns0:hi> aux
          Archives littéraires allemandes de Marbach</ns0:titlePart>
        </ns0:docTitle>
        <ns0:byline>
          <ns0:docAuthor>Heike Gfrereis</ns0:docAuthor>
        </ns0:byline>
        <ns0:byline>(Traduction de Aude Therstappen)</ns0:byline>
      </ns0:titlePage>
    </ns0:front>
    <ns0:body>
      <ns0:div type="chapitre" xml:id="d1e129">
        <ns0:p xml:id="d1e131">Les Archives littéraires allemandes de Marbach ont
        acquis le fonds Ernst Jünger en 1994, un an avant son centième
        anniversaire et quatre ans avant sa mort. Ce fonds est riche de très
        nombreuses versions de manuscrits et de tapuscrits des textes de
        Jünger et de ses œu

In [7]:
doc = ET.tostring (child, encoding='utf8').decode ('utf8')

## Transforming a variable into a xml file

In [8]:
doc = ET.tostring (child, encoding='utf8').decode ('utf8')


file = open("output_text/BNU_04_Gfrereis_text.xml", "w")

file.write("%s = %s\n" %("doc", doc))


file.close()


## Print to confirm the file modification

In [9]:
with open ("output_text/BNU_04_Gfrereis_text.xml", "r", encoding="utf_8") as myfile:
    data = myfile.read()
    print(data)

doc = <?xml version='1.0' encoding='utf8'?>
<ns0:text xmlns:ns0="http://www.tei-c.org/ns/1.0" xml:id="text">
    <ns0:front>
      <ns0:titlePage>
        <ns0:docTitle>
          <ns0:titlePart type="main">Dé-construire en exposant : <ns0:hi rend="italic">Ernst Jünger, travailleur au bord de l’abîme</ns0:hi> aux
          Archives littéraires allemandes de Marbach</ns0:titlePart>
        </ns0:docTitle>
        <ns0:byline>
          <ns0:docAuthor>Heike Gfrereis</ns0:docAuthor>
        </ns0:byline>
        <ns0:byline>(Traduction de Aude Therstappen)</ns0:byline>
      </ns0:titlePage>
    </ns0:front>
    <ns0:body>
      <ns0:div type="chapitre" xml:id="d1e129">
        <ns0:p xml:id="d1e131">Les Archives littéraires allemandes de Marbach ont
        acquis le fonds Ernst Jünger en 1994, un an avant son centième
        anniversaire et quatre ans avant sa mort. Ce fonds est riche de très
        nombreuses versions de manuscrits et de tapuscrits des textes de
        Jünger et de 

## transformation a file xml into a text file


In [10]:
import re

text = re.sub('<[^<]+>', "", open("output_text/BNU_04_Gfrereis.xml").read())
with open("output_clean/BNU_04_Gfrereis.txt", "w") as f:
    f.write(text)

## open the file to verify if it works and if it was correctly done 

In [11]:
with open ("output_clean/BNU_04_Gfrereis.txt", "r", encoding="utf_8") as myfile:
    data = myfile.read()
    print(data)

doc = 

    
      
        
          Dé-construire en exposant : Ernst Jünger, travailleur au bord de l’abîme aux
          Archives littéraires allemandes de Marbach
        
        
          Heike Gfrereis
        
        (Traduction de Aude Therstappen)
      
    
    
      
        Les Archives littéraires allemandes de Marbach ont
        acquis le fonds Ernst Jünger en 1994, un an avant son centième
        anniversaire et quatre ans avant sa mort. Ce fonds est riche de très
        nombreuses versions de manuscrits et de tapuscrits des textes de
        Jünger et de ses œuvres complètes, mais aussi de pas moins de
        252 calendriers et journaux intimes encore inédits, de plus de
        30 000 lettres et d’un grand nombre de photos, sans oublier la
        bibliothèque de l’écrivain et sa collection d’objets d’art qui
        demeurent toutefois dans sa maison de Wilflingen (officiellement
        classée monument historique en 1999) pour en préserver l’aménagement
 