# (PT-BR) O que é um arquivo XML?

- XML, do inglês eXtensible Markup Language, é uma linguagem de marcação recomendada pela W3C para a criação de documentos com dados organizados hierarquicamente, tais como textos, banco de dados ou desenhos vetoriais. A linguagem XML é classificada como extensível porque permite definir os elementos de marcação.

### Linguagem de marcação:

- Linguagem de marcação é um agregado de códigos que podem ser aplicados a dados ou textos para serem lidos por computadores ou pessoas. Por exemplo, o HTML é uma linguagem de marcação para organizar e formatar um website, já o XML tem o mesmo conceito, mas para padronizar uma sequência de dados com o objetivo de organizar, separar o conteúdo e integrá-lo com outras linguagens.

### Principais características:

- O XML traz uma sintaxe básica que pode ser utilizada para compartilhar informações entre diferentes computadores e aplicações. Quando combinado com outros padrões, torna possível definir o conteúdo de um documento separadamente de seu formato, tornando simples para reutilizar o código em outras aplicações para diferentes propósitos. Portanto, uma das suas principais características é sua portabilidade, pois, por exemplo, um banco de dados pode escrever um arquivo XML para que outro banco consiga lê-lo.  

### Exemplo de código:

<img src="https://img1.ibxk.com.br/materias/ExemploXML.jpg?w=700" alt="example">

# Python manipulation:

- Using Element Tree to manipulate XML files

# Importing necessary libs

In [1]:
import xml.etree.ElementTree as ET
import pandas as pd

# Reading XML file

In [2]:
tree = ET.parse('cd_catalog.xml')
root = tree.getroot()

# Getting Tag and attribute of the root

Here we can also check if theres is some "text" attribute between the root tag

In [3]:
root.tag

'CATALOG'

In [4]:
root.attrib

{}

# Printing child tag and attrib of roots child

In [5]:
for child in root:
    print(child.tag, child.attrib)

CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}
CD {}


# Printing the entire XML file into python

In [6]:
print(ET.tostring(root,encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<CATALOG>
  <CD>
    <TITLE>Empire Burlesque</TITLE>
    <ARTIST>Bob Dylan</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Columbia</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1985</YEAR>
  </CD>
  <CD>
    <TITLE>Hide your heart</TITLE>
    <ARTIST>Bonnie Tyler</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>CBS Records</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1988</YEAR>
  </CD>
  <CD>
    <TITLE>Greatest Hits</TITLE>
    <ARTIST>Dolly Parton</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>RCA</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1982</YEAR>
  </CD>
  <CD>
    <TITLE>Still got the blues</TITLE>
    <ARTIST>Gary Moore</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Virgin records</COMPANY>
    <PRICE>10.20</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD>
    <TITLE>Eros</TITLE>
    <ARTIST>Eros Ramazzotti</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>BMG</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1997</YEAR>
  </CD>
  <CD>
    <TITLE>O

# Printing all elements of root childs that has the TAG "title"

In [7]:
for child in root.iter('TITLE'):
    print(child.tag, child.attrib, child.text)

TITLE {} Empire Burlesque
TITLE {} Hide your heart
TITLE {} Greatest Hits
TITLE {} Still got the blues
TITLE {} Eros
TITLE {} One night only
TITLE {} Sylvias Mother
TITLE {} Maggie May
TITLE {} Romanza
TITLE {} When a man loves a woman
TITLE {} Black angel
TITLE {} 1999 Grammy Nominees
TITLE {} For the good times
TITLE {} Big Willie style
TITLE {} Tupelo Honey
TITLE {} Soulsville
TITLE {} The very best of
TITLE {} Stop
TITLE {} Bridge of Spies
TITLE {} Private Dancer
TITLE {} Midt om natten
TITLE {} Pavarotti Gala Concert
TITLE {} The dock of the bay
TITLE {} Picture book
TITLE {} Red
TITLE {} Unchain my heart


# Creating a XML file


## 1. Defining root node

In [8]:
root = ET.Element('metadata')

In [9]:
root.text = 'Metadata of database'

## 2. Defining directly child

In [10]:
child1 = ET.SubElement(root, 'variable')

In [11]:
child1.set('name','variable 1')

In [12]:
child1.text = 'Variable 1 text'

In [13]:
child2 = ET.SubElement(root, 'variable')

In [14]:
child2.set('name', 'variable 2')

In [15]:
child2.text = 'Variable 2 text'

## 3. Defining child of childs (sub-child)

In [16]:
subchild1 = ET.SubElement(child1, 'range')
subchild1.set('type','subchild 1')
subchild1.text = 'From 0 to 100'

## 4. Creating XML file

In [17]:
metadata = ET.tostring(root)

In [18]:
myfile = open('metadata.xml','wb')

In [19]:
myfile.write(metadata)

195

In [20]:
tree = ET.ElementTree(root)
tree.write("test1.xml")

# Testing the XML file created

In [21]:
tree = ET.parse('test1.xml')
root = tree.getroot()

In [22]:
print(ET.tostring(root,encoding='utf8').decode('utf8'))

<?xml version='1.0' encoding='utf8'?>
<metadata>Metadata of database<variable name="variable 1">Variable 1 text<range type="subchild 1">From 0 to 100</range></variable><variable name="variable 2">Variable 2 text</variable></metadata>


In [23]:
tree = ET.parse('metadata.xml')
root = tree.getroot()
print(ET.tostring(root,encoding='utf8').decode('utf8'))

ParseError: no element found: line 1, column 0 (<string>)