## TRABAJO CON XML EN PYTHON

### Ejercicios resueltos

#### Ejercicio 1.

Obtener el fichero "alumnos_v1.xml" y convertir el XML en un DataFrame con tantas columnas como datos tiene un alumno. 

In [None]:
## RESOLUCIÓN 1: SE OBTIENE CADA ETIQUETA SIN BUSCARLA ESPECIFICAMENTE

import xml.etree.ElementTree as et
import pandas as pd

fichero = "./res/alumnos_v1.xml"
tree = et.parse(fichero)

root= tree.getroot()

columnas = ["nombre","dni","calle","numero","ciudad","provincia","telefono"]

filas = []

#recorremos todos los nodos hijos del Nodo-raiz. Un nodo cuando se utiliza en un
# bucle "for", itera a través de todos sus nodos hijos.
for alumno in root:

  fila = {}  #Por cada alumno, hay que obtener una fila del Dataframe

  for tagHijoAlumno in alumno:
      etiquetaNombre = tagHijoAlumno.tag
      etiquetaValor = tagHijoAlumno.text

      # Rellenamos un campo de la fila
      fila[etiquetaNombre] = etiquetaValor

  filas.append(fila)


## Creamos el dataframe
df = pd.DataFrame(filas,columns=columnas)
df

Resolución donde se busca cada columna de forma especifica por su nombre

In [None]:
## RESOLUCIÓN 1: CADA ETIQUETA SE BUSCA ESPECIFICAMENTE

import xml.etree.ElementTree as et
import pandas as pd

fichero = "./res/alumnos_v1.xml"
tree = et.parse(fichero)

root = tree.getroot()

columns = ["nombre", "dni", "calle", "numero", "ciudad", "provincia", "telefono"]

filas = []

for alumno in root:

    fila = {}  # Por cada alumno, hay que obtener una fila del Dataframe

    # Busco cada etiqueta... a través de la método find del nodo.
    nombre = alumno.find("nombre").text
    dni = alumno.find("dni").text
    calle = alumno.find("calle").text
    numero = alumno.find("numero").text
    ciudad = alumno.find("ciudad").text
    provincia = alumno.find("provincia").text
    telefono = alumno.find("telefono").text

    # Ahora con estos datos obtenidos, creamos la fila = diccionario
    fila = {
        "nombre": nombre,
        "dni": dni,
        "calle": calle,
        "numero": numero,
        "ciudad": ciudad,
        "provincia": provincia,
        "telefono": telefono
    }

    #Agregamos la fila, a la lista de filas
    filas.append(fila)



## Creamos el dataframe
df = pd.DataFrame(filas, columns=columnas)
df


#### Ejercicio 2.

Obtener el fichero "alumnos_v2.xml" y convertir el XML en un DataFrame con tantas columnas como datos tiene un alumno. 

Lo que cambia en este XML, es que tenemos un nivel más de anidamiento, con la etiqueta direcion. Para procesarla, tenemos que gestionar este nivel adicional, pero para el Dataframe, no tiene ningún efecto, porque son 2 niveles, filas y columnas, una tabla.

In [12]:
## RESOLUCIÓN 1: SE OBTIENE CADA ETIQUETA SIN BUSCARLA ESPECIFICAMENT
import xml.etree.ElementTree as et
import pandas as pd

fichero = "./res/alumnos_v2.xml"
tree = et.parse(fichero)

root= tree.getroot()

columnas = ["nombre","dni","calle","numero","ciudad","provincia","telefono"]

filas = []

#recorremos todos los nodos hijos del Nodo-raiz. Un nodo cuando se utiliza en un
# bucle "for", itera a través de todos sus nodos hijos.
for alumno in root:
  print("\----- alumno : -------")

  fila = {}  #Por cada alumno, hay que obtener una fila del Dataframe

  for tagHijoAlumno in alumno:

      #obtener del atributo dni
      dni = alumno.attrib["dni"]
      fila["dni"] = dni

      #Chequear si la etiqueta es la de dirección
      if (tagHijoAlumno.tag =="direccion"):
         tagDireccion = tagHijoAlumno

         for tagHijoDireccion in tagDireccion:
           
           etiquetaNombre = tagHijoAlumno.tag
           etiquetaValor = tagHijoAlumno.text

      else:

        # Todas aquellas etiquetas hijas distintas de direccion
        etiquetaNombre = tagHijoAlumno.tag 
        etiquetaValor = tagHijoAlumno.text      

      
      # Rellenamos un campo de la fila
      fila[etiquetaNombre] = etiquetaValor


  # Rellenamos un campo de la fila
  filas.append(fila)


## Creamos el dataframe
df = pd.DataFrame(filas,columns=columnas)
df

\----- alumno : -------
\----- alumno : -------


Unnamed: 0,nombre,dni,calle,numero,ciudad,provincia,telefono
0,Juan Andrés,11111111A,,,,,924555555
1,Jose Sanchez,22222222B,,,,,924550000


In [None]:
## RESOLUCIÓN 2: SE OBTIENE LA ETIQUETA ESPECIFICAMENTE
import xml.etree.ElementTree as et
import pandas as pd

fichero = "./res/alumnos_v2.xml"
tree = et.parse(fichero)

root= tree.getroot()

columnas = ["nombre","dni","calle","numero","ciudad","provincia","telefono"]

filas = []

#recorremos todos los nodos hijos del Nodo-raiz. Un nodo cuando se utiliza en un
# bucle "for", itera a través de todos sus nodos hijos.
for alumno in root:
  print("\----- alumno : -------")

  fila = {}  #Por cada alumno, hay que obtener una fila del Dataframe

  nombre = alumno.find("nombre").text
  telefono = alumno.find("telefono").text

  #obtener del atributo dni
  dni = alumno.attrib["dni"]

  tagDireccion = alumno.find("direccion")

  # obtenemos los datos desde la etiqueta direccion
  calle = tagDireccion.find("calle").text
  numero = tagDireccion.find("numero").text
  ciudad = tagDireccion.find("ciudad").text
  provincia = tagDireccion.find("provincia").text


  # Ahora con estos datos obtenidos, creamos la fila = diccionario
  fila = {
      "nombre": nombre,
      "dni": dni,
      "calle": calle,
      "numero": numero,
      "ciudad": ciudad,
      "provincia": provincia,
      "telefono": telefono
  }

  #Agregamos la fila, a la lista de filas
  filas.append(fila)

## Creamos el dataframe
df = pd.DataFrame(filas,columns=columnas)
df

In [10]:
## RESOLUCIÓN 3: TRANSFORMACIÓN EN UNA FUNCIÓN

# Pasos:
# 1. El nombre del fichero, se pasa como parámetro
# 2. La función va a retornar el Dataframe construido

import xml.etree.ElementTree as et
import pandas as pd

def loadAlumnosXML2Dataframe(fichero):

  tree = et.parse(fichero)

  root= tree.getroot()

  columnas = ["nombre","dni","calle","numero","ciudad","telefono","provincia"]

  filas = []

  #recorremos todos los nodos hijos del Nodo-raiz. Un nodo cuando se utiliza en un
  # bucle "for", itera a través de todos sus nodos hijos.
  for alumno in root:

    fila = {}  #Por cada alumno, hay que obtener una fila del Dataframe

    nombre = alumno.find("nombre").text
    telefono = alumno.find("telefono").text

    #obtener del atributo dni
    dni = alumno.attrib["dni"]

    tagDireccion = alumno.find("direccion")

    # obtenemos los datos desde la etiqueta direccion
    calle = tagDireccion.find("calle").text
    numero = tagDireccion.find("numero").text
    ciudad = tagDireccion.find("ciudad").text
    provincia = tagDireccion.find("provincia").text


    # Ahora con estos datos obtenidos, creamos la fila = diccionario
    fila = {
        "nombre": nombre,
        "dni": dni,
        "calle": calle,
        "numero": numero,
        "ciudad": ciudad,
        "telefono": telefono,
        "provincia": provincia,
    }

    #Agregamos la fila, a la lista de filas
    filas.append(fila)

  
  ## Creamos el dataframe
  df = pd.DataFrame(filas,columns=columnas)

  # retornar el dataframe creado
  return df



###### PROBAR LA FUNCIÓN ###
fichero = "./res/alumnos_v2.xml"
dataframe = loadAlumnosXML2Dataframe(fichero)

#imprimimos el dataframe para ver el resultado
print(dataframe)




         nombre        dni                 calle numero ciudad   telefono  \
0   Juan Andrés  11111111A  Avenida de la Fuente      6  Zafra  924555555   
1  Jose Sanchez  22222222B           Calle Ancha      3  Zafra  924550000   

  provincia  
0   Badajoz  
1   Badajoz  
