<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Apertura-de-xml-con-Python:" data-toc-modified-id="Apertura-de-xml-con-Python:-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Apertura de xml con Python:</a></span></li><li><span><a href="#Apertura-de-json-con-Python:" data-toc-modified-id="Apertura-de-json-con-Python:-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Apertura de json con Python:</a></span></li><li><span><a href="#Apertura-de-xml-con-Pandas:" data-toc-modified-id="Apertura-de-xml-con-Pandas:-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Apertura de xml con Pandas:</a></span></li><li><span><a href="#Apertura-de-csv-con-Pandas:" data-toc-modified-id="Apertura-de-csv-con-Pandas:-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Apertura de csv con Pandas:</a></span></li><li><span><a href="#Apertura-de-excel-con-Pandas:" data-toc-modified-id="Apertura-de-excel-con-Pandas:-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Apertura de excel con Pandas:</a></span></li><li><span><a href="#Apertura-de-json-con-Pandas:" data-toc-modified-id="Apertura-de-json-con-Pandas:-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Apertura de json con Pandas:</a></span></li></ul></div>

# Apertura de xml con Python:

**XML** es un acrónimo de *Extensible Markup Language*, que se traduce como "Lenguaje de Marcado Extensible". Se trata de un lenguaje de marcado que se utiliza para codificar y estructurar datos de manera que sean legibles tanto para las máquinas como para los seres humanos.

En un archivo XML, los datos se organizan mediante etiquetas que definen la estructura jerárquica de la información. Cada etiqueta tiene una apertura `<etiqueta>` y un cierre `</etiqueta>`, y puede contener datos o subetiquetas anidadas. 

Por ejemplo, el siguiente fragmento de XML representa un correo electrónico:

```xml
<correo>
  <to>María</to>
  <from>
    <name>Ada</name>
    <email>ada@adalab.es</email>
  </from>
  <heading>¿Qué tal?</heading>
  <body>Hola Mari, qué tal estás, qué tal la familia? Escríbeme pronto, un beso!</body>
</correo>
```

Aquí, `<correo>` es la etiqueta raíz que engloba toda la información del correo. Contiene etiquetas como `<to>`, `<from>`, `<heading>`, y `<body>`, que a su vez pueden contener datos o subetiquetas.



Para acceder a un archivo xml necesitamos importar la librería xml con algunos submódulos. Le asignamos el alias ET y usamos parse() para leer y interpretar los contenidos:

In [2]:
import xml.etree.ElementTree as ET

In [3]:
# abrimos el fichero
tree = ET.parse('contacto.xml')

El método .getroot() nos saca el elemento que envuelve todo, como <contact-info> en este archivo.

In [4]:
root = tree.getroot()

Cada elemento, incluyendo el elemento root tiene un tag y puede tener unos atributos. En este caso el elemento a la raíz de todo le acabamos de asignar el nombre root, y su nombre (tag) y atributos los accedemos entonces de esta manera:

In [5]:
# printemos cuál es la raiz, el padre de nuestr archivo xml
print(root.tag)

contact-info


In [6]:
# sacamos los atributos de nuestro fichero
print(root.attrib)

{}


In [8]:
print(root.find('contact').find('type').text)

Website


Puedes iterar por cada hijo de root y ver la estructura del xml de la siguiente manera:

In [9]:
for child in root:
    print(f"{child.tag}: Es un hijo de nuestra raiz 'contact-info'" )
    for subchild in child:
        print(f"{subchild.tag}: Es un nieto de nuestra raiz 'contact-info'" )

contact: Es un hijo de nuestra raiz 'contact-info'
type: Es un nieto de nuestra raiz 'contact-info'
url: Es un nieto de nuestra raiz 'contact-info'
contact: Es un hijo de nuestra raiz 'contact-info'
type: Es un nieto de nuestra raiz 'contact-info'
address: Es un nieto de nuestra raiz 'contact-info'
socialmedia: Es un hijo de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'


Si vas chequeando el archivo xml ves que sigue una estructura de árbol, tiene una rama principal que es contact-info del que salen dos ramas contact y socialmedia. De estos, a su vez salen más ramas:

- De la subrama contact salen las siguientes ramas: type, url y address

- De la subrama socialmedia sale solo profile

Ahora que sabes cómo se llaman los campos puedes sacar su contenido uno por uno. Con .find() extraes la primera ocasión en que el tag de un elemento coincida con el string. Recuerda que puedes tener múltiples elementos con el mismo nombre.

In [10]:
print(root.find('contact').find('type').text)

#busca en contct el primer elemento con su type

Website


In [11]:
print(root.find('contact').find('url').text)

https://adalab.es/


Genial!!! Hasta ahora hemos visto como acceder al contenido, pero... 🤔 solo estaba devolviendo el contenido de una etiqueta. ¿Cómo podríamos hacer para que nos devolviera el contenido de todas las etiquetas con el mismo nombre? Usando .findall() que nos da una lista de todos los elementos cuyo tag coincide con el string dado. Para cada contacto sacamos el subelemento que se llama type y accedemos a su texto:

In [12]:
# iteramos por el hijo "contact" y accedemos a todos
for contact in root.findall('contact'):
    # dentro de este sacamos su contenido
    print(contact.find('type').text)

Website
Mail


In [13]:
# como lo haríamos para el otro elemento que teníamos
for subelement in root.find('socialmedia').findall('profile'):
    print(subelement.find('name').text)

Twitter
Facebook
Linkedin
Instagram
Youtube


# Apertura de json con Python:

In [14]:
# importamos las librerías que necesitaremos

# Importar librería para trabajar con archivos JSON
# -----------------------------------------------------------------------
import json

# Importar librerías para manipulación y análisis de datos
# -----------------------------------------------------------------------
import pandas as pd


Cargamos el Json con "open", y con load() convertimos el Json en un objeto de Python:

In [15]:
with open("personal.json", "r") as fichero: # introducimos el nombre de nuestro archivo json y "r" porque lo vamos a leer(read)
    personal = json.load(fichero) # igualamos el archivo cargado a una variable para tenerlo almacenado

In [14]:
type(personal)

dict

Esta es la pinta que tiene nuestro archivo. Vemos que tiene una estructura cómo los diccionarios que ya conocemos. Tenemos la key "workers" y dentro una lista de diccionarios con todos los trabajadores.

In [16]:
personal

{'workers': [{'nombre': 'Ana',
   'edad': 32,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

Para saber la longitud de "workers":

In [17]:
len(personal["workers"])

4

Accedemos a cada uno de los registros dentro de "workers":

In [18]:
for person in personal["workers"]:
    print(person)


{'nombre': 'Ana', 'edad': 32, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'gatos'}
{'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}
{'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}
{'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}


Para acceder a cada uno de los registros, usamos los índices:

In [19]:
personal["workers"][0]

{'nombre': 'Ana',
 'edad': 32,
 'experiencia': 5,
 'nivel': 'Senior',
 'salario': 50000,
 'mascota': 'gatos'}

Con las keys podemos acceder a cada uno de los valores del diccionario:

In [20]:
personal["workers"][0]["nombre"]

'Ana'

Además, podemos cambiar el valor de cada una de las keys:

In [21]:
personal["workers"][0]["edad"]=32
personal["workers"][0]["edad"]

32

Esto lo podemos hacer en bucle e incluyendo condiciones:

En este caso, si el nombre de alguna de las personas es igual a Ana, le añadimos la key "mascota".

In [22]:
for i in range(len(personal["workers"])):
    if personal["workers"][i]["nombre"]=="Ana":
        personal["workers"][i]["mascota"] = "gatos"

In [23]:
personal["workers"][0]

{'nombre': 'Ana',
 'edad': 32,
 'experiencia': 5,
 'nivel': 'Senior',
 'salario': 50000,
 'mascota': 'gatos'}

Guardamos el fichero actualizado en un nuevo json. En este caso usamos "w" ya que queremos escribir (write):

In [24]:
with open("personal_actualizado.json", "w") as fichero:
    json.dump(personal, fichero)

# Apertura de xml con Pandas:

In [25]:
df = pd.read_xml("books.xml")

si da un error, ejecutar en la terminal en el entorno en el que estemos trabajando

pip install lxml

In [26]:
df.head()

Unnamed: 0,id,author,title,genre,price,publish_date,description
0,bk101,"Gambardella, Matthew",XML Developer's Guide,Computer,44.95,2000-10-01,An in-depth look at creating applications \n ...
1,bk102,"Ralls, Kim",Midnight Rain,Fantasy,5.95,2000-12-16,"A former architect battles corporate zombies, ..."
2,bk103,"Corets, Eva",Maeve Ascendant,Fantasy,5.95,2000-11-17,After the collapse of a nanotechnology \n ...
3,bk104,"Corets, Eva",Oberon's Legacy,Fantasy,5.95,2001-03-10,"In post-apocalypse England, the mysterious \n ..."
4,bk105,"Corets, Eva",The Sundered Grail,Fantasy,5.95,2001-09-10,"The two daughters of Maeve, half-sisters, \n ..."


Ahora ya tienes el xml en un DataFrame y puedes aplicar los métodos que has aprendido anteriormente. Ya ves que es mucho más sencillo abrir este tipo de archivos con Pandas!!

# Apertura de csv con Pandas:

Probablemente uno de los tipos de archivo más usados

In [27]:
df_ufo = pd.read_csv("ufo.csv")

In [28]:
df_ufo.head()

Unnamed: 0.1,Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


Ups!! Al abrir el "csv" ha creado una columna: "Unnamed: 0" que no forma parte del archivo original. Esto lo hace Pandas al crear un nuevo índice. La forma de solucionarlo es decirle que ponga la primera columna del archivo como índice:

In [29]:
df_ufo = pd.read_csv("ufo.csv", index_col = 0)

In [30]:
df_ufo.head()

Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


Puedes guardar un DataFrame en un formato diferente al que tenía el archivo de inicio. Por ejemplo, vamos a guardarlo en Excel:

In [1]:
#Guardar un dataframe sin índice
df_ufo.to_csv("ufo.csv", index = False)

NameError: name 'df_ufo' is not defined

In [31]:
df_ufo.to_excel("ufo.xlsx")

Aquí tienes la documentación con todos los parámetros que admite [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).


In [32]:
!pip3 install openpyxl



In [38]:
#como el siguiente código me daba error por este mensaje:
#ImportError: Pandas requires version '3.1.0' or newer of 'openpyxl' (version '3.0.10' currently installed).
#hice upgrade y volví a ranear la celda anterior.

!pip install --upgrade openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.9/250.9 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: openpyxl
  Attempting uninstall: openpyxl
    Found existing installation: openpyxl 3.0.10
    Uninstalling openpyxl-3.0.10:
      Successfully uninstalled openpyxl-3.0.10
Successfully installed openpyxl-3.1.5


# Apertura de excel con Pandas:

In [33]:
df_ufo_excel = pd.read_excel("ufo.xlsx", index_col = 0)

Al igual que con el "csv", hay que decirle a Pandas que la primera columna es el índice para que no cree la columna "Unnamed: 0".

In [34]:
df_ufo_excel.head()

Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


🚨⚠️ NOTA Puede que al ejecutar este línea de código os salga un error:

DON'T PANIC!!! Lo único que tendrás que hacer es importaros openpyxl. ¿Cómo?

Vas a la terminal y ejecutas el siguiente código:
pip3 install openpyxl
o

pip install openpyxl

Hay muchos más parámetros que puedes usar al abrir este tipo de archivos, como por ejemplo saltar las primeras líneas del archivo de Excel o abrir los datos de una pestaña en concreto del documento. Aquí tienes la documentación para que le eches un vistazo: [read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

# Apertura de json con Pandas:

Ahora vamos a ver cómo abrir un archivo de tipo "json" con pandas:

In [35]:
df = pd.read_json("one_piece.json")

In [36]:
df.head()

Unnamed: 0,rank,trend,season,episode,name,start,total_votes,average_rating
0,24129,18,1,1,I'm Luffy! The Man Who Will Become the Pirate ...,1999,647,7.6
1,29290,11,1,2,"The Great Swordsman Appears! Pirate Hunter, Ro...",1999,473,7.8
2,32043,7,1,3,Morgan vs. Luffy! Who's This Beautiful Young G...,1999,428,7.7
3,28818,8,1,4,Luffy's Past! The Red-haired Shanks Appears!,1999,449,8.1
4,37113,4,1,5,"Fear, Mysterious Power! Pirate Clown Captain B...",1999,370,7.5


Al igual que antes, con este DataFrame puedes aplicar los métodos de Pnadas que has aprendido, incluso guardarlo con otro formato cómo por ejemplo "csv":

In [37]:
df.to_csv("one_piece.csv")