# Data Wrangling.
## Escuela Superior de Empresa, Ingeniería y Tecnología (ESEIT)
Docente: Jarles Andrés Marimon Hernández

## Manipulación de archivos XML y JSON



*   Los datos de tipo tabla se adaptan bien cuando la mayoría de datos ya han sido filtrados, revisados y procesados.
*   Sin embargo, con el auge de internet surgió la necesidad de manipular grandes cantidades de texto que se encuentran en las noticias, redes sociales y blogs. 
*   Como este tipo de contenido suele incluir caracteres que pueden afectar su significado semántico, tales como puntos, comas o comillas, etc., se hace complejo encajarlo en un formato delimitado de tablas. 
*   Los formatos de datos basados en alimentación (Feed-Based Data) surgen para hacer frente a estas limitaciones.
*   Abordaremos los dos formatos principales de datos basados en alimentación: *.xlm* y *.jason*.


## .XML (Extensible Markup Language - Lenguaje de marcado extensivo)

*   Se utiliza para estructurar datos para su almacenamiento y transporte.
*   Un archivo XML consta de etiquetas y de texto. 
*   Las etiquetas proporcionan la estructura de los datos.





## .JASON (JavaScript Object Notation)


*   Tienen funcionalidad a los archivos XML pero son menos descriptivos.
*   Pueden almacenar casi que la misma cantidad de datos de un archivo XML pero usando menos espacio, lo cual mejora la velocidad de los procesos.

## ¿Dónde se encuentra este tipo de datos?


*   Principalmente en la web.


In [None]:
from bs4 import BeautifulSoup

In [None]:
with open('Example_xml.xml', 'r', encoding='utf8') as f:
    data = f.read()

In [None]:
print(data)

**BeautifulSoup** permite que podamos interactuar con los elementos del archivo .xlm como si estuviésemos utilizando las heramientas del desarrollador de un navegador. 

In [None]:
Bs_data = BeautifulSoup(data, "xml")

In [None]:
print(Bs_data)

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<book id="bk101">
<author>Gambardella, Matthew</author>
<title>XML Developer's Guide</title>
<genre>Computer</genre>
<price>44.95</price>
<publish_date>2000-10-01</publish_date>
<description>An in-depth look at creating applications 
      with XML.</description>
</book>
<book id="bk102">
<author>Ralls, Kim</author>
<title>Midnight Rain</title>
<genre>Fantasy</genre>
<price>5.95</price>
<publish_date>2000-12-16</publish_date>
<description>A former architect battles corporate zombies, 
      an evil sorceress, and her own childhood to become queen 
      of the world.</description>
</book>
<book id="bk103">
<author>Corets, Eva</author>
<title>Maeve Ascendant</title>
<genre>Fantasy</genre>
<price>5.95</price>
<publish_date>2000-11-17</publish_date>
<description>After the collapse of a nanotechnology 
      society in England, the young survivors lay the 
      foundation for a new society.</description>
</book>
<book id="bk104">
<author>Co

Encontrar todas las instancias de la equiqueta 'book'.

In [None]:
b_book = Bs_data.find_all('book')
print(b_book)
print(type(b_book))
print(b_book[0])

In [None]:
authors = Bs_data.find_all('author')
for i in range(len(authors)):
    print(authors[i])
    print(authors[i].get_text())

<author>Gambardella, Matthew</author>
Gambardella, Matthew
<author>Ralls, Kim</author>
Ralls, Kim
<author>Corets, Eva</author>
Corets, Eva
<author>Corets, Eva</author>
Corets, Eva
<author>Corets, Eva</author>
Corets, Eva
<author>Randall, Cynthia</author>
Randall, Cynthia
<author>Thurman, Paula</author>
Thurman, Paula
<author>Knorr, Stefan</author>
Knorr, Stefan
<author>Kress, Peter</author>
Kress, Peter
<author>O'Brien, Tim</author>
O'Brien, Tim
<author>O'Brien, Tim</author>
O'Brien, Tim
<author>Galos, Mike</author>
Galos, Mike


Si queremos encontrar únicamente un resultado

In [None]:
b_autor = Bs_data.find('author')
print(b_autor)

<author>Gambardella, Matthew</author>


In [None]:
b_id = Bs_data.find('book', id= 'bk106')
print(b_id)

<book id="bk106">
<author>Randall, Cynthia</author>
<title>Lover Birds</title>
<genre>Romance</genre>
<price>4.95</price>
<publish_date>2000-09-02</publish_date>
<description>When Carla meets Paul at an ornithology 
      conference, tempers fly as feathers get ruffled.</description>
</book>


In [None]:
import json

In [None]:
f = open('test_config.json')
data = json.load(f)
print(data)

{'eqn_config': {'_comment': 'HJB equation in PNAS paper doi.org/10.1073/pnas.1718942115', 'eqn_name': 'HJBLQ', 'total_time': 1.0, 'dim': 100, 'num_time_interval': 20}, 'net_config': {'y_init_range': [0, 1], 'num_hiddens': [110, 110], 'lr_values': [0.01, 0.01], 'lr_boundaries': [1000], 'num_iterations': 2000, 'batch_size': 64, 'valid_size': 256, 'logging_frequency': 100, 'dtype': 'float64', 'verbose': True}}


In [None]:
print(data['eqn_config'])

{'_comment': 'HJB equation in PNAS paper doi.org/10.1073/pnas.1718942115', 'eqn_name': 'HJBLQ', 'total_time': 1.0, 'dim': 100, 'num_time_interval': 20}


In [None]:
print(data['eqn_config']['_comment'])
print(data['eqn_config']['eqn_name'])



HJB equation in PNAS paper doi.org/10.1073/pnas.1718942115
HJBLQ


## Bliliografía + otros recursos

* MCGregor, S. (2021). Practical Python Data Wrangling and Data Quality. O'Reilly Media.

* [What is an XML file and How Do I Open One? - Indeed Editorial Team (2021)](https://www.indeed.com/career-advice/career-development/xml-file#:~:text=An%20XML%20file%20is%20an,adhere%20to%20specific%20syntax%20guidelines.)





