# ACCESO LOCAL: JSON (I)

**Los ficheros Json, o JavaScript Object Notation es otro formato de texto plano que se utiliza para el intercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programación web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.

Y su extensión (o la extensión de los ficheros Json) es... tachán!!: `.json`

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_clave" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostumbrados para ganar en flexibilidad. Es como un fichero para guardar diccionarios o listas de ellos.

In [1]:
with open("C:/Users/david/Downloads/single_json.json","r")as f:
    for linea in f:
        print(linea, end="")

{
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }

In [2]:
## Una lista de diccionarios

with open("C:/Users/david/Downloads/presidentes_short.json","r") as f:
    for linea in f:
        print(linea,end="")

[
  {
    "id": 1,
    "president": 1,
    "nm": "George Washington",
    "pp": "None, Federalist",
    "tm": "1789-1797"
  },
  {
    "id": 2,
    "president": 2,
    "nm": "John Adams",
    "pp": "Federalist",
    "tm": "1797-1801"
  },
  {
    "id": 3,
    "president": 3,
    "nm": "Thomas Jefferson",
    "pp": "Democratic-Republican",
    "tm": "1801-1809"
  }
]
  

In [3]:
## Diccionario por linea

with open("C:/Users/david/Downloads/Musical_short.json") as f:
    for linea in f:
        print(linea,end="")

{"reviewerID": "A2IBPI20UZIR0U", "asin": "1384719342", "reviewerName": "cassandra tu \"Yeah, well, that's just like, u...", "helpful": [0, 0], "reviewText": "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,", "overall": 5.0, "summary": "good", "unixReviewTime": 1393545600, "reviewTime": "02 28, 2014"}
{"reviewerID": "A14VAT5EAX3D9S", "asin": "1384719342", "reviewerName": "Jake", "helpful": [13, 14], "reviewText": "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smell

# Lectura y extracción de datos de archivos JSON

Con calma: los archivos JSON se leen como hemos hecho en los ejemplos anteriores (como un texto plano, con `open()`), pero luego **NO** se procesan igual que un fichero de texto normal. Esto ha sido sólo para mostrarte el contenido, ya que son archivos de texto plano.

Existe una librería de Python específica para "leer" el contenido de los JSON con el original nombre de... ¡premio!: `json` (sencillo, directo y sin confusiones).

Haremos uso de ella cuando queramos extraer el contenido de un archivo JSON (y sepamos que no es directamente convertible a pandas, que eso lo vemos en la siguiente sesión de JSON).

In [5]:
import json

In [7]:
with open("C:/Users/david/Downloads/single_json.json","r")as f:
    datos = json.load(f)
print(type(datos))
datos

<class 'dict'>


{'firstName': 'Jane',
 'lastName': 'Doe',
 'hobbies': ['running', 'sky diving', 'singing'],
 'age': 35,
 'children': [{'firstName': 'Alice', 'age': 6},
  {'firstName': 'Bob', 'age': 8}]}

Lo esperado, un diccionario. Ahora con los presidentes

In [8]:
with open("C:/Users/david/Downloads/presidentes_short.json","r")as f:
    datos = json.load(f)
print(type(datos))
datos

<class 'list'>


[{'id': 1,
  'president': 1,
  'nm': 'George Washington',
  'pp': 'None, Federalist',
  'tm': '1789-1797'},
 {'id': 2,
  'president': 2,
  'nm': 'John Adams',
  'pp': 'Federalist',
  'tm': '1797-1801'},
 {'id': 3,
  'president': 3,
  'nm': 'Thomas Jefferson',
  'pp': 'Democratic-Republican',
  'tm': '1801-1809'}]

In [12]:
with open("C:/Users/david/Downloads/Musical_short.json","r") as f:
    datos = [json.loads(linea) for linea in f] ### Tiene una S, ya que aquí no le estoy pasando yn decriptor de fichero sino un string ###
print(type(datos))
datos

<class 'list'>


[{'reviewerID': 'A2IBPI20UZIR0U',
  'asin': '1384719342',
  'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...',
  'helpful': [0, 0],
  'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,",
  'overall': 5.0,
  'summary': 'good',
  'unixReviewTime': 1393545600,
  'reviewTime': '02 28, 2014'},
 {'reviewerID': 'A14VAT5EAX3D9S',
  'asin': '1384719342',
  'reviewerName': 'Jake',
  'helpful': [13, 14],
  'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filte

# Escritura en archivos JSON

Antes de ponernos a escribir, es importante puntualizar que para poder escribir en archivos JSON, **lo que vayas a escribir debe cumplir con la especificación de un objeto JSON** (por si necesitas material para conciliar el sueño esta noche).

Básicamente, para nosotros:
- Cualquier **diccionario** de Python
- O cualquier **lista de diccionarios**

Puede escribirse (empleando la librería `json`) a un fichero, y luego ser leído por cualquier otro programa o lenguaje como JSON válido. 

⚠️ **Pero atención**: No todo es serializable a JSON. Por ejemplo:
- Las imágenes no se pueden serializar en JSON
- Otros tipos de datos complejos pueden generar errores

Cuando encuentres el mensaje _"impossible serializar en JSON"_, es la forma educada que tiene Python de decirnos que ese dato no puede convertirse a formato JSON. 

[Por ahora, quédate con la idea principal: podemos guardar sin problemas listas de diccionarios y diccionarios simples]

Por ejemplo, creando el diccionario:

In [16]:
dicc_ejemplo = {"nombre":"Motomami","cantante":"Rosalia","anyo":"2021"}

In [17]:
with open("C:/Users/david/Downloads/ejemplo.json","w")as g:
    json.dump(dicc_ejemplo,g)

Ahora cualquier programador en el lenguaje que quiera con el lector de json específico puede leer este fichero.

Se puede hacer los mismo, con una lista de diccionarios:

In [19]:
lista = []
for i in range (4):
    dicc_valor=dicc_ejemplo.copy()
    dicc_valor["cantante"]=f"Rosalia_{i}"
    lista.append(dicc_valor)
print(lista)

[{'nombre': 'Motomami', 'cantante': 'Rosalia_0', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_1', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_2', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_3', 'anyo': '2021'}]


In [20]:
with open("C:/Users/david/Downloads/lista.json","w")as g:
    json.dump(lista,g)

In [21]:
with open("C:/Users/david/Downloads/lista.json","r")as f:
    print(json.load(f))

[{'nombre': 'Motomami', 'cantante': 'Rosalia_0', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_1', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_2', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_3', 'anyo': '2021'}]


# ACCESO LOCAL: JSON (II)

Como ya dijimos, los ficheros JSON no se suelen emplear para datos tabulares, aunque sí para almacenar datos de una forma más flexible (como ya revisaremos al hablar, brevemente, de las bases de datos NoSQL). Aún así, es posible que encontremos ficheros JSON que podamos dar de "comer" directamente a nuestro DataFrame de pandas o bien que contengan datos que queramos usar para construirlo.

Vamos a ver dos ejemplos:
1. Por un lado, el caso directo
2. Por otro, para construirlo nosotros mismos

Terminaremos abriendo otro fichero JSON (que no tiene extensión .json, pero que lo es por dentro) y espero que te sorprenda.

## De JSON a pandas en un paso

Recordemos el archivo de críticas musicales que teníamos en la sesión anterior:
- El que **no podíamos procesar directamente** con `json.load()`
- Y teníamos que leer **línea a línea** (o al menos así lo hacíamos)

Pero ahora veremos su **versión larga**:

In [23]:
import json
with open("C:/Users/david/Downloads/Musical_Instruments_5.json","r")as f:
    datos = [json.loads(linea)for linea in f]
    

In [24]:
len(datos)

10261

In [26]:
datos [10:25]

[{'reviewerID': 'A2NYK9KWFMJV4Y',
  'asin': 'B00004Y2UT',
  'reviewerName': 'Mike Tarrani "Jazz Drummer"',
  'helpful': [6, 6],
  'reviewText': "Monster makes a wide array of cables, including some that are very high end. I initially purchased a pair ofMonster Rock Instrument Cable - 21 Feet - Angled to Straight 1/4-Inch plugto use with my keyboards, but when it came time to purchase cables for my bass and guitar I thought I'd pinch a few pennies.  I am so glad I did.I compared this cable model to the more expensive models I previously purchased and, aside from looks, could not detect any difference in sound. I Swapped back and forth between my guitars and keyboards, ensuring that each model was used on each instrument - still no difference.What the more expensive model has going for it is looks. I am not sure it (the higher priced model) is even more sturdy because the molded stress relief ends on this model seem to make it more reliable than its pricier sibling.Bottom line: carefully

Es decir tiene una estructura idéntica y eso lo aprovechamos para contruir directamente el DataFrame

In [27]:
import pandas as pd

In [29]:
df=pd.read_json("C:/Users/david/Downloads/Musical_Instruments_5.json",lines=True)
df

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"
...,...,...,...,...,...,...,...,...,...
10256,A14B2YH83ZXMPP,B00JBIVXGC,Lonnie M. Adams,"[0, 0]","Great, just as expected. Thank to all.",5,Five Stars,1405814400,"07 20, 2014"
10257,A1RPTVW5VEOSI,B00JBIVXGC,Michael J. Edelman,"[0, 0]",I've been thinking about trying the Nanoweb st...,5,"Long life, and for some players, a good econom...",1404259200,"07 2, 2014"
10258,AWCJ12KBO5VII,B00JBIVXGC,Michael L. Knapp,"[0, 0]",I have tried coated strings in the past ( incl...,4,Good for coated.,1405987200,"07 22, 2014"
10259,A2Z7S8B5U4PAKJ,B00JBIVXGC,"Rick Langdon ""Scriptor""","[0, 0]","Well, MADE by Elixir and DEVELOPED with Taylor...",4,Taylor Made,1404172800,"07 1, 2014"


# De JSON a pandas en un paso

Recordemos el archivo de críticas musicales que teníamos en la sesión anterior. El que no podíamos procesar directamente con un `json.load()` y teníamos que leer línea a línea (o por lo menos lo hacíamos así), pero en su versión larga:

Así que si tenemos un diccionario o un objeto JSON por línea en nuestro archivo con una estructura idéntica, podremos hacer esta lectura directa. Veamos un caso en el que trabajamos más nosotros.

In [37]:
with open("C:/Users/david/Downloads/presidentes.json","r")as f:
    presidentes = json.load(f)

In [38]:
len(presidentes)

45

In [46]:
df = pd.DataFrame(presidentes)
df = df.set_index('id')  # Establece la columna 'id' como índice
df

Unnamed: 0_level_0,president,nm,pp,tm
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,George Washington,"None, Federalist",1789-1797
2,2,John Adams,Federalist,1797-1801
3,3,Thomas Jefferson,Democratic-Republican,1801-1809
4,4,James Madison,Democratic-Republican,1809-1817
5,5,James Monroe,Democratic-Republican,1817-1825
6,6,John Quincy Adams,Democratic-Republican,1825-1829
7,7,Andrew Jackson,Democrat,1829-1837
8,8,Martin van Buren,Democrat,1837-1841
9,9,William H. Harrison,Whig,1841
10,10,John Tyler,Whig,1841-1845


### Manipulando ficheros json


Vamos a capturar la informacion de un fichero json que tiene otro tipo de información:

In [54]:
with open("C:/Users/david/Repo_Prueba/ONLINE_DS_THEBRIDGE_Deivid-Jimenez/Sprint.5_Introduccion a Data Analytics y ETLS/Unidad 2/Temario/Formato Flexible.ipynb",encoding='utf-8')as f:
    notebook=json.load(f)

Veamos su contenido a lo bruto

In [57]:
notebook

{'cells': [{'cell_type': 'markdown',
   'id': '652daaea-9f5b-41e0-b4b7-b323e450f8aa',
   'metadata': {},
   'source': ['# ACCESO LOCAL: JSON (I)\n',
    '\n',
    '**Los ficheros Json, o JavaScript Object Notation es otro formato de texto plano que se utiliza para el intercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programación web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.\n',
    '\n',
    'Y su extensión (o la extensión de los ficheros Json) es... tachán!!: `.json`\n',
    '\n',
    '**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_clave" puedes tener almacenado un valor, una lista o inclus

Veamos sus campos claves

In [59]:
type(notebook)

dict

In [60]:
notebook.keys()

dict_keys(['cells', 'metadata', 'nbformat', 'nbformat_minor'])

In [61]:
type(notebook["cells"])

list

In [62]:
type(notebook["cells"][0])

dict

In [63]:
notebook["cells"][0].keys()

dict_keys(['cell_type', 'id', 'metadata', 'source'])

In [68]:
for celda in notebook["cells"]:
    if celda["cell_type"]=="code":
        print(celda["source"])

['with open("C:/Users/david/Downloads/single_json.json","r")as f:\n', '    for linea in f:\n', '        print(linea, end="")']
['## Una lista de diccionarios\n', '\n', 'with open("C:/Users/david/Downloads/presidentes_short.json","r") as f:\n', '    for linea in f:\n', '        print(linea,end="")']
['## Diccionario por linea\n', '\n', 'with open("C:/Users/david/Downloads/Musical_short.json") as f:\n', '    for linea in f:\n', '        print(linea,end="")']
['import json']
['with open("C:/Users/david/Downloads/single_json.json","r")as f:\n', '    datos = json.load(f)\n', 'print(type(datos))\n', 'datos']
['with open("C:/Users/david/Downloads/presidentes_short.json","r")as f:\n', '    datos = json.load(f)\n', 'print(type(datos))\n', 'datos']
['with open("C:/Users/david/Downloads/Musical_short.json","r") as f:\n', '    datos = [json.loads(linea) for linea in f] ### Tiene una S, ya que aquí no le estoy pasando yn decriptor de fichero sino un string ###\n', 'print(type(datos))\n', 'datos']
[

# ACCESO LOCAL: XML (I)

El formato **XML** (*eXtensible Markup Language*) es parecido al HTML, pero con estas características clave:
- Es **más estructurado** que HTML
- Es un formato de fichero que aún tiene uso en diversos sistemas
- Comparado con JSON:  
  ⚠️ Es más probable encontrar datos relevantes en este formato  
  (Pero esto **no disminuye la importancia de JSON**)

Además de lo visto en el ejemplo anterior sobre etiquetas, podemos visualizar los archivos XML como:

**Estructura de árbol** donde:
- Existe un **nodo raíz** inicial
- Se despliegan conjuntos de valores anidados
- Cada conjunto puede contener otros subconjuntos de valores

## Lectura de ficheros XML

Antes de utilizar la librería correspondiente de Python (⚠️ atención: no se llama `xml`) que nos ayudará a procesar un fichero XML y extraer su información, analicemos primero su estructura como texto plano:

In [73]:
with open("C:/Users/david/Downloads/cd_catalog.xml","r")as f:
    for line in f: 
           print(line, end ="")

<?xml version="1.0" encoding="UTF-8"?>
<CATALOG>
  <CD id="1">
    <TITLE>Empire Burlesque</TITLE>
    <ARTIST>Bob Dylan</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Columbia</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1985</YEAR>
  </CD>
  <CD id="2">
    <TITLE>Hide your heart</TITLE>
    <ARTIST>Bonnie Tyler</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>CBS Records</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1988</YEAR>
  </CD>
  <CD id="3">
    <TITLE>Greatest Hits</TITLE>
    <ARTIST>Dolly Parton</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>RCA</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1982</YEAR>
  </CD>
  <CD id="4">
    <TITLE>Still got the blues</TITLE>
    <ARTIST>Gary Moore</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Virgin records</COMPANY>
    <PRICE>10.20</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD id="5">
    <TITLE>Eros</TITLE>
    <ARTIST>Eros Ramazzotti</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>BMG</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>199

Lo que podría interesarnos es sacar los datos por CD para construirnos una tabla Catalog y ahí poner una fila por CD con su identificador (que podría ser nuestro índice de DataFrame por ejemplo) y los valores de cada una de esas etiquetas (TITLE, ARTIST, etc.) como columnas... ¿Y cómo hacerlo?

Lo vamos a hacer con ayuda de la librería ElementTree:

In [74]:
import xml.etree.ElementTree as ET

Lo primero es leer y parsear el fichero de esta forma:

In [76]:
tree = ET.parse("C:/Users/david/Downloads/cd_catalog.xml")

## Procesando un fichero XML

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML:

- `tag`: muestra el texto dentro de la etiqueta  
- `attrib`: muestra los atributos de la etiqueta  
- `text`: muestra el texto del nodo  
- `iter()`: función que permite conocer la estructura del XML  
- `find()`: busca en el XML y devuelve el elemento que coincide con la etiqueta especificada  
- `findall()`: devuelve todos los elementos con cierta etiqueta  

Una vez cargado, juguemos con los metodos anteriores para obtener la información  o los datos útiles de nuestro catálogo CDs:

In [80]:
## Obtener la etiqueta del nodo raíz 

raiz=tree.getroot()
raiz.tag

'CATALOG'

In [84]:
## Para cada elemnto sus etiquetas 

for elemento in raiz.iter():
    print (elemento.tag)

CATALOG
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD


In [88]:
## Recorrido con cierta 

for hijo in raiz:
    tabs = "\t"
    print(hijo.tag,hijo.attrib)
    for nieto in hijo:
         print(tabs,nieto.tag,nieto.text)
        

CD {'id': '1'}
	 TITLE Empire Burlesque
	 ARTIST Bob Dylan
	 COUNTRY USA
	 COMPANY Columbia
	 PRICE 10.90
	 YEAR 1985
CD {'id': '2'}
	 TITLE Hide your heart
	 ARTIST Bonnie Tyler
	 COUNTRY UK
	 COMPANY CBS Records
	 PRICE 9.90
	 YEAR 1988
CD {'id': '3'}
	 TITLE Greatest Hits
	 ARTIST Dolly Parton
	 COUNTRY USA
	 COMPANY RCA
	 PRICE 9.90
	 YEAR 1982
CD {'id': '4'}
	 TITLE Still got the blues
	 ARTIST Gary Moore
	 COUNTRY UK
	 COMPANY Virgin records
	 PRICE 10.20
	 YEAR 1990
CD {'id': '5'}
	 TITLE Eros
	 ARTIST Eros Ramazzotti
	 COUNTRY EU
	 COMPANY BMG
	 PRICE 9.90
	 YEAR 1997
CD {'id': '6'}
	 TITLE One night only
	 ARTIST Bee Gees
	 COUNTRY UK
	 COMPANY Polydor
	 PRICE 10.90
	 YEAR 1998
CD {'id': '7'}
	 TITLE Sylvias Mother
	 ARTIST Dr.Hook
	 COUNTRY UK
	 COMPANY CBS
	 PRICE 8.10
	 YEAR 1973
CD {'id': '8'}
	 TITLE Maggie May
	 ARTIST Rod Stewart
	 COUNTRY UK
	 COMPANY Pickwick
	 PRICE 8.50
	 YEAR 1990
CD {'id': '9'}
	 TITLE Romanza
	 ARTIST Andrea Bocelli
	 COUNTRY EU
	 COMPANY Polydor

Además puedo buscar elementos por sus etiquetas y hacer lo anterior de otra forma

In [91]:
cds = tree.findall ("CD")
for cd in cds:
    print ("Id:",cd.attrib["id"])
    print("Titulo:", cd.find("TITLE").text)
    print("Artista:", cd.find("ARTIST").text)

Id: 1
Titulo: Empire Burlesque
Artista: Bob Dylan
Id: 2
Titulo: Hide your heart
Artista: Bonnie Tyler
Id: 3
Titulo: Greatest Hits
Artista: Dolly Parton
Id: 4
Titulo: Still got the blues
Artista: Gary Moore
Id: 5
Titulo: Eros
Artista: Eros Ramazzotti
Id: 6
Titulo: One night only
Artista: Bee Gees
Id: 7
Titulo: Sylvias Mother
Artista: Dr.Hook
Id: 8
Titulo: Maggie May
Artista: Rod Stewart
Id: 9
Titulo: Romanza
Artista: Andrea Bocelli
Id: 10
Titulo: When a man loves a woman
Artista: Percy Sledge
Id: 11
Titulo: Black angel
Artista: Savage Rose
Id: 12
Titulo: 1999 Grammy Nominees
Artista: Many
Id: 13
Titulo: For the good times
Artista: Kenny Rogers
Id: 14
Titulo: Big Willie style
Artista: Will Smith
Id: 15
Titulo: Tupelo Honey
Artista: Van Morrison
Id: 16
Titulo: Soulsville
Artista: Jorn Hoel
Id: 17
Titulo: The very best of
Artista: Cat Stevens
Id: 18
Titulo: Stop
Artista: Sam Brown
Id: 19
Titulo: Bridge of Spies
Artista: T'Pau
Id: 20
Titulo: Private Dancer
Artista: Tina Turner
Id: 21
Titulo

# ACCESO LOCAL: XML (II)

Vamos a crear un DataFrame a partir de los datos que puedes encontrar en el fichero `movies.xml` en el directorio `data`. 

**Nota especial:**  
Este es un notebook práctico (igual que existen las "sesiones vagas"), esta es una sesión `only coding`... ¡vamos a ello!  

*(Es decir, contendrá principalmente código sin texto explicativo adicional)*

In [92]:
import pandas as pd
import xml.etree.ElementTree as ET

In [93]:
with open("C:/Users/david/Downloads/movies.xml", "r") as f:
    for line in f:
        print(line,end="")

<?xml version="1.0" encoding="UTF-8"?>

<movies>
  <movie>
    <title>A History of Violence</title>
    <year>2005</year>
    <country>USA</country>
    <genre>Crime</genre>
    <summary>Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.</summary>
 <director>	    <last_name>Cronenberg</last_name>
	    <first_name>David</first_name>
	    <birth_date>1943</birth_date>
</director> <actor>
	    <first_name>Vigo</first_name>
	    <last_name>Mortensen</last_name>
	   

In [97]:
tree_movies = ET.parse("C:/Users/david/Downloads/movies.xml")
raiz = tree_movies.getroot()
print(raiz.tag)

movies


In [102]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    for nieto in hijo:
        level = 1
        print(tabs*level,nieto.tag, nieto.text)
        for bisnieto in nieto:
            level = 2
            print(tabs*level,bisnieto.tag, bisnieto.text)
            for tataranieto in bisnieto:
                level = 3
                print(tabs*level, tataranieto.tag, tataranieto.text)

movie
	 title A History of Violence
	 year 2005
	 country USA
	 genre Crime
	 summary Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.
	 director 	    
		 last_name Cronenberg
		 first_name David
		 birth_date 1943
	 actor 
	    
		 first_name Vigo
		 last_name Mortensen
		 birth_date 1958
		 role Tom Stall
	 actor 
	    
		 first_name Maria
		 last_name Bello
		 birth_date 1967
		 role Eddie Stall
	 actor 
	    
		 first_name Ed
		 last_name Harris
		 birth_d

In [103]:
dict_df={
    "title":[],
    "year":[],
    "country":[],
    "gender":[],
    "summary":[],
    "director":[]
}

In [119]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    campos_a_rellenar = list(dict_df.keys())  # Creamos copia de las claves disponibles
    
    for nieto in hijo:
        level = 1
        print(tabs*level, nieto.tag, nieto.text)
        
        if nieto.tag in dict_df and nieto.tag != "director":
            dict_df[nieto.tag].append(nieto.text)
            if nieto.tag in campos_a_rellenar:  # Verificar si el campo está presente
                campos_a_rellenar.remove(nieto.tag)
                
        elif nieto.tag == "director":
            nombre, apellido = "", ""  # Inicializamos variables
            for bisnieto in nieto:
                level = 2
                print(tabs*level, bisnieto.tag, bisnieto.text)
                if bisnieto.tag == "first_name":
                    nombre = bisnieto.text
                elif bisnieto.tag == "last_name":
                    apellido = bisnieto.text
            
            nombre_completo = f"{nombre} {apellido}".strip()
            dict_df["director"].append(nombre_completo)
            if "director" in campos_a_rellenar:  # Verificar si el campo está presente
                campos_a_rellenar.remove("director")
    
    # Rellenar campos faltantes
    for campo in campos_a_rellenar:
        dict_df[campo].append("No tengo datos")

movie
	 title A History of Violence
	 year 2005
	 country USA
	 genre Crime
	 summary Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.
	 director 	    
		 last_name Cronenberg
		 first_name David
		 birth_date 1943
	 actor 
	    
	 actor 
	    
	 actor 
	    
	 actor 
	    
movie
	 title Heat
	 year 1995
	 country USA
	 genre Crime
	 summary Hunters and their prey--Neil and his professional 
	criminal crew hunt to score big money targets 
	(banks, vaults, armo

In [120]:
dict_df

{'title': ['A History of Violence',
  'A History of Violence',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man'],
 'year': ['2005',
  '2005',
  '2005',
  '1995',
  '1992',
  '2005',
  '2003',
  '2006',
  '2002',
  '2005',
  '1995',
  '1992',
  '2005',
  '2003',
  '2006',
  '2002',
  '2005',
  '1995',
  '1992',
  '2005',
  '2003',
  '2006',
  '2002'],
 'country': ['USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA',
  'USA'],
 'gender': ['No tengo datos',
  'No tengo datos',
  'No tengo datos',
  'No ten

In [122]:
for key, value in dict_df.items():
    print(f"{key}: {len(value)} elementos")

title: 23 elementos
year: 23 elementos
country: 23 elementos
gender: 21 elementos
summary: 23 elementos
director: 21 elementos


In [123]:
max_length = max(len(v) for v in dict_df.values())
for key in dict_df:
    dict_df[key] += [None] * (max_length - len(dict_df[key]))

In [124]:
df = pd.DataFrame(dict_df)
df

Unnamed: 0,title,year,country,gender,summary,director
0,A History of Violence,2005,USA,No tengo datos,"Tom Stall, a humble family man and owner of a ...","David,Cronenberg"
1,A History of Violence,2005,USA,No tengo datos,"Tom Stall, a humble family man and owner of a ...","Michael,Mann"
2,A History of Violence,2005,USA,No tengo datos,"Tom Stall, a humble family man and owner of a ...","Clint,Eastwood"
3,Heat,1995,USA,No tengo datos,Hunters and their prey--Neil and his professio...,"Woody,Allen"
4,Unforgiven,1992,USA,No tengo datos,The town of Big Whisky is full of normal peopl...,"Sofia,Coppola"
5,Match Point,2005,USA,No tengo datos,"Chris Wilton is a former tennis pro, looking t...","Sofia,Coppola"
6,Lost in Translation,2003,USA,No tengo datos,No tengo datos,"Sam,Raimi"
7,Marie Antoinette,2006,USA,No tengo datos,Based on Antonia Fraser's book about the ill-f...,David Cronenberg
8,Spider-Man,2002,USA,No tengo datos,"On a school field trip, Peter Parker (Maguire)...",Michael Mann
9,A History of Violence,2005,USA,No tengo datos,"Tom Stall, a humble family man and owner of a ...",Clint Eastwood


In [126]:
df_2=pd.read_xml("C:/Users/david/Downloads/movies.xml")
df_2

Unnamed: 0,title,year,country,genre,summary,director,actor
0,A History of Violence,2005,USA,Crime,"Tom Stall, a humble family man and owner of a ...",\t,\n\t
1,Heat,1995,USA,Crime,Hunters and their prey--Neil and his professio...,\t,\n\t
2,Unforgiven,1992,USA,Western,The town of Big Whisky is full of normal peopl...,\t,\n\t
3,Match Point,2005,USA,Crime,"Chris Wilton is a former tennis pro, looking t...",\t,\n\t
4,Lost in Translation,2003,USA,Drama,,\t,\n\t
5,Marie Antoinette,2006,USA,Drama,Based on Antonia Fraser's book about the ill-f...,\t,\n\t
6,Spider-Man,2002,USA,Action,"On a school field trip, Peter Parker (Maguire)...",\t,\n\t
