## Acceso Local: Lectura, Escritura y ficheros TXT
 Un archivo es un conjunto de datos almacenados en el ordenador en forma de bits.
Header: metadatos del archivo (nombre, tamaño, tipo...)
Data: contenido del archivo
End of file (EOF): caracter especial que indica el final del archivo

Si estamos trabajando en el directorio to, accederemos a cats.gif como cats.gif
Si queremos leer dog_breeds.txt, hay que ir un directorio hacia atrás, ../dog_breeds.txt
Y si queremos acceder a animals.csv, son dos directorios hacia atrás: ../../animals.csv

## 2. Abrir ficheros
 **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```
el modo nos dice si leemos en modo lectura o escrtura.
l primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).


In [2]:
#leer ficheros de texto
with open("./data/dog_breeds.txt", "r") as open_file: #r no haría falta, porque viene por defecto
    all_text = open_file.read()
    print(type(all_text))
    print(all_text)

FileNotFoundError: [Errno 2] No such file or directory: './data/dog_breeds.txt'

El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista.

In [None]:
with open("./data/dog_breeds.txt", "r") as open_file:
    all_text = open_file.readlines()
    print(type(all_text))
    print(all_text) #le añade el salto de carro "\n

In [None]:
#otro estilo
with open("./data/dog_breeds.txt", "r") as f:
   lineas = [line.replace("\n","") for line in f] #lee linea a linea f y la devuelvbe a variable line
#crea otra lista por compresion, quita el retorno de carro y devuelve ""

In [None]:
#compresión
#quitar terrier y spanyel de las lineas
nuevos_datos = [perrito.replace("Terrier","").replace("Spaniel","") for perrito in lineas]
nuevos_datos

Y ahora para escribir sólo tenemos que cambiar el modo a "w" (sobreescribiremos lo que haya) o "a" (añadiremos al final)

In [None]:
with open("./data/dog_breeds.txt", "w") as g: #suele escribir f y g
    for linea in nuevos_datos:
        g.write(linea + "\n")
with open("./data/dog_breeds.txt", "r") as f: #para comprobarlo lo abrimos
    for linea in f:
        print(linea) #nos da el salto de carro del texto

## ACCESO LOCAL: Ficheros .csv

**Los ficheros csv (*Comma Separated Values*) son el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**
todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**
**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio**
No usar la , como separador, ya que podemos confundir a pandas, ya que aquí la coma indica que es el sistema decimal.

In [None]:
# Leamos uno de los ficheros csv que hemos visto en sesiones anteriores
with open("./data/df_liga_2019.csv","r", encoding = "utf8") as f: #cuando falle alguna lectura de texto, añadir encoding utf8 no latin1
   datos = [linea.replace("\n","") for linea in f]

# Veamos las primeras 10 filas
datos[0:10]
#nos da linea a linea el fichero csv

### Pandas y csv: Lectura

In [None]:
import pandas as pd
df = pd.read_csv("./data/df_liga_2019.csv")
df.head() #

Vamos a ver algunos **parámetros interesantes del `read_csv()`**
1. `index_col`: indica cual de las columnas queremos que sea el índice (necesitamos que tenga cabecera claro, ver más abajo)
2. `names`: sirve para indicar el nombre de las columnas, por si no queremos el que venga en el fichero (ojo, es posicional, la primera columna se llamará como el primer elemento del argumento names, y así sucesivamente)
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea. [En general se usa para indicar que no viene con cabecera, entonces tendremos que usar names para dar el nombre de las columnas]

#### index_col

In [None]:
df = pd.read_csv("./data/df_liga_2019.csv", index_col = "id_partido")
df

#### names

#traducir al ingles

df.columns

Index(['equipo_local', 'equipo_visitante', 'Division', 'Temporada', 'fecha_dt',
       'goles_local', 'goles_visitante', 'arbitro', 'estadio', 'odd_1',
       'odd_x', 'odd_2', 'Informe_Tarjetas', 'Asistencia_miles'],
      dtype='object')



In [None]:
df = pd.read_csv("./data/df_liga_2019.csv",
                 names = ["id_fixture","home_team","away_team","division","season","date_dt",
                          "goals_home","goals_away","referee","stadium","odd_1","odd_draw","odd_2",
                          "Card_report"])
df

#### sep

El argumento `sep` nos permite leer un archivo CSV que no esté separado por comas.


In [None]:
df = pd.read_csv("./data/df_liga_2019_pipe.csv")
df #si no tiene comas, lo interpreta que todo va junto.
# lo ha convertido en una sola columna.

id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas

Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trajar con CSVs cuyo separador sea el ";" o el "|" así evitamos problemas por los decimales**.

In [None]:
df = pd.read_csv("./data/df_liga_2019_pipe.csv", sep = "|", index_col = "id_partido")

### Pandas y csv: Escritura
Para escribir un CSV usamos el método `to_csv()

In [None]:
df.to_csv("./data/df_ejemplo_write.csv", sep = "|", index = False) #sep iondica el separador e index indica si queremosd el índice o no
#el indice está a true, por lo que si es false debe eliminarlo
df

In [None]:
with open("./data/df_ejemplo_write.csv", "r", encoding = "utf8") as f:
    datos = [linea.replace("\n","") for linea in f]
datos[0:12]

## ACCESO LOCAL: Ficheros Excel

 Las extensiones de archivo más habituales son `.xslx` y `.xls`. Por suerte, **`pandas` tiene una función para leer los formatos de archivo de Excel y un método para escribirlos**.
 El método para leer archivos excel tiene una lógica simiar al `read_csv` pero se llama `read_excel`.

In [None]:
import pandas as pd
df = pd.read_excel("./data/df_liga_2019.xlsx")
df

#### ARGUMENTOS

### sheet_name
ste argumento permite indicar las hojas queremos leer usando su nombre o posición en el "libro". Si no se pone nada lee la primera según esté ordenado el fichero excel.

In [None]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = "futbol_2")
df

Se puede leer la hoja por posición

In [None]:
#se puede leer la hoja por posición
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = 0)
df

Puedes indicarle una lista con las posiciones o los nombres de varias hojas, e incluso `None` si quieres cargar todas. En estos casos la función devuelve un diccionario.

#### index_col
Tiene el mismo uso que en read_csv, sirve para indicar la columna que funciona de índice. Si se leen varias hojas a la vez se puede pasar a index col una lista con los nombres de las columnas que se usenm con índice para cada unade las posiciones.

In [3]:
df = pd.read_excel("./data/df_liga_2019.xlsx", index_col = "id_partido")
df #id_partido lña convierte en el índice

NameError: name 'pd' is not defined

#### usecols y skiprows
Si los datos no empiezan en la columna A y en la fila 1, leeremos mal estos si hacemos uso de la función

In [None]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = "futbol_3")
df #coge mal las columnas, y tiene muchos nan, empieza en la fila 3 (C)y los datos empiezan en la columna 3  y en la 4 columna

In [None]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = "futbol_3", usecols ="C:N", skiprows = [0,1,2,8,14])
df #eliminamos las columnas y filkas que no tienen datos, no hya filas  con nan y las columnas están en su sitio

### Pandas y excel: Escritura
Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel.  
no usaremos el parámetro sep, pero sí el index
 con las mismas consideraciones que para `read_csv` 

In [6]:
df.to_excel("./data/df_ejemplo_excel.xlsx", sheet_name = "Test")
df_2 = pd.read_excel("./data/df_ejemplo_excel.xlsx")
df_2

NameError: name 'df' is not defined

## ACCESO LOCAL: JSON (I)
**Los fichero Json, o *JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**.
formato de datos independiente del lenguaje. JavaScript es un lenguaje de programación web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.
no iene esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario.
Es un  fichero para guardar diccionarios o lista de estos

In [None]:
### Diccionario único
with open("./data/single_json.json","r") as f:
    print(f.read())

In [None]:
# Una lista de diccionarios
with open("./data/presidentes_short.json", "r") as f:
    for linea in f:
        print(linea, end ="")

In [None]:
# Un diccionario por línea
with open("./data/Musical_short.json","r") as f:
    for linea in f:
        print(linea, end ="")

### Lectura y extracción de datos de archivos Json
Se puede leer el fichero como un texto plano con open, pero los datos lo leeremos a través de la librería jason

In [None]:
import json

In [None]:
with open("./data/single_json.json","r") as f: # Esto igual que para leer texto
    datos = json.load(f) # esto es lo que cambia
print(type(datos))
datos #después de haberlo importado, podemos recorrerlo y editarlo como un diccionario normal.

In [None]:
with open("./data/presidentes_short.json","r") as f:
    datos = json.load(f)
print(type(datos))
datos #esto da la lista de diccionarios

In [None]:
with open("./data/Musical_short.json","r") as f:
    datos  = json.load(f)
print(type(datos))
datos #este nos da error, ya que está pensado para leerlo con pandas y json no puede leerlo normal.

In [None]:
with open("./data/Musical_short.json","r") as f:
    datos = [json.loads(linea) for linea in f] # Fijate que tiene una "s", porque aquí no estamos leyendo de un archivo sino de un string
print(type(datos))
datos
#en vez de aplicar el json load a todo el descriptor, lo leemos linea a linea y usamos el json loads y le pasamos un string.

clicka la celda para verlo
<class 'list'>
[{'reviewerID': 'A2IBPI20UZIR0U',
  'asin': '1384719342',
  'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...',
  'helpful': [0, 0],
  'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,",
  'overall': 5.0,
  'summary': 'good',
  'unixReviewTime': 1393545600,
  'reviewTime': '02 28, 2014'},
 {'reviewerID': 'A14VAT5EAX3D9S',
  'asin': '1384719342',
  'reviewerName': 'Jake',
  'helpful': [13, 14
  'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smelling it after recording. :DIf you needed a pop filter, this will work just as well as the expensive ones, and it may even come with a pleasing aroma like mine did!Buy this product! :]"

  
'en datos tengo una lista y cada elemento es el diccionario que correesponde a cada fila'

### Escritura en archivos json 

In [None]:
 lo que vayas a escribir debe cumplir con la especificación de lo que es un objeto Json
no se pueden escribir imágenes

In [None]:
dicc_ejemplo = {"nombre": "Motomami","cantante":"Rosalia", "anyo": "2021"}

In [None]:
#guardar ejemplo
with open("./data/ejemplo.json","w") as g:
    json.dump(dicc_ejemplo, g)

In [None]:
with open("./data/ejemplo.json","r") as f:
    datos_ejemplo = json.load(f)

datos_ejemplo

In [None]:
#crear lista diccionario
lista = []
for i in range(4):
    dicc_valor = dicc_ejemplo.copy()
    dicc_valor["cantante"] = f"Rosalia_{i}"
    lista.append(dicc_valor)
print(lista)

In [None]:
with open("./data/ejemplo_lista.json","w") as g:
    json.dump(lista,g)#datos variable lista a g

In [None]:
with open("./data/ejemplo_lista.json","r") as f:
    print(json.load(f))#lista recuperrada

## ACCESO LOCAL: JSON (II)

In [None]:
import json

with open("./data/Musical_Instruments_5.json","r") as f:
    datos = [json.loads(linea) for linea in f]

In [None]:
len(datos) #ver longitud

In [None]:
#imprimir datos seleccionados entre:
datos[25:27]

In [None]:
#convertir a df
import pandas as pd
df = pd.read_json("./data/Musical_Instruments_5.json", lines = True)
df

### De json a pandas en más de un paso
crear un dataframe con un archivo Json

In [None]:
with open("./data/presidentes.json","r") as f:
    presidentes = json.load(f)

In [None]:
df = pd.DataFrame(presidentes)
df

Se puede hacer con el archivo  `read_json`, se suelen hacer más con otros datos como csv

### Manipulando ficheros json

In [None]:
with open("./05_Ficheros_json_II.ipynb","r") as f:
    notebook = json.load(f)

In [None]:
notebook#nos da la informacion a lo bruto

In [None]:
type(notebook) #nos da dict

In [None]:
notebook.keys() #claves

In [None]:
type(notebook["cells"]) #nos dice que es una lista

In [None]:
notebook["cells"][0].keys() #claves del diccionario

In [None]:
notebook["cells"][0]["cell_type"] #nos dice el tipo de celda que es markdown

In [None]:
#recorrer lasd celdas del diccionario, para ver cuales tienen  código
for celda in notebook["cells"]:
    if celda["cell_type"] == "code":
        print(celda)

In [None]:
# pedir que solo nos printe el contenido de las celdas con código
for celda in notebook["cells"]:
    if celda["cell_type"] == "code":
        print(celda["source"]) #source contenido

## ETL: Tratamiento de Textos (I)

El formato **XML** (eXtensible Markup Language) es parecido al HTML, pero es más estructurado
se empieza con una declarfación de uno o dos <root>, como en html. Se escribe seguido de nodos.
Le siguen subnodos, valores y atributos.

<img src="https://www.cdn.geeksforgeeks.org/wp-content/uploads/parsing-XML.gif">

company-nodo raiz
departamento, que tiene un empleado y a su vez segundo nempleado, frente al otro departamento sin valores.
Cada empleado tiene sus atributos.

### Lectura de ficheros XML

In [None]:
with open("./data/cd_catalog.xml","r") as f:
    for line in f:
        print(line, end = "")

In [12]:
#el fichero
<?xml version="1.0" encoding="UTF-8"?>    #le dice para quien lo lea
<CATALOG>           no vuelve a aparecer catalog hasta el final del archivo, al final cierra laetiqueta. es el nodo raiz
  <CD id="1">          siguiente nodo, al ir con tabiuladores, se ve cual es el siguiente nodo
    <TITLE>Empire Burlesque</TITLE>       estos son los nodos de cd con texto o valor.
    <ARTIST>Bob Dylan</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Columbia</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1985</YEAR>
  </CD>
  <CD id="2">
    <TITLE>Hide your heart</TITLE>
    <ARTIST>Bonnie Tyler</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>CBS Records</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1988</YEAR>"
  </CD>
  <CD id="3">
    <TITLE>Greatest Hits</TITLE>
    <ARTIST>Dolly Parton</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>RCA</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1982</YEAR>
  </CD>
  <CD id="4">
    <TITLE>Still got the blues</TITLE>
    <ARTIST>Gary Moore</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Virgin records</COMPANY>
    <PRICE>10.20</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD id="5">
    <TITLE>Eros</TITLE>
    <ARTIST>Eros Ramazzotti</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>BMG</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1997</YEAR>
  </CD>
  <CD id="6">
    <TITLE>One night only</TITLE>
    <ARTIST>Bee Gees</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Polydor</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1998</YEAR>
  </CD>
  <CD id="7">
    <TITLE>Sylvias Mother</TITLE>
    <ARTIST>Dr.Hook</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>CBS</COMPANY>
    <PRICE>8.10</PRICE>
    <YEAR>1973</YEAR>
  </CD>
  <CD id="8">
    <TITLE>Maggie May</TITLE>
    <ARTIST>Rod Stewart</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Pickwick</COMPANY>
    <PRICE>8.50</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD id="9">
    <TITLE>Romanza</TITLE>
    <ARTIST>Andrea Bocelli</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>Polydor</COMPANY>
    <PRICE>10.80</PRICE>
    <YEAR>1996</YEAR>
  </CD>
  <CD id="10">
    <TITLE>When a man loves a woman</TITLE>
    <ARTIST>Percy Sledge</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Atlantic</COMPANY>
    <PRICE>8.70</PRICE>
    <YEAR>1987</YEAR>
  </CD>
  <CD id="11">
    <TITLE>Black angel</TITLE>
    <ARTIST>Savage Rose</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>Mega</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1995</YEAR>
  </CD>
  <CD id="12">
    <TITLE>1999 Grammy Nominees</TITLE>
    <ARTIST>Many</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Grammy</COMPANY>
    <PRICE>10.20</PRICE>
    <YEAR>1999</YEAR>
  </CD>
  <CD id="13">
    <TITLE>For the good times</TITLE>
    <ARTIST>Kenny Rogers</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Mucik Master</COMPANY>
    <PRICE>8.70</PRICE>
    <YEAR>1995</YEAR>
  </CD>
  <CD id="14">
    <TITLE>Big Willie style</TITLE>
    <ARTIST>Will Smith</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Columbia</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1997</YEAR>
  </CD>
  <CD id="15">
    <TITLE>Tupelo Honey</TITLE>
    <ARTIST>Van Morrison</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Polydor</COMPANY>
    <PRICE>8.20</PRICE>
    <YEAR>1971</YEAR>
  </CD>
  <CD id="16">
    <TITLE>Soulsville</TITLE>
    <ARTIST>Jorn Hoel</ARTIST>
    <COUNTRY>Norway</COUNTRY>
    <COMPANY>WEA</COMPANY>
    <PRICE>7.90</PRICE>
    <YEAR>1996</YEAR>
  </CD>
  <CD id="17">
    <TITLE>The very best of</TITLE>
    <ARTIST>Cat Stevens</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Island</COMPANY>
    <PRICE>8.90</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD id="18">
    <TITLE>Stop</TITLE>
    <ARTIST>Sam Brown</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>A and M</COMPANY>
    <PRICE>8.90</PRICE>
    <YEAR>1988</YEAR>
  </CD>
  <CD id="19">
    <TITLE>Bridge of Spies</TITLE>
    <ARTIST>T'Pau</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Siren</COMPANY>
    <PRICE>7.90</PRICE>
    <YEAR>1987</YEAR>
  </CD>
  <CD id="20">
    <TITLE>Private Dancer</TITLE>
    <ARTIST>Tina Turner</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Capitol</COMPANY>
    <PRICE>8.90</PRICE>
    <YEAR>1983</YEAR>
  </CD>
  <CD id="21">
    <TITLE>Midt om natten</TITLE>
    <ARTIST>Kim Larsen</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>Medley</COMPANY>
    <PRICE>7.80</PRICE>
    <YEAR>1983</YEAR>
  </CD>
  <CD id="22">
    <TITLE>Pavarotti Gala Concert</TITLE>
    <ARTIST>Luciano Pavarotti</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>DECCA</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1991</YEAR>
  </CD>
  <CD id="23">
    <TITLE>The dock of the bay</TITLE>
    <ARTIST>Otis Redding</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Stax Records</COMPANY>
    <PRICE>7.90</PRICE>
    <YEAR>1968</YEAR>
  </CD>
  <CD id="24">
    <TITLE>Picture book</TITLE>
    <ARTIST>Simply Red</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>Elektra</COMPANY>
    <PRICE>7.20</PRICE>
    <YEAR>1985</YEAR>
  </CD>
  <CD id="25">
    <TITLE>Red</TITLE>
    <ARTIST>The Communards</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>London</COMPANY>
    <PRICE>7.80</PRICE>
    <YEAR>1987</YEAR>
  </CD>
  <CD id="99">
    <TITLE>Unchain my heart</TITLE>
    <ARTIST>Joe Cocker</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>EMI</COMPANY>
    <PRICE>8.20</PRICE>
    <YEAR>1987</YEAR>
  </CD>
</CATALOG>


SyntaxError: unterminated string literal (detected at line 149) (2179843687.py, line 149)

para poder procesar un fichero xml Lo vamos a hacer con ayuda de la librería `ElementTree`:


In [13]:
import xml.etree.ElementTree as ET

In [None]:
#parsear el fichero, parsear es extraer datos leyendo de una estructura determinada
tree = ET.parse("./data/cd_catalog.xml")
#el tree tiene nuevos atributos

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML. 

* `tag` muestra el texto dentro de la etiqueta
* `attrib` muestra los atributos de la etiqueta
* `text` muestra el texto del nodo
* La función `iter()` permite conocer la estructura del XML
* La función `find()` busca en el XML y devuelve el elemento que coincide con la etiqueta especificada.  
* La función `findall()` devuelve todos los elementos con cierta etiquetatiqueta

In [None]:
# Obtener la etiqueta del nodo raiz:
raiz = tree.getroot()
#veremos el tag, el tag es <xxxx>
raiz.tag


In [None]:
# Para cada elemento sus etiqueta
#podemos recorrerlo
for elemento in raiz.iter():
    print(elemento.tag)
    #nos pone todos los tags

In [None]:
# Recorrido con cierta jerarquia
for hijo in raiz:
    tabs = "\t"
    print(hijo.tag,hijo.attrib)
    #nos da los cd y el id a modo de diccionario
    for nieto in hijo:
        print(tabs,nieto.tag,nieto.text)#sabemos que tiene texto aunque nno ntenga atribuito y nos lo da ordenado

In [None]:
#buscar elementos de cada uno nde los posibles nodos
cds = tree.findall("CD")
for cd in cds:
    print("id:", cd.attrib["id"])
    print("Titulo:",cd.find("TITLE").text )
    print("Titulo:",cd.find("ARTIST").text )#estos valores iguales no se repiten, por lo que hay que mirar un poco el xml
    #igual las etiquetas no están definidas como en al html

desde las dos formas podemos coger datos y crear el dataframe

## ACCESO LOCAL: XML (II)

In [None]:
import pandas as pd
import xml.etree.ElementTree as ET

In [None]:
with open ("./data/movies.xml", "r") as f:
    for line in f:
        print(line, end = "") #podemos calcular el npodo raiz, navegar por el fichero poara sacar la info necesareia 
                              # para construir un diccionario y con el el df

In [None]:
tree_movies = ET.parse("./data/movies.xml")
raiz = tree_movies.getroot()
print(raiz.tag) #el print da movies

In [None]:
#recorrer raiz
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)#para ver el tag inicial
    for nieto in hijo:
        level = 1
        print(tabs*level, nieto.tag,nieto.txt) #me printa tantos tag como leveles
        for bisnieto in nieto: #para cada tag por `película pedimos que nos printe el valor y lña etiqueta
            level = 2 #no sabemos cuantos niveles hay
            print(tabs*level, bisnieto.tag, bisnieto.text)#en el caso de que se alargase, es mejor hacer una función para b uscarlo
            for tataranieto in bisnieto:
                level = 3
                 print(tabs*level, tataranieto.tag,tataranieto.text)

movie
	 title A History of Violence
	 year 2005
	 country USA
	 genre Crime
	 summary Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.
	 director 	    
		 last_name Cronenberg
		 first_name David
		 birth_date 1943
	 actor 
	    
		 first_name Vigo
		 last_name Mortensen
...
		 first_name Willem
		 last_name Dafoe
		 birth_date 1955
		 role Green Goblin / Norman Osborn
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...

In [None]:
nos da esta información para saber como queremos hacer el análisis, cogemos título, película, director...

In [None]:
#hacemos un diccionario de listas, para esta información
dict_df = {
    "title": [],
    "year": [],
    "country":[],
    "genre": [],
    "summary": [],
    "director": [],
}


In [None]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    campos_a_rellenar = list(dict_df.keys()) #agregamos esto para rellenar el dicionario
    for nieto in hijo:
        level = 1
        print(tabs*level, nieto.tag,nieto.text) 
        if nieto.tag in dict_df and nieto.tag != "director": #director es diferente porque requiere otro procesamiento
            dict_df[nieto.tag].append(nieto.text)#columna(keys) y valor(nieto.tag)
            campos_a_rellenar.remove(nieto.tag) #a medidas que relleno campos, lo quitamos de la lista de campos
            #cuando acabamos con los datos de una peli (hijo), compruebo que campos nos faltan por rellenar y se rellena con un campo especial
        elif nieto.tag == "director": #nos metemos dentro de la etiqueta de director
            for bisnieto in nieto: 
                level = 2
                print(tabs*level, bisnieto.tag, bisnieto.text)
                if bisnieto.tag =="first_name":
                    nombre = bisnieto.text
                elif bisnieto.tag == "last_name":
                    apellido = bisnieto.text
            nombre_completo = f"{nombre} {apellido}"
            dict_df["director"].append(nombre_completo) #añado al campo director con un append
            campos_a_rellenar.remove("director")#valor especial
    for campo in campos_a_rellenar:
        dict_df[campo].append("No tengo datos")#cuando termino de procesar datos de al película comprobamos for campos in campos

In [1]:
dict_df

NameError: name 'dict_df' is not defined

{'title': ['A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man'],
 'year': ['2005',
...
  'Clint Eastwood',
  'Woody Allen',
  'Sofia Coppola',
  'Sofia Coppola',
  'Sam Raimi']}

nos da el diccionario y creamos un dataframe con ello:

In [None]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    campos_a_rellenar = list(dict_df.keys())  # Lista de campos a rellenar en el diccionario
    
        for nieto in hijo:
            level = 1
            print(tabs * level, nieto.tag, nieto.text) 
            
            # Comprobación de existencia de la etiqueta y relleno del diccionario
            if nieto.tag in dict_df and nieto.tag != "director":
                dict_df[nieto.tag].append(nieto.text)
                campos_a_rellenar.remove(nieto.tag)  # Remover campo ya rellenado
            
            # Procesamiento de etiqueta 'director'
            elif nieto.tag == "director":
                for bisnieto in nieto: 
                    level = 2
                    print(tabs * level, bisnieto.tag, bisnieto.text)
                    if bisnieto.tag == "first_name":
                        nombre = bisnieto.text
                    elif bisnieto.tag == "last_name":
                        apellido = bisnieto.text
                nombre_completo = f"{nombre} {apellido}"
                dict_df["director"].append(nombre_completo)
                campos_a_rellenar.remove("director")
        
        # Relleno con "No tengo datos" para los campos no llenados
        for campo in campos_a_rellenar:
            dict_df[campo].append("No tengo datos")

In [None]:
df_2 = pd.read_xml("/data/movie.xml") #no me va tampoco