## Acceso Local: Lectura, Escritura y ficheros TXT


## Abrir ficheros
Aunque veremos la forma concreta que tiene pandas para abrir archivo (una de las cuales pd.read_csv ya la has visto bastantes veces), Python tiene sus propias funciones *built-in*, para tratar con ficheros. Básicamente: `open`.

Para ello **usaremos la función `open`**, que devuelve un objeto de tipo `File`, con unos métodos y atributos propios empleados para obtener información de los archivos abiertos. `open` sigue la siguiente sitaxis:

```Python
file_object  = open("filename", "mode")
```

El primer argumento es el nombre del archivo, mientras que en el modo tendremos que especificar si queremos leer, o escribir. Por defecto leerá, es decir, el parámetro valdrá *r*, de read. [Te dejo el enlace a la documentación para consultar el resto de modos](https://docs.python.org/3/library/functions.html#open).


In [1]:
with open("./data/dog_breeds.txt", "r") as open_file:
    all_text = open_file.read()
    print(type(all_text))
    print(all_text)

<class 'str'>
Pug
Jack Russell Terrier
English Springer Spaniel
German Shepherd
Staffordshire Bull Terrier
Cavalier King Charles Spaniel
Golden Retriever
West Highland White Terrier
Boxer
Border Terrier


La sintaxis de línea que has visto es la recomendada, porque en algún momento se tiene que cerrar el archivo. Se abre, leemos, realizamos operaciones, y cuando acaba el `with open()`, se cierra el archivo.

**Leer y escribir mientras los archivos están abiertos nos dará errores**.  

El método `.read()` nos devuelve un string con todo el texto, que no es lo ideal para tratar luego los datos.

En el siguiente ejemplo vemos como también lo leemos, pero en este caso cada línea la guarda en una lista usando `.readlines()`.

In [2]:
with open("./data/dog_breeds.txt", "r") as open_file:
    all_text = open_file.readlines()
    print(type(all_text))
    print(all_text)

<class 'list'>
['Pug\n', 'Jack Russell Terrier\n', 'English Springer Spaniel\n', 'German Shepherd\n', 'Staffordshire Bull Terrier\n', 'Cavalier King Charles Spaniel\n', 'Golden Retriever\n', 'West Highland White Terrier\n', 'Boxer\n', 'Border Terrier']


In [3]:
#Otra forma de hacerlo:

with open("./data/dog_breeds.txt", "r") as f:
    lineas = [line.replace("\n","") for line in f]

lineas

['Pug',
 'Jack Russell Terrier',
 'English Springer Spaniel',
 'German Shepherd',
 'Staffordshire Bull Terrier',
 'Cavalier King Charles Spaniel',
 'Golden Retriever',
 'West Highland White Terrier',
 'Boxer',
 'Border Terrier']

Con el texto ya almacenado en una variabe o en las que queramos podemos procesarlo. Hagamos un procesamiento simple y escribámoslo.

In [4]:
nuevos_datos = [perrito.replace("Terrier","").replace("Spaniel","") for perrito in lineas]
nuevos_datos

['Pug',
 'Jack Russell ',
 'English Springer ',
 'German Shepherd',
 'Staffordshire Bull ',
 'Cavalier King Charles ',
 'Golden Retriever',
 'West Highland White ',
 'Boxer',
 'Border ']

Y ahora para escribir sólo tenemos que cambiar el modo a write "w" (sobreescribiremos lo que haya) o append "a" (añadiremos al final)

In [5]:
with open("./data/new_breed.txt", "w") as g:
    for linea in nuevos_datos:
        g.write(linea + "\n")

with open("./data/new_breed.txt", "r") as f:
    for linea in f:
        print(linea, end="")

Pug
Jack Russell 
English Springer 
German Shepherd
Staffordshire Bull 
Cavalier King Charles 
Golden Retriever
West Highland White 
Boxer
Border 


## ACCESO LOCAL: Ficheros .csv


**Los ficheros csv (*Comma Separated Values*) son el estándar de la industria que se utiliza para leer/escribir datos en formato tabla**, en dos dimensiones. Se llaman *Comma Separeted Values* ya que todos los valores de las columnas van separados por comas, y las filas por saltos de línea. **Su extension de archivo es `.csv`**. Además, el 99% de las veces llevan la cabecera de columnas en la primera línea. Aunque no siempre se dará el caso, depende de la manera en la que se haya generado el CSV.

**Es el archivo más común utilizado para guardar datos tabulares, puesto que ocupa muy poco espacio** ya que es simplemente un archivo de texto plano, con todos los datos separados por el caracter coma. Y además, sencillo de entender, los datos no van en un árbol json o xml... Si lo abrimos como texto plano, son los datos separados por coma, tal cual. 


### Fichero csv como fichero de texto

In [6]:
# Leamos uno de los ficheros csv que hemos visto en sesiones anteriores

with open("./data/df_liga_2019.csv", "r", encoding = "utf8") as f:    #---> Si al leer el archivo hace cosas raras usar encoding "utf8" o "latin1"
    datos = [linea.replace("\n","") for linea in f]

# Veamos las primeras 5 filas

datos[0:5]

['id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Asistencia_miles',
 '214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo 0 rojas a jugadores del equipo local;Hubo 2 tarjetas amarillas para el equipo visitantes;Hubo 6 amarillas para jugadores del equipo local,57291',
 '214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hubo 2  tarjetas amarillas de jugadores visitantes;Hubo 00 rojas a jugadores visitantes;Hubo 1 rojas a jugadores del equipo local,22027',
 '214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hubo 1 tarjetas rojas sobre el equipo local;Hubo 4 tarjetas amarillas p

### Leer fichero con Pandas:

In [7]:
import pandas as pd
df = pd.read_csv("./data/df_liga_2019.csv")
df.head(5)

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Asistencia_miles
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...,57291
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...,22027
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...,17536
3,214404,Almeria,Albacete,2,2019,2019-08-17 19:00:00,3,0,Saúl Ais,Estadio de los Juegos Mediterráneos,2.37,3.1,3.1,Hubo 00 rojas a jugadores visitantes;Hubo 01 a...,44062
4,214026,Villarreal,Granada CF,1,2019,2019-08-17 21:00:00,4,4,Adrián Cordero,Estadio de la Cerámica,1.6,3.8,6.5,Hubo 01 tarjetas amarillas de jugadores visit...,56103


Vamos a ver algunos **parámetros interesantes del `read_csv()`**
1. `index_col`: indica cual de las columnas queremos que sea el índice (necesitamos que tenga cabecera claro, ver más abajo)
2. `names`: sirve para indicar el nombre de las columnas, por si no queremos el que venga en el fichero (ojo, es posicional, la primera columna se llamará como el primer elemento del argumento names, y así sucesivamente)
2. `sep`: el separador de los datos, por defecto es coma, pero podría ser otro como veremos en ejemplos posteriores.
3. `header`: dónde se encuentran los nombre de columnas. Por defecto es en la primera línea. [En general se usa para indicar que no viene con cabecera, entonces tendremos que usar names para dar el nombre de las columnas]



#### index_col


In [8]:
df = pd.read_csv("./data/df_liga_2019.csv", index_col = "id_partido")
df.head(3)

Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Asistencia_miles
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...,57291
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...,22027
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...,17536


#### names

In [9]:
df.columns
del df

In [10]:
df = pd.read_csv("./data/df_liga_2019.csv",
                 names = ["id_fixture","home_team","away_team","division","season","date_dt",
                          "goals_home","goals_away","referee","stadium","odd_1","odd_draw","odd_2",
                          "Card_report"])
df.head(3)

Unnamed: 0,id_fixture,home_team,away_team,division,season,date_dt,goals_home,goals_away,referee,stadium,odd_1,odd_draw,odd_2,Card_report
id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas,Asistencia_miles
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...,57291
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...,22027


#### sep

El argumento `sep` nos permite leer un archivo CSV que no esté separado por comas.  
Primero, probemos a leer un archivo CSV, que no tiene comas como delimitador y ver qué ocurre:

In [11]:
df = pd.read_csv("./data/df_liga_2019_pipe.csv")
df.head(3)

Unnamed: 0,id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas
0,214023|Celta Vigo|Real Madrid|1|2019|2019-08-1...
1,214403|Racing Santander|Malaga|2|2019|2019-08-...
2,214024|Valencia|Real Sociedad|1|2019|2019-08-1...


Lo lee todo como una única línea ya que no encuentra comas. **Se recomienda trajar con CSVs cuyo separador sea el ";" o el "|" así evitamos problemas por los decimales**.

In [12]:
df = pd.read_csv("./data/df_liga_2019_pipe.csv", sep = "|", index_col= "id_partido")
df.head(3)


Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...


### Pandas y csv: Escritura

Para escribir un CSV usamos el método `to_csv()`. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

In [13]:
df.to_csv("./data/df_ejemplo_write.csv", sep = "|")

`sep`: indicar el separador que queramos usar, por defecto si no pones nada usará la ","  
`index`: escribe la columna índice (True, por defecto) o no (False)  [si escribes un dataframe con índice y este no tiene nombre luego aparecerá como Unamed cuando leas el fichero, usa el argumento `index_label` para ponerle nombre al índice en ese caso]

In [14]:
with open("./data/df_ejemplo_write.csv", "r", encoding = "utf8") as f:
    datos = [linea.replace("\n","") for linea in f]
datos[0:5]

['id_partido|equipo_local|equipo_visitante|Division|Temporada|fecha_dt|goles_local|goles_visitante|arbitro|estadio|odd_1|odd_x|odd_2|Informe_Tarjetas',
 '214023|Celta Vigo|Real Madrid|1|2019|2019-08-17 17:00:00|1|3|Javier Estrada|Abanca-Balaídos|4.75|4.2|1.65|Hubo 01 tajetas rojas al equipo visitante;Hubo 0 rojas a jugadores del equipo local;Hubo 2 tarjetas amarillas para el equipo visitantes;Hubo 6 amarillas para jugadores del equipo local',
 '214403|Racing Santander|Malaga|2|2019|2019-08-17 18:00:00|0|1|Aitor Gorostegui|Campos de Sport de El Sardinero|2.87|3.1|2.55|Hubo 03 amarillas mostradas al equipo local;Hubo 2  tarjetas amarillas de jugadores visitantes;Hubo 00 rojas a jugadores visitantes;Hubo 1 rojas a jugadores del equipo local',
 '214024|Valencia|Real Sociedad|1|2019|2019-08-17 19:00:00|1|1|Jesús Gil|Estadio de Mestalla|1.66|3.75|5.5|Hubo 4 amarillas mostradas al equipo local;Hubo 1 tarjetas rojas sobre el equipo local;Hubo 4 tarjetas amarillas para el equipo visitantes;Hubo

## ACCESO LOCAL: Ficheros Excel

¿Qué empresa no trabaja con Excel? **Nos vamos a encontrar los formatos de datos de Excel en cualquier sitio**. Las extensiones de archivo más habituales son `.xslx` y `.xls`. Por suerte, **`pandas` tiene una función para leer los formatos de archivo de Excel y un método para escribirlos**.

El problema que presenta este tipo de lectura de datos es que **no es un formato tan cerrado como el CSV**. En el CSV tenemos una estructura compacta, con todos los datos separados por comas y con una línea de cabecera en la primera fila. El Excel permite tener datos en un formato mucho más flexible, con tablas en cualquier sitio de las hojas, información en varias hojas y demás.

Teniendo esto en cuenta, y sabiendo bien el formato del Excel en cuestión, podremos leerlo sin problemas con `pandas`, debido a la cantidad de argumentos que tiene la función `read_excel` que nos van a permitir adaptarnos hasta cierto punto a esa flexibilidad. [En la documentación tienes todo el detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).


### Pandas y Excel: Lectura


El método para leer archivos excel tiene una lógica simiar al `read_csv` pero se llama `read_excel`. Leamos nuestro archivo de resultados de futbol de 2019, pero esta vez en formato excel:

In [15]:
df = pd.read_excel("./data/df_liga_2019.xlsx")
df.head(3)

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...


Al igual que con `read_csv`, vamos a ver algunos de los argumentos más interesantes del método y que nos ayudarán cuando la hoja no esté tan ordenadita como la que acabamos de leer:

#### sheet_name


Dado que un "libro" excel (yo siempre lo he llamado hoja, pero puede llevar a confusión) puede tener varias hojas, este argumento permite indicar las hojas queremos leer usando su nombre o posición en el "libro". Si no se pone nada lee la primera según esté ordenado el fichero excel.

In [16]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = "futbol_2")
df.head(3)

Unnamed: 0,id_fixture,home_team,away_team,Division,Season,date_dt,goals_home
0,"'goals_away', 'refer...",Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1


In [17]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name = 1) #---> Si no se pone sheet_name por defecto será 0
df.head(3)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
0,,,,,,,,,,,,,,
1,,,,,,,,,,,,,,
2,,,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x


Puedes indicarle una lista con las posiciones o los nombres de varias hojas, e incluso `None` si quieres cargar todas. En estos casos la función devuelve un diccionario. Prueba con alguna de tus hojas excel en local o con la que usamos aquí


#### index_col

Tiene el mismo uso que en `read_csv`, sirve para indicar la columna que funciona de índice (si lees varias hojas a la vez puedes pasarle una lista con los índices para cada una pero eso no lo veremos en esta sesión)

In [18]:
df = pd.read_excel("./data/df_liga_2019.xlsx", index_col = "id_partido")
df.head(3)

Unnamed: 0_level_0,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x,odd_2,Informe_Tarjetas
id_partido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2,1.65,Hubo 01 tajetas rojas al equipo visitante;Hubo...
214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1,2.55,Hubo 03 amarillas mostradas al equipo local;Hu...
214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75,5.5,Hubo 4 amarillas mostradas al equipo local;Hub...


#### usecols y skiprows

Si los datos no empiezan en la columna A y en la fila 1, leeremos mal estos si hacemos uso de la función tal y como hasta ahora:


In [19]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name= "futbol_3")
df.head(4)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13
0,,,,,,,,,,,,,,
1,,,,,,,,,,,,,,
2,,,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x
3,,,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2


Si haces unos cálculos, verás que nuestros datos realmente van de la columna "C" a la "N" y, si te fijas además empiezan en la cuarta fila y que las filas 8 y 14 (ojo que en este caso empezamos en 1 a contar) no son buenas. La función nos permite tener en cuenta esto con los parámetros `usecols` con el que le diremos las columnas que queremos usar y `skiprows` que nos permite decir que líneas no incluir.

In [20]:
df = pd.read_excel("./data/df_liga_2019.xlsx", sheet_name= "futbol_3", usecols = "C:N", skiprows = [0,1,2,8,14])
df.head(3)

Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x
0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2
1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1
2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75


### Pandas y excel: Escritura  
Al igual que con el CSV, tenemos el método `to_excel()`, para escribir el `DataFame` en un archivo Excel.  

**Recuerda poner la extensión del Excel (.xlsx) en el nombre del archivo**. Tienes [el enlace a la documentación para ver más detalle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).  

Aquí no usaremos el parámetro sep, pero sí el index si queremos que incluya o no el índice, con las mismas consideraciones que para `read_csv` (index está a True por defecto, si el `DataFrame` no tiene un índice explícito se creará una columna en la excel llamada Unname:0 con los valores del índice implícito)

In [21]:
df.to_excel("./data/df_ejemplo_excel.xlsx", sheet_name= "Test")

df_2 = pd.read_excel("./data/df_ejemplo_excel.xlsx")
df_2.head(3)

Unnamed: 0.1,Unnamed: 0,id_partido,equipo_local,equipo_visitante,Division,Temporada,fecha_dt,goles_local,goles_visitante,arbitro,estadio,odd_1,odd_x
0,0,214023,Celta Vigo,Real Madrid,1,2019,2019-08-17 17:00:00,1,3,Javier Estrada,Abanca-Balaídos,4.75,4.2
1,1,214403,Racing Santander,Malaga,2,2019,2019-08-17 18:00:00,0,1,Aitor Gorostegui,Campos de Sport de El Sardinero,2.87,3.1
2,2,214024,Valencia,Real Sociedad,1,2019,2019-08-17 19:00:00,1,1,Jesús Gil,Estadio de Mestalla,1.66,3.75


## ACCESO LOCAL: JSON  
**Los fichero Json, o *JavaScript Objet Notation* es otro formato de texto plano que se utiliza para el itercambio de datos**. Originalmente se utilizaba como notación literal de objetos en JavaScript, pero actualmente es un formato de datos independiente del lenguaje. JavaScript es un lenguaje de programación web, por lo que JSON se utiliza mucho en el intercambio de objetos entre cliente y servidor.   

Y su extensión (o la extensión de los ficheros Json) es... tachán!!: `.json`

**¿Qué diferencia hay con un CSV o un Excel?** Ya no tenemos esa estructura de fila/columna, sino que ahora es un formato tipo clave/valor, como si fuese un diccionario. En una tabla en la fila 1, columna 1, tienes un valor. En un JSON no, en la clave "mi_calve" puedes tener almacenado un valor, una lista o incluso un objeto. Salimos del formato tabla al que estamos acostubrados para ganar en flexibilidad. Es como un fichero para guardar diccionarios o listas de ellos.


Si además quieres saber más sobre como manejar hojas excel desde Python, te recomiendo que visites [la documentacion de openpyxl](https://openpyxl.readthedocs.io/en/stable/ "La documentación y página de openpyxl")

### Datos en Json

In [22]:
### Diccionario único
with open("./data/single_json.json","r") as f:
    print(f.read())

{
        "firstName": "Jane",
        "lastName": "Doe",
        "hobbies": ["running", "sky diving", "singing"],
        "age": 35,
        "children": [
            {
                "firstName": "Alice",
                "age": 6
            },
            {
                "firstName": "Bob",
                "age": 8
            }
        ]
    }


In [23]:
# Una lista de diccionarios
with open("./data/presidentes_short.json", "r") as f:
    for linea in f:
        print(linea, end ="")

[
  {
    "id": 1,
    "president": 1,
    "nm": "George Washington",
    "pp": "None, Federalist",
    "tm": "1789-1797"
  },
  {
    "id": 2,
    "president": 2,
    "nm": "John Adams",
    "pp": "Federalist",
    "tm": "1797-1801"
  },
  {
    "id": 3,
    "president": 3,
    "nm": "Thomas Jefferson",
    "pp": "Democratic-Republican",
    "tm": "1801-1809"
  }
]
  

In [24]:
# Un diccionario por línea
with open("./data/Musical_short.json","r") as f:
    for linea in f:
        print(linea, end ="")

{"reviewerID": "A2IBPI20UZIR0U", "asin": "1384719342", "reviewerName": "cassandra tu \"Yeah, well, that's just like, u...", "helpful": [0, 0], "reviewText": "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,", "overall": 5.0, "summary": "good", "unixReviewTime": 1393545600, "reviewTime": "02 28, 2014"}
{"reviewerID": "A14VAT5EAX3D9S", "asin": "1384719342", "reviewerName": "Jake", "helpful": [13, 14], "reviewText": "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filter next to my nose and smell

### Lectura y extracción de datos de archivos Json

Con calma, los archivos json se leen como hemos hecho en los ejemplos anteriores (como un texto plano, con `open`), pero luego NO se procesan igual que un fichero de texto. Ha sido sólo para mostrarte el contenido ya que son archivos de texto plano.  

Existe una librería de Python específica para "leer" el contenido de los `json` con el original nombre de.... premio: `json` (sencillo, directo y sin confusiones)  
  
Haremos uso de ella cuando queramos extraer el contenido de un archivo .json (y sepamos que no es directamente convertible a pandas, que eso lo vemos en la siguiente sesión de Json)


In [25]:
import json

In [26]:
with open("./data/single_json.json","r") as f: # Esto igual que para leer texto
    datos = json.load(f) # esto es lo que cambia
print(type(datos))
datos

<class 'dict'>


{'firstName': 'Jane',
 'lastName': 'Doe',
 'hobbies': ['running', 'sky diving', 'singing'],
 'age': 35,
 'children': [{'firstName': 'Alice', 'age': 6},
  {'firstName': 'Bob', 'age': 8}]}

In [27]:
with open("./data/presidentes_short.json","r") as f:
    datos = json.load(f)
print(type(datos))
datos

<class 'list'>


[{'id': 1,
  'president': 1,
  'nm': 'George Washington',
  'pp': 'None, Federalist',
  'tm': '1789-1797'},
 {'id': 2,
  'president': 2,
  'nm': 'John Adams',
  'pp': 'Federalist',
  'tm': '1797-1801'},
 {'id': 3,
  'president': 3,
  'nm': 'Thomas Jefferson',
  'pp': 'Democratic-Republican',
  'tm': '1801-1809'}]

In [28]:
#Para todo en linea

with open("./data/Musical_short.json","r") as f:
    datos = [json.loads(linea) for linea in f] # Fijate que tiene una "s", porque aquí no estamos leyendo de un archivo sino de un string
print(type(datos))
datos

<class 'list'>


[{'reviewerID': 'A2IBPI20UZIR0U',
  'asin': '1384719342',
  'reviewerName': 'cassandra tu "Yeah, well, that\'s just like, u...',
  'helpful': [0, 0],
  'reviewText': "Not much to write about here, but it does exactly what it's supposed to. filters out the pop sounds. now my recordings are much more crisp. it is one of the lowest prices pop filters on amazon so might as well buy it, they honestly work the same despite their pricing,",
  'overall': 5.0,
  'summary': 'good',
  'unixReviewTime': 1393545600,
  'reviewTime': '02 28, 2014'},
 {'reviewerID': 'A14VAT5EAX3D9S',
  'asin': '1384719342',
  'reviewerName': 'Jake',
  'helpful': [13, 14],
  'reviewText': "The product does exactly as it should and is quite affordable.I did not realized it was double screened until it arrived, so it was even better than I had expected.As an added bonus, one of the screens carries a small hint of the smell of an old grape candy I used to buy, so for reminiscent's sake, I cannot stop putting the pop filte

### Escritura en archivos json 

Lo primero antes de ponernos a escribir como locos es puntualizar, para poder escribir en archivos json, lo que vayas a escribir debe cumplir con la especificación de lo que es un objeto Json ([aqui, por si no te consigues dormir esta noche](https://www.json.org/json-en.html)).  

Por ejemplo, creemos el diccionario:


In [29]:
dicc_ejemplo = {"nombre": "Motomami","cantante":"Rosalia", "anyo": "2021"}

In [30]:
with open("./data/ejemplo.json","w") as g:
    json.dump(dicc_ejemplo, g)

In [31]:
with open("./data/ejemplo.json","r") as f:
    datos_ejemplo = json.load(f)

datos_ejemplo

{'nombre': 'Motomami', 'cantante': 'Rosalia', 'anyo': '2021'}

Para terminar, puedes hacer lo mismo con una lista de diccionarios:

In [32]:
lista = []
for i in range(4):
    dicc_valor = dicc_ejemplo.copy()
    dicc_valor["cantante"] = f"Rosalia_{i}"
    lista.append(dicc_valor)
print(lista)

[{'nombre': 'Motomami', 'cantante': 'Rosalia_0', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_1', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_2', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_3', 'anyo': '2021'}]


In [33]:
with open("./data/ejemplo_lista.json","w") as g:
    json.dump(lista,g)

with open("./data/ejemplo_lista.json","r") as f:
    print(json.load(f))

[{'nombre': 'Motomami', 'cantante': 'Rosalia_0', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_1', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_2', 'anyo': '2021'}, {'nombre': 'Motomami', 'cantante': 'Rosalia_3', 'anyo': '2021'}]


### De json a pandas en un paso

In [34]:
with open("./data/Musical_Instruments_5.json","r") as f:
    datos = [json.loads(linea) for linea in f]

datos[25:27]

[{'reviewerID': 'AXWB93VKVML6K',
  'asin': 'B000068NTU',
  'reviewerName': 'Michael Hassey',
  'helpful': [0, 0],
  'reviewText': 'Cant go wrong. Great quality on a budget price  - Hosa is the go to when you need to hook things up',
  'overall': 4.0,
  'summary': 'Its a Hosa',
  'unixReviewTime': 1372809600,
  'reviewTime': '07 3, 2013'},
 {'reviewerID': 'A2FZ4Z0UFA1OR8',
  'asin': 'B000068NTU',
  'reviewerName': 'Pat',
  'helpful': [0, 0],
  'reviewText': 'The ends of the midi cable look and feel like quality. Connection is secure, no worries about uneven connections, it also detaches without a hitch. Highly recommended.',
  'overall': 5.0,
  'summary': 'Quality and Secure',
  'unixReviewTime': 1327449600,
  'reviewTime': '01 25, 2012'}]

In [35]:
df = pd.read_json("./data/Musical_Instruments_5.json", lines = True)
df.head(3)

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"


In [36]:
with open("./data/presidentes.json","r") as f:
    presidentes = json.load(f)

df = pd.DataFrame(presidentes)
df.head(3)

Unnamed: 0,id,president,nm,pp,tm
0,1,1,George Washington,"None, Federalist",1789-1797
1,2,2,John Adams,Federalist,1797-1801
2,3,3,Thomas Jefferson,Democratic-Republican,1801-1809


### Manipulando ficheros json

In [37]:
with open("./data/05_Ficheros_json_II.ipynb", "r") as f:
    notebook = json.load(f)

In [38]:
notebook.keys()

dict_keys(['cells', 'metadata', 'nbformat', 'nbformat_minor'])

En "cells" tenemos cada una de las celdas que estás viendo ahora mismo (ojo no todas porque tienes las de la última vez que se grabó). Veamos como es una de esas celdas:


In [39]:
type(notebook["cells"])

list

In [40]:
type(notebook["cells"][0])

dict

In [41]:
notebook["cells"][0]["cell_type"]

'markdown'

In [42]:
for celda in notebook["cells"]:
    if celda["cell_type"] == "code":
        print(celda["source"])

['import json\n', '\n', 'with open("./data/Musical_Instruments_5.json","r") as f:\n', '    datos = [json.loads(linea) for linea in f]']
[]
[]
[]
['with open("./data/presidentes.json","r") as f:\n', '    presidentes = json.load(f)\n']
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]


## ACCESO LOCAL: XML (I)
El formato **XML** (eXtensible Markup Language) es parecido al HTML, pero es más estructurado y es un tipo de formato de fichero que tiene cierto uso, y a diferencia del json, es más probable que encuentres datos que te interesen en este formato. [Ojo que eso no le quita importancia al Json]. 


### Estructura de un archivo XML

<img src="https://docs.adaptive-vision.com/current/studio/img/manual/XmlDescription.png">

 Además de lo visto para el ejemplo de arriba sobre etiquetas, una forma de ver los archivos XML es como si formasen un estructura de arbol en el que van apareciendo conjuntos de valores que pertenencen a otros conjuntos de valores a partir de un nodo raíz:

<img src="https://www.cdn.geeksforgeeks.org/wp-content/uploads/parsing-XML.gif">


### Lectura de ficheros XML

Antes de utilizar la correspondiente librería de python (ojo esta no se llama `xml`) que nos ayude a procesar un fichero XML y extraer la información que pueda contener, veamos uno como texto plano que es:

In [43]:
with open("./data/cd_catalog.xml", "r") as f:
    for line in f:
        print(line, end = "")

<?xml version="1.0" encoding="UTF-8"?>
<CATALOG>
  <CD id="1">
    <TITLE>Empire Burlesque</TITLE>
    <ARTIST>Bob Dylan</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>Columbia</COMPANY>
    <PRICE>10.90</PRICE>
    <YEAR>1985</YEAR>
  </CD>
  <CD id="2">
    <TITLE>Hide your heart</TITLE>
    <ARTIST>Bonnie Tyler</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>CBS Records</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1988</YEAR>
  </CD>
  <CD id="3">
    <TITLE>Greatest Hits</TITLE>
    <ARTIST>Dolly Parton</ARTIST>
    <COUNTRY>USA</COUNTRY>
    <COMPANY>RCA</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>1982</YEAR>
  </CD>
  <CD id="4">
    <TITLE>Still got the blues</TITLE>
    <ARTIST>Gary Moore</ARTIST>
    <COUNTRY>UK</COUNTRY>
    <COMPANY>Virgin records</COMPANY>
    <PRICE>10.20</PRICE>
    <YEAR>1990</YEAR>
  </CD>
  <CD id="5">
    <TITLE>Eros</TITLE>
    <ARTIST>Eros Ramazzotti</ARTIST>
    <COUNTRY>EU</COUNTRY>
    <COMPANY>BMG</COMPANY>
    <PRICE>9.90</PRICE>
    <YEAR>199

Lo que podría interesarnos es sacar los datos por CD para construirnos una tabla Catalog y ahí poner una fila por cd con su identificador (que podría ser nuestro índice de `DataFrame` por ejemplo) y los valores de cada una de esas etiquetas (TITLE, ARTIST, etc) las columnas... ¿Y cómo hacerlo?


Lo vamos a hacer con ayuda de la librería `ElementTree`:

In [44]:
import xml.etree.ElementTree as ET

In [45]:
tree = ET.parse("./data/cd_catalog.xml")

### Procesando un fichero XML

Esta librería trata el XML como si fuese un árbol. En este formato de árbol, disponemos de diversos métodos con los que podemos extraer partes del XML. 

* `tag` muestra el texto dentro de la etiqueta
* `attrib` muestra los atributos de la etiqueta
* `text` muestra el texto del nodo
* La función `iter()` permite conocer la estructura del XML
* La función `find()` busca en el XML y devuelve el elemento que coincide con la etiqueta especificada.  
* La función `findall()` devuelve todos los elementos con cierta etiqueta

In [46]:
# Obtener la etiqueta del nodo raiz:
raiz = tree.getroot()
raiz.tag

'CATALOG'

In [47]:
# Para cada elemento sus etiquetas
for elemento in raiz.iter():
    print(elemento.tag)

CATALOG
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD
TITLE
ARTIST
COUNTRY
COMPANY
PRICE
YEAR
CD


In [48]:
# Recorrido con cierta jerarquia
for hijo in raiz:
    tabs = "\t"
    print(hijo.tag, hijo.attrib)
    for nieto in hijo:
        print(tabs, nieto.tag, nieto.text)

CD {'id': '1'}
	 TITLE Empire Burlesque
	 ARTIST Bob Dylan
	 COUNTRY USA
	 COMPANY Columbia
	 PRICE 10.90
	 YEAR 1985
CD {'id': '2'}
	 TITLE Hide your heart
	 ARTIST Bonnie Tyler
	 COUNTRY UK
	 COMPANY CBS Records
	 PRICE 9.90
	 YEAR 1988
CD {'id': '3'}
	 TITLE Greatest Hits
	 ARTIST Dolly Parton
	 COUNTRY USA
	 COMPANY RCA
	 PRICE 9.90
	 YEAR 1982
CD {'id': '4'}
	 TITLE Still got the blues
	 ARTIST Gary Moore
	 COUNTRY UK
	 COMPANY Virgin records
	 PRICE 10.20
	 YEAR 1990
CD {'id': '5'}
	 TITLE Eros
	 ARTIST Eros Ramazzotti
	 COUNTRY EU
	 COMPANY BMG
	 PRICE 9.90
	 YEAR 1997
CD {'id': '6'}
	 TITLE One night only
	 ARTIST Bee Gees
	 COUNTRY UK
	 COMPANY Polydor
	 PRICE 10.90
	 YEAR 1998
CD {'id': '7'}
	 TITLE Sylvias Mother
	 ARTIST Dr.Hook
	 COUNTRY UK
	 COMPANY CBS
	 PRICE 8.10
	 YEAR 1973
CD {'id': '8'}
	 TITLE Maggie May
	 ARTIST Rod Stewart
	 COUNTRY UK
	 COMPANY Pickwick
	 PRICE 8.50
	 YEAR 1990
CD {'id': '9'}
	 TITLE Romanza
	 ARTIST Andrea Bocelli
	 COUNTRY EU
	 COMPANY Polydor

Además puedo buscar elementos por sus etiquetas y hacer lo anterior de otra forma

In [49]:
cds = tree.findall("CD")
for cd in cds:
    print("Id:", cd.attrib["id"])
    print("Titulo:", cd.find("TITLE").text)
    print("Artista:", cd.find("ARTIST").text)

Id: 1
Titulo: Empire Burlesque
Artista: Bob Dylan
Id: 2
Titulo: Hide your heart
Artista: Bonnie Tyler
Id: 3
Titulo: Greatest Hits
Artista: Dolly Parton
Id: 4
Titulo: Still got the blues
Artista: Gary Moore
Id: 5
Titulo: Eros
Artista: Eros Ramazzotti
Id: 6
Titulo: One night only
Artista: Bee Gees
Id: 7
Titulo: Sylvias Mother
Artista: Dr.Hook
Id: 8
Titulo: Maggie May
Artista: Rod Stewart
Id: 9
Titulo: Romanza
Artista: Andrea Bocelli
Id: 10
Titulo: When a man loves a woman
Artista: Percy Sledge
Id: 11
Titulo: Black angel
Artista: Savage Rose
Id: 12
Titulo: 1999 Grammy Nominees
Artista: Many
Id: 13
Titulo: For the good times
Artista: Kenny Rogers
Id: 14
Titulo: Big Willie style
Artista: Will Smith
Id: 15
Titulo: Tupelo Honey
Artista: Van Morrison
Id: 16
Titulo: Soulsville
Artista: Jorn Hoel
Id: 17
Titulo: The very best of
Artista: Cat Stevens
Id: 18
Titulo: Stop
Artista: Sam Brown
Id: 19
Titulo: Bridge of Spies
Artista: T'Pau
Id: 20
Titulo: Private Dancer
Artista: Tina Turner
Id: 21
Titulo

## Crear Dataframe a partir de XML

Vamos a crear un `DataFrame` a partir de los datos que puedes encontrar en el fichero "movies.xml" en el directorio "data". Este es un notebook especial, igual que están las sesiones vagas, esta es una sesión only coding... vamos a ello: (es decir sin texto de apoyo)


In [50]:
with open("./data/movies.xml", "r") as f:
    for line in f:
        print(line, end="")

<?xml version="1.0" encoding="UTF-8"?>

<movies>
  <movie>
    <title>A History of Violence</title>
    <year>2005</year>
    <country>USA</country>
    <genre>Crime</genre>
    <summary>Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.</summary>
 <director>	    <last_name>Cronenberg</last_name>
	    <first_name>David</first_name>
	    <birth_date>1943</birth_date>
</director> <actor>
	    <first_name>Vigo</first_name>
	    <last_name>Mortensen</last_name>
	   

In [51]:
tree_movies =ET.parse("./data/movies.xml")
raiz = tree_movies.getroot()
print(raiz.tag)

movies


In [52]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    for nieto in hijo:
        level = 1
        print(tabs * level, nieto.tag, nieto.text)
        for bisnieto in nieto:
            level = 2
            print(tabs * level, bisnieto.tag, bisnieto.text)
            for tataranieto in bisnieto:
                level = 3
                print(tabs * level, tataranieto.tag, tataranieto.text)

movie
	 title A History of Violence
	 year 2005
	 country USA
	 genre Crime
	 summary Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.
	 director 	    
		 last_name Cronenberg
		 first_name David
		 birth_date 1943
	 actor 
	    
		 first_name Vigo
		 last_name Mortensen
		 birth_date 1958
		 role Tom Stall
	 actor 
	    
		 first_name Maria
		 last_name Bello
		 birth_date 1967
		 role Eddie Stall
	 actor 
	    
		 first_name Ed
		 last_name Harris
		 birth_d

In [53]:
dict_df ={
    "title" : [],
    "year" : [],
    "country" : [],
    "genre" : [],
    "summary" : [],
    "director" : []
}

In [54]:
for hijo in raiz:
    tabs = "\t"
    level = 0
    print(hijo.tag)
    campos_a_rellenar = list(dict_df.keys())
    for nieto in hijo:
        level = 1
        print(tabs * level, nieto.tag, nieto.text)
        if nieto.tag in dict_df and nieto.tag != "director": #director requiere más procesamiento
            dict_df[nieto.tag].append(nieto.text)
            campos_a_rellenar.remove(nieto.tag)
        elif nieto.tag == "director":
            for bisnieto in nieto:
                level = 2
                print(tabs * level, bisnieto.tag, bisnieto.text)
                if bisnieto.tag == "first_name":
                    nombre = bisnieto.text
                elif bisnieto.tag == "last_name":
                    apellido = bisnieto.text
            nombre_completo = f"{nombre} {apellido}"
            dict_df["director"].append(nombre_completo)
            campos_a_rellenar.remove("director")
    for campo in campos_a_rellenar:
        dict_df[campo].append("No tengo datos")


movie
	 title A History of Violence
	 year 2005
	 country USA
	 genre Crime
	 summary Tom Stall, a humble family man and owner of a 
	popular neighborhood restaurant, lives a quiet but 
	fulfilling existence in the Midwest. One night Tom 
	foils a crime at his place of business and, to his 
	chagrin, is plastered all over the news for his 
	heroics. Following this, mysterious people follow 
	the Stalls' every move, concerning Tom more than 
	anyone else. As this situation is confronted, more 
	lurks out over where all these occurrences have 
	stemmed from compromising his marriage, family 
	relationship and the main characters' former 
	relations in the process.
	 director 	    
		 last_name Cronenberg
		 first_name David
		 birth_date 1943
	 actor 
	    
	 actor 
	    
	 actor 
	    
	 actor 
	    
movie
	 title Heat
	 year 1995
	 country USA
	 genre Crime
	 summary Hunters and their prey--Neil and his professional 
	criminal crew hunt to score big money targets 
	(banks, vaults, armo

In [55]:
dict_df

{'title': ['A History of Violence',
  'Heat',
  'Unforgiven',
  'Match Point',
  'Lost in Translation',
  'Marie Antoinette',
  'Spider-Man'],
 'year': ['2005', '1995', '1992', '2005', '2003', '2006', '2002'],
 'country': ['USA', 'USA', 'USA', 'USA', 'USA', 'USA', 'USA'],
 'genre': ['Crime', 'Crime', 'Western', 'Crime', 'Drama', 'Drama', 'Action'],
 'summary': ["Tom Stall, a humble family man and owner of a \n\tpopular neighborhood restaurant, lives a quiet but \n\tfulfilling existence in the Midwest. One night Tom \n\tfoils a crime at his place of business and, to his \n\tchagrin, is plastered all over the news for his \n\theroics. Following this, mysterious people follow \n\tthe Stalls' every move, concerning Tom more than \n\tanyone else. As this situation is confronted, more \n\tlurks out over where all these occurrences have \n\tstemmed from compromising his marriage, family \n\trelationship and the main characters' former \n\trelations in the process.",
  "Hunters and their prey-

In [56]:
df = pd.DataFrame(dict_df)
df

Unnamed: 0,title,year,country,genre,summary,director
0,A History of Violence,2005,USA,Crime,"Tom Stall, a humble family man and owner of a ...",David Cronenberg
1,Heat,1995,USA,Crime,Hunters and their prey--Neil and his professio...,Michael Mann
2,Unforgiven,1992,USA,Western,The town of Big Whisky is full of normal peopl...,Clint Eastwood
3,Match Point,2005,USA,Crime,"Chris Wilton is a former tennis pro, looking t...",Woody Allen
4,Lost in Translation,2003,USA,Drama,No tengo datos,Sofia Coppola
5,Marie Antoinette,2006,USA,Drama,Based on Antonia Fraser's book about the ill-f...,Sofia Coppola
6,Spider-Man,2002,USA,Action,"On a school field trip, Peter Parker (Maguire)...",Sam Raimi


In [57]:
df_2 = pd.read_xml("./data/movie.xml")

  df_2 = pd.read_xml("./data/movie.xml")


XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1 (<string>, line 1)