# Rutas relativas y absolutas

In [1]:
# vamos a volver a importar la librería os al completo, ya que a lo largo de la lección usaremos varías funciones de esta librería. 
import os

In [2]:
# veamos cuál es la ruta de la carpeta donde estamos trabajando

os.getcwd()

'/home/cachito/Adalab/adalab.python'

El resultado de tu carpeta actual, ha sido un string muy largo, ¿verdad?. Es la `ruta absoluta`, empezando con la unidad de disco, `C:`, `D:`, o parecido, y todas las carpetas madre de la carpeta actual ( es decir, todas los pasitos que tenemos que seguir hasta llegar al fichero en el que estamos trabajando). Esta ruta nos puede resultar muy útil para ubicar algo desde cualquier otra carpeta. La desventaja es que al mover el código a otro dispositivo, es poco probable que esas ruta siga siendo al misma y podemos encontrarnos con problemas. 

Para evitar estos problemas, lo ideal es trabajar con rutas relativas. En este tipo de rutas definimos la carpeta actual con un punto `.` por lo que `./subcarpeta` se refiere a una subcarpeta de la carpeta actual. Igualmente `..` se refiere a la carpeta en que se encuentra la carpeta actual. Veamos algunos ejemplos para entender esto mejor, pero como apoyo podemos pensar en como nos movemos por las carpetas desde la terminal. Recordemos que en la terminal, cuando hacemos `cd ..` lo que hacemos es irnos una carpeta para atrás, lo mismo pasará en las rutas relativas en Python. 

Ahora mismo estamos en la carpeta notebooks como hemos visto en la celda anterior, imaginemos ahora que nos queremos mover a la carpeta de `assets` usaremos entonces 

`../`

En caso de que nos queramos ir dos carpetas para atrás usaremos: 

`../../`

Es decir, cada vez que ponemos `..`, nos estamos yendo una carpeta para atrás desde la carpeta donde estamos ubicados. 

📌 Si estás en un equipo Windows puede que las rutas te hayan salido con `\\` en vez de `/` para separar las carpetas. Windows usa el carácter `\` para sus rutas, que se interpreta mal si se usa en un string. `\t` es un `tab` por ejemplo, y `\n` es una línea nueva. Para evitar que se interprete mal, la ruta se demuestra con dobles slash `\\`. En las versiones recientes de Windows, sin embargo, se aceptan las rutas con `/` también. Una ruta con `/` te va a funcionar en todo tipo de dispositivos entonces, mientras las rutas con `\` están limitadas a sólo Windows.

**Repaso**
- Las rutas absolutas empiezan con la unidad de disco, como `C:/`. Rutas absolutas no funcionan en otros dispositivos.

- Las rutas relativas empiezan en la carpeta actual `./` y para salir a la carpeta madre usamos `../`.

- Windows demostrará las rutas con `\\` en vez de `/`. Son iguales pero `/` te valdrá en todos los sistemas operativos.

# Módulos o librerías

Los módulos (también llamadas librerías) en Python son como paquetes de funciones que vamos a usar comunmente en Python. Para trabajar con ficheros y directorios vamos a necesitar importar unos módulos. Un buen punto de partida si queréis aprender sobre módulos es la [documentación oficial](https://docs.python.org/3/tutorial/modules.html), aunque aquí también os vamos a contar las cosas esenciales de ellos. 


Un archivo con múltiples funciones, guardado con la extensión `.py` es un módulo, y por defecto Python ya tiene algunos cargados. Las funciones que usamos hasta ahora (`print()`, `zip()`, `len()`, `range()`, `int()`, etc.) no pertenecían a un módulo externo. Para otras funciones que vamos a necesitar para las clases a partir de ahora sí que hace falta *importar* los módulos adecuados para poder usar las funciones de dentro. El primer módulo que vamos a necesitar en la clase de hoy es `os`, y lo usamos como ejemplo para las formas de importar un módulo.

In [5]:
# para importar un módulo necesitaremos usar la palabra clave "import" seguido del módulo que queremos importar
import os

In [6]:
# una de las funciones más usadas es "getcwd" del inglés "get current working directory", el cuál nos va a decir en qué carpeta estamos ejecutando el código. Es como el pwd de la terminal.
os.getcwd()

'c:\\Users\\agarc\\Documents\\Adalab\\materiales-da-promo-b\\modulo-1\\modulo-1-python-basico\\assets\\notebooks'

In [7]:
# esta ubicación la podemos almacenar en una variable, la cual podemos usar a lo largo de nuestro jupyter
carpetaActual = os.getcwd()
carpetaActual

'c:\\Users\\agarc\\Documents\\Adalab\\materiales-da-promo-b\\modulo-1\\modulo-1-python-basico\\assets\\notebooks'

Normalmente dentro de una librería o módulo hay múltiples funciones definidas. Puede ser que solo nos interese una de sus funciones en especifico. Python nos permite cargar o importar solo las que nos interesan de la siguiente forma:

In [8]:
from os import getcwd

In [9]:
# 📌 fijaos como en estos casos, ya no necesitamos especificar "os." como hicimos en el primer ejemplo. 
getcwd()

'c:\\Users\\agarc\\Documents\\Adalab\\materiales-da-promo-b\\modulo-1\\modulo-1-python-basico\\assets\\notebooks'

En el caso anterior solo nos importamos una función, pero podemos importarnos dos o más de la siguiente forma:

In [10]:
from os import getcwd, listdir

In [11]:
# de nuevo si os fijaos, no hace falta que pongáis ".os" delante de la función que queremos usar. 
getcwd()

'c:\\Users\\agarc\\Documents\\Adalab\\materiales-da-promo-b\\modulo-1\\modulo-1-python-basico\\assets\\notebooks'

In [12]:
# otro método interesante es "listdir" que nos va a devolver un listado de los archivos que tenemos en la carpeta en la que estamos trabajando. Es como el "ls" en la terminal
listdir()

['.ipynb_checkpoints',
 'modulo-1-leccion-01-variables.ipynb',
 'modulo-1-leccion-02-listas1.ipynb',
 'modulo-1-leccion-03-listas2.ipynb',
 'modulo-1-leccion-04-diccionarios.ipynb',
 'modulo-1-leccion-05-sets.ipynb',
 'modulo-1-leccion-05-tuplas.ipynb',
 'modulo-1-leccion-06-boolean-statements.ipynb',
 'modulo-1-leccion-07-bucles-for-range-comprehensions-I.ipynb',
 'modulo-1-leccion-07-bucles-for-range-comprehensions-II.ipynb',
 'modulo-1-leccion-08-funciones-1-Intro.ipynb',
 'modulo-1-leccion-08-funciones-2-Argumentos.ipynb',
 'modulo-1-leccion-09-Clases.ipynb',
 'modulo-1-leccion-10-ficheros-1.ipynb',
 'modulo-1-leccion-12-expresiones-regulares.ipynb',
 'modulo-1-leccion-13-python_sql.ipynb',
 'modulo-1-leccion-14-python_sql.ipynb']

Algo muy común cuando estamos trabajando en Python importanto librerías es el uso de alias. Estos son palabras clave que vamos a usar para evitar tener que usar el nombre de la librería completa, ya sea porque el nombre es muy largo o por convención. Uno de los casos más comunes lo encontraremos en librerías como pandas o numpy, dos librerías que todavía no hemos visto, pero que veremos en el módulo 2 del bootcamp. En caso de que queramos hacer la importación con alias tendremos que usar la palabra clave `as`. En el caso de estas librerías sus *import*  los encontraremos de la siguiente forma: 

In [13]:
# en el caso de la librería de pandas, usaremos el alias pd
import pandas as pd

# en el caso de la librería de numpy, usaremos el alias np
import numpy as np

De esta forma, evitaremos tener que estar escribiendo pandas todo el rato, en su lugar escribiremos `pd`. Además de que nos ahorra tener que escribir una palabra más larga, ayuda a la comunidad Pythoniana a saber que cuando vemos esas abreviaturas se está trabajando con esas librerías. 

📌 **NOTA** A la hora de importar las librerías, por convención, todas suelen ir al incio del jupyter, para que la persona que vaya a leer nuestro código sepa desde el minuto 0 que librerías son las que necesitará para desarrollar el proyecto. 

**Repaso**
- Con `import` cargamos un módulo entero, y sus funciones estarán disponible como `modulo.funcion()`.

- Con `from modulo import funcion1, funcion2` cargamos sólo funciones específicas.

---
## Ejercicios modulos, rutas relativas y absolutas

- Importar un módulo

    1. Carga el módulo `datetime`.
    2. Carga el módulo `datetime` con el alias (= nombre local) `dt`.

- Importar contenidos de un módulo

    3. Carga la clase `date` del módulo `datetime`.
    4. Carga la clase `date` del módulo `datetime` con el alias `fecha`.

- Usar contenidos de un módulo

    5. Usa el método `.today()` de la clase `date` del módulo con alias `dt` para la variable `hoy1`. Imprime `hoy1`.
    6. Usa el método `.today()` de la con alias `fecha` para la variable `hoy2`. Imprime `hoy2`.

---

In [4]:
import datetime
import datetime as dt

In [6]:
from datetime import date
from datetime import date as fecha

In [10]:
hoy2 = fecha.today()
hoy2

datetime.date(2022, 7, 25)

In [13]:
hoy1 = dt.date.today()
hoy1

datetime.date(2022, 7, 25)

---

## Librería `os`
La primera librería que aprendimos a cargar es `os` [aqui](https://docs.python.org/3/library/os.html?highlight=module%20os#module-os) tenéis la documentación oficial. Esta librería nos va a permitir movernos entre carpetas, como podemos hacer con el explorador de archivos en Windows o con el finder en Mac (o incluso con la terminal, ahora que estamos aprendiendo a usarla). Vamos a seguir aprendiendo métodos interesantes de esta librería: 

In [14]:
# volvemos a cargar la librería completa, ya que a lo largo de este jupyter trabajaremos con distintas funciones
import os

In [15]:
# utilizamos el método getcwd para saber cual es nuestra carpeta de trabajo y lo almacenamos en una variable
carpeta_jupyter = os.getcwd()
carpeta_jupyter

'c:\\Users\\agarc\\Documents\\Adalab\\materiales-da-promo-b\\modulo-1\\modulo-1-python-basico\\assets\\notebooks'

### `.listdir()`

Como aprendimos un poco más arriba, esta librería tiene el método `.listdir()`, el cuál nos devolvía el contenido de la carpeta donde estamos ubicados, igual que el `ls` de la terminal.

In [16]:
os.listdir()

['.ipynb_checkpoints',
 'modulo-1-leccion-01-variables.ipynb',
 'modulo-1-leccion-02-listas1.ipynb',
 'modulo-1-leccion-03-listas2.ipynb',
 'modulo-1-leccion-04-diccionarios.ipynb',
 'modulo-1-leccion-05-sets.ipynb',
 'modulo-1-leccion-05-tuplas.ipynb',
 'modulo-1-leccion-06-boolean-statements.ipynb',
 'modulo-1-leccion-07-bucles-for-range-comprehensions-I.ipynb',
 'modulo-1-leccion-07-bucles-for-range-comprehensions-II.ipynb',
 'modulo-1-leccion-08-funciones-1-Intro.ipynb',
 'modulo-1-leccion-08-funciones-2-Argumentos.ipynb',
 'modulo-1-leccion-09-Clases.ipynb',
 'modulo-1-leccion-10-ficheros-1.ipynb',
 'modulo-1-leccion-12-expresiones-regulares.ipynb',
 'modulo-1-leccion-13-python_sql.ipynb',
 'modulo-1-leccion-14-python_sql.ipynb']

### `.chdir()` 

Puede ser que en ocasiones nos interese cambiar la carpeta de trabajo, para eso podemos usar la función `.chdir()`, al cuál le tendremos que pasar la ruta de la carpeta que queremos establecer como carpeta de trabajo. Imaginemos que queremos irnos a nuestro escritorio: 

In [17]:
# cambiamos la ruta de trabajo a el escritorio. 📌 Siguiendo esta ruta, os dará error, recordad cambiar esta ruta por la que corresponda con vuestros ordenadores en caso de que queráis seguir la clase con vuestras carpetas
os.chdir('C:/Users/agarc/Desktop')

In [18]:
# ahora, vamos a chequear cuál es ahora nuestra ruta de trabajo
os.getcwd()

'C:\\Users\\agarc\\Desktop'

In [19]:
# y que ficheros tenemos ahora en esta carpeta
os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

### `.mkdir()` 

Para crear carpetas tenemos `.mkdir()`, de *make directory*, si os fijais, la función es muy parecida a la que usamos en la terminal. En este caso vamos a crear una carpeta que se llame `Carpeta_os` y vamos a comprobar con la función `.listdir()` si se nos ha creado correctamente esa carpeta. 

In [20]:
# creamos la carpeta

os.mkdir('Carpeta_os')

In [21]:
os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'Carpeta_os',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

Si nos fijamos, ahora tenemos un nuevo elemento en la lista que nos devuelve el método `.listdir()`, la carpeta que hemos creado esta ya en esta lista! 

### `.rename()`

A veces, puede que estemos interesados en cambiar el nombre de una carpeta, en este caso vamos a cambiar el nombre de nuestra carpeta nueva a `'testtesttest'`. La sintaxis que seguiremos en esta función es: 

```python
os.rename("nombre_nuevo", "nombre_antiguo")
```

In [22]:
# cambiamos el nombre de la carpeta
os.rename('Carpeta_os','testtesttest')


In [23]:
# chequeamos si se ha cambiado el nombre
os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'testtesttest',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

### `.rmdir()` 

Por último, puede que estemos interesadas en eliminar alguna carpeta, para eso usaremos la función `.rmdir()`. 

In [24]:
# eliminamos la carpeta que hemos creado
os.rmdir('testtesttest')

In [25]:
# chequeamos que ha sido correctamente eliminada
os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

**Repaso**

- Para saber en que ruta absoluta estás usa `os.getcwd()`.

- Para cambiar la carpeta en que estés usa `os.chdir()`.

- Los contenidos de la carpeta actual son mostradis con `os.listdir()`. Igualmente, los contenidos de la carpeta `'X'` con `os.listdir('X')`.

- Crear, renombrar, o eliminar una carpeta  `os.mkdir()`, `os.rename()`, y `os.remove()`.


## Librería `shutil`

La documentación oficial de esta librería la tenéis [aquí]('https://docs.python.org/3/library/shutil.html'). Nos puede resultar útil para los casos en que no sólo quieras borrar una carpeta en sí (`os.remove()`) sino una carpeta con todas sus subcarpetas y archivos a la vez. 

Su nombre se refiere a *sh*ell *util*ities, en que *shell* es el intérprete de órdenes que te da accesso a los servicios del sistema operativo. 

Para hacerlo usa el comando `.rmtree()` (= *remove tree*) en que *tree* se refiere al árbol de carpetas y subcarpetas, es decir lo hará de forma recursiva! 


In [26]:
# lo primero que vamos a hacer es cargar la librería, en este caso no lo vamos a cargar todo, solo cargaremos lo que nos interesa

from shutil import rmtree

In [27]:
# volvemos a crear una carpeta que se llame "Carpeta_os"
os.mkdir('Carpeta_os')

In [28]:
# dentro de esta carpeta, vamos a crear otra carpeta

os.mkdir("Carpeta_os/ficheros")

In [29]:
# Si chequeamos ahora la estructura de carpetas, tendremos "Carpeta_os" y dentro una carpeta llamada "ficheros". Vamos a proceder a eliminar de forma recursiva todas las carpetas

rmtree('Carpeta_os')


**Repaso**
- Para borrar carpetas junto con sus subcarpetas y/o archivos, usaremos `rmtree()` del módulo `shutil`.

---
## Ejercicios módulo `shutil`

- Este apartado no tiene ejercicios. 

---

---

# Librería con `open()` y `.close()`

En ocasiones querremos cargar datos que tengamos en ficheros en nuestro ordenador en nuestro jupyter. En el GitBook donde te has descargado este notebook también hay dos archivos de texto, si no los has descargado todavía debéis descargarlos para poder seguir con la lección. Recuerda la ruta donde los guardas y usa `listdir()` del módulo `os` para comprobar que estén ahí:

In [30]:
# primero chequeamos si los ficheros descargados están en la carpeta donde estamos trabajando

os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

Si no habéis ejecutado vosotras las celdas, veréis en el *output* que en nuestro caso, los ficheros están en la carpeta donde estamos trabajando. 📌 En caso de que no sea así, y que vosotras hayáis ido modificando el código acorde a la estructura de vuestras carpetas, aseguraros de estar en la carpeta deseada y con los archivos necesarios. 

In [31]:
# almacenamos en una variable el archivo de txt
nom_archivo = 'archivo.txt'
nom_archivo

'archivo.txt'

In [32]:
# almancenamos en una variable la ruta donde esta el archivo
ubi_carpeta = getcwd()
ubi_carpeta

'C:\\Users\\agarc\\Desktop'

In [34]:
# establecemos la ruta completa con el nombre del archivo
ubi_archivo = ubi_carpeta + '\\' + nom_archivo
ubi_archivo

'C:\\Users\\agarc\\Desktop\\archivo.txt'

Hay mil maneras de obtener la ruta, como ves en el ejemplo aquí arriba. Si sabes donde se encuentra la carpeta y como se llama el archivo no te olvides de juntarlos con una barra `'/'` o `'\\'` en formato string. Otra forma de obtener esta ruta es usando la lista producida por `listdir()` para pasar por todos los contenidos de la carpeta con un bucle `for`.

In [35]:
# creamos una variable donde tenemos almancenados todos los ficheros y carpetas de nuestra carpeta de trabajo
conts = os.listdir()
conts

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

In [36]:
# establecemos la ruta al fichero usando la variable "conts" que creamos anteriormente
ubi_archivo = ubi_carpeta + '\\' + conts[conts.index('archivo.txt')]
ubi_archivo

'C:\\Users\\agarc\\Desktop\\archivo.txt'

## `open()` y `close()`

Una vez obtenida la ruta la metemos usaremo la función `open()`, que nos va a permitir abrir un archivo desde Python. No pertenece a ningún módulo en específico y por tanto no hace falta cargar nada. También introducimos el método `.close()`:

In [37]:
# abrimos el fichero
f = open(ubi_archivo)
f

<_io.TextIOWrapper name='C:\\Users\\agarc\\Desktop\\archivo.txt' mode='r' encoding='cp1252'>

In [38]:
# cerramos el fichero, esto corresponde a cuando cerramos un fichero en nuestro ordenador dándole a la "x"
f.close()

Lo que hemos hecho aquí ha sido abrir el archivo y lo hemos almacenado en una variable llamada `f`. Al abrir el archivo con `open()` cargamos sus contenidos en un búfer de memoria y bloqeamos el archivo para que otras aplicaciones no puedan cambiarlo mientras estamos con el archivo abierto nosotras. Todo esto esta bien, pero en realidad, todavía no hemos podido ver el contenido del archivo, ya que cuando lo hemos printeado nos ha devuelto una cosa un poco extraña. 

## `.read()`

Este método nos va a permitir leer el archivo (entero). Si le damos un argumento numérico ese se usará para cortar el *output*.

In [39]:
# abrimos el archivo
f = open(ubi_archivo)

In [40]:
# leemos el archivo, para poder ver su contenido
f.read()

'Esta es la primera frase.\nEsta es la segunda lÃ\xadnea.\n\nLa lÃ\xadnea anterior esta vacÃ\xada.\n\tEsta tiene un tab delante.\n6 caracteres difÃ\xadciles: Ã¥, Ã¨, Ã\xad, Ã¼, &, Â¿'

In [41]:
# Este método nos permite especificar el número de caracteres que queremos leer, que lo pasaremos entre paréntesis. Imaginemos que queremos leer solo 10 caracteres
f.read(10)

''

Ups... ¿qué ha pasado? Esto es algo especial de este tipo de función, y es que podríamos decir, que es de un solo uso. Una vez que ya hemos hecho una acción con este archivo no podremos hacer otra, por lo tendremos que volver a cargarlo. 

In [42]:
# volvemos a cargar el archivo
f = open(ubi_archivo)

# especificamos que solo queremos leer 10 caracteres
f.read(10)



'Esta es la'

In [43]:
# cerramos la lectura del archivo
f.close()


EL  contenido que leemos lo podemos guardar en una variable y así no hace falta mantener el archivo abierto:

In [44]:
f = open(ubi_archivo)
principio_archivo = f.read()
f.close()

In [45]:
# ahora, aunque el fichero este cerrado, podremos seguir accediendo a su contenido
principio_archivo

'Esta es la primera frase.\nEsta es la segunda lÃ\xadnea.\n\nLa lÃ\xadnea anterior esta vacÃ\xada.\n\tEsta tiene un tab delante.\n6 caracteres difÃ\xadciles: Ã¥, Ã¨, Ã\xad, Ã¼, &, Â¿'

In [46]:
# ¿Que tipo de dato es esta variable? No nos debería sorprender que sea un string

type(principio_archivo)

str

## Argumentos opcionales para `open()`

### *encoding*

Como vimos al leer la segunda línea, la 'í' de línea no se leyó bien: se convirtió en una 'Ã­', es decir, las tildes parece que no nos las está leyendo bien. Seguro que lo habéis encontrado en más occasiones en vuestra vida, es un problema que se llama *encoding* y que es fácil de solucionar pero que también es fácil de olvidar! Cada plataforma tiene un *encoding* diferente. En ocasiones nos especificarán que *encoding* han usado, otras veces no y tendremos que investigar o llegados a cierto punto, nuestra experiencia será un plus:


In [47]:
# esta librería nos va a permitir saber que sistema de encoding estamos usando, pero ojo que a veces puede equivocarse, como nos va a pasar en este ejemplo
from locale import getpreferredencoding
getpreferredencoding()

'cp1252'

Existen muchos encoding distintos, y básicamente lo que hacen es convertir los caracteres de un string a bytes, los '0' y '1' a base de toda la computación. Cada string ocupa en la memoria entonces algunos bytes, y la manera de interpretarlos y mostrar los caracteres depnde del encoding. Para una lista de los encoding que hay os dirigimos a la [documentación](https://docs.python.org/3/library/codecs.html#standard-encodings). En mi caso me salió 'cp1252p' en el encoding estándar, que en la lista en la documentación cubre los lenguajes de Europa oeste. El archivo que cargamos, sin embargo, fue guardado con 'UTF-8', un encoding estándar que cubre todos los idiomas. Para leer el archivo bien entonces queremos especificar el encoding que usar:

In [48]:
# abrimos el archivo
f = open(ubi_archivo, encoding="utf-8")

# almacenamos en una variable su contenido
principio_archivo = f.read()

# cerramos el archivo
principio_archivo

'Esta es la primera frase.\nEsta es la segunda línea.\n\nLa línea anterior esta vacía.\n\tEsta tiene un tab delante.\n6 caracteres difíciles: å, è, í, ü, &, ¿'

Y listo! Ya tenemos nuestro texto bien formateado 👏🏽

### *mode*

Otro argumento opcional es el modo (`mode`) en que abres un archivo. El valor asignado por defecto es `mode='r'` en que `r` se refiere a *reading* o leer. Otras opciones para ese argumento son:
- 'r' de *reading*, leer

- 'w' de *writing*, escribir

- 'x' de *exclusive creation*, sólo crearlo si no existe todavía

- 'a' de *appending*, añadir texto al archivo sin manipular el texto que ya había.



📌 **NOTA** Si abrimos un archivo en el modo `'r'` de *reading* (leer) que no existe todavía, nos da un error. 


En ese caso los carácteres han sido interpretados según el *encoding* de tu sistema operativo o el *encoding* que le diste tú en el otro argumento opcional. En vez de pasar los contenidos a *strings* también podemos dejarlo en formato crudo, es decir en bytes. El `mode` por tanto se puede especificar con 2 letras, una de la lista aquí arriba, seguida por un `t` (de texto, implícito), o `b` (de bytes, hay que ponerlo). Obviamente si lo quieres leer como bytes no tiene sentido especificar un *encoding* ya que no codificas nada sino que lo quieres leer en crudo sin codificar. Si das un argumento de mobo 'b' y un *encoding* a la vez te surgirá un error entonces.

In [49]:
# leer en binary, sin encoding #
################################
# abrimos el archivo
f = open(ubi_archivo, mode = "rb")

# almacenamos en una variable su contenido
principio_archivo = f.read()

# cerramos el archivo
print(principio_archivo)

# cerramos el archivo
f.close()

b'Esta es la primera frase.\nEsta es la segunda l\xc3\xadnea.\n\nLa l\xc3\xadnea anterior esta vac\xc3\xada.\n\tEsta tiene un tab delante.\n6 caracteres dif\xc3\xadciles: \xc3\xa5, \xc3\xa8, \xc3\xad, \xc3\xbc, &, \xc2\xbf'


In [50]:
# leer en texto, sinónimo de 'r' ya que la 't' es implícita, usando el encoding de tu sistema operativo #
#########################################################################################################


# abrimos el archivo
f = open(ubi_archivo, mode = "rt")

# almacenamos en una variable su contenido
principio_archivo = f.read()

# cerramos el archivo
print(principio_archivo)

# cerramos el archivo
f.close()

Esta es la primera frase.
Esta es la segunda lÃ­nea.

La lÃ­nea anterior esta vacÃ­a.
	Esta tiene un tab delante.
6 caracteres difÃ­ciles: Ã¥, Ã¨, Ã­, Ã¼, &, Â¿


In [51]:
# leer en texto, especificando el encoding que usar #
#####################################################

# abrimos el archivo
f = open(ubi_archivo, mode='rt', encoding='utf-8')

# almacenamos en una variable su contenido
principio_archivo = f.read()

# cerramos el archivo
print(principio_archivo)


# cerramos el archivo
f.close()


Esta es la primera frase.
Esta es la segunda línea.

La línea anterior esta vacía.
	Esta tiene un tab delante.
6 caracteres difíciles: å, è, í, ü, &, ¿


**Repaso**
- Si abres un archivo con la función `open()`, siempre ciérralo después.

- Para cerrarlo puedes usar el método `.close()`.

- Asígnale al archivo abierto una variable, que tendrá los métodos para leerlo o cerrarlo.

- El modo `'t'` de `open()` convierte los bytes `'b'` a un string según el encoding.

- Por defecto el modo es `'t'` con un encoding que depende de tu sistema operativo.

- Por defecto, el archivo sólo se abre para *leerlo*, modo `'r'`.

- Para escribir usa el modo `'w'` de writing.

- Si no le das argumentos lo abrirá con `'rt'`, acepta combinaciones de los modos, como por ejemplo `'wb'`.

- Si le das un argumento al método `.read()` se referirá a la cantidad de carácteres que queremos leer.



---
## Ejercicios `open()` y `close()`

- Ubicación del archivo

    7. ¿Dónde tienes guardado el archivo `'ejercicio.txt'`? Guarda la ruta absoluta en `ubi_carp_ej`.

    8. ¿En qué carpeta estás ejecutando este notebook? (No necesariamente es la ubicación del notebook, obténla de otra forma.)

    9. Construye la ruta al archivo `'ejercicio.txt'` con una ruta absoluta en `ubi_ej_abs`. Usa `ubi_carp_ej` para construirla.

    10. Construye la ruta al archivo `'ejercicio.txt'` con una ruta relativa en `ubi_ej_rel`.

- Abrir y cerrar

    11. Abre el archivo `'ejercicio.txt'` como `f`, y ciérralo.

    12. Abre el archivo, imprime los primeros 28 caractéres, y ciérralo.
    
    13. Abre el archivo, guarda los primeros 30 caractéres como `ejer30`, ciérralo, y imprime `ejer30`.

    
- Argumentos opcionales open

    14. Usar read() con un archivo abierto con argumentos opcionales

    15. Lee el archivo 'ejercicio.txt' en modo binario. Imprime la primera línea.
    
    16. Lee el archivo 'ejercicio.txt' con un encoding de 'utf-8'. Deja el modo en por defecto. Imprime la última (qué índice es?)
---

---

##  `.readline()`, `.readlines()`, y la palabra `with`

Muchos archivos de texto tendrán más que una línea. Como vimos al leer los primeros `40` caracteres el archivo que usamos de ejemplo también tiene múltiple líneas. Si queremos leerlas línea a línea en vez de caracter a caracter usamos el método `.readline()`:

In [52]:
# abrimos el archivo
f = open(ubi_archivo)

# usamos el método readline para leer las líneas del fichero, lo almacenamos en una variable para poder seguir trabajando con ello más adelante
linea_archivo = f.readline()

# cerramos el fichero
f.close()

In [53]:
# veamos que contiene la variable "linea_archivo". Si nos fijamos, por defecto, nos devuelve la primera líena
linea_archivo

'Esta es la primera frase.\n'

Si usamos la función `.readline()` dos veces consecutivas los devolverá las dos primeras líenas, y es que Python es muy listo! Veámoslo con un ejemplo:

In [54]:
# abrimos el archivo
f = open(ubi_archivo)

# leemos la primera línea
print(f.readline())

# leemos la segunda línea
print(f.readline())

# cerramos el erchivo
f.close()

Esta es la primera frase.

Esta es la segunda lÃ­nea.



Hasta ahora hemos visto como leer una sola línea, pero podemos estar interesadas en leer más de una. Para esto podemos usar `.readlines()`. 

In [60]:
# abrimos el archivo
f = open(ubi_archivo, encoding="utf-8")

# leemos todas las líneas del fichero y lo almacenamos en una variable
lineas_archivo = f.readlines()

# cerramos el fichero
f.close()

In [61]:
# veamos cuál es el contenido de la variable "lineas_archivo"
lineas_archivo

['Esta es la primera frase.\n',
 'Esta es la segunda línea.\n',
 '\n',
 'La línea anterior esta vacía.\n',
 '\tEsta tiene un tab delante.\n',
 '6 caracteres difíciles: å, è, í, ü, &, ¿']

Y voilà! Nos devuelve una lista, donde cada elemento corresponde con una línea de nuestro texto. Por lo tanto, podremos acceder a cada elemento usando la indexación de listas que aprendimos en clase.

In [62]:
# accedemos al primer elemento
lineas_archivo[0]

'Esta es la primera frase.\n'

In [63]:
# accedemos al segundo elemento
lineas_archivo[1]

'Esta es la segunda línea.\n'

Hasta ahora siempre hemos abierto el archivo, cargado el contenido de una forma u otra, y lo cerramos enseguida. Como alternativa existe una forma en que cargamos el archivo sólo para ejecutar un bloque de código, y dejarlo al salir del bloque. Su uso es parecido a él de los bucles que vimos en otras clases. Recuerda que la indentación marca el final del bloque. Seguimos asignando lel archivo a la variable `f` como lo hicimos hasta ahora:

In [64]:
with open(ubi_archivo) as f:
    linea_archivo = f.readline()

print(linea_archivo)
    

Esta es la primera frase.



📌 **NOTA** ¿Recordais los argumentos opcionales de la función `open`? Eran los métodos `encoding` y `mode`. Estos argumentos también los podremos usar en el `with open()`

**Repaso**
- Con `with open() as f:` no te puedes olvidar de cerrar el archivo.

- El método `.readline()` lee el archivo línea por línea, una por cada vez que llames el método.

- `.readlines()` en plural devuelve una lista con un elemento por cada línea del archivo.

---
## Ejercicios `readline()`, `readlines()`, y la palabra `with`

- Abrir archivos con `with`

    14. Abre el archivo `'ejercicio.txt'` con `with`. Llama la variable en que se guarderá la connexión con el archivo `f`. Usa pass ocupar el código indentado sin hacer nada todavía.

    15. Con `with`, lee la primera línea (sin contar cuantos caractéres son) y guárdala en `lin1`.
    
    16. Imprime `lin1`. ¿Está abierto (bloqueado) el archivo `'ejercicio.txt'` ahora mismo?

- Obtener una lista con el contenido del archivo.

    17. Obtén la lista `lista_ejer` con el contenido de `'ejercicio.txt'`.

- Bonus

    18. Con un bucle `for` imprime las líneas que haya en la lista. Con un bucle `if` determina qué línea es la quinta (`[4]`) y imprime esa frase adelantada por `'-> '`.

---

---

# Crear y escribir en archivos de texto
En este jupyter aprendimos como un fichero se puede abrir con disintos modos, que sea de lectura, que podamos añadir contenido, etc. Aprendimos que `'w'` viene de *writing* (escribir), pero no lo llegamos a usar. En este caso trabajaremos con el archivo `ficheros2.txt`, si lo abrís veréis que este archivo esta vacío (podéis abrirlo desde el explorador o el finder como hemos abierto siempre un fichero)

In [68]:
# lo primero que tenemos que hacer es asegurarnos de que el fichero está en nuestra carpeta de trabajo. En nuestro casi si que lo está, por lo tanto no tendremos que hacer nada

os.listdir()

['archivo.txt',
 'Archivos Brezo',
 'autocorrelation-anatomy-python.jpg',
 'caramelos.csv',
 'data.csv',
 'desktop.ini',
 'ejercicio.txt',
 'ejercicio1.xml',
 'esta.txt',
 'ficheros2.txt',
 'Heart-Disease-Prediction',
 'repasos',
 'repaso_limpieza.ipynb',
 'scrapping.ipynb',
 'time-series-estacionario copy.ipynb',
 'time-series-estacionario.ipynb']

In [69]:
# ahora vamos a abrir el archivo con el modo de escritura (w)
with open('ficheros2.txt') as f:

    # y vamos a ver su contenido, lo cual no nos devuelve nada ya que el fichero esta vacío
    print(f.read())




## `.write()` 

Nos va a permitir escribir texto en nuestro fichero. 

In [103]:
# ahora vamos a abrir el archivo con el modo de escritura (w)
with open('ficheros2.txt','w') as f:

    # usaremos el método .write para escribir contenido en nuestro archivo
    f.write('Primer texto de un archivo nuevo.')
    f.close()

Decimos que abre el archivo en modo 'w'. El archivo como vimos, todavñia no había nada, lo que va a hacer este método es escribir los contenidos que le damos en el `.write()`. Si leemos el archivo ahora aparece nuestra frase nueva. Acuérdate de poner entonces el modo 'r' (o omitir el modo para que vaya al 'r' por defecto):

In [104]:
with open('ficheros2.txt','r') as f:
    print(f.read())
    f.close()

Primer texto de un archivo nuevo.


Probemos ahora a añadir una segunda línea con el método `.write` y el modo `w` de apertura del archivo:

In [105]:
with open ("ficheros2.txt", "w") as f:
    f.write("Segundo texto en un archivo nuevo")
    f.close()

In [106]:
#y ahora lo leemos

with open("ficheros2.txt", "r") as f:
    print(f.read())

Segundo texto en un archivo nuevo


 nos ha borrado la primera línea que habíamos escrito 😢. Para evitar esto tendremos que usar el modo `a` cuando habramos el fichero, que nos permitía apendear (añadir) información al fichero sin que se nos borrara la información contenida previamente. De la misma forma que con el modo `w` usaremos el método de `.write()` para añadir contenido a nuestro archivo: 

In [107]:
# añadimos nuevo contenido a nuestro fichero
with open('ficheros2.txt','a') as f:
    f.write('\n Tercer texto del archivo nuevo.')

In [108]:
# lo leemos ahora para ver que ha pasado
with open('ficheros2.txt', "r") as f:
    print(f.read())

Segundo texto en un archivo nuevo
 Tercer texto del archivo nuevo.


En vez de `.write()` también podemos utilizar `.writelines()`, parecido al `.readlines()` que vimos. `.readlines()` produce una lista, que luego se puede escribir a otro archivo usando `.writelines()`. Por lo tanto, si queremos usar el método `writelines()` tendremos que pasar el contenido que queremos añadir en una lista

In [109]:
# primero definimos una lista con el contenido que queremos añadir

nuevo_contenido = ["Cuarto texto de nuestro archivo", " Quinto texto de nuestro archivo"]

In [110]:
# queremos añadir las líenas que hemos especificado en la lista anterior, por lo tanto lo haremos en modo "a"
with open('ficheros2.txt','a') as f:
    f.writelines(nuevo_contenido)



In [111]:
# veamos ahora que contenido tiene ahora nuestro fichero
with open('ficheros2.txt') as f:
    print(f.read())

Segundo texto en un archivo nuevo
 Tercer texto del archivo nuevo.Cuarto texto de nuestro archivo Quinto texto de nuestro archivo


Imaginemos ahora que queremos crear un nuevo fichero, para eso tendremos que usar el modo `x`, veamos un ejemplo: 

In [112]:
# creamos un fichero que se llama ficheros3, al que le vamos a añadir una frase de buenos dias
with open('ficheros3.txt','x') as f:
    f.write("Buenos dias")

¿Que pasaría si usamos el modo `x` para crear un fichero con un nombre de fichero que ya existe? Nos dará error!!!

In [114]:
# volvemos a crear un fichero que se llama  ficheros3
with open('ficheros3.txt','x') as f:
    f.write("Buenos dias")

FileExistsError: [Errno 17] File exists: 'ficheros3.txt'

El error nos dice `FileExistsError: [Errno 17] File exists: 'ficheros3.txt'`, es decir, no puede crear el fichero porque ya existe. Igual que cuando lo hacemos de forma tradicional a través del explorador de archivos o el finder. 

**Repaso**
- El modo 'w' de `open()` no mira si existe ni los contenidos del archivo, sobrescribe el contenido previo de nuestro fichero ⚠️.

- Para escribir contenido en un fichero usaremos los métodos `.write()` o `.writelines()`.

- El método `.writelines()` necesita una lista.

- En el modo 'a' de `open()` se apendea(añade) contenido nuevo al fichero, manteniendo el contenido previo que había. 


- En el modo 'x' de `open()` nos permite crear nuevos archivos, si ya existe uno con el mismo nombre en esa carpeta nos dará un error.

---
## Ejercicios crear y escribir en archivos de texto

- Crear archivos

    1. El archivo `'escribir.txt'` no existe, si intentaríamos abrirlo con `open()` en el modo por defecto, ¿da un error? Justifica tu respuesta.

    2. Si intentaríamos abrirlo con `open()` en el modo 'r', ¿da un error? Justifica tu respuesta.

    3. Si intentaríamos abrirlo con `open()` en el modo 'x', ¿da un error? Justifica tu respuesta.

    4. Si intentaríamos abrirlo con `open()` en el modo 'w', ¿da un error? Justifica tu respuesta.

    5. Si intentaríamos abrirlo con `open()` en el modo 'a', ¿da un error? Justifica tu respuesta.

    6. Crea el archivo con `open()` y `with`. Llama la variable en que se guarderá la connexión con el archivo `f`. Usa `pass` para ocupar el código indentado sin hacer nada todavía.
    
- Escribir contenido
    
    7. Vuelve a abrir `'escribir.txt'` y usa `f.write()` para escribir `'Con este texto deja de ser vacío.'` en la primera línea. ¿Cómo cierras la connexión al archivo (si hace falta)?

    8. Vuelve a abrir `'escribir.txt'` y usa `f.write()` para escribir `'Esta línea reemplaza la anterior.'` en la primera línea.
    
    9. Vuelve a abrir `'escribir.txt'` y usa `f.writelines()` para escribir `'\nsegunda', '\ntercera', '\ncuarta'` en las líneas 2, 3, y 4, *sin* tocar la primera línea.,

---

# Archivos .xml

`XML` es el acrónimo de *Extensible Markup Language*, es decir, es un lenguaje de marcado que define un conjunto de reglas para la codificación de documentos. Fue inventada para guardar y transportar datos en una forma en que sea legible tanto para máquinas como para seres humanos.

Los archivos `.xml` pueden ser abiertos como texto y los podremos leer perfectamente. Veamos el siguiente ejemplo:

```xml
<correo>
  <to>María</to>
  <from>
    <name>Ada</name>
    <email>ada@adalab.es</email>
  </from>
  <heading>¿Qué tal?</heading>
  <body>Hola Mari, qué tal estás, qué tal la familia? Escríbeme pronto, un beso!</body>
</correo>
```

La información en un `xml` siempre está rodeada por al menos un par de campos definido como `<correo>` y `</correo>`. En este caso `María` está dentro de `to` y `correo`. Dentro de `correo`, además, hay otros campos definidos. Nota como dentro de `correo` sólo están campos, no hay texto sin llevar un tipo de subcampo especificado. Esos campos (de todos los niveles) los puede definir cualquiera como le da la gana. 

Supongamos que María usa otro código para gestionar sus correos. Aquí el `xml` de su correo:

```xml
<correo>
  <to>Ada</to>
  <from>
    <name>María</name>
  </from>
  <body>Aquí todos estupendos, quedamos pronto para tomar un café y te cuento vale??</body>
  <fecha>02/02/2022</fecha>
</correo>
```

Vemos que falta el email y el asunto, y existe un campo nuevo llamado `fecha`, pero en principio no pasa nada. El dispositivo de Ada puede mostrarlo igual, aunque tenga otro sistema operativo u otra versión. Uno de los objetivos de este lenguaje es no tener que estar pendiente de versiones y actualizaciones o tener que cambiar los datos que hubo cada vez que se cambian los campos definidos.

Veamos un ejemplo de [w3schools]('https://www.w3schools.com/xml/xml_tree.asp'):

```xml
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
  <book category="cooking">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
  </book>
</bookstore>
```
  
![alt text](../img/w3schools-nodetree.gif)

La primera línea `<?xml version="1.0" encoding="UTF-8"?>` es opcional y describe propiedades del archivo, o puede contener comentarios sobre el mismo. Si existe, siempre estará al principio del archivo. Luego necesariamente tendrá un campo raiz (*root*) que envuelve todo lo demás. La jerarquía que se ve por las indentaciones también está reflejada en la gráfica: cada nivel superior es madre/padre (*parent*) de todos sus hijos (*children*). La tienda de libros (*bookstore*) podría tener muchos libros, es decir muchos elementos del tipo *book*. 

Nota como tanto el elemento `book` como el elemento `title` conllevan un atributo. En principio podrían haber sido elementos en sí, sin que cambie mucho. Esto ya es gusto individual. La misma informacion se puede guardar de distintas maneras:

```xml
<mail date="02 feb 2022">
</mail>

<MAIL DATE="02 feb 2022">
</MAIL>

<correo fecha="02 feb 2022">
</correo>

<correo>
    <fecha="02 feb 2022">
</correo>

<correo>
    <fecha>
        <dia>02</dia>
        <mes>feb</mes>
        <año>2022</año>
    </fecha>
</correo>
```

Los nombres de los campos los puedes definir como quieras, y la información contenida también. La idea es que *attributes* son descriptores de la información del elemento, más  que información en sí. Como el título del libro fue definido en inglés, no es una información en sí del título pero sí que dice algo sobre el texto del título. Puede que para alguna versión en el futuro nos interesaría saber qué día de semana se envió el correo. Si la fecha hubiera sido un *attribute* no se podría haber ampliado la información con respeto a la fecha, mientrás el *element*  de fecha sí que lo podemos ampliar:

```xml
<correo>
    <fecha>
        <dia>
            <num>02</num>
            <nombre>Miércoles</nombre>
        </dia>
        <mes>feb</mes>
        <año>2022</año>
    </fecha>
</correo
```



**Repaso**
- Los archivos `.xml` tienen un árbol de campos que se llaman elementos.

- Un elemento se abre y se cierra con `<>` y `</>`.

- No hay texto fuera de un nivel de elementos.

- Dentro de un nivel con otros elementos no puede haber texto suelto, necesitará un elemento que le rodee.

- Opcionalmente un elemento puede tener un atributo.

- Opcionalmente un archivo `.xml` empieza con un prologo o resumen. Un sólo campo `<>` que no necesita cierre.

---

## Ejercicios archivos xml

- La teoría de este apartado la pondrás en práctica en el apartado que viene.

---

## Trabajar con xml desde Python

Para acceder a un archivo `xml` necesitamos importar la librería `xml` con algunos submódulos. Le asignamos el alias `ET` y usamos `parse()` para leer y interpretar los contenidos:

In [116]:
# lo primero que hacemos es importar la librería que necesitamos para trabajar con archivos
import xml.etree.ElementTree as ET



In [118]:
# abrimos el fichero
tree = ET.parse('contacto.xml')

El método `.getroot()` nos saca el elemento que envuelve todo, como `<bookstore>` en el ejemplo del apartado anterior.


In [119]:
root = tree.getroot()


Cada elemento, incluyendo el elemento *root* tiene un `tag` y puede tener unos atributos. En este caso el elemento a la raíz de todo le acabamos de asignar el nombre `root`, y su nombre (*tag*) y atributos los accedemos entonces de esta manera:

In [123]:
# printemos cuál es la raiz, el padre de nuestr archivo xml
print(root.tag)

contact-info


In [124]:
# sacamos los atributos de nuestro fichero
print(root.attrib)

{}


¿Qué elementos hay dentro de `root`? Iteramos por `root` y por cada elemento hijo le imprimimos el nombre (`tag`) del mismo. Ya que estamos al nivel de hijos, miramos los nietos, es decir el siguiente nivel de la jerarquia o los hijos del hijo en que estamos actualmente en el bucle `for`. Para diferenciar los nombres de los nietos de los nombres de los hijos vamos a adelantar sus nombres por unos espacios para que queden indentados:

In [131]:
for child in root:
    print(f"{child.tag}: Es un hijo de nuestra raiz 'contact-info'" )
    for subchild in child:
        print(f"{subchild.tag}: Es un nieto de nuestra raiz 'contact-info'" )

contact: Es un hijo de nuestra raiz 'contact-info'
type: Es un nieto de nuestra raiz 'contact-info'
url: Es un nieto de nuestra raiz 'contact-info'
contact: Es un hijo de nuestra raiz 'contact-info'
type: Es un nieto de nuestra raiz 'contact-info'
address: Es un nieto de nuestra raiz 'contact-info'
socialmedia: Es un hijo de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'
profile: Es un nieto de nuestra raiz 'contact-info'


Si vamos chequeando con el archivo `xml` vemos que sigue una estructura de árbol, tenemos una rama principal que es `contact-info` del que salen dos ramas `contact` y `socialmedia`. De estos, a su vez salen más ramas: 

- De la subrama `contact` salen las siguientes ramas: `type`, `url` y `address`

- De la subrama `socialmedia` sale solo `profile`


Ya que sabemos cómo se llaman los campos podemos sacar su contenido uno por uno. Con `.find()` extraemos la primera ocasión en que el tag de un elemento coincida con el string que le damos. Recuerda que puedes tener múltiples elementos con el mismo nombre, como la tienda de libros que puede tener un montón de libros definidos todos en elementos `book`.

In [132]:
print(root.find('contact').find('type').text)

Website


In [134]:
print(root.find('contact').find('url').text)

https://adalab.es/


¿Que pasaría si queremos extraer el contenido del `contact`? Nos devolverá un elemento vacío, ya que para sacar el texto deberemos estar en la última rama de nuestro árbol. 

In [133]:
print(root.find('contact').text)


      


Lo mismo nos pasa con la rama de `socialmedia`, ya que ha pesar de que en el bucle for que realizamos arriba vimos que tenía un nieto, si nos vamos al fichero, vemos que el nieto `profile` tiene más hijos dentro. 

In [138]:
print(root.find('socialmedia').find('profile').text)


         


In [146]:
# veamos como podemos acceder a los hijos de profile. Para eso deberemos seguir iterando: 

# emepzamos interando por todo el archivo
for child in root:

    # ahora solo nos interesa saber cuales son los "nietos" y "bisnietos" del atributo "socialmedia", por lo que establecemos la condición
    if child.tag == "socialmedia":

        # iteramos por lo "nietos"
        for subchild in child:

            # iteramos por los "bisnietos"
            for subsubchild in subchild: 

                # y printemos sus nombres para saber como se llaman y poder acceder a ellos
                print(subsubchild.tag)

name
url
name
url
name
url
name
url
name
url


Por lo tanto, dentro de `socialmedia` y dentro de `profile` tenemos los "bisnietos" `name` y `url`. Esto puede resultar algo confuso, os recomendamos que tengáis el fichero abierto al lado y un papel y un boli para hacernos nuestros esquemas! 

In [139]:
# veamos el contenido del "bisnieto" name
print(root.find('socialmedia').find('profile').find("name").text)

Twitter


In [147]:
# veamos el contenido del "bisnieto" url
print(root.find('socialmedia').find('profile').find("url").text)

https://twitter.com/Adalab_Digital


Genial!!! Hasta ahora hemos visto como acceder al contenido, pero... 🤔 solo nos estaba devolviendo el contenido de una etiqueta. ¿Cómo podríamos hacer para que nos devolviera el contenido de todas las etiquetas con el mismo nombre? Usando `.findall()` que nos da una lista de todos los elementos cuyo `tag` coincide con el string dado. Para cada contacto sacamos el subelemento que se llama `type` y accedemos a su texto:

In [150]:
# iteramos por el hijo "contact" y accedemos a todos
for contact in root.findall('contact'):
    # dentro de este sacamos su contenido
    print(contact.find('type').text)

Website
Mail


In [153]:
# como lo haríamos para el otro elemento que teníamos
for subelement in root.find(campo2).findall('profile'):
    print(subelement.find('name').text)

Twitter
Facebook
Linkedin
Instagram
Youtube


**Repaso**
- Para trabajar con un xml necesitamos importar `ElementTree` del módulo xml. Por convención le asignamos el alias `ET`: `import xml.etree.ElementTree as ET`.

- Con `parse()` accedemos al archivo y le asignamos a una variable.

- `.getroot()` saca el campo que envuelve todo, es decir el elemento raíz de todo el árbol del xml.

- Un elemento (incluso la raíz) tiene un `.tag()` que es el nombre del elemento, y puede tener atributos en `.attrib()`.

- En un elemento al final del árbol existirá texto. A ello se puede acceder con `.text()`.

---
## Ejercicios trabajar con xml desde Python

- Abrir un archivo xml

    10. Carga la librería adecuada con el alias `ET`.

    11. Carga el árbol xml del archivo 'ejercicio1.xml' a la variable `tree`.

    12. Saca el elemento raíz de `tree` en la variable `root`.

    13. ¿Cómo se llama el elemento raíz? Usa una propiedad para descubrirlo, y imprime el resultado.

    14. ¿Tiene atributos la raíz?

- Elementos hijos

    15. ¿Cuántos hijos tiene la raíz? ¿Cómo se llaman?

    16. El primer hijo, ¿tiene atributos?

    17. El primer hijo, ¿tiene hijos o tiene texto directamente?

    18. Del segundo hijo, su primer hijo, ¿tiene hijos o tiene texto directamente?

    19. Del segundo hijo, su segundo hijo, ¿tiene hijos o tiene texto directamente?
    
    20. Imprime el texto que haya en el elemento `hex` del primer hijo del tipo `color`.

---