<img src="https://drive.google.com/uc?export=view&id=1pWL34MWc1rS0peIekOBe8GGBIEUFPyrG" width="100%">

# Carga de Textos en Python
---

En este notebook veremos las operaciones típicas para la manipulación de archivos desde _Python_, en especial:

1. Manejo del sistema de archivos con `os`.
2. Manipulación de ficheros o archivos planos.
3. Manipulación de archivos `json`.

Para esta práctica necesitaremos instalar algunas herramientas dentro del entorno de ejecución de _Google Colab_. Más precisamente, el comando `tree` nos permitirá ver estructuras de carpetas, subcarpetas y archivos como un árbol.

In [1]:
# Software base
!apt update # actualizamos los paquetes de linux en Google Colab
!apt install tree # instalamos la utilidad tree

[33m0% [Working][0m            Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
[33m0% [Waiting for headers] [Waiting for headers] [Connected to cloud.r-project.or[0m                                                                               Hit:2 http://archive.ubuntu.com/ubuntu jammy InRelease
                                                                               Get:3 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
                                                                               Get:4 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:5 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
Get:6 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Hit:7 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Get:8 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Hit:9 https://ppa.launchpadcontent

## **1. Manejo del Sistema de Archivos con `os`**
---

Una de las principales ventajas de un lenguaje de programación de alto nivel como _Python_ es que nos da una interfaz unificada para la manipulación del sistema de archivos desde cualquier sistema operativo, se trata de la librería base `os`.

> **Nota**: recuerde que `colab` trabaja sobre una máquina gratuita de Google que funciona bajo el sistema operativo Linux, en especial, tiene estas especificaciones:

In [2]:
!cat /etc/os-release

PRETTY_NAME="Ubuntu 22.04.4 LTS"
NAME="Ubuntu"
VERSION_ID="22.04"
VERSION="22.04.4 LTS (Jammy Jellyfish)"
VERSION_CODENAME=jammy
ID=ubuntu
ID_LIKE=debian
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
UBUNTU_CODENAME=jammy


Vamos a descargar un archivo en formato `.zip` y a descomprimirlo usando utilidades de Linux para ver cómo es su posterior manipulación desde _Python_.

In [3]:
# Eliminamos versiones previas de los datos, para evitar conflictos
!rm -rf data os_examples*
# Descargamos un archivo zip con los datos para este taller
!wget 'https://github.com/cagomezv/NLP/raw/refs/heads/main/BD_Archivos/os_examples.zip' -O os_examples.zip
# Descomprimimos el archivo
!unzip os_examples.zip

--2025-04-16 15:50:52--  https://github.com/cagomezv/NLP/raw/refs/heads/main/BD_Archivos/os_examples.zip
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/cagomezv/NLP/refs/heads/main/BD_Archivos/os_examples.zip [following]
--2025-04-16 15:50:52--  https://raw.githubusercontent.com/cagomezv/NLP/refs/heads/main/BD_Archivos/os_examples.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5012459 (4.8M) [application/zip]
Saving to: ‘os_examples.zip’


2025-04-16 15:50:53 (145 MB/s) - ‘os_examples.zip’ saved [5012459/5012459]

Archive:  os_examples.zip
   creating: data/
   creating: data/img/
  inflat

Veamos la estructura de archivos que acabamos de descargar:


<center>
  <img src="images/tipos_archivo.png" width="60%">
</center>


In [4]:
!tree data

[01;34mdata[0m
├── [01;34mimg[0m
│   └── [00mpoema.png[0m
├── [01;34mpdf[0m
│   └── [00mhistoria_colombia.pdf[0m
└── [01;34mtxt[0m
    └── [00mbiblia.txt[0m

3 directories, 3 files


Como se puede ver, tenemos 3 carpetas: `img`, `pdf` y `txt`; dentro de las cuales tenemos un archivo de distintos formatos.

Veamos como manipular archivos desde _Python_ usando la librería `os`:

In [5]:
import os

### **1.1. Listado**
---

Para listar archivos podemos usar la función `os.listdir`, la cual nos permite ver qué archivos y carpetas se encuentran en una ruta especificada, veamos un ejemplo:

In [6]:
print(os.listdir("."))

['.config', 'os_examples.zip', 'data', 'sample_data']


Recuerde que la ruta `"."` representa el directorio actual dentro del sistema de archivos. Veamos algunos ejemplos de listado de archivos dentro de rutas específicas, por ejemplo, a partir de la carpeta que descomprimimos anteriormente:

In [7]:
print(os.listdir("data/"))

['txt', 'pdf', 'img']


También podemos listar elementos dentro de alguna de las subcarpetas:

In [8]:
print(os.listdir("data/img"))

['poema.png']


Con la librería `os`, también podemos validar si un elemento es un directorio, por medio de la función `os.path.isdir`:

In [10]:
print(os.path.isdir("data"))

True


También podemos validar si es un archivo o fichero con la función `os.path.isfile`:

In [9]:
print(os.path.isfile("data"))

False


Veamos un ejemplo con un archivo. Primero, validamos si es un directorio:

In [11]:
print(os.path.isdir("data/img/poema.png"))

False


Ahora, podemos validar si es un fichero:

In [12]:
print(os.path.isfile("data/img/poema.png"))

True


Podemos corroborar si un elemento existe o no con la función `os.path.exists`, veamos un ejemplo con la carpeta que creamos:

In [13]:
print(os.path.exists("data"))

True


Veamos un ejemplo de un elemento que no existe

In [14]:
print(os.path.exists("data2"))

False


Como podemos evidenciar, `"data2"` no existe pues no existe ninguna carpeta ni archivo con dicho nombre.

### **1.2. Movimientos y Creación**
---

Con la librería `os` también es posible renombrar archivos dentro del sistema operativo con la función `os.rename`. Veamos un ejemplo donde renombramos la carpeta `"data"` como `"data2"`:

In [15]:
os.rename("data", "data2")

Podemos validar que `"data"` ya no existe y que `"data2"` ahora si existe

In [17]:
print(os.listdir("."))

['.config', 'data2', 'os_examples.zip', 'sample_data']


Validemos que `data` ya no existe:

In [16]:
print(os.path.exists("data"))

False


También podemos ver que `data2` ahora si existe:

In [18]:
print(os.path.exists("data2"))

True


Desde la librería `os` igual podemos ejecutar cualquier comando del sistema operativo con la función `os.system`. Por ejemplo, para copiar un archivo podemos usar el comando `cp` de **Linux**, veamos qué archivos hay antes del copiado:

In [19]:
print(os.listdir("."))

['.config', 'data2', 'os_examples.zip', 'sample_data']


Ahora, vamos a crear una copia de `"os_examples.zip"` como `"os_examples2.zip"`. El comando `cp` nos permite copiar un archivo desde una ruta de origen hacia una ruta de destino:

In [20]:
os.system("cp os_examples.zip os_examples2.zip")

0

Veamos el resultado:

In [21]:
print(os.listdir("."))

['.config', 'data2', 'os_examples.zip', 'os_examples2.zip', 'sample_data']


También podemos crear carpetas con la función `os.makedirs`:

In [22]:
os.makedirs("test")

Validemos el resultado

In [23]:
print(os.path.exists("test"))

True


### **1.3. Borrado**
---

Con la función `os.remove` podemos eliminar archivos, mientras que con `os.rmdir` podemos borrar carpetas. Primero veamos los archivos que tenemos hasta este punto:

In [24]:
print(os.listdir("."))

['.config', 'data2', 'os_examples.zip', 'test', 'os_examples2.zip', 'sample_data']


Vamos a eliminar el archivo `os_examples2.zip` que creamos en los ejemplos anteriores:

In [25]:
os.remove("os_examples2.zip")

Veamos el resultado:

In [26]:
print(os.listdir("."))

['.config', 'data2', 'os_examples.zip', 'test', 'sample_data']


También podemos eliminar la carpeta `test` que creamos en los ejemplos anteriores usando la función `os.rmdir`:

In [27]:
os.rmdir("test")

Podemos validar que los elementos se han eliminado:

In [None]:
print(os.listdir("."))

['.config', 'os_examples.zip', 'data2', 'sample_data']


### **1.4. Otras operaciones**
---

Existen funcionalidades adicionales del paquete `os` que llegaremos a necesitar en algunos casos. Por ejemplo, la función `os.path.join` permite unir carpetas y subcarpetas dentro de una ruta completa.

Por ejemplo, podemos unir tres rutas: `/content`,  `data/`, `img/poema.png`:

In [None]:
print(os.path.join("/content", "data", "img/poema.png"))

/content/data/img/poema.png


Veamos un ejemplo en el que listamos las rutas de todos los archivos que hay en el directorio actual y sus subcarpetas:

In [None]:
# creamos una cola con los posibles archivos, carpetas y subcarpetas
queue = os.listdir(".")
# creamos una lista donde se almacenarán los archivos
files = []

# iteramos mientras que tengamos archivos en la cola
while queue:
    # extraemos un elemento de la cola
    path = queue.pop(0)
    # validamos si el elemento es una carpeta
    if os.path.isdir(path):
        # en caso de ser carpeta, listamos los elementos que contiene
        elements = os.listdir(path)
        # creamos las rutas completas de todos los elementos encontrados
        paths = [os.path.join(path, element) for element in elements]
        # agregamos los elementos a la cola
        queue.extend(paths)
    else:
        # en caso de que el elemento sea un archivo
        # se agrega al resultado final.
        files.append(path)
print(files)

['os_examples.zip', '.config/.last_opt_in_prompt.yaml', '.config/config_sentinel', '.config/default_configs.db', '.config/active_config', '.config/.last_update_check.json', '.config/gce', '.config/hidden_gcloud_config_universe_descriptor_data_cache_configs.db', '.config/.last_survey_prompt.yaml', 'sample_data/README.md', 'sample_data/anscombe.json', 'sample_data/mnist_test.csv', 'sample_data/california_housing_train.csv', 'sample_data/california_housing_test.csv', 'sample_data/mnist_train_small.csv', '.config/configurations/config_default', 'data2/txt/biblia.txt', 'data2/img/poema.png', 'data2/pdf/historia_colombia.pdf', '.config/logs/2025.03.20/13.30.51.447492.log', '.config/logs/2025.03.20/13.30.59.830488.log', '.config/logs/2025.03.20/13.31.01.332468.log', '.config/logs/2025.03.20/13.30.26.993509.log', '.config/logs/2025.03.20/13.31.09.706011.log', '.config/logs/2025.03.20/13.31.10.331550.log']


En este caso, podemos ver que obtener de forma recursiva los archivos dentro de un directorio requiere un código moderadamente complejo con la librería `os`. Otra alternativa más directa consiste en utilizar otras librerías que permiten solucionar esta tarea más fácilmente, por ejemplo:

In [None]:
import pathlib
print(list(pathlib.Path(".").rglob("*.*")))

[PosixPath('.config'), PosixPath('os_examples.zip'), PosixPath('.config/.last_opt_in_prompt.yaml'), PosixPath('.config/default_configs.db'), PosixPath('.config/.last_update_check.json'), PosixPath('.config/hidden_gcloud_config_universe_descriptor_data_cache_configs.db'), PosixPath('.config/.last_survey_prompt.yaml'), PosixPath('.config/logs/2025.03.20'), PosixPath('.config/logs/2025.03.20/13.30.51.447492.log'), PosixPath('.config/logs/2025.03.20/13.30.59.830488.log'), PosixPath('.config/logs/2025.03.20/13.31.01.332468.log'), PosixPath('.config/logs/2025.03.20/13.30.26.993509.log'), PosixPath('.config/logs/2025.03.20/13.31.09.706011.log'), PosixPath('.config/logs/2025.03.20/13.31.10.331550.log'), PosixPath('data2/txt/biblia.txt'), PosixPath('data2/img/poema.png'), PosixPath('data2/pdf/historia_colombia.pdf'), PosixPath('sample_data/README.md'), PosixPath('sample_data/anscombe.json'), PosixPath('sample_data/mnist_test.csv'), PosixPath('sample_data/california_housing_train.csv'), PosixPat

Sin embargo, para entender este ejemplo necesitamos abordar el concepto de **expresiones regulares**. Este tema lo abordaremos más en detalle en otro taller guiado de esta unidad.

De forma adicional, si desea hacer una manipulación avanzada de archivos en _Python_ puede revisar paquetes adicionales como:

* [`glob`](https://docs.python.org/3/library/glob.html)
* [`shutil`](https://docs.python.org/3/library/shutil.html)
* [`pathlib`](https://docs.python.org/3/library/pathlib.html)
* [`subprocess`](https://docs.python.org/3/library/subprocess.html)

## **2. Manipulación de Ficheros o Archivos Planos**
---

Desde _Python_ podemos leer y escribir ficheros haciendo uso de los distintos modos. Veamos una descripción de estos:

| Modo | Descripción |
| --- | --- |
| `r` | Modo lectura. |
| `w` | Modo escritura. |
| `a` | Modo **append** (abre un archivo existente y escribe al final) |
| `r+` | Modo lectura con permisos de escritura. |
| `w+` | Modo escritura con permisos de lectura. |
| `a+` | Modo **append** con permisos de lectura. |
| `rb` | Modo lectura binario. |
| `wb` | Modo escritura binario. |
| `ab` | Modo **append** binario. |

Para estas operaciones, haremos uso de dos instrucciones de _Python_:

* `open`: permite crear o leer un archivo con un modo dado.
* `with`: crea un contexto para la manipulación de un archivo, una vez terminado el contexto, el archivo se cierra de forma automática.

La sintaxis para manejar ficheros desde _Python_ es la siguiente:

```python
with open(nombre_archivo, modo) as f:
    ...
```

Esto es lo que se conoce como un contexto y nos permite referenciar a un archivo almacenado en la ruta `nombre_archivo` mediante el identificador `f` y abrirlo con un `modo` especificado.

Veamos algunos ejemplos:

### **2.1. Lectura**
---

Comenzaremos cargando el archivo que descargamos al inicio del notebook, para este caso, leemos el archivo y utilizamos un `encoding`  de tipo `latin1`.

> Un `encoding` hace referencia a un esquema de codificación que contiene los distintos caracteres relacionados a un idioma. Más precisamente, `latin_1` codifica caracteres utilizados en idiomas de Europa Occidental. Puede ver una lista de las posibles codificaciones de caracteres en [este enlace](https://docs.python.org/3.11/library/codecs.html#standard-encodings).

Veamos cómo leer el archivo `biblia.txt`, haciendo uso del método `read` del fichero y especificando el modo `"r"` de lectura:

In [None]:
with open("data2/txt/biblia.txt", "r", encoding="latin1") as f:
    data = f.read()

Podemos ver el tipo de la variable que cargamos:

In [None]:
print(type(data))

<class 'str'>


En este caso, todo el archivo se lee como una cadena de caracteres. Podemos imprimir los primeros 500 caracteres del archivo:

In [None]:
print(data[:500])

	                  LA SANTA BIBLIA, ANTIGUO TESTAMENTO
	
	Parte # 1 (INCLUYE LA LEY), los 10 primeros libros del AT: Gn, Ex, Lv, Nm, Dt, Jos, Jue, Rt, 1 S y 2 S
	
	
	LIBRO PRIMERO DE MOISÉS
	
	                                  GÉNESIS
	
	La creación
	
	Génesis 1
	
	Génesis 1:1
	          En el principio creó Dios los cielos y la tierra.
	
	 Génesis 1:2
	          Y la tierra estaba desordenada y vacía, y las tinieblas
	          estaban sobre la faz del abismo, y el Espíritu de Dios se
	        


Adicional al método `read`, los ficheros de _Python_ también permiten utilizar el método `readlines`, el cual carga los datos como una lista de strings, separando cada valor por un salto de línea `"\n"`.

Veamos un ejemplo sobre el mismo archivo:

In [None]:
with open("data2/txt/biblia.txt", "r", encoding="latin1") as f:
    data = f.readlines()

Podemos validar el tipo de los datos que se cargaron:

In [None]:
print(type(data))

<class 'list'>


También, podemos validar el tipo de un elemento de la lista obtenida:

In [None]:
print(type(data[0]))

<class 'str'>


Veamos las primeras 10 líneas del archivo:

In [None]:
print(data[:10])

['\t                  LA SANTA BIBLIA, ANTIGUO TESTAMENTO\n', '\t\n', '\tParte # 1 (INCLUYE LA LEY), los 10 primeros libros del AT: Gn, Ex, Lv, Nm, Dt, Jos, Jue, Rt, 1 S y 2 S\n', '\t\n', '\t\n', '\tLIBRO PRIMERO DE MOISÉS\n', '\t\n', '\t                                  GÉNESIS\n', '\t\n', '\tLa creación\n']


### **2.2. Escritura**
---

Para escribir sobre un archivo, debemos usar el fichero en modo `"w"`. Si queremos escribir una cadena de caracteres en el archivo debemos usar el método `write`.

In [None]:
with open("file.txt", "w") as f:
    f.write("hola")

Validemos el resultado:

In [None]:
print(os.listdir("."))

['.config', 'os_examples.zip', 'data2', 'file.txt', 'sample_data']


Note que ahora existe el archivo `file.txt`. Podemos ver su contenido usando un fichero en modo lectura como lo vimos anteriormente:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
print(data)

hola


También podemos realizar múltiples escrituras sobre un archivo por medio del método `writelines` de los ficheros, el cual recibe como argumento una lista con los strings que se van a escribir como la variable `data` que se define a continuación:

In [None]:
data = ["hola\n", "mundo\n", "saludos\n"]
with open("file.txt", "w") as f:
    f.writelines(data)

Validemos el contenido del archivo:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
print(data)

hola
mundo
saludos



Recuerde que en _Python_ el carácter `"\n"` representa un salto de línea (habláremos más en detalle sobre estos caracteres especiales en el taller guiado de manipulación de strings desde _Python_).

**IMPORTANTE**: Note que el archivo `file.txt` se sobrescribió cuando abrimos el archivo por segunda vez en modo de escritura. Este es el comportamiento normal del modo `"w"`; así que se recomienda tener cuidado al usar este modo, ya que podemos borrar el contenido de los archivos existentes.

### **2.3. Append**
---

El modo **`append`** funciona como un modo de escritura, pero en lugar de sobrescribir un archivo, agrega elementos al final del mismo.

Veamos un ejemplo en el que abrimos el archivo `file.txt` que creamos en el paso anterior pero esta vez en modo `"a"`.

In [None]:
with open("file.txt", "a") as f:
    f.write("test\n")

Validemos el resultado, creando un fichero en modo lectura `"r"` para extraer su contenido:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
print(data)

hola
mundo
saludos
test



### **2.4. Modos Extendidos**
---

Los modos extendidos se generan a partir del uso del operador `+` sobre los modos. Permiten combinar lectura con escritura de archivos.

A manera de ejemplo, primero vamos a crear un fichero en modo de lectura extendido `"r+"` para poder leer y escribir sobre el archivo `file.txt`.

In [None]:
with open("file.txt", "r+") as f:
    data = f.read()
    print(data) # Imprimimos el contenido del archivo hasta este punto
    f.write("hello\n")

hola
mundo
saludos
test



Note que en la anterior celda usamos el método `read` dentro del mismo contexto que el método `write` (acotado por la identación del `with`). Esto nos permite leer el archivo como se encontraba anteriormente y agregar la línea `"hello\n"` al final.

Verifiquemos que la línea nueva se agregara abriendo el fichero en modo lectura `"r"` para revisar el contenido del archivo:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
    print(data)

hola
mundo
saludos
test
hello



Como se puede evidenciar, el archivo fue modificado correctamente con la nueva línea.

Es importante tener en cuenta que internamente los ficheros guardan una ubicación luego de cualquier operación de lectura o escritura. En el ejemplo de lectura-escritura anterior con `"r+"` vimos que la nueva línea se agregó al final. Esto sucede debido a que el archivo fue leído inicialmente (la posición quedó en el último carácter leído) y luego sí se agrega la nueva línea.

Veamos un ejemplo donde abrimos un fichero en modo `"r+"` pero únicamente para escribir sobre él:

In [None]:
with open("file.txt", "r+") as f:
    data = f.write("nueva línea")

Veamos el contenido del archivo, cargándolo con un fichero en modo lectura:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
print(data)

nueva líneaaludos
test
hello



Como se puede ver, el valor `"nueva línea"` fue agregado al inicio del fichero y sobrescribió el contenido anterior del archivo.

Podemos cambiar manualmente la posición dentro de un fichero con el método `seek`. Por ejemplo, vamos a escribir sobre el archivo existente con el modo `r+` pero vamos a escribir sobre el carácter de la posición 10:

In [None]:
with open("file.txt", "r+") as f:
    f.seek(10)
    f.write("<nuevo valor>")

Veamos el contenido del archivo, cargándolo con un fichero en modo lectura:

In [None]:
with open("file.txt", "r") as f:
    data = f.read()
print(data)

nueva lín<nuevo valor>
hello



### **2.5. Modos Binarios**
---

Los modos binarios permiten guardar archivos directamente como ficheros binarios. Estos se crean usando el modificador `"b"` sobre los modos que vimos anteriormente (por ejemplo: `"rb"`, `"wb"`, `"ab"`).

Los modos binarios generalmente se usan para almacenar datos de forma compacta en aplicaciones que necesitan un buen rendimiento o interactuar con la información de más bajo nivel del sistema (por ejemplo, leyendo datos que provienen de puertos USB, bluetooth, entre otros). Si abrimos un archivo binario usando un editor de texto, no entenderíamos su contenido a simple vista, pues lo que se almacena son bytes.

En este caso, veremos un ejemplo en el que podemos almacenar números enteros como valores hexadecimales dentro de un archivo binario. Primero, veamos cómo convertir un número entero en su valor hexadecimal en _Python_ con la función base `hex`.

Por ejemplo, `255` codificado como un valor hexadecimal corresponde a `FF`:

In [None]:
print(hex(255))

0xff


También podemos convertir un número a su valor en bytes (hexadecimal) con el método `to_bytes`, la cual recibe como argumento el número de bytes que se usará para guardar el número (en este caso 1) y el orden de los bytes que permite determinar si el bit más alto es el de la derecha `little` o el de la izquierda `big` (en este caso `big`):

In [None]:
num = 255
print(num.to_bytes(1, "big"))

b'\xff'


Ahora, vamos a escribir un fichero binario con los valores hexadecimales contenidos en la lista `nums`:

In [None]:
nums = [0, 255, 33, 45]

Primero codificamos estos valores como una cadena binaria (veremos más detalles de los tipos de cadenas en el taller guiado de manipulación de _strings_ desde _Python_)

In [None]:
bins = [num.to_bytes(1, "big") for num in nums]
print(bins)

[b'\x00', b'\xff', b'!', b'-']


Como puede ver, los números `33` y `45` se muestran como símbolos, esto se debe a que su valor hexadecimal corresponde a dicho símbolo en codificación [ASCII](https://www.ascii-code.com/). Podemos validar el carácter al que corresponde un número con la función `chr`:

In [None]:
chr(33)

'!'

Con los números codificados como bytes, podemos escribir el archivo binario:

  <img src="images/escritura_sobre_archivos.png" width="70%">


In [None]:
with open("file.txt", "wb") as f:
    for bin in bins:
        f.write(bin)

Ahora, veamos qué pasa cuando leemos el archivo como lectura binaria `"rb"`:

<img src="images/lectura_sobre_archivos.png" width="70%">

In [None]:
with open("file.txt", "rb") as f:
    # leemos los datos binarios
    data = f.read()
    print(data)
    # Extraemos los números usando int()
    nums = [int(i) for i in data]
    print(nums)

b'\x00\xff!-'
[0, 255, 33, 45]


Como mencionamos anteriormente, guardar la información en formato binario puede ser más compacto que guardar la información cruda.

Veamos un ejemplo donde guardamos los números en un archivo separado por comas, primero creamos el string con los datos de la forma en la que serán almacenados, al convertir cada número en un string con la función `map` y luego uniéndolos con el carácter `,` de por medio:

In [None]:
line = ",".join(map(str, nums))
print(line)

0,255,33,45


Ahora, escribimos los números en un fichero de texto en modo escritura no binario `"w"`:

In [None]:
with open("file2.txt", "w") as f:
    f.write(line)

Veamos una comparativa del tamaño de los archivos `file.txt` (binario) y `file2.txt` (no binario). Esto lo hacemos por medio de la función `stat` la cual nos permite extraer metadatos generales de un fichero, como su tamaño en bytes `st_size`.

Para el archivo binario:

In [None]:
print(os.stat("file.txt").st_size)

4


Para el archivo no binario:

In [None]:
print(os.stat("file2.txt").st_size)

11


## **3. Manipulación de Archivos JSON**
---

El formato `json` es una abreviación de _JavaScript Object Notation_ y se trata de un formato de archivos compacto y fácil de leer para las personas.

Se trata de un formato que permite almacenar información por medio de un esquema de clave-valor (similar a los diccionarios de _Python_). Este formato permite almacenar los siguientes tipos de datos:

* **Número**: cualquier número se puede almacenar separando los decimales por un `.`, por ejemplo `3.5`.
* **Texto**: cualquier cadena de caracteres se puede almacenar si está acotada por comillas dobles, por ejemplo: `"hola mundo"`.
* **Booleanos**: se pueden guardar valores booleanos como `true` o `false`
* **Arreglos**: Se puede guardar una secuencia de valores acotándolos con corchetes cuadrados `[]` y separando cada valor por una coma, por ejemplo `[1, 2, 3.5, false, "yes"]`
* **Objetos**: Pares de clave-valor (la clave siempre debe ser un texto) acotados por las llaves `{}` y separando las claves de los valores con `:` y cada par clave-valor con comas, por ejemplo: `{"nombre": "Pedro", "apellido": "Perez"}`

Un ejemplo de un archivo `json`:

```javascript
{
   "nombre": "Pedro Pablo",
   "apellido": "Perez Perez",
   "contacto": {
       "correo": "pepep@correo.com",
       "teléfono": 123456
   },
   "cargo": "docente",
   "tiene_hijos": true,
   "nombre_hijos": ["Pipe", "Marco", "Julia"]
}
```

El formato `json` es una forma común de almacenar conjuntos de datos para procesamiento de lenguaje natural. _Python_ trae una librería base `json` que nos permite leer y escribir ficheros con este formato y además los convierte a diccionarios para su fácil manipulación.

Veamos cómo almacenar y leer datos en formato `json`, comenzamos importando la librería para la manipulación de este tipo de archivos:

In [None]:
import json

### **3.1. Escritura**
---

La escritura de archivos `json` desde _Python_ se realiza al convertir un diccionario de Python al formato.

Vamos a definir un diccionario con la información del ejemplo anterior:

In [None]:
data =  {
        "nombre": "Pedro Pablo",
        "apellido": "Perez Perez",
        "contacto": {
            "correo": "pepep@correo.com",
            "teléfono": 123456
            },
        "cargo": "docente",
        "tiene_hijos": True,
        "nombre_hijos": ["Pipe", "Marco", "Julia"]
        }

Ahora, podemos convertir este diccionario a la especificación `json` con la función `dumps`

In [None]:
data_json = json.dumps(data)
print(data_json)

{"nombre": "Pedro Pablo", "apellido": "Perez Perez", "contacto": {"correo": "pepep@correo.com", "tel\u00e9fono": 123456}, "cargo": "docente", "tiene_hijos": true, "nombre_hijos": ["Pipe", "Marco", "Julia"]}


Esta es la información que podemos guardar como un fichero como vimos en los casos anteriores, no obstante, la librería `json` contiene la función `dump` que permite guardar la información directamente en un fichero (modo escritura) como se muestra a continuación:

In [None]:
with open("file.json", "w") as f:
    json.dump(data, f)

Podemos corroborar el contenido del archivo con un fichero en modo lectura:

In [None]:
with open("file.json", "r") as f:
    print(f.read())

{"nombre": "Pedro Pablo", "apellido": "Perez Perez", "contacto": {"correo": "pepep@correo.com", "tel\u00e9fono": 123456}, "cargo": "docente", "tiene_hijos": true, "nombre_hijos": ["Pipe", "Marco", "Julia"]}


### **3.2. Lectura**
---

La librería `json` también permite interpretar el formato `json` como un diccionario de _Python_. Por ejemplo, el siguiente string viene en formato `json`:

In [None]:
data = '{"nombre": "Pedro Pablo", "numero": 12345}'

Con la función `loads` podemos convertir este valor en un diccionario de _Python_:

In [None]:
result = json.loads(data)

Veamos el tipo de la variable `result`:

In [None]:
print(type(result))

<class 'dict'>


Como es un diccionario, podemos indexar y obtener valores del mismo:

In [None]:
print(result["numero"])

12345


De la misma forma, la librería `json` tiene la función `load` para leer un fichero directamente como un diccionario, si quisiéramos leer el archivo que creamos en el ejemplo anterior:

In [None]:
with open("file.json", "r") as f:
    result = json.load(f)

Veamos el resultado:

In [None]:
print(result)

{'nombre': 'Pedro Pablo', 'numero': 12345}


## **Recursos Adicionales**
---

Los siguientes enlaces corresponden a sitios donde encontrará información muy útil para profundizar en los temas vistos en este taller guiado:

* [Input and Output, Python](https://docs.python.org/3/tutorial/inputoutput.html).
* [Python file open](https://www.w3schools.com/python/python_file_open.asp).
* [Python JSON](https://www.w3schools.com/python/python_json.asp).
* _Fuente de los íconos_
    - Flaticon. Folder free icon [PNG]. https://www.flaticon.com/free-icon/folder_716784
    - Flaticon. Png free icon [PNG]. https://www.flaticon.com/free-icon/png_136523
    - Flaticon. Pdf File free icon [PNG]. https://www.flaticon.com/free-icon/pdf-file_2656448
    - Flaticon. Txt free icon [PNG]. https://www.flaticon.com/free-icon/txt_2306185

## **Créditos**

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*