INPUT OUTPUT DATA

Si alguna vez has utilizado una computadora, deberías saber qué son los archivos. Básicamente, los archivos son fragmentos de información o datos que guardamos para almacenarlos a largo plazo y reutilizarlos más tarde. Independientemente del tipo de archivo, en el fondo, todos los archivos están codificados en bits. La estructura de codificación depende del tipo de archivo. Para representar los distintos tipos de archivos, utilizamos extensiones de nombres de archivo, ya sea .txt, .py, .jpeg o cualquier otra.

A menudo necesitamos que nuestros programas Python lean datos de archivos externos, editen archivos existentes o creen archivos nuevos. Ya hemos leído muchos archivos con la función read_csv() de Pandas. En esta lección, aprenderemos cómo se pueden abrir archivos y trabajar con ellos (entrada y salida de archivos, o E/S de archivos para abreviar) en Python de una manera más general.

Nuestros ejemplos en esta lección se centrarán en archivos de texto, ya que son ampliamente utilizados para almacenar y transferir datos.

Leer desde archivos

Python tiene una función incorporada open() que puede abrir cualquier archivo. Todo lo que necesitamos hacer es pasar la ruta hacia el archivo a la función. Por defecto, los archivos se abren en modo “lectura”, lo que significa que podemos obtener información de los mismos, pero no podemos editarlos.

In [2]:
f =open('my_file.txt', mode='r')

Así es como se ve el contenido de my_file.txt:

"No entres dócilmente en esa buena noche"
[12, 13, 14]
100.42
Alice

pero esto es lo que obtendremos al imprimir f:

In [3]:
f = open('my_file.txt')
print(f)
f.close()

<_io.TextIOWrapper name='my_file.txt' mode='r' encoding='utf-8'>


La salida actual puede no ser la esperada, lo cual se debe a que la variable f, que representa el archivo abierto, es un objeto que requiere código adicional para leer su contenido. Por sí solo no puede hacer mucho, por lo tanto, necesitamos escribir código adicional para leer el contenido del archivo.

Al abrir un archivo se crea un objeto de tipo file:

In [4]:
f = open('my_file.txt')
print(type(f))
f.close()

<class '_io.TextIOWrapper'>


Ten en cuenta que también usamos el método close() para cerrar el archivo después de que hayamos terminado con él. Cerrar archivos cuando ya no se necesitan es una buena costumbre, de lo contrario ocupan memoria y pueden provocar problemas imprevistos.

Ahora vamos a leer nuestro archivo y mostrar su contenido. Una forma de hacerlo es recorrer cada línea del archivo e imprimir cada una de ellas:

In [5]:
f = open('my_file.txt')

for line in f:
    print(line)

f.close()

"No entres dócilmente en esa buena noche"

[12, 13, 14]

100.42

Alice


Imprimimos todo el contenido, pero había líneas en blanco extra que no estaban en el archivo original. Esto se debe a que el final de cada línea en my_file.txt termina con el carácter de nueva línea \\n y, por defecto, print() termina cada salida con un carácter de nueva línea también. Podemos arreglar esto usando en cada línea el método rstrip(), que elimina todos los espacios en blanco al final de una cadena:

In [6]:
f = open('my_file.txt')

for line in f:
    print(line.rstrip())

f.close()

"No entres dócilmente en esa buena noche"
[12, 13, 14]
100.42
Alice


El método anterior funciona, pero también podemos utilizar los métodos read() o readlines() para conseguir el mismo objetivo. El método read() lee todo el archivo como una sola cadena, mientras que el método readlines() crea una lista de cadenas, donde cada elemento de la lista es una línea del archivo:

In [8]:
# read() lee todo el achivo en una columna
f = open('my_file.txt')
print(f.read())

f.close()

print() # imprimir una línea vacía para separar

# readlines() crea una lista de cadenas
f = open('my_file.txt')
print(f.readlines())

f.close()

"No entres dócilmente en esa buena noche"
[12, 13, 14]
100.42
Alice

['"No entres dócilmente en esa buena noche"\n', '[12, 13, 14]\n', '100.42\n', 'Alice']


Con readlines(), podemos recorrer la lista para mostrar cada línea o procesarlas por separado.

Fíjate en que hemos tenido que cerrar el archivo y abrirlo de nuevo para leer todo su contenido dos veces. Esto se debe a que no podemos acceder a las líneas anteriores del archivo después de haberlas leído desde el objeto file (archivo). Si necesitamos conservar las líneas anteriores, debemos almacenarlas en una lista o en alguna otra estructura de datos.

Finalmente, también podemos abrir archivos usando el administrador de contexto de Python. Para ello, creamos un bloque with y abrimos el archivo en el encabezado de este bloque. La ventaja del administrador de contexto es que cierra automáticamente el archivo cuando nuestro programa sale del bloque with:

In [9]:
# Bloque with para abrir archivos
with open('my_file.txt') as f:
    for line in f.readlines():
        print(line.rstrip())

"No entres dócilmente en esa buena noche"
[12, 13, 14]
100.42
Alice


Escribir en archivos

Basta ya de leer, ¿qué pasa si queremos guardar nuestros datos? Podemos crear nuevos archivos o editar archivos existentes abriéndolos en modo “escritura”. Tenemos dos opciones que podemos pasar como argumento mode= a open() para escribir:

'w': abre un nuevo archivo vacío en el que se puede escribir.

'a': abre un archivo nuevo o ya existente y le añade texto.

Ten cuidado al utilizar mode='w': si abres un archivo con la misma ruta y nombre que un archivo existente, ¡sobrescribirás completamente el contenido de este antiguo archivo!

Después de abrir un archivo, debemos escribir datos en él. Lo podemos hacer con el método write(), que toma un único argumento de cadena y escribe esa cadena en cualquier lugar del archivo, comenzando por donde nos encontremos.

Supongamos que escribimos un diario personal. El siguiente código añadirá contenido al texto existente sin borrar nada del contenido previo del archivo:

In [11]:
from datetime import datetime

# obtiene la hora actual
now = datetime.now() 

with open('my_journal.txt', 'a') as f:
    f.write('\n')     # comienza con una nueva línea
    f.write(str(now)) # marca temporal
    f.write('\n\n')   # inserta una línea en blanco
    f.write(' ')      # espacio vacío
    f.write(input())  # escribe una entrada en el diario desde el teclado
    f.write('\n\n')   # termina con una línea en blanco

Si tenemos una lista de cadenas y queremos escribir por orden cada cadena en el archivo, podemos utilizar el método writelines():

In [10]:
titles = ['Planeta del futuro\n', 'Soluciones para un mundo sostenible\n', "La ciudad más contaminada del mundo\n"]

with open('output.txt', 'w') as f:
    f.writelines(titles)

Si queremos escribir cada cadena de la lista en su propia línea, cada una de ellas debe terminar con el carácter de nueva línea \n.

Archivos

Los archivos zip se utilizan ampliamente para comprimir archivos o empaquetar archivos relacionados entre sí. Trabajar con archivos zip en Python es similar a trabajar con archivos. El paquete zipfile nos ayudará mucho con esta tarea:

In [12]:
from zipfile import ZipFile

with open("info.txt", "w") as f:
    f.write('algunos datos')
    
with ZipFile("archive.zip", mode="w") as archive:
    archive.write("info.txt")

Ahora tenemos un archivo zip con info.txt dentro. Podemos usar los modos 'r' y 'a' para leer y añadir archivos. El método printdir() se utiliza para listar el contenido de un archivo:

In [13]:
from zipfile import ZipFile

with open("logs.txt", "w") as f:
    f.write('new_log')

with ZipFile("archive.zip", mode="a") as archive:
    archive.write("logs.txt")
    archive.printdir()

File Name                                             Modified             Size
info.txt                                       2025-04-25 18:34:44           13
logs.txt                                       2025-04-25 18:34:48            7


El texto se codifica en bytes cuando lo archivamos, así que necesitamos usar el método decode() para hacer que los humanos podamos leer cadenas directamente desde el archivo:

In [14]:
with ZipFile("archive.zip") as archive:
    with archive.open("logs.txt") as f:
        print(f.read().decode())

new_log


JSON

JSON es un formato de almacenamiento y transferencia de datos universal que los humanos pueden leer, utilizado a menudo para manejar datos en aplicaciones web. Los archivos JSON son muy similares a los diccionarios de Python; se trata de un conjunto de pares clave-valor, que suelen tener muchas capas anidadas.

Podemos utilizar la librería incorporada json para trabajar fácilmente con archivos .json.

La convención dump/loads se utiliza cuando es necesario guardar/leer archivos .json.

In [None]:
import json
import requests # librería para obtener datos de internet

# descargar (obtener) un archivo json de internet
data = requests.get('https://dummyjson.com/products/1')

# extraer el contenido del archivo json descargado
text = data.text

# análisis sintáctico del contenido mediante la función loads
print(json.loads(text))


Es importante señalar cómo se ve data al utilizar requests.get() para descargar un archivo JSON desde '<https://dummyjson.com/products/1':

{'id': 1, 'title': 'Essence Mascara Lash Princess', 'description': 'The Essence Mascara Lash Princess is a popular mascara known for its volumizing and lengthening effects. Achieve dramatic lashes with this long-lasting and cruelty-free formula.', 'category': 'beauty', 'price': 9.99, 'discountPercentage': 7.17, 'rating': 4.94, 'stock': 5, 'tags': ['beauty', 'mascara'], 'brand': 'Essence', 'sku': 'RCH45Q1A', 'weight': 2, 'dimensions': {'width': 23.17, 'height': 14.43, 'depth': 28.01}, 'warrantyInformation': '1 month warranty', 'shippingInformation': 'Ships in 1 month', 'availabilityStatus': 'Low Stock', 'reviews': [{'rating': 2, 'comment': 'Very unhappy with my purchase!', 'date': '2024-05-23T08:56:21.618Z', 'reviewerName': 'John Doe', 'reviewerEmail': 'john.doe@x.dummyjson.com'}, {'rating': 2, 'comment': 'Not as described!', 'date': '2024-05-23T08:56:21.618Z', 'reviewerName': 'Nolan Gonzalez', 'reviewerEmail': 'nolan.gonzalez@x.dummyjson.com'}, {'rating': 5, 'comment': 'Very satisfied!', 'date': '2024-05-23T08:56:21.618Z', 'reviewerName': 'Scarlett Wright', 'reviewerEmail': 'scarlett.wright@x.dummyjson.com'}], 'returnPolicy': '30 days return policy', 'minimumOrderQuantity': 24, 'meta': {'createdAt': '2024-05-23T08:56:21.618Z', 'updatedAt': '2024-05-23T08:56:21.618Z', 'barcode': '9164035109868', 'qrCode': 'https://dummyjson.com/public/qr-code.png'}, 'images': ['https://cdn.dummyjson.com/products/images/beauty/Essence%20Mascara%20Lash%20Princess/1.png'], 'thumbnail': 'https://cdn.dummyjson.com/products/images/beauty/Essence%20Mascara%20Lash%20Princess/thumbnail.png'}

El texto parece tener la forma de una cadena; aunque se parece a un archivo JSON, se descarga como una cadena usando requests.get(). Por lo tanto, se requiere la función json.loads() para convertirlo (o analizarlo) en un archivo JSON real.

Ahora vamos a ver cómo escribir algo en un archivo JSON:

In [None]:
import json

# este es un diccionario que queremos escribir en un archivo JSON
data = dict(user_id=12, status='active', user_name='Rachel')

# creamos un archivo json en modo de escritura y volcamos nuestros datos allí
with open ('output.json', 'w') as f:
    json.dump(data, f)

YAML

Este formato es especialmente útil para la transmisión de valores de configuración, ya que sigue una estructura de indentación similar a la de Python. YAML es un superconjunto de JSON, lo que significa que cualquier texto JSON es también un documento YAML válido, pero YAML suele ser más legible para los humanos. A continuación, te mostraremos cómo se ven un diccionario y una lista cuando se representan en archivos YAML. Para lograr esto, necesitaremos la librería yaml:

In [None]:
import yaml

# crear una lista de diccionarios
data = [{'user_id': '1', 'age': 34},
         {'user_id': '2', 'age': 37}]

# volcar 
print(yaml.dump(data))

# crear una lista
var = [22, 23, 'root']

# volcar
print(yaml.dump(var))


- age: 34
  user_id: '1'
- age: 37
  user_id: '2'

- 22
- 23
- root

Ejercicio 1

1.

Crea un archivo llamado lines.txt y escribe el contenido de la lista dada como líneas separadas. Utiliza el método writelines().

Recuerda que puedes escribir el contenido de una lista determinada en un archivo como líneas separadas usando el método .join() aplicado a una cadena que separa cada elemento de la lista. El método .join() espera la lista como entrada.

In [18]:
# Usando write()
lines = ['uno', 'dos', 'tres']

with open('lines.txt', 'w') as f:
    f.write('\n'.join(lines))# escribe tu 

# Usando writelines()
lines_2 = ['uno\n', 'dos\n', 'tres\n']

with open('line.text', 'w') as f:
    f.writelines(lines_2)

uno

dos

tres

2.

El precódigo tiene un código que escribe el contenido de la lista dada como líneas separadas. Tu objetivo es leer el archivo lines.txt e imprimir líneas una por una. Recuerda que cada línea tiene un carácter de nueva línea, '\n', el cual debes eliminar utilizando uno de los métodos que aprendiste.

In [None]:
lines_3 = ['uno', 'dos', 'tres']

with open('lines.txt', 'w') as f:
    f.writelines('\n'.join(lines_3))

# escribe tu código aquí
f = open('lines.txt')
print(f.read())
f.close()

print() # este print solo crea una linea vacia como separador

# Usando bloque with:
with open('lines.txt') as f:
    for line in f.readlines():
        print(line.rstrip())

uno
dos
tres

uno
dos
tres


Ejercicio 3

En esta tarea trabajarás con archivos JSON.

En el precódigo descargamos los datos usando la librería requests. Usamos esta URL para descargar los datos: https://dummyjson.com/products/category/smartphones. Una vez descargados, extrajimos el cuerpo principal de la respuesta usando el atributo .text de la misma.

Ahora es tu momento de brillar. Analiza los datos descargados como un archivo JSON: puedes utilizar la librería json y su función apropiada. Almacena los datos analizados en la variable json_data. Puedes hacerlo con json_data como con un diccionario Python normal.

Ahora, extrae la lista de productos de json_data y guárdala en la variable products. Esta lista se almacena como un valor, que puedes extraer utilizando la clave 'products'.

A continuación, verás que hemos creado una lista vacía llamada items; además, hemos inicializado la variable brand para almacenar el valor 'Samsung'.

Tu objetivo es recorrer la lista products. Cada entrada en products es un diccionario. Extrae el nombre de la marca usando la clave 'brand' y, si coincide con el valor de la variable brand, agrega la entrada completa a la lista items.

Al final, crea un archivo 'samsung_items.json' y guarda items en él.

In [None]:
# Instala la libreria requests por que no la tenia el proyecto
%pip install requests

Collecting requests
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting charset-normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.1-cp311-cp311-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Downloading urllib3-2.4.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2025.1.31-py3-none-any.whl.metadata (2.5 kB)
Downloading requests-2.32.3-py3-none-any.whl (64 kB)
Downloading certifi-2025.1.31-py3-none-any.whl (166 kB)
Downloading charset_normalizer-3.4.1-cp311-cp311-win_amd64.whl (102 kB)
Downloading idna-3.10-py3-none-any.whl (70 kB)
Downloading urllib3-2.4.0-py3-none-any.whl (128 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests
Successfully installed certifi-2025.1.31 charset-normalizer-3.4.1 idna-3.10 requests-2.32.3 urlli

In [30]:
#import json Esta libreria ya se habia importado, se
import requests

# obtener datos de internet
response = requests.get('https://dummyjson.com/products/category/smartphones')
text = response.text

#utilizar la librería json y su función apropiada. 
# Almacena los datos analizados en la variable json_data. 
# Puedes hacerlo con json_data como con un diccionario Python normal.

#extrae la lista de productos de json_data y 
# guárdala en la variable products. 
# Esta lista se almacena como un valor, 
# que puedes extraer utilizando la clave 'products'.
json_data = json.loads(text)# escribe tu código aquí
products = json_data['products']# escribe tu código aquí. Utiliza la clave 'products'

items = []
brand = 'Samsung'

#recorrer la lista products. 
# Cada entrada en products es un diccionario. 
# Extrae el nombre de la marca usando la clave 'brand' 
# y, si coincide con el valor de la variable brand, 
# agrega la entrada completa a la lista items.

#Al final, crea un archivo 'samsung_items.json' 
# y guarda items en él.
for entry in products:
	if entry['brand'] == brand:
		items.append(entry)# escribe tu código

with open('samsung_items.json', 'w') as f:
	json.dump(items, f, indent=4)# escribe tu código

# Abrir y cargar archivo JSON
with open('samsung_items.json', 'r') as f:
	samsung_products = json.load(f)

# Imprimir los archivos
for product in samsung_products:
	print(f"Nombre: {product['title']}")
	print(f"Precio: ${product['price']}")
	print(f"Descripcion: {product['description']}")
	print('-' * 40)




Nombre: Samsung Galaxy S7
Precio: $299.99
Descripcion: The Samsung Galaxy S7 is a flagship smartphone known for its sleek design and advanced features. It features a high-resolution display, powerful camera, and robust performance.
----------------------------------------
Nombre: Samsung Galaxy S8
Precio: $499.99
Descripcion: The Samsung Galaxy S8 is a premium smartphone with an Infinity Display, offering a stunning visual experience. It boasts advanced camera capabilities and cutting-edge technology.
----------------------------------------
Nombre: Samsung Galaxy S10
Precio: $699.99
Descripcion: The Samsung Galaxy S10 is a flagship device featuring a dynamic AMOLED display, versatile camera system, and powerful performance. It represents innovation and excellence in smartphone technology.
----------------------------------------
