# Trabajar con archivos

Para trabajar con archivos en Python, primero debes abrir el archivo en modo lectura o escritura. Puedes hacerlo usando la función open() de Python.

A continuación se muestra un ejemplo de cómo abrir un archivo para leer su contenido:

In [6]:
with open('resources/employee-data.json', 'r') as f:
    contenido = f.read(280)
    print(contenido)

{
  "Employees": [
    {
      "userId": "krish",
      "jobTitle": "Developer",
      "firstName": "Krish",
      "lastName": "Lee",
      "employeeCode": "E1",
      "region": "CA",
      "phoneNumber": "788456123",
      "emailAddress": "krish.lee@examplepython.com"
    },
   


Para escribir en un archivo, puedes usar el modo escritura ('w'). Por ejemplo:

In [7]:
with open('archivo.txt', 'w') as f:
    f.write('Hola, mundo!')

Para navegar entre los archivos de nuestra carpeta haremos uso de la librería "os" que usaremos como interfaz entre el sistema operativo y Python

In [8]:
import os

# Listar los archivos en el directorio actual
archivos = os.listdir('.')
print(archivos)

['.git', '.gitignore', 'archivo.txt', 'control_structures.ipynb', 'files.ipynb', 'functions.ipynb', 'introduction.ipynb', 'oop.ipynb', 'README.md', 'resources']


Para renombrar un archivo:

In [9]:
import os

os.rename("archivo.txt","newArchivo.txt")

O por ejemplo, para borrar un archivo:

In [10]:
import os

# Eliminar el archivo 'archivo.txt'
os.remove('newarchivo.txt')

### Excepciones
Es importante saber que el manejo de estas funciones debe ser controlado metódicamente ya que, por ejemplo, si intentamos borrar un archivo que no existe nos lanzará una excepción:

In [11]:
import os

# Eliminar el archivo 'archivo.txt'
os.remove('newarchivo.txt')

FileNotFoundError: [WinError 2] El sistema no puede encontrar el archivo especificado: 'newarchivo.txt'

Para controlar ésta excepción podemos utilizar los bloques try-except:

In [12]:
import os

try:

    # Eliminar el archivo 'archivo.txt'
    os.remove('archivo.txt')

except Exception as e:
    print("Mensaje de error:", e.strerror)
    print("El error pertenece a la clase", e.__class__.__str__)
    print("Tipo de excepción:", e.__class__.__name__)
    print("Traza del error:", e.__traceback__)

Mensaje de error: El sistema no puede encontrar el archivo especificado
El error pertenece a la clase <slot wrapper '__str__' of 'OSError' objects>
Tipo de excepción: FileNotFoundError
Traza del error: <traceback object at 0x0000024A5FB4E100>


Como se puede observar el manejo de errores se realiza igual que en otros lenguajes de programación.

## Manejo de cadenas

Las cadenas de caracteres en Python también son muy parecidas al resto de lenguajes de programación.

Algunas operaciones y métodos comunes para manipular cadenas en Python son:

In [13]:
cadena1 = "Hola"
cadena2 = "Mundo"
cadena3 = cadena1 + " " + cadena2
print(cadena3)  # imprime "Hola Mundo"

Hola Mundo


Repetición de cadenas:

In [14]:
cadena = "Hola "
cadena_repetida = cadena * 3
print(cadena_repetida)  # imprime "Hola Hola Hola "

Hola Hola Hola 


Acceso a caracteres:

In [15]:
cadena = "Hola mundo"

primer_caracter = cadena[0]

Slicing:

In [16]:
cadena = "Hola Mundo"
subcadena = cadena[3:7]  # "a Mu"
subcadena = cadena[:6]   # "Hola M"

Tambien podemos hacer uso de las funciones integradas de Python para el manejo de cadenas, como por ejemplo:

In [17]:
cadena = "Hola Mundo"

print(cadena.upper())

print(cadena.lower())

print(cadena.split(" "))

print(cadena.replace("o","a"))

HOLA MUNDO
hola mundo
['Hola', 'Mundo']
Hala Munda


También podemos hacer uso de expresiones regulares para encontrar patrones, por ejemplo:

In [18]:
import re

# Cadena de texto donde se va a buscar el patrón
cadena = "Hola, mi nombre es Juan y mi correo es juan@gmail.com"

# Patrón a buscar en la cadena de texto
patron = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# Buscar el patrón en la cadena de texto
resultado = re.search(patron, cadena)

if resultado:
    # Imprimir el patrón encontrado
    print(resultado.group())
else:
    print("Patrón no encontrado")

juan@gmail.com


Si hubiera varios correos:

In [19]:
import re

# Cadena de texto donde se van a buscar los patrones
cadena = "Hola, mi nombre es Juan y mi correo es juan@gmail.com. También tengo una dirección alternativa en juan.perez@outlook.com"

# Patrón a buscar en la cadena de texto
patron = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# Buscar todas las ocurrencias del patrón en la cadena de texto
resultados = re.finditer(patron, cadena)

# Imprimir todos los patrones encontrados
for resultado in resultados:
    print(resultado.group())

juan@gmail.com
juan.perez@outlook.com


## Listas y diccionarios

Las listas y los diccionarios son estructuras de datos muy útiles en Python que pueden ayudarte a organizar y almacenar información de manera eficiente.

Una lista es una secuencia ordenada de elementos. Puedes crear una lista en Python utilizando corchetes y separando cada elemento con una coma. Por ejemplo:

In [20]:
mi_lista = [1, 2, 3, 4, 5]

for elemento in mi_lista:
    print(elemento)

1
2
3
4
5


Puedes acceder a los elementos de una lista por su índice, que es la posición del elemento en la lista. Los índices en Python comienzan en 0, por lo que el primer elemento de una lista tiene índice 0, el segundo elemento tiene índice 1, y así sucesivamente.

También puedes modificar los elementos de una lista utilizando el índice.

Por ejemplo:

In [21]:
print(mi_lista[0])  # Imprime 1
print(mi_lista[1])  # Imprime 2
print(mi_lista[4])  # Imprime 5

mi_lista[0] = 10
print(mi_lista[0])  # Imprime 10

1
2
5
10


Además, puedes utilizar los operadores de slicing (:) para obtener un subconjunto de elementos de una lista. Por ejemplo:

In [22]:
print(mi_lista[1:3])  # Imprime [2, 3]
print(mi_lista[:3])   # Imprime [10, 2, 3]
print(mi_lista[3:])   # Imprime [4, 5]

[2, 3]
[10, 2, 3]
[4, 5]


Como ya ojeamos anteriormente, un diccionario es una estructura de datos que almacena pares de valores clave-valor. Puedes crear un diccionario en Python utilizando llaves y separando cada par clave-valor con una coma. Las claves deben ser únicas dentro de un diccionario. Por ejemplo:

In [23]:
mi_diccionario = {'clave1': 'valor1', 'clave2': 'valor2', 'clave3': 'valor3'}


# Para acceder a un valor usamos su clave

print(mi_diccionario['clave1'])  # Imprime 'valor1'
print(mi_diccionario['clave2'])  # Imprime 'valor2'

mi_diccionario['clave1'] = 'nuevo valor'
print(mi_diccionario['clave1'])  # Imprime 'nuevo valor'


valor1
valor2
nuevo valor


### Otras estructuras de datos

Python ofrece muchas estructuras de datos para organizar la información, como ya hemos visto.

Una de ellas es el "Set" o conjunto. 

Un ejemplo práctico de uso de conjuntos podría ser para eliminar elementos duplicados de una lista.

Podemos eliminar los elementos duplicados de esta lista convirtiéndola primero a un conjunto, y luego volviéndola a convertir a una lista:

In [24]:
numeros = [1, 2, 3, 3, 4, 5, 5, 6, 6, 6]

sin_duplicados = list(set(numeros))
print(sin_duplicados)  # Imprime [1, 2, 3, 4, 5, 6]

[1, 2, 3, 4, 5, 6]


Otro uso común de los conjuntos es para realizar operaciones de conjuntos, como la unión, intersección y diferencia. Por ejemplo:

In [25]:
conjunto_a = {'Juan', 'Pedro', 'Ana'}
conjunto_b = {'Ana', 'Pablo', 'Mario'}

# Unión de los dos conjuntos
unio = conjunto_a.union(conjunto_b)
print(unio)  

# Intersección de los dos conjuntos
interseccion = conjunto_a.intersection(conjunto_b)
print(interseccion)  

# Diferencia entre el primer conjunto y el segundo
diferencia = conjunto_a.difference(conjunto_b)
print(diferencia)  

{'Ana', 'Juan', 'Pablo', 'Pedro', 'Mario'}
{'Ana'}
{'Pedro', 'Juan'}


## Leer y tratar ficheros

Python permite la lectura y escritura de ficheros. Esto puede ser útil en muchas situaciones, como cuando quieras procesar un conjunto de datos que has almacenado en un archivo o cuando quieras leer el contenido de un archivo para mostrarlo en tu programa. Por ejemplo:

In [27]:
import csv

# Abrir el archivo en modo lectura
with open('resources/airtravel.csv', 'r') as f:
    # Crear un objeto reader a partir del archivo
    reader = csv.reader(f)

    headers = next(reader) #Ignorar la cabecera
    print(headers)
  
  # Iterar sobre las filas del archivo
    for row in reader:
        # Procesar cada fila
        print(row)


['Month', ' "1958"', ' "1959"', ' "1960"']
['JAN', '340', '360', '417']
['FEB', '318', '342', '391']
['MAR', '362', '406', '419']
['APR', '348', '396', '461']
['MAY', '363', '420', '472']
['JUN', '435', '472', '535']
['JUL', '491', '548', '622']
['AUG', '505', '559', '606']
['SEP', '404', '463', '508']
['OCT', '359', '407', '461']
['NOV', '310', '362', '390']
['DEC', '337', '405', '432']


Vamos a calcular la media de vuelos de cada mes durante los 3 años

In [None]:
import csv

# Abrir el archivo en modo lectura
with open('resources/airtravel.csv', 'r') as f:
    # Crear un objeto reader a partir del archivo
    reader = csv.reader(f)

    headers = next(reader) #Ignorar la cabecera
    print(headers)
  
  # Iterar sobre las filas del archivo
    for row in reader:
        # Procesar cada fila
        

In [32]:
import csv

# Abrir el archivo en modo lectura
with open('resources/airtravel.csv', 'r') as f:
    # Crear un objeto reader a partir del archivo
    reader = csv.reader(f)

    
    headers = next(reader) #Ignorar la cabecera
    print(headers)

    avg_months = []

    # Iterar sobre las filas del archivo
    for row in reader:
        # Procesar cada fila
        avg_months.append({"month_name":row[0], "avg_flights":round(sum(map(int,row[1:]))/len(row[1:]),2)})

    # Obtener el mes con la mayor media de eventos
#print(avg_months)

mes_maximo = max(avg_months, key=lambda x: x["avg_flights"])
print(f"El mes con mayor media de eventos es {mes_maximo['month_name']} con {mes_maximo['avg_flights']} vuelos")



['Month', ' "1958"', ' "1959"', ' "1960"']
El mes con mayor media de eventos es AUG con 556.67 vuelos


Ahora necesitamos saber el total de vuelos de cada año y el año con más vuelos

In [None]:
import csv

# Abrir el archivo en modo lectura
with open('resources/airtravel.csv', 'r') as f:
    # Crear un objeto reader a partir del archivo
    reader = csv.reader(f)

    headers = next(reader) #Ignorar la cabecera

    tot_year = [0,0,0]

    for row in reader:

In [34]:
import csv

# Abrir el archivo en modo lectura
with open('resources/airtravel.csv', 'r') as f:
    # Crear un objeto reader a partir del archivo
    reader = csv.reader(f)

    headers = next(reader) #Ignorar la cabecera

    tot_year = [0,0,0]

    for row in reader:
        tot_year = list(map(sum, zip(tot_year, map(int,row[1:]))))    

tot_year = list(zip(headers[1:],tot_year))

print(tot_year)

for año, total in tot_year:
    print("Año:",str(año),  "Vuelos totales: "+ str(total))

[(' "1958"', 4572), (' "1959"', 5140), (' "1960"', 5714)]
Año:  "1958" Vuelos totales: 4572
Año:  "1959" Vuelos totales: 5140
Año:  "1960" Vuelos totales: 5714


Tambien podemos leer archivos JSON. Un archivo JSON es simplemente un archivo de texto que contiene una estructura de datos serializada en formato JSON. La estructura de datos puede ser un diccionario (un conjunto de pares clave-valor), una lista (un conjunto ordenado de valores) o cualquier combinación de estos.

In [35]:
import json

with open("resources/employee-data.json", "r") as f:
    datos = json.load(f)
    print(datos)

    

{'Employees': [{'userId': 'krish', 'jobTitle': 'Developer', 'firstName': 'Krish', 'lastName': 'Lee', 'employeeCode': 'E1', 'region': 'CA', 'phoneNumber': '788456123', 'emailAddress': 'krish.lee@examplepython.com'}, {'userId': 'devid', 'jobTitle': 'Developer', 'firstName': 'Devid', 'lastName': 'Rome', 'employeeCode': 'E2', 'region': 'CA', 'phoneNumber': '675342186', 'emailAddress': 'devid.rome@examplepython.com'}, {'userId': 'tin', 'jobTitle': 'Program Directory', 'firstName': 'tin', 'lastName': 'jonson', 'employeeCode': 'E3', 'region': 'CA', 'phoneNumber': '698732145', 'emailAddress': 'tin.jonson@examplepython.com'}, {'userId': 'alonso', 'jobTitle': 'Program Directory', 'firstName': 'Alonso', 'lastName': 'Benitez', 'employeeCode': 'J2', 'region': 'TX', 'phoneNumber': '654964948', 'emailAddress': 'alonso.benitez@examplepython.com'}, {'userId': 'carla', 'jobTitle': 'RR.HH', 'firstName': 'Carla', 'lastName': 'GonzÃ¡lez', 'employeeCode': 'E3', 'region': 'TX', 'phoneNumber': '632198172', 'e

In [37]:
import json

with open("resources/employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    for empleado in empleados:
        print(f"el empleado: {empleado['userId']} es de {empleado['region']} y su número de teléfono es: {empleado['phoneNumber']}")


el empleado: krish es de CA y su número de teléfono es: 788456123
el empleado: devid es de CA y su número de teléfono es: 675342186
el empleado: tin es de CA y su número de teléfono es: 698732145
el empleado: alonso es de TX y su número de teléfono es: 654964948
el empleado: carla es de TX y su número de teléfono es: 632198172
el empleado: paula es de CA y su número de teléfono es: 623485397
el empleado: gonzalo es de NY y su número de teléfono es: 632459878
el empleado: rebeca es de NY y su número de teléfono es: 698745124


Una vez sabemos navegar por una estructura de datos, podemos usarlas para nuestro beneficio, por ejemplo, calcular las regiones de las que son nuestros empleados

In [None]:
import json

with open("employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    regiones = set()

    for empleado in empleados:
        

In [39]:
import json

with open("resources/employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    regiones = set()

    for empleado in empleados:
        regiones.add(empleado['region'])

    print(regiones)

{'NY', 'CA', 'TX'}


O por ejemplo, conocer los empleados con un determinado 'jobtitle'

In [None]:
import json

with open("employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    print("Los usuarios Developer son:")

    for empleado in empleados:
        

In [40]:
import json

with open("resources/employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    print("Los usuarios IT son:")

    for empleado in empleados:
        if(empleado['jobTitle'] == 'IT'):
            print(f"{empleado['firstName']} {empleado['lastName']} - {empleado['emailAddress']}")
        

Los usuarios IT son:
Rebeca Sanchez - rebeca.sanchez@examplepython.com


Podemos crear listas usando expresiones de comprension o expresiones generadoras para filtrar rápidamente, por ejemplo:

In [42]:
import json

with open("resources/employee-data.json", "r") as f:
    datos = json.load(f)
    empleados = datos['Employees']

    empleados_CA = [empleado for empleado in datos['Employees'] if empleado['region'] == 'CA'] # Usando expresiones de comprension

    empleados_E1 = list(empleado for empleado in datos['Employees'] if empleado['employeeCode'] == 'E1') # usando expresión generadora

    print("empleados CA: ",len(empleados_CA))
    
    print("empleados E1: ",len(empleados_E1))
    
    empleados_E1_or_CA = empleados_E1+empleados_CA

    print("empleados_E1_or_CA con repetidos: ",len(empleados_E1_or_CA))

    # Convierte cada diccionario en una cadena y crea un conjunto con ellas, los diccionarios son estructuras de datos mutables y no pueden añadirse a un set, debido a que su hash podría cambiar
    empleados_E1_or_CA = set(json.dumps(empleado) for empleado in empleados_E1_or_CA) # for each empleado in empleados, genera una string de los datos del empleado en formato json y añadelo al set.
    #sería lo mismo que:
    
    #s = set()
    #for empleado in empleados_E1_or_CA:
    #   s.add(json.dumps(empleado))

    #s = list(json.dumps(d) for d in empleados_E1_or_CA) # Si esto lo hacemos en una lista no sirve, usamos las propiedades de los conjuntos

    print("empleados_E1_or_CA sin repetidos: ",len(empleados_E1_or_CA))




empleados CA:  4
empleados E1:  2
empleados_E1_or_CA con repetidos:  6
empleados_E1_or_CA sin repetidos:  5


En general se pueden leer y modificar toda clase de archivos, incluso sin hacer uso de las librerías, por ejemplo, vamos a leer un archivo html y un csv y por cada usuario del csv, generar varios archivos html personalizados:

In [None]:
import csv, os

with open('resources/email.html') as f:
    html_template = f.read()

    # Abrir el archivo en modo lectura
    with open('resources/interests.csv', 'r') as f:

        reader = csv.reader(f)
        headers = next(reader) #Ignorar la cabecera

        for tokens in reader:
           
            html = html_template #cada iteración escogemos la plantilla

            for i,token in enumerate(tokens, start = 1):
                html = html.replace('$'+str(i),  token) # Reemplazar el string
            try:
                os.mkdir('emails') #como intentará crear una carpeta por usuario dará un error
            except:
                pass # ignoramos el error, ya que no creará más carpetas
            with open('emails/'+tokens[0]+'.html', 'w') as f:
                f.write(html) # podemos comprobar los html en https://codebeautify.org/htmlviewer#

                #email_to(hmtl)