# Introducción a Python Avanzado - Parte 2
![](https://cdn.computerhoy.com/sites/navi.axelspringer.es/public/media/image/2022/01/python-lenguaje-programacion-2587785.jpg?tf=1200x)
<div style="text-align: right"> Luis A. Muñoz (2024)</div>

---
## Filesystem y archivos
El *filesystem* es la organización de los datos en el medio de almacenamiento por parte del sistema operativo. Para trabajar con soltura con archivos hay manejarse tambien así con el *filesystem*. En Windows, Linux y OS X, los archivos se organizan en un árbol de directorios que cuelgan de un nodo principal o archivo *root* (C:\ en Windows en caso del disco con esta etiqueta, o *./* en el caso de OSX o Linux). Todos los archivos estan ubicados en un sitio especifico dentro del *filesystem* y la forma de especificar esta dirección es con una ruta o *path*.

Por ejemplo, el archivo *proyecto1.py* puede estar alojado (en Windows) en la ruta *C:\Usuarios\elvio\Documentos*

![](https://www.december.com/unix/tutor/tree1.gif)


### La librería pathlib
Tradicionalmente, la gestión de las rutas en Python se hace utilizando las herramentas disponibles en la librería `os` para el control de las operaciones del sistema operativo. Por ejemplo, para definir la ruta anterior, sin importar el sistema operativo donde se este ejecutando el script, se puede definir el siguiente script:

In [9]:
import os

# Definicion de una ruta absoluta
PATH = os.path.join("C:", os.sep, "Usuarios", "elvio", "Documentos", "proyecto1.py")
print(PATH)
print(type(PATH))

C:\Usuarios\elvio\Documentos\proyecto1.py
<class 'str'>


Sin embargo, cuando se trata de manejar muchas rutas, o rutas muy extensas, el código puede volverse complejo. Esta es la razón por la que a partir de Python 3.5 esta disponible la libreria `pathlib` para la gestión de rutas de una forma más sencilla, en una aproximación orientada a objetos:

In [10]:
from pathlib import Path

# Definicion de una ruta absoluta
PATH = Path("C:", os.sep, "Usuarios", "elvio", "Documentos", "proyecto1.py")
print(PATH)
print(type(PATH))

C:\Usuarios\elvio\Documentos\proyecto1.py
<class 'pathlib.WindowsPath'>


Comparando ambos resultados, se observa que en el caso de `os.path.join` lo que se obtiene es un `str` que representa la ruta. En en caso de `pathlib.Path` se obtiene un _objeto ruta_. Esto quiere decir que muchas de las acciones que en el caso de la librería `os` son funciones de la librería, en el caso de `Path` son métodos de la clase o del objeto. Se puede obtener la ruta raíz de la sesión de usuario y la ruta actual:

In [18]:
current = Path.cwd()        # os.getcwd()
print(Path(current))

print(current.is_dir())     # os.isdir(str_path)
print(current.is_file())    # os.isfile(str_path)
print(current.exists())     # os.path.exists(str_path)

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02
True
False
True


Si, por ejemplo, se quiere definir la ruta de un nuevo directorio en el directorio actual:

In [20]:
PATH = Path(Path(current), Path("NuevoDir"))
print(PATH)

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir


Y podemos definir un archivo en esta ruta, del que podríamos obtener algunos atributos:

In [23]:
FILEPATH = Path(Path(current), Path("NuevoDir", "archivo.txt"))
print(FILEPATH)
print(FILEPATH.name)
print(FILEPATH.suffix)
print(FILEPATH.drive)
print(FILEPATH.stem)

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo.txt
archivo.txt
.txt
C:
archivo


También se puede acceder a los directorios padre:

In [24]:
print(FILEPATH)
print(FILEPATH.parent)
print(FILEPATH.parent.parent)

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02


Para la creación de archivos puede ser muy util utilizar el método `with_name`, que cambia el nombre del ultimo elemento de la ruta (el archivo):

In [81]:
FILEPATH = Path(Path(current), Path("NuevoDir", " "))

for i in range(1, 6):
    print(FILEPATH.with_name(f"archivo{i}.txt"))

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo1.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo2.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo3.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo4.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\archivo5.txt


### Uso de Path con la gestión de archivos
El uso de la clase `Path` esta orientado a la creación de rutas para la gestión de los archivos en el filesystem. Si se quiere crear un directorio y definir un archivo dentro del nuevo directorio, será necesario crear el nuevo directorio previamente. Por ejemplo, el código siguiente generará un error si el directorio "NuevoDir" no existe:

In [341]:
PATH = Path(Path.cwd(), "NuevoDir", "texto.txt")

with open(PATH, mode='w', encoding="utf-8") as f:
    f.write("Este es un texto de prueba")

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Asus\\OneDrive\\Escritorio\\ProgAvanz2024_0\\Material de clase\\Sesion 01\\Nuevo Dir\\texto.txt'

Para crear un nuevo directorio se puede utilizar el método `mkdir` del objeto `Path`:

In [88]:
import os

# Se crea el directorio "NuevoDir"
PATH = Path(Path.cwd(), "NuevoDir")
PATH.mkdir(exist_ok=True)    # "exist_ok=True" evita la excepción "FileExistsError"

# Se crea un archivo en la ruta que contiene el nuevo directorio
for idx in range(1, 11):
    filename = Path(PATH, f"texto{idx}.txt")
    with open(filename, mode='w', encoding="utf-8") as f:
        f.write(f"Este es un texto de prueba en el archivo '{filename.name}'")

Se puede acceder a las rutas de los recursos de un directorio con el método `iterdir()` que retorna un objeto iterable (que es más eficiente en memoria que `os.listdir(str_path)` que retorna una lista:

In [91]:
for item in PATH.iterdir():
    print(item)

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto1.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto10.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto2.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto3.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto4.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto5.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto6.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto7.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto8.txt
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\texto9.txt


---
### La librería os
Todo esto no quiere decir que las funciones de la librería `os` hayan sido desplazadas. `pathlib` solamente esta asociado a la gestión de las rutas. Para las operaciones con el filesystem las funciones de `os` son necesarias. Aqui algunos ejemplos:

In [144]:
from datetime import datetime

#os.path.getmtime()  -> Fecha de modificacion de un archivo (timestamp)
#os.path.getsize()   -> Tamaño del archivo (bytes)

PATH = Path.cwd()

print(f"  Directorio de {PATH}\n")
for dir_or_file in PATH.iterdir():
    str_out = ""
    str_out += f"{datetime.fromtimestamp(os.path.getmtime(dir_file)):%d/%m/%Y %H:%M:%S}" 
    
    if Path(dir_or_file).is_dir():
        str_out += "   <DIR>   "
    elif Path(dir_or_file).is_file():
        str_out += "           "
    
    str_out += f"{os.path.getsize(dir_or_file):8,} bytes   {dir_or_file.name}"
    print(str_out)
    

  Directorio de C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02

21/12/2023 22:29:20   <DIR>          0 bytes   .ipynb_checkpoints
21/12/2023 22:29:20             25,925 bytes   02 - Python Avanzado - Parte 2.ipynb
21/12/2023 22:29:20   <DIR>      4,096 bytes   NuevoDir


Otro ejemplo es la función `os.walk()`

In [145]:
os.walk(PATH)

<generator object _walk at 0x000001F5C2421EE0>

Esto retorrna un generador, por lo que podemos inspeccionar los retornos con `next`:

In [146]:
next(os.walk(PATH))

('C:\\Users\\Asus\\OneDrive\\Escritorio\\ProgAvanz2024_0\\Material de clase\\Sesion 02',
 ['.ipynb_checkpoints', 'NuevoDir'],
 ['02 - Python Avanzado - Parte 2.ipynb'])

Se observa que devuelve una tupla que contiene tres elementos: 

    (ruta, [directorios en la ruta], [archivos en la ruta])

Se puede iterar el generador para hacer una caminata de todas las rutas:

In [147]:
for root, dirs, files in os.walk(PATH):
    print(root)    

C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\.ipynb_checkpoints
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir
C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\NuevoDir\.ipynb_checkpoints


O inclusve, retornar un árbol con todos los archivos presentes en la ruta base:

In [160]:
for root, dirs, files in os.walk(PATH):
    level = root.replace(str(PATH), '').count(os.sep)     # Cuenta cuantos "/" hay luego de la ruta inicial
    indent = ' ' * 4 * level                              # para definir el nivel de indentacion
    print(f"{indent} + {Path(root).name}")                # e imprimir el nombre del directorio por niveles
    
    subindent = ' ' * 4 * (level + 1)                     # Lo mismo pero con archivos en la ruta
    for file in files:
        print(f"{subindent} - {file}")

 + Sesion 02
     - 02 - Python Avanzado - Parte 2.ipynb
     + .ipynb_checkpoints
         - 02 - Python Avanzado - Parte 2-checkpoint.ipynb
     + NuevoDir
         - texto1.txt
         - texto10.txt
         - texto2.txt
         - texto3.txt
         - texto4.txt
         - texto5.txt
         - texto6.txt
         - texto7.txt
         - texto8.txt
         - texto9.txt
         + .ipynb_checkpoints
             - texto4-checkpoint.txt


### Archivos CSV
Un archivo CSV es un archivo de texto con un formato estándar. En este, los valores se guardan como valores de texto, separados por algun delimitador, usualmente una coma (",") de donde viene el nombre Comma Separated Value, aunque puede ser un espacio en blanco, un tabulador ("\t") o un punto y coma (";").

Los archivos CSV son reconocidos por las Hojas de Cálculo como Excel y ordena los datos por columnas a partir del delimitador. Hay que tomar en consideración que en los países donde se utiliza la "," como separador de miles, se debe de utilizar el ";" para que un archivo CSV sea reconocido por Excel. Al final, un archivo CSV es una Hoja de Cálculo simplificada, sin pestañas ni fórmulas.

Hay otro detalle a considerar: un CSV no se puede manipular como un archivo de texto al que lo podemos seprar utilizando `split(',')` ya que no todas las comas son separadores. Un CSV también tiene sus propios caracteres de escape, lo que permite que una coma pueda ser parte de los valores (como en el caso de un número escrito con la forma 1,200). Esa es la razón por la que siempre hay que usar la librería `csv` para escribir un archivo CSV.

Los marcadores de personal suelen generar archivos CSV diarios. Vamos a generar una simulación de esto:

In [161]:
empleados = [["2/3/2024 07:20", "Elvio Lado"], 
             ["2/3/2024 07:22", "Elmer Curio"], 
             ["2/3/2024 07:30", "Elba Lazo"], 
             ["2/3/2024 07:36", "Susana Oria"], 
             ["2/3/2024 07:49", "Armando Paredes"]]

Para almacenar estos datos como un archivo CSV en Windows (y solo en Windows) hay un recordar establecer el parametro `newline=''` para evitar que se generen líneas en blanco entre los registros (esto por razones técnicas que estan detalladas [aqui](https://docs.python.org/3/library/csv.html#id3)).

In [162]:
import csv

with open("entrada.csv", mode='w', newline='') as csv_file:
    writer = csv.writer(csv_file, delimiter=';')
    writer.writerow(["HORA", "EMPLEADO"])
    
    for registro in empleados:
        writer.writerow(registro)
        
print("Archivo generado:", os.path.abspath("entrada.csv"))

Archivo generado: C:\Users\Asus\OneDrive\Escritorio\ProgAvanz2024_0\Material de clase\Sesion 02\entrada.csv


En el código anterior hay algunos detalles a considerar:
    
* Se utiliza el parametro `newline=''` por ser Windows. En otro sistema operativo esta opción no se coloca
* Se establece un objeto `csv.writer` sobre el archivo abierto para escribir sobre este.
* En el writer se define el tipo de separador como ";" para que sea compatible con Excel (por defecto es ",")
* Se esta utilizando el método `writerow(registro)` para escribir los registros. También se pudo haber llamado al método `writerows(empleados)`
* Se escribe una lista con los nombres de las columnas de los datos. Esto es el encabezado
* Se esta obteniendo la ruta absoluta del archivo generado con `os.path.abspath` para saber donde esta ubicado el archivo generado

Si todo esta bien, podrá abrir el archivo desde Excel.

JupyterLab tiene un visor de archivos CSV. Pruebe abrir el archivo desde el navegador de archivos a la izquierda para ver la información tabulada y podrá seleccionar el tipo de delimitador.

Ahora, leamos el archivo:

In [164]:
import csv

with open("entrada.csv") as file:
    reader = csv.reader(file, delimiter=';')
    next(reader)      # Con esto pasamos a la siguiente linea: eliminamos el encabezado
    
    for line in reader:
        print(f"* Nombre: {line[1]:20} Hora de ingreso: {line[0]}")

* Nombre: Elvio Lado           Hora de ingreso: 2/3/2024 07:20
* Nombre: Elmer Curio          Hora de ingreso: 2/3/2024 07:22
* Nombre: Elba Lazo            Hora de ingreso: 2/3/2024 07:30
* Nombre: Susana Oria          Hora de ingreso: 2/3/2024 07:36
* Nombre: Armando Paredes      Hora de ingreso: 2/3/2024 07:49


Detalles a considerar del código anterior:

* No es necesario especificar `newline=''`. Esto es solo para escirbir un archivo CSV
* No se especifica el modo al momento de abrir el archivo. El modo por defecto es lectura
* Se especifica un `csv.reader` para retornar una lista de datos a partir de cada línea de texto
* Se especifica el tipo de separador en el reader.
* Se estan utilizando los indices de la lista (en este caso, `line`) para mostrar los resultados.

También se puede utilizar la clase `DictReader` si se quiere retornar un diccionario a partir del CSV, donde las llaves del diccionario por filas se obtendrá de la información de la cabecera del CSV. Esto puede retornar un código más limpio ya que no será necesario descartar el encabezado y se accede a los campos con mayor claridad.

In [165]:
import csv

with open("entrada.csv") as file:
    reader = csv.DictReader(file, delimiter=';')

    for line in reader:
        print(f"* Nombre: {line['EMPLEADO']:20} Hora de ingreso: {line['HORA']}")

* Nombre: Elvio Lado           Hora de ingreso: 2/3/2024 07:20
* Nombre: Elmer Curio          Hora de ingreso: 2/3/2024 07:22
* Nombre: Elba Lazo            Hora de ingreso: 2/3/2024 07:30
* Nombre: Susana Oria          Hora de ingreso: 2/3/2024 07:36
* Nombre: Armando Paredes      Hora de ingreso: 2/3/2024 07:49


## Archivos JSON
Un archivo JSON es un archivo con un formato más complejo. Es, al final, un diccionario almacenado. Para gestionar este tipo de archivos utilizaremos el módulo `json`. 

Ampliemos el caso del registro de entrada con más datos, esta vez estructurados como un diccionario:

In [170]:
empleados = [{"ingreso": "6/6/2024 07:20", "salida": "6/6/2024 19:30", "nombre": "Elvio Lado"}, 
             {"ingreso": "6/6/2024 07:22", "salida": "6/6/2024 18:50", "nombre": "Elmer Curio"}, 
             {"ingreso": "6/6/2024 07:30", "salida": "6/6/2024 19:10", "nombre": "Elba Lazo"}, 
             {"ingreso": "6/6/2024 07:36", "salida": "6/6/2024 20:10", "nombre": "Susana Oria"}, 
             {"ingreso": "6/6/2024 07:49", "salida": "6/6/2024 17:59", "nombre": "Armando Paredes"}]

Esta vez tenemos una lista de registros, donde cada registro es un diccionario. Esta estructura la podemos almacenar tal cual en formato JSON. Para volcar los datos a un archivo JSON se utiliza el método `json.dump(data, file)`:

In [171]:
import json

with open("marca_dia.json", mode='w') as json_file:
    json.dump(empleados, json_file)

Si se abre un archvio JSON en un Bloc de Notas verá una lista con diccionarios escrita como un texto. Pero un visualizador de archvios JSON mostrará un resultado diferente. Pruebe abriendo el archivo en JupyterLab y verá la estructura de la información.

La lectura de un archivo JSON utiliza el método `json.load(file)`:

In [172]:
with open("marca_dia.json") as json_file:
    data = json.load(json_file)
    
print(data)

[{'ingreso': '6/6/2024 07:20', 'salida': '6/6/2024 19:30', 'nombre': 'Elvio Lado'}, {'ingreso': '6/6/2024 07:22', 'salida': '6/6/2024 18:50', 'nombre': 'Elmer Curio'}, {'ingreso': '6/6/2024 07:30', 'salida': '6/6/2024 19:10', 'nombre': 'Elba Lazo'}, {'ingreso': '6/6/2024 07:36', 'salida': '6/6/2024 20:10', 'nombre': 'Susana Oria'}, {'ingreso': '6/6/2024 07:49', 'salida': '6/6/2024 17:59', 'nombre': 'Armando Paredes'}]


### Tip: Como imprimir un diccionario bien
El resultado anterior es, por decir algo, bastante feo. Hay una forma de imprimir un diccionario de forma estética valiéndose del módulo `json`, en este caso del método `json.dumps(data)` (la 's' en dump*s* es por 'string'), que toma un diccionario (o una estructura JSON que viene a ser lo mismo) y hace un volcado sobre un string que puede tener un fomato:

In [173]:
print(json.dumps(data, indent=4))    # indent es el número de espacios para la sangría de niveles

[
    {
        "ingreso": "6/6/2024 07:20",
        "salida": "6/6/2024 19:30",
        "nombre": "Elvio Lado"
    },
    {
        "ingreso": "6/6/2024 07:22",
        "salida": "6/6/2024 18:50",
        "nombre": "Elmer Curio"
    },
    {
        "ingreso": "6/6/2024 07:30",
        "salida": "6/6/2024 19:10",
        "nombre": "Elba Lazo"
    },
    {
        "ingreso": "6/6/2024 07:36",
        "salida": "6/6/2024 20:10",
        "nombre": "Susana Oria"
    },
    {
        "ingreso": "6/6/2024 07:49",
        "salida": "6/6/2024 17:59",
        "nombre": "Armando Paredes"
    }
]


---
## Programación Orientada a Objetos (OOP)
Es un paradigma de programacion en el que se crea una entidad llamada "clase"  que encapsula en una sola estructura variables (propiedades) y funciones (métodos)  asociados a lo que sería un "objeto". Estos objetos son "instanciados" a partir de la clase que sirve como plantilla.

En el siguiente código se crea una clase Alumno en términos de nombre, apellido, código y estado de matricula. Se definen los *setters* y *getters* para el control de atributos (a excepción de *presente* ya que es un atributo que se define internamente). Tambien se define el método *esta_matriculado* para conocer el estado de la matricula (el *getter* de self.matricula) asi como el método *mágico* `__repr__` que retorna una cadena que describe el objeto.

`__repr__` y `__str__` son ligeramente diferentes: el primero es invocado cuando se consulta por un objeto y el segundo cuando se imprime un objeto. Sin embargo, si `__str__` no está definido, se utiliza de forma automática `__repr__` por lo que es preferible definir este que `__str__`.

In [174]:
class Alumno:
    def __init__(self, nombre='', apellido='', codigo=''):
        self.nombre = nombre
        self.apellido = apellido
        self.codigo = codigo
        self.matricula = False
        
    @property
    def nombre(self):
        return self.__nombre
    
    @property
    def apellido(self):
        return self.__apellido
    
    @property
    def codigo(self):
        return self.__codigo
    
    @nombre.setter
    def nombre(self, val):
        if isinstance(val, str):
            self.__nombre = val
        else:
            raise TypeError("El campo 'nombre' debe ser tipo 'str'")
   
    @apellido.setter
    def apellido(self, val):
        if isinstance(val, str):
            self.__apellido = val
        else:
            raise TypeError("El campo 'apellido' debe ser tipo 'str'")
    
    @codigo.setter
    def codigo(self, val):
        if isinstance(val, str):
            self.__codigo = val
        else:
            raise TypeError("El campo 'codigo' debe ser tipo 'str'")
            
    def esta_matriculado(self):
        return self.matricula
            
    def __repr__(self):
        return f"Alumno(nombre={self.nombre}, apellido={self.apellido}, codigo={self.codigo})"
        

In [175]:
alumno1 = Alumno('Elvio', 'Lado', 'a81277222')
print(alumno1)
print(alumno1.esta_matriculado())
print(alumno1.matricula)
alumno1.matricula = True
print(alumno1.matricula)

Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
False
False
True


### Herencia
Se puede crear una clase a partir de otra, colocando la clase *padre* entre `()` al momento de definirla. Esta clase heredará todas las propiedades y métodos de la clase padre.

In [176]:
# Clase Delegado es hija de Clase Alumno
class Delegado(Alumno):
    def __init__(self, nombre, apellido, codigo, curso):
        super().__init__(nombre, apellido, codigo)
        self.curso = curso
        
    def __repr__(self):
        return f"Delegado(nombre={self.nombre}, apellido={self.apellido}, codigo={self.codigo}, curso={self.curso})"

In [177]:
delegada = Delegado('Dina', 'Mita', 'u20181811', 'Programacion')
print(delegada)
print(delegada.esta_matriculado())

delegada.matricula = True
print(delegada.esta_matriculado())

Delegado(nombre=Dina, apellido=Mita, codigo=u20181811, curso=Programacion)
False
True


Observe que la clase `Delegado` no define la propiedad `self.matricula` ni el método `self.esta_matriculado`; sin embargo estan disponiibles para ser utilizados por el objeto `Delegado` instanciado.

## @staticmethod y @classmethod
Existen algunos decoradores que permiten definir dos casos especiales dentro de la definición de una clase: 

- Cuando se quiere definir una función utilitaria dentro de una clase: @staticmethod
- Cuando se quiere definir un método de la clase y no del objeto: @classmethod

Un _staticmethod_ es un método que funge como una función interna de la clase y que opera como una utilidad de la clase. Por ejemplo, se quiere cambiar la clase `Alumno` para que genere un código de forma aleatoria al momento de instanciar la clase, considerando el año de matrícula. Para esto, se puede crear una función que retorne este código para utilizarlo dentro de la definición de las propiedades de la clase:

In [200]:
from datetime import datetime
from random import randint

class Alumno:
    def __init__(self, nombre='', apellido='', codigo=''):
        self.nombre = nombre
        self.apellido = apellido
        self.matricula = False
        
        if not codigo:
            self.codigo = Alumno.genera_codigo()
        else:
            self.codigo = codigo
        
    @staticmethod
    def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"
            
    def esta_matriculado(self):
        return self.matricula
            
    def __repr__(self):
        return f"Alumno(nombre={self.nombre}, apellido={self.apellido}, codigo={self.codigo})"
        

In [202]:
alumno1 = Alumno('Elvio', 'Lado')
print(alumno1)

Alumno(nombre=Elvio, apellido=Lado, codigo=u202330935)


Un _classmethod_ es un método que esta asociado a la clase y no a los objetos. Se utiliza principalmente para generar nuevos constructores. Por ejemplo, digamos que se quiere generar alumnos a partir de cadenas de texto de la forma "_nombre apellido codigo_" que se extraen de un archivo. Entonces podemos definir un _classmethod_ que afecte la forma como funciona el instanciamiento del objeto en la clase:

In [203]:
class Alumno:
    def __init__(self, nombre='', apellido='', codigo=''):
        self.nombre = nombre
        self.apellido = apellido
        self.matricula = False
        
        if not codigo:
            self.codigo = Alumno.genera_codigo()
        else:
            self.codigo = codigo
        
    @staticmethod
    def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"
           
    @classmethod
    def from_string(cls, string):
        nombre, apellido, codigo = string.split()
        return cls(nombre, apellido, codigo)      # cls: Equivalente a Alumno(nombre, apellido, codigo)
    
    def __repr__(self):
        return f"Alumno(nombre={self.nombre}, apellido={self.apellido}, codigo={self.codigo})"

In [204]:
alumno_str = "Elvio Lado a81277222"
alumno1 = Alumno.from_string(alumno_str)    # equivalente a: alumno1 = Alumno("Elvio", "Lado", "a81277222")
print(alumno1)

Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)


---
### Métodos mágicos o "dunder methods"
Los métodos que inician y terminan con "__" de denominan "under-under" o "doble-under" o "dunder" o simplemente métodos mágicos. Estos son la columna vertebral del Modelo de Datos de Python. El estudio de esto escapa el alcance de este curso, pero conocer la idea general de esto ayuda a entender la forma como Python funciona como lenguaje de programación.

Los métodos mágicos son heredados de una *superclase* que es la clase Padre de todas las clases que se definen en Python. Muchas instrucciones y operaciones estan asociadas a estos métodos. Por ejemplo, cuando se suman dos variables tipo `int` como:

    a, b = 3, 5
    print(a + b)
    
Lo que realmente sucede es lo siguiente:

    print(a.__add__(b))
    
Se esta invocando el método estático `__add__` sobre el objeto `a` con el parametro de entrada `b`. Esto es muy útil pues permite definir la operación suma en un objeto. Por ejemplo, si definimos una clase llamada Grupo:

In [205]:
class Grupo:
    def __init__(self, *args):
        self.miembros = [arg for arg in args]
        
    def __repr__(self):
        str_out = "Miembros del grupo:\n"
        for idx, miembro in enumerate(self.miembros, start=1):
            str_out += f'{idx} - {miembro}\n'
            
        return str_out

Luego, podemos modificar nuestra clase Alumnos para hacer algo bastante natural:

In [208]:
class Alumno:
    def __init__(self, nombre='', apellido='', codigo=''):
        self.nombre = nombre
        self.apellido = apellido
        self.codigo = codigo

    def __add__(self, other):
        return Grupo(self, other)

    def __repr__(self):
        return f"Alumno(nombre={self.nombre}, apellido={self.apellido}, codigo={self.codigo})"

In [209]:
alumno1 = Alumno('Elvio', 'Lado', 'a81277222')
alumno2 = Alumno('Dina', 'Mita', 'u20181811')
grupo = alumno1 + alumno2
print(grupo)

Miembros del grupo:
1 - Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
2 - Alumno(nombre=Dina, apellido=Mita, codigo=u20181811)



Hemos utilizado el operador `+` para sumar estudiantes y meterlos en un grupo de trabajo. Esto resulta mejor que tratar de crear un método en la clase `Grupo` que permita agregar alumnos a una clase, ¿no?. Sin embargo, que pasa si queremos sumar a tres alumnos en un grupo: 

In [210]:
alumno1 = Alumno('Elvio', 'Lado', 'a81277222')
alumno2 = Alumno('Dina', 'Mita', 'u20181811')
alumno3 = Alumno("Elmer", "Curio", 'u20148282')
grupo = alumno1 + alumno2 + alumno3

TypeError: unsupported operand type(s) for +: 'Grupo' and 'Alumno'

Estamos sumando un objeto Grupo con un objeto Alumno, por lo que debemos definir el método `__add__` en la clase `Grupo`:

In [212]:
class Grupo:
    def __init__(self, *args):
        self.miembros = [arg for arg in args]
        
    def __add__(self, other):
        if isinstance(other, Alumno):
            return Grupo(*self.miembros, other)
        
    def __repr__(self):
        str_out = "Miembros del grupo:\n"
        for idx, miembro in enumerate(self.miembros, start=1):
            str_out += f'{idx} - {miembro}\n'
            
        return str_out

In [214]:
alumno1 = Alumno('Elvio', 'Lado', 'a81277222')
alumno2 = Alumno('Dina', 'Mita', 'u20181811')
alumno3 = Alumno("Elmer", "Curio", 'u20148282')
grupo = alumno1 + alumno2 + alumno3
print(grupo)

Miembros del grupo:
1 - Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
2 - Alumno(nombre=Dina, apellido=Mita, codigo=u20181811)
3 - Alumno(nombre=Elmer, apellido=Curio, codigo=u20148282)



Pero esto puede ponerse mejor. Modifiquemos la clase `Grupo` con dos métodos mágicos adicionales:

In [215]:
class Grupo:
    def __init__(self, *args):
        self.miembros = [arg for arg in args]
        
    def __add__(self, other):
        if isinstance(other, Alumno):
            return Grupo(*self.miembros, other)
        
    def __len__(self):
        return len(self.miembros)
               
    def __getitem__(self, idx):
        return self.miembros[idx]
        
    def __repr__(self):
        str_out = "Miembros del grupo:\n"
        for idx, miembro in enumerate(self.miembros, start=1):
            str_out += f'{idx} - {miembro}\n'
            
        return str_out

Parece poco pero ahora podemos hacer muchas cosas con un objeto clase `Grupo`. Primero, creemos un Grupo de cinco alumnos:

In [216]:
alum1 = Alumno('Elvio', 'Lado', 'a81277222')
alum2 = Alumno('Dina', 'Mita', 'u20181811')
alum3 = Alumno('Elmer', 'Curio', 'u2019122')
alum4 = Alumno('Alan', 'Brito', 'u20192816')
alum5 = Alumno('Susana', 'Oria', 'u20162722')

grupo = alum1 + alum2 + alum3 + alum4 + alum5
print(grupo)

Miembros del grupo:
1 - Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
2 - Alumno(nombre=Dina, apellido=Mita, codigo=u20181811)
3 - Alumno(nombre=Elmer, apellido=Curio, codigo=u2019122)
4 - Alumno(nombre=Alan, apellido=Brito, codigo=u20192816)
5 - Alumno(nombre=Susana, apellido=Oria, codigo=u20162722)



Ahora podemos calcular cuantos miembros hay en el grupo:

In [217]:
print(len(grupo))

5


Ademas, gracias al método `__getitem__` tenemos indices:

In [218]:
print(grupo[0])     # grupo.__getitem__(0)
print(grupo[-1])

Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
Alumno(nombre=Susana, apellido=Oria, codigo=u20162722)


Inclusive index slicing:

In [219]:
print(grupo[::2])

[Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222), Alumno(nombre=Elmer, apellido=Curio, codigo=u2019122), Alumno(nombre=Susana, apellido=Oria, codigo=u20162722)]


Y nuestro grupo es iterable!:

In [221]:
for alumno in grupo:
    print("-", alumno.nombre)

- Elvio
- Dina
- Elmer
- Alan
- Susana


¿Y si queremos elegir un alumno al azar como delegado del grupo? No necesitamos definir un método en la clase `Grupo`. Podemos utilizar el método `choice` de la librería `random`:

In [222]:
from random import choice

delegado = choice(grupo)
print(f"Delegado: {delegado.nombre} {delegado.apellido}")

Delegado: Dina Mita


¿Y si queremos la lista de los alumnos del grupo ordenados por orden alfabetico en función del nombre?...

In [223]:
for alumno in sorted(grupo, key=lambda x: x.nombre):    # key: funcion que retorna el elemento de referencia para el ordenamiento
    print(alumno)

Alumno(nombre=Alan, apellido=Brito, codigo=u20192816)
Alumno(nombre=Dina, apellido=Mita, codigo=u20181811)
Alumno(nombre=Elmer, apellido=Curio, codigo=u2019122)
Alumno(nombre=Elvio, apellido=Lado, codigo=a81277222)
Alumno(nombre=Susana, apellido=Oria, codigo=u20162722)


La simple definición de los métodos `__len__` y `__getitem__` permiten que nuestra clase pueda interactuar con el Modelo de Datos de Python.

---
## Dataclasses
El uso de las clases, muchas veces (y sobre todo en Ciencia de Datos) tiene como propósito único servir como un repositorio de datos; es decir, una clase que no tenga métodos. Esto en parte porque en Python, al ser las propiedades de una clase accesible de forma pública, no se necesitan métodos para acceder a esta información. En Python 3.7 se introdujo el concepto de _dataclasses_ que es básicamente un decorador que construye una clase a partir de una definición más simple.

In [232]:
from dataclasses import dataclass

@dataclass
class Alumno:
    nombre: str
    apellido: str
    codigo: str

In [233]:
alumno1 = Alumno("Elvio", "Lado", "a89789737")
print(alumno1)

Alumno(nombre='Elvio', apellido='Lado', codigo='a89789737')


In [234]:
alumno1.nombre = "Ernesto"
print(alumno1)

Alumno(nombre='Ernesto', apellido='Lado', codigo='a89789737')


Como se puede observar, es un objeto mutable. Por otro lado, implementa algunos métodos (como `__repr__`) en la propia definición y algunos tienen un funcionamiento orientados a los datos. Por ejemplo:

In [235]:
class Alumno:
    def __init__(self, nombre, apellido):
        self.nombre = nombre
        self.apellido = apellido
        
alumno1 = Alumno("Elvio", "Lado")
alumno2 = Alumno("Elvio", "Lado")

print(alumno1 == alumno2)

False


Esta operación indica que los dos objetos son diferentes ya que el método `__eq__` (defindo como parte del modelo de datos en Python en la clase) verifica si ambos objetos estan registrados en la misma ubicación física (en memoria) y por lo tanto no son lo mismo. Se puede recargar el método `__eq__` para variar su acción. Sin embargo, la implementación del método `__eq__` es las `dataclasses` considera los datos como elemento de comparación:

In [236]:
@dataclass
class Alumno:
    nombre: str
    apellido: str
        
alumno1 = Alumno("Elvio", "Lado")
alumno2 = Alumno("Elvio", "Lado")

print(alumno1 == alumno2)

True


Hay más elementos interesantes en un `dataclass` como para considerar la forma más eficiente de definir una clase en Python sin métodos. Por ejemplo, se puede considerar valores por defecto:

In [251]:
from dataclasses import dataclass, field

def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"

@dataclass
class Alumno:
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)


In [252]:
alumno = Alumno("Elvio", "Lado")
print(alumno)

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202351742')


Inclusive, se pueden validar algunos datos con el método `__post_init__`:

In [258]:
from dataclasses import dataclass, field

def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"

@dataclass
class Alumno:
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")


In [259]:
alumno = Alumno("Elmer", "Curio", 20, 87727272)

TypeError: El código del alumno debe ser un 'str'

Los _dataclasses_ implementan los métodos `__init__`, `__repr__` y `__eq__`. Sin embargo, tambien soportan los métodos mágicos `__lt_`_, `__le__`, `__gt__` y `__ge__`, solo que no por defecto. Para esto se debe de especificar la propiedad `order`:

In [282]:
from dataclasses import dataclass, field

def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"

@dataclass(order=True)
class Alumno:
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")


In [285]:
alumno1 = Alumno("Elmer", "Curio", 18)
alumno2 = Alumno("Dina", "Mita", 20)
alumno1 > alumno2

True

Al habilitar la opción `order=True` como parametro del decorador `@dataclass` se habilitan las métodos anteriores. El criterio de ordenamiento estará en función de las propiedades del objeto. En este caso la "E" de "Elmer" esta despues que la "D" de "Dina" en el alfabeto y por lo tanto es mayor. Sin embargo, se puede cambiar el criterio de ordenamiento la propiedad `sort_index`, indicando que no es parte del instanciamiento (`init=False`) y que no se mostrará al momento de imprimir el objeto (`repr=False`):

In [286]:
from dataclasses import dataclass, field

def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"

@dataclass(order=True)
class Alumno:
    sort_index : int = field(init=False, repr=False)
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")
            
        self.sort_index = self.edad


In [287]:
alumno1 = Alumno("Elmer", "Curio", 18)
alumno2 = Alumno("Dina", "Mita", 20)
alumno1 > alumno2

False

Ahora, se esta evaluando si "Elmer" es mayor que "Dina" y esta vez la respuesta es Falsa.

Otro parametro interesante es `kw_only=True` que define que los atributos en el instanciamiento no utilizaran la definición posicional sino solamente el uso de los nombres de los parametros (keywords):

In [288]:
from dataclasses import dataclass, field

def genera_codigo():
        return f"u{datetime.now():%Y}{randint(10000, 99999)}"

@dataclass(order=True, kw_only=True)
class Alumno:
    sort_index : int = field(init=False, repr=False)
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")
            
        self.sort_index = self.edad

In [291]:
alumno1 = Alumno("Elmer", "Curio")

TypeError: Alumno.__init__() takes 1 positional argument but 3 were given

In [292]:
alumno1 = Alumno(nombre="Elmer", apellido="Curio")

Por último, los _dataclasses_ también soportan herencia:

In [293]:
@dataclass
class Delegado(Alumno):
    curso: str


In [296]:
delegado = Delegado(nombre="Elvio", apellido="Lado", curso="Python")
print(delegado)

Delegado(nombre='Elvio', apellido='Lado', edad=18, codigo='u202312368', curso='Python')


## Bonus Track:
## Pydantic: dataclasses con validación
En el uso de dataclasses se considera que se cuenta con un ambiente controlado, es decir en donde las propiedades de una clase tienen los tipos de datos correctos. El uso de anotaciones de tipos sirve para para eso, solo anotación de tipos, y aunque se pueden validar los datos utilizando alguna construcción en el método `__post_int__`, la validación de datos no es una funcionalidad automática.

Aqui es donde esta _pydantic_. Esta es una librería que permirte construír clases heredadas de un objeto `BaseModel` que tiene todas las funcionalidades de los _dataclasses_ pero que agrega validación de datos (ademas de serializacion en JSON para la integración con otras apliacionaciones). Si existe la necesidad de validar los datos, entonces se recomienda el uso de `pydantic` (esto porque al validar los tipos de las propiedades de una clase en instanciamiento de objetos es un proceso mucho más lento).

Volvamos a definir la clase `Alumno` con los mismos criterios pero con `pydantic`:

In [331]:
from pydantic import BaseModel

class Alumno(BaseModel):
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")

In [332]:
Alumno(nombre="Elvio", apellido="Lado")

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202318547')

Si intenta instanciar el objeto sin utilizar _keywords_ retornará una excepción (como en el caso de `kw_only=True` en los _dataclasses). Si ingresa una edad con un tipo de dato incorrecto también lanzará una excepción:

In [315]:
alumno1 = Alumno(nombre="Elvio", apellido="Lado", edad='dieciocho')
print(alumno1)

ValidationError: 1 validation error for Alumno
edad
  Input should be a valid integer, unable to parse string as an integer [type=int_parsing, input_value='dieciocho', input_type=str]
    For further information visit https://errors.pydantic.dev/2.4/v/int_parsing

Aunque `pydantic` intenta ajustar el dato (en este caso, intenta converír el dato de edad en un campo tipo `int`) lo que puede ser conveniente:

In [333]:
Alumno(nombre="Elvio", apellido="Lado", edad='18')

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202333565')

Las validaciones pueden ser más específicas utilizando clases de validación definidas en la librería:

In [336]:
# Instalar el paquete de validación para emails: "pip install pydantic[email]"
from pydantic import BaseModel, EmailStr

class Alumno(BaseModel):
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    email: EmailStr
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")

In [337]:
Alumno(nombre="Elvio", apellido="Lado", edad=18, email='elado@mail.com.pe')

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202393512', email='elado@mail.com.pe')

Se pueden insertar validaciones personalizadas con la función `field_validator` como decorador de la función de validación, por ejemplo, para controlar que la edad no sea negativa:

In [338]:
from pydantic import BaseModel, EmailStr, field_validator, Str

class Alumno(BaseModel):
    nombre: str
    apellido: str
    edad: int = 18
    codigo: str = field(default_factory=genera_codigo)
    email: EmailStr
    
    def __post_init__(self):
        if not isinstance(self.codigo, str):
            raise TypeError("El código del alumno debe ser un 'str'")
            
    @field_validator('edad')
    def validar_edad(cls, value):
        if value <= 0:
            raise ValueError("El campo 'edad' debe ser un 'str' mayor que 0")
        return value

In [341]:
Alumno(nombre="Elvio", apellido="Lado", edad=18, email='elado@mail.com.pe')

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202363151', email='elado@mail.com.pe')

Una de las razones por las que `pydantic` es muy utilizado en algunas librerías externas para el intercambio de información, es funcionalidad de serialización a JSON (o inclusive a un diccionario). Esto significa que puede convertir una clase a un objeto JSON para poder intercambiar información entre sistemas.

In [350]:
alumno1 = Alumno(nombre="Elvio", apellido="Lado", edad=18, email='elado@mail.com.pe')
alumno1.model_dump_json()    # JSON Object

'{"nombre":"Elvio","apellido":"Lado","edad":18,"codigo":"u202370890","email":"elado@mail.com.pe"}'

In [351]:
alumno1.model_dump()     # Dict object

{'nombre': 'Elvio',
 'apellido': 'Lado',
 'edad': 18,
 'codigo': 'u202370890',
 'email': 'elado@mail.com.pe'}

Se puede realizar el proceso inverso: a partir de un objeto JSON construír una clase o a partir de un diccionario:

In [358]:
json_str = '{"nombre":"Elvio","apellido":"Lado","edad":18,"codigo":"u202370890","email":"elado@mail.com.pe"}'

Alumno.model_validate_json(json_str)     # A partir de un JSON Object

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202370890', email='elado@mail.com.pe')

In [356]:
data = {'nombre': 'Elvio',
         'apellido': 'Lado',
         'edad': 18,
         'codigo': 'u202370890',
         'email': 'elado@mail.com.pe'}

Alumno.model_validate(data)           # A partir de un diccionario

Alumno(nombre='Elvio', apellido='Lado', edad=18, codigo='u202370890', email='elado@mail.com.pe')

El número de tipos de datos que se pueden incluir es las validaciones de forma nativa es bastante amplio (https://docs.pydantic.dev/latest/api/types/). Por ejemplo, en el ejemplo de validación de edad positiva, se pudo utilizar la clase validadora de tipos `PositiveInt`. Tambíén hay validadores de rutas (`FilePath`, `DirectoryPath`). Solo consulte la documentación para ajustar el diseño de su clase a los tipos correctos.