<a href="https://colab.research.google.com/github/qsebas/clases-python/blob/main/Curso_Python_clase_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Módulos de la stdlib

La stdlib de python es bastante completa, a continuación veremos algunos de los módulos mas utilizados para tener una idea de que hay. Pero se recomienda mirar el [listado completo](https://docs.python.org/3/library/)

### sys

[sys](https://docs.python.org/3/library/sys.html) es el módulo que nos permite interactuar con el interprete de python las funciones mas usadas son:

  * **sys.version**

    devuelve un string con la version de python
  * **sys.version_info**

    devuelve un objeto con la información de versión de python por lo que se puede usar atributos para ver cada parte, por ejemplo sys.version_info.major o sys_version_info.minor
    
  * **sys.platform**

    devuelve el sistema operativo en el que está corriendo ("linux" / "win32" / "darwin" (MacOs) / ...)
  * **sys.modules**

    devuelve todos los módulos cargados en memoria
  * **sys.path**

    devuelve la lista de ubicaciones donde python va a buscar nuevos módulos
  * **sys.argv**

    devuelve la lista de parámetros con la que fue ejecutado el comando

  * **sys.stdin sys.stdout sys.stderr**

    son los objetos nativos para poder escribir en consola o tomar teclas de teclado, son los usados por input() o por print() por ejemplo

  * **sys.executable**

    devuelve el path del ejecutable de python que se está usando

  * **sys.getsizeof(object)**

    devuelve el tamaño en bytes del objeto en memoria




In [None]:
import sys
print(sys.platform)
print(sys.version)

### os

[os](https://docs.python.org/3/library/os.html) es un módulo para gestionar la interacción con el sistema de archivos del sistema operativo

  + **os.environ**

    devuelve un dict con todas las variables de entorno del sistema operativo, por ejemplo os.environ["PATH"] devuelve el path del sistema
  + **os.chdir(nuevo_dir) y os.getcwd()**

    permite cambiar el directorio corriente y saber en cual estamos
  + **os.listdir()** 

    devuelve una lista de los archivos y directorios en el directorio actual
  + **os.mkdir("nombre_directorio")**

    crea un directorio en el dir actual
  + **os.remove("path/to/file") y os.rmdir("path/to/dir")**

    borra un archivo o un directorio segun el caso
  + **os.rename("path/to/source", "path/to/dest")**

    renombra un archivo o un directorio
  + **os.stat("path/to/file_or_folder")**

    devuelve info de sistema operativo de un archivo o directorio por ejemplo tamaño o guid o fecha de creación
  + **os.sep**

    devuelve el separador de path del sistema operativo (/ o \\)
  + **[os.path](https://docs.python.org/3/library/os.path.html)**

    este submódulo se encarga de la gestión de paths de manera sencilla, existe otro módulo con mayor funcionalidad para manejo de paths, es [pathlib](https://docs.python.org/3/library/pathlib.html)
    + **os.path.join("path", "to", "file")**

      devuelve el path (usando / o \) segun sistema operativo 
  
    + **os.path.exits("path/to/file")**

      devuelve si existe un archivo o directorio
    + **os.path.getsize("path/to/file")**

      devuelve el tamaño de un archivo
    + **os.path.isfile("path/to") o os.path.isfile("path/to")**

      devuelve si es un archivo o un directorio
    + **os.path.abspath("relative/path/to")**

      devuelve el path absoluto de un relativo
    + **os.path.relpath("/absolute/path/to")**

      devuelve el path relativo para llegar al destino desde el directorio actual
    + **os.path.basename("path/to/directory")**

      devuelve el sólo el nombre del directorio (sacando el resto del path)
    
    + **os.path.getctime("path/to/file")**

      devuelve la fecha de creación del archivo (el formato es "epoch" o cantidad de segundos desde 1/1/1970)

    + **os.path.getmtime("path/to/file")**

      devuelve la fecha de modificación del archivo (el formato es "epoch" o cantidad de segundos desde 1/1/1970)

  + **os.walk("path/to/root")**

    es una de las funciones claves de este módulo, sirve para "navegar" un directorio recursivamente, devuelve un iterador (un yield por cada subdirectorio)... cada iteración devuelve una tupla,
    + el primer elemento es el path del subdirectorio
    + el segundo elemento es la lista de directorios en ese path
    + el tercero la lista de archivos ese path

    puede pasar que que el os.walk encuentre un symlink y que el archivo apuntado no exista, hay que tener cuidado si se va a usar ciegamente ese archivo, hay que verificar que exista primero



In [None]:
import os
# este metodo imprime todos los archivos que hay dentro de un directorio (recursivamente)
os.chdir(os.path.join(os.sep, "content"))

for root, dirs, files in os.walk("."):
  for f in files:
    print(os.path.join(os.path.abspath(root), f))

os.chdir(os.path.join(os.sep, "content", ".config")) # me voy a /content/config 

# veo el path relativo a /content/sample_data
print("path relativo: ", os.path.relpath(os.path.join(os.sep, "content", "sample_data")))


### datetime
[datetime](https://docs.python.org/3/library/datetime.html) es un modulo con clases y funciones relativas a fechas, hora, tiempo, zona horaria
+ datetime

  + **datetime.timedelta**
    
    clase que maneja diferencias de fechas y horarios, se puede construir con dias, horas, minutos, segundos, microsegundos
    + timedelta(days=23333, hours=20)
    + timedelta(hours=-4)

    se pueden realizar operaciones aritméticas entre timedeltas y dejando otro timedelta como resultado

    + timedelta(hours=2) + timedelta(minutes=30)

    la clase timedelta tiene métodos y atributos

    + td.days
    + td.hours
    + td.seconds
    + td.miliseconds
    + td.total_seconds()

  + **datetime.timezone**

    clase para poder manejar zonas horarias
    + timezone.utc
    + timezone(timedelta(hours=-8))

  + **datetime.datetime**

    clase que almacena una fecha_hora, tiene varias formas de usar el constructor, pero necesariamente hay que pasar año, mes y día (posicionalmente o por parametro con nombre)
    + datetime(year=2010, month=10, day=22, hour=23, minute=11, second=44)
    + datetime(2010, 10, 22, 23, 11, 44)
    + datetime(2010, 10, 22)
    + datetime(2010, 10, 22, 23, 11, 44, tzinfo=timezone(timedelta(hours=4)))
    + datetime.fromtimestamp(ts_epoch)  # toma un valor de tiempo tipo epoch, o cantidad de segundos desde 1/1/1970
    + datetime.strptime("21/11/06 16:30", "%d/%m/%y %H:%M")
    + datetime.fromisoformat(iso_8601)
      + datetime.fromisoformat('2011-11-04')
      + datetime.fromisoformat('2011-11-04 00:05:23.283')
    + datetime.now()
    + datetime.now(tzinfo=timezone.utc)

    un objeto de la clase datetime tiene varios métodos y atributos

    + dt.year
    + dt.month
    + dt.day
    + dt.hour
    + dt.time
    + dt.astimezone(timezone.utc)

    se le puede sumar o restar timedelta a un datetime

    + dt + timedelta(days=20)

    y si se restan dos datetime devuelve un timedelta

    + timedelta1 = dt1 - dt2

  + **datetime.date**

    similar a datetime, pero sin conocmiento de horarios ni de zonas horarias. 
    + date(year=2010, month=10, day=22)
    + date(2010, 10, 22)
    + date.fromisoformat('2011-11-04')
    + date.today()
    + d.year
    + d.month
    + d.day


In [None]:
from datetime import datetime, date, timezone, timedelta

# genera una fecha_hora en utc -3 y la convierte a la equivalente UTC (como son las 23hs cambia de dia)
print(datetime(2010, 10, 22, 23, 11, 44, tzinfo=timezone(timedelta(hours=-3))).astimezone(timezone.utc))

# se puede hacer una funcion lambda para hacer la magia
utc_offset =  lambda offset: timezone(timedelta(hours=offset))

print(datetime(2010, 10, 22, 23, 11, 44, tzinfo=utc_offset(-3)).astimezone(timezone.utc))

print(timedelta(days=1))

print(date.today())

print(datetime.now())

print(datetime.now() - datetime(2020, 1, 1))

### math / random / re / json
+ [math](https://docs.python.org/3/library/math.html)

  módulo para manejar funciones avanzadas matemáticas
  + math.ceil(_float)
  + math.comb(n, k)
  + math.factorial(n)
  + math.log(x, base)
  + math.log2(x)
  + math.log10(x)
  + math.cos(x)
  + math.sin(x)
  + math.tan(x)
  + math.inf
  + math.e
  + math.pi

+ [random](https://docs.python.org/3/library/random.html)
 
  módulo para manejar azar

  + random.seed(seed)  # se puede fijar un seed
  + random.randrange(start, stop, step)
  + random.randint(401, 1262)
  + random.choice(seq)  # toma un elemento al azar
  + random.shufle(seq)  # mezcla la secuencia
  + random.random()  # devuelve un float entre 0 y 1

+ [re](https://docs.python.org/3/library/re.html)

  módulo de regular expressions, utiliza la sintaxis Perl
  + re.search(pattern, text)
  + re.compile(pattern)
  + re.match(pattern, text)
  + re.sub(pattern, replacement, text)
  
+ [json](https://docs.python.org/3/library/json.html)

  módulo para serializar (dump) y deserializar (load) objetos en json
  + json.dump({'nombre': 'Juan'}, file)
  + json.load("file")
  + mi_json = json.dumps({'nombre': 'Juan'})
  + mi_dict = json.loads("{'nombre': 'Juan'}")
  + json.dumps(obj)



In [None]:
import re

s = "ccccaaaaabbbbbdddd"
m = re.search("a+b+", s)
print("encontro:", s[m.start():m.end()])
print("eliminando:", s[:m.start()] + s[m.end():])

print("-----------------------------------------------------------")

mails = "juan@mpf.gov.ar, pedro@gmail.com, luisa@hotmail.com"
mail_pattern = r'[\w\.-]+@[\w\.-]+'
result = re.findall(mail_pattern, mails)
print(type(result))
print(result)

print("-----------------------------------------------------------")
import json

s = json.dumps([{"Nombre": "Juan Carlos", "Apellido": "Perez"},
                {"Nombre": "Alberto", "Apellido": "Gomez"},])
print(type(s))
print(s)

d = json.loads(s)

print(type(d))
print(d)


### Archivos io / glob / csv

+ [io](https://docs.python.org/3/library/io.html)

  módulo para manejar Input/output 
  + f = io.open("information.txt", "r", encoding="utf-8")
  + f.readline()
  + f.close()
  + f = io.open("information.txt", "rw", encoding="utf-8")
  + f.writelines(lines)
  + f = io.open("information.txt", "rwb")
  + f.write(bytes)

+ [tempfile](https://docs.python.org/3/library/tempfile.html)

  móduolo para manejar archivos y directorios temporales

  + tempfile.TemporaryFile()
  + tempfile.NamedTemporaryFile()
  + tempfile.TemporaryDirectory()

+ [glob](https://docs.python.org/3/library/glob.html)

  módulo para buscar archivos con wildcards, tener cuidado por que hasta python 3.11 no hay forma de traer al mismo tiempo archivos ocultos (que comienzan con .) que visibles, en python 3.11 se agregó el parámetro opcional **include_hidden=True**
  + glob.glob('\*.gif')
  + glob.glob('\*\*/\*.txt', recursive=True, include_hidden=True)

+ [csv](https://docs.python.org/3/library/csv.html)

  módulo para leer y escribir archivos CSVs

  + csv.reader(csvfile)
  + csv.writer(csvfile)

In [None]:

from tempfile import TemporaryFile

with TemporaryFile() as fp:
    fp.write(b'Hello world!')
    fp.seek(0)
    print(fp.read())

print("-------------------------------------------")
import os

os.chdir("/content")

from glob import glob

print(glob('*'))
print(glob('**/*'))
print(glob('**/*.csv'))
print(glob('.*'))
print(glob('.**/*'))


### argparse

[argparse](https://docs.python.org/es/3/library/argparse.html) es un módulo para organizar y parsear los parámetros de uns script por linea de comandos. También gestiona el help en caso de poner --help o -h y además si se pasan los parámetros incorrectos (tipo, cantidad, obligatorios) da una breve descripción de uso 

   + parser = argparse.ArgumentParser()
     
     es el constructor del parser, opcionalmente puede recibir parametros como prog, description y epilog que permiten dar mayor descripción en el help

   + parser.add_argument(...)
     
     hay tres tipos de argumentos:
     + posicionales **parser.add_argument("archivo")**

       tomarán el valor según su posicion en la linea de comandos
     + opcionales con valor/es **parser.add_argument("--count", "-c")**

       tomán valores que vienen luego del parámetro (por ejemplo --count 4), puede tomar dos nombres (uno largo, y uno abreviado), en caso de haber dos nombres, el valor se almacenará en un atributo con el nombre correspondiente al largo

     + flags **parser.add_argument("--verbose", "-v", action='store_true')**

       si se pone el parámetro, la variable es True, sino es False. También puede haber opcionalmente nombre corto y largo

     agunos de los parámetro adicionales posibles(ademas del nombre / flag) para mas información ver [la documentación](https://docs.python.org/es/3/library/argparse.html#quick-links-for-add-argument)
       + **choices** limita los posibles valores por ejemplo [5, 9, 111] o range(20,30) o ["a", "b", "c"]
       + **default** permite ponerle un valor en caso de que el parámetro no se pase
       + **help** el texto descriptivo del parámetro en el help
       + **nargs** puede ser:
         + int, para fijar la cantidad de valores
         + "?", 0 o un valor
         + "*", 0 o mas valores
         + "+", 1 o mas valores

         por ejemplo nargs=2 esperará dos valores, **--parametro val1 val2**, en caso de haber más de un elemento, almacena el resultado en una lista
       + **required** para fijar el parámetro como obligatorio
       + **type** si no está especificado es un string, pero se puede usar int o float o cualquier otra función que devuelva un objeto de cualquier tipo en base al string, por ejemplo:
         + **type=argparse.FileOpen("w", encoding="latin-1")** abre un archivo para escritura y devuelve puntero al archivo (se puede usar para lectura con "r")
         + **type=pathlib.path toma un path a un archivo o directorio

   + args = parser.parse_args()
     
     es el método que toma la línea de comandos y la parsea chequeando todas las restricciones, en caso de error frena la ejecución indicando el error, y en caso de ser válido, pondrá atributos al objeto args con cada parámetro por ejemplo si hay un parámetro **--count** se almacenará el valor en **args.count**

In [None]:
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--foo", "-f", help="parametro con el numero", type=int, required=True)
parser.add_argument("--bar", action="store_true")

#################################################
# esto es necesario para simular la llamada al script en collab
# la variable parametros contiene los parametros pasados en la 
# linea de comandos
parametros = "--foo 44 --bar"
# parametros = "--foo 44"
# parametros = "--foo"
# parametros = "-h"
# parametros = ""

class StopExecution(Exception):
    def _render_traceback_(self):
        pass

def print_help(errmsg):
  print(errmsg)
  raise StopExecution

parser.error = print_help
args = parser.parse_args(parametros.split())

#################################################
# esto es lo que deberia ir en un script para ser usado en linea de comando
# args = parser.parse_args()
#################################################

if args.bar:
  print("el valor de foo es", args.foo)
else:
  print("no imprime por que bar es false")

### Otros módulos

+ configparse

  para parsear archivos de configuracion

+ zipfile / tarfile / gzip ...

  para leer y escribir archivos comprimidos

+ shutil

  para hacer comandos de archivos de alto nivel, copytree, rmtree, move..

+ urllib / urllib.request / http.client / http

  módulos necesarios para hacer simples requests, si bien es una funcionalidad útil, se suele usar un paquete de terceros llamado requests

+ sqlite3

  para acceder nativamente a bases de datos tipo sqlite3

+ logging

  para poner logs en las aplicaciones

+ decimal

  para tener presicion de mas de 10 dígitos, mas lento que float, pero sin problemas de presicion de float


# Scripts

Para ejercitar esta clase, vamos a hacer algunos scripts y ejecutarlos por linea de comandos

para eso necesitaremos crear un directorio, donde vamos a grabar los scripts y usar la variable de entorno PYTHONPATH para tener los scripts disponibles

```bash
cd ~
mkdir pyscripts
export PYTHONPATH="$HOME/pyscripts"
```
(aclaración: la sintaxis es de linux y al usar export, esa configuración solo servirá dentro de esa consola hasta que se cierre, el concepto es tener una variable de entorno PYTHONPATH con el directorio donde están los scripts)

una vez hecho ese directorio podemos probar hacer un "hola mundo"

```bash
cd pyscripts
vi holamundo.py
```

y simplemente hacer un archivo python que haga un print

```python
print("hola mundo")
```

luego se puede probar que ande poniendo en otro directorio (fuera de pyscripts)

```bash
python -m holamund


# Ejercicios

### Ejercicio 1

Hacer un script que recorra el directorio actual y todos los subdirectorios y devuelva en pantalla todos los archivos creados hace menos de 30 dias, debe mostrar el path relativo del archivo 

por ejemplo si se corre en /home/usuario puede devolver algo de la forma

```
./imagenes/miami_01.jpg
./imagenes/miami_02.jpg
./recetas/torta_frita.pdf
```

### Ejercicio 2

Modificar el script anterior para que reciba un parámetro opcional "--dias nn" donde nn es la cantidad de días para filtrar. Por omisión seguirá siendo 30

### Ejercicio 3

Modificar el script anterior para que reciba además un parámetro opcional "--ext .ext1 .ext2 .ext3" donde los _extn_ son filtros para mostrar solamente esas extenciones. Por omisión mostrará todos los archivos, las extenciones pasadas por parámetro _deben_ contener el punto inicial

