## Algunos módulos (biblioteca standard)  <a class="tocSkip">

Los módulos pueden pensarse como bibliotecas de objetos (funciones, datos, etc) que pueden usarse según la necesidad. Hay una biblioteca standard con rutinas para muchas operaciones comunes, y además existen muchos paquetes específicos para distintas tareas. Veamos algunos ejemplos:

### Módulo sys

Este módulo da acceso a variables que usa o mantiene el intérprete Python

In [17]:
import sys

In [18]:
sys.path

['/home/fiol/Clases/IntPython/clases-python/clases',
 '/usr/lib64/python310.zip',
 '/usr/lib64/python3.10',
 '/usr/lib64/python3.10/lib-dynload',
 '',
 '/home/fiol/.local/lib/python3.10/site-packages',
 '/usr/lib64/python3.10/site-packages',
 '/usr/lib/python3.10/site-packages',
 '/usr/lib/python3.10/site-packages/IPython/extensions',
 '/home/fiol/.ipython']

In [19]:
sys.getfilesystemencoding()

'utf-8'

In [20]:
sys.getsizeof(1)

28

In [21]:
help(sys.getsizeof)

Help on built-in function getsizeof in module sys:

getsizeof(...)
    getsizeof(object [, default]) -> int
    
    Return the size of object in bytes.



Vemos que para utilizar las variables (path) o funciones (getsizeof) debemos referirlo anteponiendo el módulo en el cuál está definido (sys) y separado por un punto.

Cuando hacemos un programa, con definición de variables y funciones. Podemos utilizarlo como un módulo, de la misma manera que los que ya vienen definidos en la biblioteca standard o en los paquetes que instalamos.

### Módulo `os`

El módulo `os` tiene utilidades para operar sobre nombres de archivos y directorios de manera segura y portable, de manera que pueda utilizarse en distintos sistemas operativos. Vamos a ver ejemplos de uso de algunas facilidades que brinda:

In [22]:
import os

print(os.curdir)
print(os.pardir)
print (os.getcwd())

.
..
/home/fiol/Clases/IntPython/clases-python/clases


In [23]:
cur = os.getcwd()
par = os.path.abspath("..")
print(cur)
print(par)


/home/fiol/Clases/IntPython/clases-python/clases
/home/fiol/Clases/IntPython/clases-python


In [26]:
print(os.path.abspath(os.curdir))
print(os.getcwd())

/home/fiol/Clases/IntPython/clases-python/clases
/home/fiol/Clases/IntPython/clases-python/clases


In [27]:
print(os.path.basename(cur))
print(os.path.splitdrive(cur))

clases
('', '/home/fiol/Clases/IntPython/clases-python/clases')


In [28]:
print(os.path.commonprefix((cur, par)))
archivo = os.path.join(par,'este' , 'otro.dat')
print (archivo)
print (os.path.split(archivo))
print (os.path.splitext(archivo))
print (os.path.exists(archivo))
print (os.path.exists(cur))


/home/fiol/Clases/IntPython/clases-python
/home/fiol/Clases/IntPython/clases-python/este/otro.dat
('/home/fiol/Clases/IntPython/clases-python/este', 'otro.dat')
('/home/fiol/Clases/IntPython/clases-python/este/otro', '.dat')
False
True


Como es aparente de estos ejemplos, se puede acceder a todos los objetos (funciones, variables) de un módulo utilizando simplemente la línea `import <modulo>` pero puede ser tedioso escribir todo con prefijos (como `os.path.abspath`) por lo que existen dos alternativas que pueden ser más convenientes. La primera corresponde a importar todas las definiciones de un módulo en forma implícita:

In [29]:
from os import *

Después de esta declaración usamos los objetos de la misma manera que antes pero obviando la parte de `os.`

In [30]:
path.abspath(curdir)

'/home/fiol/Clases/IntPython/clases-python/clases'

Esto es conveniente en algunos casos pero no suele ser una buena idea en programas largos ya que distintos módulos pueden definir el mismo nombre, y se pierde información sobre su origen. Una alternativa que es conveniente y permite mantener mejor control es importar explícitamente lo que vamos a usar:

In [31]:
from os import curdir, pardir, getcwd
from os.path import abspath
print(abspath(pardir))
print(abspath(curdir))
print(abspath(getcwd()))


/home/fiol/Clases/IntPython/clases-python
/home/fiol/Clases/IntPython/clases-python/clases
/home/fiol/Clases/IntPython/clases-python/clases


Además podemos darle un nombre diferente al importar módulos u objetos

In [32]:
import os.path as path
from os import getenv as ge


In [33]:
help(ge)

Help on function getenv in module os:

getenv(key, default=None)
    Get an environment variable, return None if it doesn't exist.
    The optional second argument can specify an alternate default.
    key, default and the result are str.



In [34]:
ge('HOME')

'/home/fiol'

In [35]:
path.realpath(curdir)

'/home/fiol/Clases/IntPython/clases-python/clases'

Acá hemos importado el módulo `os.path` (es un sub-módulo) como `path` y la función `getenv` del módulo `os` y la hemos renombrado `ge`.

In [36]:
help(os.walk)

Help on function walk in module os:

walk(top, topdown=True, onerror=None, followlinks=False)
    Directory tree generator.
    
    For each directory in the directory tree rooted at top (including top
    itself, but excluding '.' and '..'), yields a 3-tuple
    
        dirpath, dirnames, filenames
    
    dirpath is a string, the path to the directory.  dirnames is a list of
    the names of the subdirectories in dirpath (excluding '.' and '..').
    filenames is a list of the names of the non-directory files in dirpath.
    Note that the names in the lists are just names, with no path components.
    To get a full path (which begins with top) to a file or directory in
    dirpath, do os.path.join(dirpath, name).
    
    If optional arg 'topdown' is true or not specified, the triple for a
    directory is generated before the triples for any of its subdirectories
    (directories are generated top down).  If topdown is false, the triple
    for a directory is generated after the 

In [37]:
import os
from os.path import join, getsize
for root, dirs, files in os.walk('./'):
    print(root, "consume ", end="")
    print(sum([getsize(join(root, name)) for name in files])/1024, end="")
    print(" kbytes en ", len(files), "non-directory files")
    if '.ipynb_checkpoints' in dirs:
        dirs.remove('.ipynb_checkpoints')  # don't visit CVS directories

./ consume 16900.9248046875 kbytes en  91 non-directory files
./09_intro_visualizacion_files consume 340.0712890625 kbytes en  23 non-directory files
./09_mas_numpy_matplotlib_files consume 87.013671875 kbytes en  5 non-directory files
./10_entrada_salida_files consume 210.708984375 kbytes en  13 non-directory files
./10_mas_numpy_files consume 120.490234375 kbytes en  6 non-directory files
./11_intro_scipy_files consume 77.0185546875 kbytes en  4 non-directory files
./12_fiteos_files consume 1325.1513671875 kbytes en  46 non-directory files
./13_graficacion3d_files consume 818.3916015625 kbytes en  25 non-directory files
./13_miscelaneas_files consume 414.314453125 kbytes en  10 non-directory files
./14_fft_files consume 1186.970703125 kbytes en  27 non-directory files
./14_interactivo_files consume 271.9951171875 kbytes en  6 non-directory files
./explicacion_ejercicio_agujas_files consume 8.73828125 kbytes en  2 non-directory files
./scripts consume 757.1904296875 kbytes en  52 non-

### Módulo `subprocess`

El módulo subprocess permite ejecutar nuevos procesos, proveerle de datos de entrada, y capturar su salida.

In [38]:
import subprocess as sub

In [39]:
sub.run(["ls", "-l"])

CompletedProcess(args=['ls', '-l'], returncode=0)

En esta forma, la función `run` ejecuta el comando `ls` (listar) con el argumento `-l`, y **no** captura la salida.
Si queremos guardar la salida, podemos usar el argumento `stdout`:

In [40]:
ll = sub.run(["ls", "-l"], stdout=sub.PIPE)

La variable `ll` tiene el objeto retornado por `run`. y podemos acceder a la salida mediante `ll.stdout`

In [41]:
ff= ll.stdout.splitlines()

In [42]:
for f in ff:
  if 'ipynb' in str(f) and '04_' in str(f):
    print(f.decode('utf-8'))

-rw-r--r--. 1 fiol fiol   43425 feb 14 15:32 04_1_funciones.ipynb
-rw-r--r--. 1 fiol fiol   34790 feb 14 16:42 04_2_func_args.ipynb


### Módulo `glob`

El módulo `glob` encuentra nombres de archivos (o directorios) utilizando patrones similares a los de la consola. La función más utilizada es `glob.glob()`
Veamos algunos ejemplos de uso:

In [44]:
import glob

In [45]:
nb_clase4= glob.glob('04*.ipynb')

In [46]:
nb_clase4

['04_1_funciones.ipynb', '04_2_func_args.ipynb']

In [47]:
nb_clase4.sort()

In [48]:
nb_clase4

['04_1_funciones.ipynb', '04_2_func_args.ipynb']

In [49]:
nb_clases1a4 = glob.glob('0[0-4]*.ipynb')

In [50]:
nb_clases1a4

['00_introd_y_excursion.ipynb',
 '02_2_listas.ipynb',
 '02_1_tipos_y_control.ipynb',
 '03_1_tipos_control.ipynb',
 '03_2_iteraciones_tipos.ipynb',
 '01_1_instala_y_uso.ipynb',
 '01_2_introd_python.ipynb',
 '04_1_funciones.ipynb',
 '04_2_func_args.ipynb']

In [51]:
for f in sorted(nb_clases1a4):
  print('Clase en archivo {}'.format(f))

Clase en archivo 00_introd_y_excursion.ipynb
Clase en archivo 01_1_instala_y_uso.ipynb
Clase en archivo 01_2_introd_python.ipynb
Clase en archivo 02_1_tipos_y_control.ipynb
Clase en archivo 02_2_listas.ipynb
Clase en archivo 03_1_tipos_control.ipynb
Clase en archivo 03_2_iteraciones_tipos.ipynb
Clase en archivo 04_1_funciones.ipynb
Clase en archivo 04_2_func_args.ipynb


### Módulo pathlib

El módulo pathlib es "relativamente nuevo" y tiene funcionalidades para trabajar con rutas de archivos y directorios con una tratamiento de programación orientada a objetos. Este módulo define un objeto `Path` que contiene mucha de la funcionalidad que usualmente se obtenía sólo de los módulos `os` y `glob`. Veamos algunos ejemplos simples de su uso


In [52]:
from pathlib import Path


In [53]:
direct = Path('.')
print(direct)

.


El objeto tiene un iterador que nos permite recorrer todo el directorio. Por ejemplo si queremos listar todos los subdirectorios:

In [54]:
[x for x in direct.iterdir() if x.is_dir()]

[PosixPath('.ipynb_checkpoints'),
 PosixPath('09_intro_visualizacion_files'),
 PosixPath('09_mas_numpy_matplotlib_files'),
 PosixPath('10_entrada_salida_files'),
 PosixPath('10_mas_numpy_files'),
 PosixPath('11_intro_scipy_files'),
 PosixPath('12_fiteos_files'),
 PosixPath('13_graficacion3d_files'),
 PosixPath('13_miscelaneas_files'),
 PosixPath('14_fft_files'),
 PosixPath('14_interactivo_files'),
 PosixPath('explicacion_ejercicio_agujas_files'),
 PosixPath('scripts'),
 PosixPath('version-control'),
 PosixPath('figuras')]

Trabajo con rutas de archivos

In [55]:
print(direct.absolute())

/home/fiol/Clases/IntPython/clases-python/clases


In [57]:
p = direct / ".."
print(p)
print(p.resolve())

..
/home/fiol/Clases/IntPython/clases-python


Podemos reemplazar el módulo `glob` utilizando este objeto:

In [58]:
for fi in sorted(direct.glob("0[1-7]*.ipynb") ):
    print(fi)

01_1_instala_y_uso.ipynb
01_2_introd_python.ipynb
02_1_tipos_y_control.ipynb
02_2_listas.ipynb
03_1_tipos_control.ipynb
03_2_iteraciones_tipos.ipynb
04_1_funciones.ipynb
04_2_func_args.ipynb
05_1_decoradores.ipynb
05_2_excepciones.ipynb
05_3_inout.ipynb
06_1_objetos.ipynb
06_2_objetos.ipynb
07_ejemplo_oop.ipynb
07_modulos_biblioteca.ipynb


In [59]:
fi = direct / "programa_detalle.rst"
if fi.exists():
    s= fi.read_text()
print(s)


.. _prog-detalle:

Programa Detallado

:Autor: Juan Fiol
:Version: Revision: 2022
:Copyright: Libre




### Módulo `Argparse`
Este módulo tiene lo necesario para hacer rápidamente un programa para utilizar por línea de comandos, aceptando todo tipo de argumentos y dando información sobre su uso.


```python
import argparse
VERSION = 1.0

parser = argparse.ArgumentParser(
      description='"Mi programa que acepta argumentos por línea de comandos"')

parser.add_argument('-V', '--version', action='version',
                      version='%(prog)s version {}'.format(VERSION))
  
parser.add_argument('-n', '--entero', action=store, dest='n', default=1)

args = parser.parse_args()
```

Más información en la [biblioteca standard](https://docs.python.org/3.6/library/argparse.html) y en [Argparse en Python Module of the week ](https://pymotw.com/3/argparse/index.html)

### Módulo `re`
Este módulo provee la infraestructura para trabajar con *regular expressions*, es decir para encontrar expresiones que verifican "cierta forma general". Veamos algunos conceptos básicos y casos más comunes de uso.

#### Búsqueda de un patrón en un texto

Empecemos con un ejemplo bastante común. Para encontrar un patrón en un texto podemos utilizar el método `search()`


In [60]:
import re

In [61]:
busca = 'un'
texto = 'Otra vez vamos a usar "Hola Mundo"'

match = re.search(busca, texto)

print('Encontré "{}"\nen:\n  "{}"'.format(match.re.pattern, match.string))
print('En las posiciones {} a {}'.format(match.start(), match.end()))

Encontré "un"
en:
  "Otra vez vamos a usar "Hola Mundo""
En las posiciones 29 a 31


Acá buscamos una expresión (el substring "un"). Esto es útil pero no muy diferente a utilizar los métodos de strings. Veamos como se definen los patrones.

#### Definición de expresiones

Vamos a buscar un patrón en un texto. Veamos cómo se definen los patrones a buscar.

- La mayoría de los caracteres se identifican consigo mismo (si quiero encontrar "gato", uso como patrón "gato")

- Hay unos pocos caracteres especiales (metacaracteres) que tienen un significado especial, estos son:
  ```
  . ^ $ * + ? { } [ ] \ | ( )
  ```

- Si queremos encontrar uno de los metacaracteres, tenemos que precederlos de `\`. Por ejemplo si queremos encontrar un corchete usamos `\[`

- Los corchetes "[" y "]" se usan para definir una clase de caracteres, que es un conjunto de caracteres que uno quiere encontrar.

  - Los caracteres a encontrar se pueden dar individualmente. Por ejemplo `[gato]` encontrará cualquiera de `g`, `a`, `t`, `o`.
  - Un rango de caracteres se puede dar dando dos caracteres separados por un guión. Por ejemplo `[a-z]` dará cualquier letra entre "a" y "z". Similarmente `[0-5][0-9]` dará cualquier número entre "00" y "59".
  - Los metacaracteres pierden su significado especial dentro de los corchetes. Por ejemplo `[.*)]` encontrará cualquiera de ".", "*", ")".

- El punto `.` indica *cualquier caracter*

- Los símbolos `*`, `+`, `?` indican repetición:

  - `?`: Indica 0 o 1 aparición de lo anterior
  - `*`: Indica 0 o más apariciones de lo anterior
  - `+`: Indica 1 o más apariciones de lo anterior

In [62]:
busca = "[a-z]+@[a-z]+\.[a-z]+" # Un patrón para buscar direcciones de email
texto = "nombre@server.com, apellido@server1.com, nombre1995@server.com, UnNombreyApellido, nombre.apellido82@servidor.com.ar, Nombre.Apellido82@servidor.com.ar".split(',')
print(texto,'\n')

for direc in texto:
  m= re.search(busca, direc)
  print('Para la línea:', direc)
  if m is None:
    print('   No encontré dirección de correo!')
  else:
    print('   Encontré la dirección de correo:', m.string)



['nombre@server.com', ' apellido@server1.com', ' nombre1995@server.com', ' UnNombreyApellido', ' nombre.apellido82@servidor.com.ar', ' Nombre.Apellido82@servidor.com.ar'] 

Para la línea: nombre@server.com
   Encontré la dirección de correo: nombre@server.com
Para la línea:  apellido@server1.com
   No encontré dirección de correo!
Para la línea:  nombre1995@server.com
   No encontré dirección de correo!
Para la línea:  UnNombreyApellido
   No encontré dirección de correo!
Para la línea:  nombre.apellido82@servidor.com.ar
   No encontré dirección de correo!
Para la línea:  Nombre.Apellido82@servidor.com.ar
   No encontré dirección de correo!


- Acá la expresión `[a-z]` significa todos los caracteres en el rango "a" hasta "z".
- `[a-z]+` significa cualquier secuencia de una letra o más.

- Los corchetes también se pueden usar en la forma `[abc]` y entonces encuentra *cualquiera* de `a`, `b`, o `c`.

Vemos que no encontró todas las direcciones posibles. Porque el patrón no está bien diseñado. Un poco mejor sería:

In [63]:
busca = "[a-zA-Z0-9.]+@[a-z.]+" # Un patrón para buscar direcciones de email

print(texto,'\n')

for direc in texto:
  m= re.search(busca, direc)
  print('Para la línea:', direc)
  if m is None:
    print('   No encontré dirección de correo:')
  else:
    print('   Encontré la dirección de correo:', m.group())



['nombre@server.com', ' apellido@server1.com', ' nombre1995@server.com', ' UnNombreyApellido', ' nombre.apellido82@servidor.com.ar', ' Nombre.Apellido82@servidor.com.ar'] 

Para la línea: nombre@server.com
   Encontré la dirección de correo: nombre@server.com
Para la línea:  apellido@server1.com
   Encontré la dirección de correo: apellido@server
Para la línea:  nombre1995@server.com
   Encontré la dirección de correo: nombre1995@server.com
Para la línea:  UnNombreyApellido
   No encontré dirección de correo:
Para la línea:  nombre.apellido82@servidor.com.ar
   Encontré la dirección de correo: nombre.apellido82@servidor.com.ar
Para la línea:  Nombre.Apellido82@servidor.com.ar
   Encontré la dirección de correo: Nombre.Apellido82@servidor.com.ar


Los metacaracteres no se activan dentro de clases (adentro de corchetes). En el ejemplo anterior el punto `.` actúa como un punto y no como un metacaracter. En este caso, la primera parte: `[a-zA-Z0-9.]+` significa: "Encontrar cualquier letra minúscula, mayúscula, número o punto, una o más veces cualquiera de ellos"

#### Repetición de un patrón

Si queremos encontrar strings que presentan la secuencia una o más veces podemos usar `findall()` que devuelve todas las ocurrencias del patrón que no se superponen. Por ejemplo:

In [66]:
texto = 'abbaaabbbbaaaaa'

busca = 'ab'

mm =  re.findall(busca, texto)
print(mm)    
print(type(mm[0]))
for m in mm:
    print('Encontré {}'.format(m))


['ab', 'ab']
<class 'str'>
Encontré ab
Encontré ab


In [67]:
p = re.compile('abc*')
m= p.findall('acholaboy')
print(m)
m= p.findall('acholabcoynd sabcccs slabc labdc abc')
print(m)

['ab']
['abc', 'abccc', 'abc', 'ab', 'abc']


Si va a utilizar expresiones regulares es recomendable que lea más información en la [biblioteca standard](https://docs.python.org/3.6/library/re.html), en [el HOWTO](https://docs.python.org/3.6/howto/regex.html) y en [Python Module of the week](https://pymotw.com/3/re/index.html). 