## Algunos módulos (biblioteca standard)  <a class="tocSkip">

Los módulos pueden pensarse como bibliotecas de objetos (funciones, datos, etc) que pueden usarse según la necesidad. Hay una biblioteca standard con rutinas para muchas operaciones comunes, y además existen muchos paquetes específicos para distintas tareas. Veamos algunos ejemplos:

### Módulo sys

Este módulo da acceso a variables que usa o mantiene el intérprete Python

In [None]:
import sys

In [None]:
sys.path

In [None]:
sys.getfilesystemencoding()

In [None]:
sys.getsizeof(1)

In [None]:
help(sys.getsizeof)

Vemos que para utilizar las variables (path) o funciones (getsizeof) debemos referirlo anteponiendo el módulo en el cuál está definido (sys) y separado por un punto.

Cuando hacemos un programa, con definición de variables y funciones. Podemos utilizarlo como un módulo, de la misma manera que los que ya vienen definidos en la biblioteca standard o en los paquetes que instalamos.

### Módulo `os`

El módulo `os` tiene utilidades para operar sobre nombres de archivos y directorios de manera segura y portable, de manera que pueda utilizarse en distintos sistemas operativos. Vamos a ver ejemplos de uso de algunas facilidades que brinda:

In [1]:
import os

print(os.curdir)
print(os.pardir)
print (os.getcwd())

.
..
/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/curso-python


In [2]:
cur = os.getcwd()
par = os.path.abspath("..")
print(cur)
print(par)


/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/curso-python
/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos


In [3]:
print(os.path.abspath(os.curdir))
print(os.getcwd())

/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/curso-python
/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/curso-python


In [4]:
print(os.path.basename(cur))
print(os.path.splitdrive(cur))

curso-python
('', '/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/curso-python')


In [5]:
print(os.path.commonprefix((cur, par)))
archivo = os.path.join(par,'este' , 'otro.dat')
print (archivo)
print (os.path.split(archivo))
print (os.path.splitext(archivo))
print (os.path.exists(archivo))
print (os.path.exists(cur))


/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos
/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/este/otro.dat
('/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/este', 'otro.dat')
('/Users/flavioc/Library/Mobile Documents/com~apple~CloudDocs/Documents/cursos/este/otro', '.dat')
False
True


Como es aparente de estos ejemplos, se puede acceder a todos los objetos (funciones, variables) de un módulo utilizando simplemente la línea `import <modulo>` pero puede ser tedioso escribir todo con prefijos (como `os.path.abspath`) por lo que existen dos alternativas que pueden ser más convenientes. La primera corresponde a importar todas las definiciones de un módulo en forma implícita:

In [None]:
from os import *

Después de esta declaración usamos los objetos de la misma manera que antes pero obviando la parte de `os.`

In [None]:
path.abspath(curdir)

Esto es conveniente en algunos casos pero no suele ser una buena idea en programas largos ya que distintos módulos pueden definir el mismo nombre, y se pierde información sobre su origen. Una alternativa que es conveniente y permite mantener mejor control es importar explícitamente lo que vamos a usar:

In [None]:
from os import curdir, pardir, getcwd
from os.path import abspath
print(abspath(pardir))
print(abspath(curdir))
print(abspath(getcwd()))


Además podemos darle un nombre diferente al importar módulos u objetos

In [None]:
import os.path as path
from os import getenv as ge


In [None]:
help(ge)

In [None]:
ge('HOME')

In [None]:
path.realpath(curdir)

Acá hemos importado el módulo `os.path` (es un sub-módulo) como `path` y la función `getenv` del módulo `os` y la hemos renombrado `ge`.

In [None]:
help(os.walk)

In [6]:
import os
from os.path import join, getsize
for root, dirs, files in os.walk('./'):
    print(root, "consume ", end="")
    print(sum([getsize(join(root, name)) for name in files])/1024, end="")
    print(" kbytes en ", len(files), "non-directory files")
    if '.ipynb_checkpoints' in dirs:
        dirs.remove('.ipynb_checkpoints')  # don't visit CVS directories

./ consume 38087.0693359375 kbytes en  41 non-directory files
./generala consume 827.03125 kbytes en  6 non-directory files
./interfacing_F consume 230.353515625 kbytes en  12 non-directory files
./interfacing_F/fib2.cpython-39-darwin.so.dSYM consume 0.0 kbytes en  0 non-directory files
./interfacing_F/fib2.cpython-39-darwin.so.dSYM/Contents consume 0.638671875 kbytes en  1 non-directory files
./interfacing_F/fib2.cpython-39-darwin.so.dSYM/Contents/Resources consume 0.0 kbytes en  0 non-directory files
./interfacing_F/fib2.cpython-39-darwin.so.dSYM/Contents/Resources/DWARF consume 13.38671875 kbytes en  1 non-directory files
./interfacing_F/fib3.cpython-39-darwin.so.dSYM consume 0.0 kbytes en  0 non-directory files
./interfacing_F/fib3.cpython-39-darwin.so.dSYM/Contents consume 0.638671875 kbytes en  1 non-directory files
./interfacing_F/fib3.cpython-39-darwin.so.dSYM/Contents/Resources consume 0.0 kbytes en  0 non-directory files
./interfacing_F/fib3.cpython-39-darwin.so.dSYM/Contents

### Módulo `glob`

El módulo `glob` encuentra nombres de archivos (o directorios) utilizando patrones similares a los de la consola. La función más utilizada es `glob.glob()`
Veamos algunos ejemplos de uso:

In [None]:
import glob

In [None]:
nb_clase4= glob.glob('04*.ipynb')

In [None]:
nb_clase4

In [None]:
nb_clase4.sort()

In [None]:
nb_clase4

In [None]:
nb_clases1a4 = glob.glob('0[0-4]*.ipynb')

In [None]:
nb_clases1a4

In [None]:
for f in sorted(nb_clases1a4):
  print('Clase en archivo {}'.format(f))

### Módulo pathlib

El módulo pathlib es "relativamente nuevo" y tiene funcionalidades para trabajar con rutas de archivos y directorios con una tratamiento de programación orientada a objetos. Este módulo define un objeto `Path` que contiene mucha de la funcionalidad que usualmente se obtenía sólo de los módulos `os` y `glob`. Veamos algunos ejemplos simples de su uso


In [None]:
from pathlib import Path


In [None]:
direct = Path('.')
print(direct)

El objeto tiene un iterador que nos permite recorrer todo el directorio. Por ejemplo si queremos listar todos los subdirectorios:

In [None]:
[x for x in direct.iterdir() if x.is_dir()]

Trabajo con rutas de archivos

In [None]:
print(direct.absolute())

In [None]:
p = direct / ".."
print(p)
print(p.resolve())

Podemos reemplazar el módulo `glob` utilizando este objeto:

In [None]:
for fi in sorted(direct.glob("0[1-7]*.ipynb") ):
    print(fi)

In [None]:
fi = direct / "programa_detalle.rst"
if fi.exists():
    s= fi.read_text()
print(s)

### Módulo `Argparse`
Este módulo tiene lo necesario para hacer rápidamente un programa para utilizar por línea de comandos, aceptando todo tipo de argumentos y dando información sobre su uso.


```python
import argparse
VERSION = 1.0

parser = argparse.ArgumentParser(
      description='"Mi programa que acepta argumentos por línea de comandos"')

parser.add_argument('-V', '--version', action='version',
                      version='%(prog)s version {}'.format(VERSION))
  
parser.add_argument('-n', '--entero', action=store, dest='n', default=1)

args = parser.parse_args()
```

Más información en la [biblioteca standard](https://docs.python.org/3.6/library/argparse.html) y en [Argparse en Python Module of the week ](https://pymotw.com/3/argparse/index.html)

### Módulo `re`
Este módulo provee la infraestructura para trabajar con *regular expressions*, es decir para encontrar expresiones que verifican "cierta forma general". Veamos algunos conceptos básicos y casos más comunes de uso.

#### Búsqueda de un patrón en un texto

Empecemos con un ejemplo bastante común. Para encontrar un patrón en un texto podemos utilizar el método `search()`


In [None]:
import re

In [None]:
busca = 'un'
texto = 'Otra vez vamos a usar "Hola Mundo"'

match = re.search(busca, texto)

print('Encontré "{}"\nen:\n  "{}"'.format(match.re.pattern, match.string))
print('En las posiciones {} a {}'.format(match.start(), match.end()))

Acá buscamos una expresión (el substring "un"). Esto es útil pero no muy diferente a utilizar los métodos de strings. Veamos como se definen los patrones.

#### Definición de expresiones

Vamos a buscar un patrón en un texto. Veamos cómo se definen los patrones a buscar.

- La mayoría de los caracteres se identifican consigo mismo (si quiero encontrar "gato", uso como patrón "gato")

- Hay unos pocos caracteres especiales (metacaracteres) que tienen un significado especial, estos son:
  ```
  . ^ $ * + ? { } [ ] \ | ( )
  ```

- Si queremos encontrar uno de los metacaracteres, tenemos que precederlos de `\`. Por ejemplo si queremos encontrar un corchete usamos `\[`

- Los corchetes "[" y "]" se usan para definir una clase de caracteres, que es un conjunto de caracteres que uno quiere encontrar.

  - Los caracteres a encontrar se pueden dar individualmente. Por ejemplo `[gato]` encontrará cualquiera de `g`, `a`, `t`, `o`.
  - Un rango de caracteres se puede dar dando dos caracteres separados por un guión. Por ejemplo `[a-z]` dará cualquier letra entre "a" y "z". Similarmente `[0-5][0-9]` dará cualquier número entre "00" y "59".
  - Los metacaracteres pierden su significado especial dentro de los corchetes. Por ejemplo `[.*)]` encontrará cualquiera de ".", "*", ")".

- El punto `.` indica *cualquier caracter*

- Los símbolos `*`, `+`, `?` indican repetición:

  - `?`: Indica 0 o 1 aparición de lo anterior
  - `*`: Indica 0 o más apariciones de lo anterior
  - `+`: Indica 1 o más apariciones de lo anterior

In [None]:
busca = "[a-z]+@[a-z]+\.[a-z]+" # Un patrón para buscar direcciones de email
texto = "nombre@server.com, apellido@server1.com, nombre1995@server.com, UnNombreyApellido, nombre.apellido82@servidor.com.ar, Nombre.Apellido82@servidor.com.ar".split(',')
print(texto,'\n')

for direc in texto:
  m= re.search(busca, direc)
  print('Para la línea:', direc)
  if m is None:
    print('   No encontré dirección de correo!')
  else:
    print('   Encontré la dirección de correo:', m.string)



- Acá la expresión `[a-z]` significa todos los caracteres en el rango "a" hasta "z".
- `[a-z]+` significa cualquier secuencia de una letra o más.

- Los corchetes también se pueden usar en la forma `[abc]` y entonces encuentra *cualquiera* de `a`, `b`, o `c`.

Vemos que no encontró todas las direcciones posibles. Porque el patrón no está bien diseñado. Un poco mejor sería:

In [None]:
busca = "[a-zA-Z0-9.]+@[a-z.]+" # Un patrón para buscar direcciones de email

print(texto,'\n')

for direc in texto:
  m= re.search(busca, direc)
  print('Para la línea:', direc)
  if m is None:
    print('   No encontré dirección de correo:')
  else:
    print('   Encontré la dirección de correo:', m.group())



Los metacaracteres no se activan dentro de clases (adentro de corchetes). En el ejemplo anterior el punto `.` actúa como un punto y no como un metacaracter. En este caso, la primera parte: `[a-zA-Z0-9.]+` significa: "Encontrar cualquier letra minúscula, mayúscula, número o punto, una o más veces cualquiera de ellos"

#### Repetición de un patrón

Si queremos encontrar strings que presentan la secuencia una o más veces podemos usar `findall()` que devuelve todas las ocurrencias del patrón que no se superponen. Por ejemplo:

In [None]:
texto = 'abbaaabbbbaaaaa'

busca = 'ab'

mm =  re.findall(busca, texto)
print(mm)    
print(type(mm[0]))
for m in mm:
    print('Encontré {}'.format(m))


In [None]:
p = re.compile('abc*')
m= p.findall('acholaboy')
print(m)
m= p.findall('acholabcoynd sabcccs slabc labdc abc')
print(m)

Si va a utilizar expresiones regulares es recomendable que lea más información en la [biblioteca standard](https://docs.python.org/3.6/library/re.html), en [el HOWTO](https://docs.python.org/3.6/howto/regex.html) y en [Python Module of the week](https://pymotw.com/3/re/index.html). 

Para practicar RegEx, [ésta es una buena página](https://regexone.com/).