# Python

## Datos

La principal forma de manipular informacion en Python es mediante **texto** (Strings) y **binarios** (Bytes and Bytearrays). El principal cambio entre Python 2 y Python 3 es que los strings no son byte arrays sino unicode strings.

Para manipular la libreria unicode utilizamos el modulo `unicodedata`. Si el texto original esta en UTF-8 encoding podemos copiar simbolo directamente al editor de codigo. Si no podemos utilizar su codigo hex de 4 numeros `\u0000` o su codigo hex de 8 numeros `\U00000000`.

In [None]:
def unicodeLookup(symbol):
    import unicodedata
    nombre = unicodedata.name(symbol)
    valorUnicode = unicodedata.lookup(nombre)
    print("Introdujo =", symbol, " | Nombre =", nombre, " | Valor =", valorUnicode)
unicodeLookup('A')
unicodeLookup('$')
unicodeLookup('\u00a2')
unicodeLookup('\u2603')
snowmanString = '\N{SNOWMAN}'
unicodeLookup('\U0002F9F4')

Siempre que se copien valores al codigo fuente nos debemos de asegurar que el encoding que se utilizo es compatible con unicode, de preferencia con el encoding UTF-8. Para transformar un String de caracteres unicode a bytes utilizamos un encoding.

| Encodings | Excepciones | Uso |
| --- | --- | --- |
| utf-8 | strict | Unicode Error |
| ascii | replace | Replace with ? |
| latin-1 | ignore | Don't store byte |
| cp-1252 | xmlcharrefreplace | Replace with Entity |
| unicode-escape | backslashreplace | Replace with Unicode Escape |
| windows-1251 | namereplace | Replace with Unicode Name Escape |

In [None]:
# One unicode character
snowman = '\u2603'
print(len(snowman))

#Three UTF-8 bytes to represent it
bytesVariable = snowman.encode('utf-8')
print(len(bytesVariable))

# A bytes variable is defined as: b'(bytes in hex)'
print(bytesVariable)

# If not in ASCII encode to XML Entity
entityVariable = snowman.encode('ascii', 'xmlcharrefreplace')
print(entityVariable)

Para dar **Formato** a los string interpolamos datos en el estilo de formateo antiguo o mediante llaves en el nuevo estilo.

In [None]:
# Old Formating
print("String : %s" % 10)
print("Decimal Int : %d" % 10)
print("Octal Int : %o" % 8)
print("Hex Int : %x" % 16)
print("Decimal Float : %f" % 19.5)
print("Exponential Float : %e" % 19.5)
print("Decimal or Exp Float : %g" % 19.5)
print("Literal Percent : %d%%" % 19.5)
print()

# Width, align, char filling
numero = 42
decimal = 7.03
texto = "Hello World!"
print("'|%d|%f|%s|'" % (numero, decimal, texto))
print("'|%15d|%15f|%15s|'" % (numero, decimal, texto))
print("'|%-15d|%-15f|%-15s|'" % (numero, decimal, texto))
print("'|%-15.4d|%-15.4f|%-15.4s|'" % (numero, decimal, texto))
print("'|%*.*d|%*.*f|%*.*s|'" % (15, 4, numero, 15, 4, decimal, 15, 4, texto))

# New Formating
print("'|{}|{}|{}|'".format(numero, decimal, texto))
print("'|{2}|{1}|{0}|'".format(numero, decimal, texto))
print("'|{decimal}|{texto}|{numero}|'".format(numero=99, decimal=99.5, texto="Bye"))
dictNewForm = {"numero":33, "decimal":33.5, "texto":"Hello World!"}
print("'|{0[numero]}|{0[decimal]}|{0[texto]}|{1}''".format(dictNewForm, "otroTexto"))
print("'|{0:d}|{1:f}|{2:s}|'".format(numero, decimal, texto))
print("'|{numero:d}|{decimal:f}|{texto:s}|'".format(numero=88, decimal=88.5, texto="Hi again"))
print("'|{0:15d}|{1:15f}|{2:15s}|'".format(numero, decimal, texto))
print("'|{0:>15d}|{1:>15f}|{2:>15s}|'".format(numero, decimal, texto))
print("'|{0:<15d}|{1:<15f}|{2:<15s}|'".format(numero, decimal, texto))
print("'|{0:^15d}|{1:^15f}|{2:^15s}|'".format(numero, decimal, texto))
print("'|{0:>15d}|{1:>15.3f}|{2:>15.3s}|'".format(numero, decimal, texto))
print("'|{0:!^30s}|'".format(texto))

Python usa expresiones regulares (Regex) mediante el modulo `re` para buscar patrones en las secuencias de caracteres.

In [None]:
import re
pattern = re.compile("You")
source = "Young Frankenstein"

# Comienza con You?
resultMatching = pattern.match(source)
if resultMatching:
    print(resultMatching.group())
    
# Ocurrencia de Frank?
patternTwo = re.compile("Frank")
resultMatchingTwo = patternTwo.search(source)
if resultMatching:
    print(resultMatchingTwo.group())

# Ocurrencias de n 
patternLetter = re.compile("n")
resultMatchingAll = patternLetter.findall(source)
if resultMatchingAll:
    print(resultMatchingAll)

# Ocurrencias de n seguida de una letra
patternLetterTwo = re.compile("n.")
resultMatchingAllTwo = patternLetterTwo.findall(source)
if resultMatchingAllTwo:
    print(resultMatchingAllTwo)
    
# Ocurrencias de n opcionalmente seguida de una letra
patternLetterThree = re.compile("n.?")
resultMatchingAllThree = patternLetterThree.findall(source)
if resultMatchingAllThree:
    print(resultMatchingAllThree)

# Dividir source en cada ocurrencia
resultSplit = patternLetter.split(source)
print(resultSplit)

# Remplazar cada ocurrencia
resultReplace = patternLetter.sub('?', source)
print(resultReplace)

| Expresion | Significado | Expresion | Significado |
| --- | --- | --- | --- |
| String | Igualdad | ? | Cero o un caracter anterior |
| . | Caracter sin retorno | * | Cero o todos los anteriores max |
| ? | Caracter anterior opcional | \*? | Cero o todos los anteriores min |
| \\d | Digito | + | Uno o todos los anteriores max |
| \\D | No Digito | +? | Uno o todos los anteriores min |
| \\w | Alfanumerico | { n } | N Caracteres consecutivos |
| \\W | No alfanumerico | { m, n } | De M a N caracteres consecutivos max |
| \\s | Espacio | { m, n }? | De M a N caracteres consecutivos min |
| \\S | No espacio | [abc] = a\|b\|c | Cualquiera de la lista |
| \\b | Espacio entre palabras | [^abc] | Todos excepto de la lista |
| \\B | No espacio entre palabras | (?=n) | Anterior solo si antecede a N |
| \| | Cualquiera de ambas | (?!n) | Anterior si no antecede a N |
| ^ | Desde el inicio | (?<=n) | Siguiente si precede a N |
| $ | Desde el final | (?<!n) | Siguiente si no precede a N |

In [None]:
import string
import re

printable = string.printable
print(len(printable))
print(repr(printable[:36]))
print(repr(printable[36:62]))
print(repr(printable[62:94]))
print(repr(printable[94:100]))

texto = """I wish I may, I wish I might
... Have a dish of fish tonight."""
print(re.findall("wish", texto))
print(re.findall("wish|fish", texto))
print(re.findall("^wish", texto))
print(re.findall("^I wish", texto))
print(re.findall("fish$", texto))
print(re.findall("fish tonight\.$", texto))
print(re.findall("[wf]ish", texto))
print(re.findall("[wsh]+", texto))
print(re.findall("ght\W", texto))
print(re.findall("I (?=wish)", texto))
print(re.findall("(?<=I) wish", texto))

# El siguiente regex no funcionaria si no fuera RAW
# Dado que la B escapada significa Backspace en un string literal
print(re.findall(r"\bfish", texto))

# Parentesis guarda resultados parciales.
# Mientras se utilicen las funciones match o search...
# ... group() regresa las ocurrencias mientras que ...
# ... groups() regresa un tuple con los resultados parciales.
match = re.search(r"(. dish\b).*(\bfish)", texto)
print(match.group())
print(match.groups())

# Podemos nombrar cada resultado parcial
match = re.search(r"(?P<DISH>. dish\b).*(?P<FISH>\bfish)", texto)
print(match.group())
print(match.groups())
print(match.group("DISH"))
print(match.group("FISH"))

Para trabajar con **Binario** tiene dos tipos de datos de secuencias de bytes en donde un byte se considera un elemento numerico fundamental de 8 bits. `bytes` es una secuencia de bytes inmutable, como un tuple. `bytearray` es una secuencia de bytes mutable, como una lista.

In [None]:
import struct

blist = [1, 2, 3, 255]
the_bytes = bytes(blist)
print(the_bytes)
the_bytes_array = bytearray(blist)
print(the_bytes_array)
the_bytes_array[1] = 133
print(the_bytes_array)
print()

# all_the_bytes = bytes(range(0,256))
# all_the_bytes_array = bytearray(range(0,256))
# Non Printable Bytes
# print(all_the_bytes[:32], all_the_bytes[127:])
# Printable Bytes
# print(all_the_bytes[32:127])

valid_png_header = b"\x89PNG\r\n\x1a\n"
data = b"\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR" + \
        b"\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0"
if data[:8] == valid_png_header:
    #Width 16-20 and Height 20-24
    width, height = struct.unpack(">LL", data[16:24])
    print("Valid PNG, width", width, "height", height)
else:
    print("Not a valid PNG")
print()

# Format string >LL instructs unpack how to interpret the byte sequence
# The > means that integers are stored in Big Endian Format
# The < means that integers are stored in Little Endian Format
# The L specifies a 4 byte unsigned long integer
# To get from data to bytes use the pack() function
print(struct.pack(">L", 154))
print(struct.pack(">L", 141))

# Big Endian Have the most significant number to the left.

Los especificadores de formato son

| Especificador | Significado | Especificador | Significado |
| --- | --- | --- | --- |
| x | Saltar un byte  | l | Signed Long Int |
| b | Signed byte | L | Unsigned Long Int |
| B | Unsigned Byte | Q | Unsigned Long Long Int |
| h | Signed short Int | f | Float single precision |
| H | Unsigned short Int | d | Float double precision |
| i | Signed Int | p | Count and Chars |
| I | Unsigned Int | s | Only Chars |
 
Todos los especificadores pueden ir precedidos de un numero que indica la cantidad (Count) de bytes a tranformar. Por ejemplo 5B significa que se deben transformar 5 bytes (BBBBB). Ademas de slices podemos tener mayor control sobre los bytes que se deben saltar utilizando count y el especificador (x). Otras librerias para manipular bytes son:

- [bitstring](https://pypi.org/project/bitstring/)
- [contruct](https://construct.readthedocs.io/en/latest/intro.html)
- [hachoir](https://hachoir.readthedocs.io/en/latest/)
- [binio](http://spika.net/py/binio/)

La libreria estandar `binascii` tambien tiene funciones que permiten convertir entre binario y strings en distintos formatos (Hex, Base 64, Uuencoded etc.). Esto permite desplegar los datos binarios en otros formatos que no sean una mezcla de ASCII y secuencias de escape \xnn.

In [None]:
import binascii

# Other binary formating
valid_png_header = b"\x89PNG\r\n\x1a\n"
print(binascii.hexlify(valid_png_header))
print(binascii.unhexlify(b"89504e470d0a1a0a"))

# Bit Operators (Similares al set operations)
# a = 5 , b = 1
# Bin(int) gets the binary string representation.
a = 0b0101
b = 0b0001
c = a & b
d = a | b
e = a ^ b
f = ~a
g = a << 1
h = a >> 1
print(bin(c), bin(d), bin(e), bin(f), bin(g), bin(h)) 
print(format(c, '#06b'), format(d, '#06b'), format(e, '#06b'), format(f, '#06b'), format(g, '#06b'), format(h, '#06b'))
print(c, d, e, f, g, h)

## Archivos

### Archivos Planos

Todo programa necesita formas de guardar datos de forma **persistente**. Se pueden utilizar archivos planos, archivos estructurados o bases de datos.

Cuando utilizamos **archivos planos** los podemos ver como una simple secuencia de bytes que guardamos dentro de una variable en el ROM, dicha variable es el nombre del archivo. Se dice que *leemos* datos del archivo y los pasamos a la memoria o que *escribimos* datos de la memoria al pasarlos al archivo.

Para leer o escribir un archivo necesitamos acceder a el, asumiendo que tenemos los permisos correctos Python puede acceder a un archivo y pasar sus datos a un objeto mediante la funcion `open(filename, mode)`. Mode es un codigo de dos digitos que indica el tipo de archivo y las operaciones que se pretenden hacer con el. 

- Leer = r
- Escribir (Si no existe se crea el archivo) = w
- Escribir (Solo si el archivo no existe) = x
- Escribir al final = a
- Archivo de texto = t o nada
- Archivo binario = b

Al final de escribir o leer un archivo Python debe cerrar el objeto (stream) para que se puedan guardar los cambios en el ROM.

In [None]:
# Write regresa el numero de bytes escritos
# Tambien podemos utilizar Print como append mediante su argumento file
import os

poem = """There was a young lady named Bright,
Whose speed was far faster than light;
She started one day
In a relative way,
And returned on the previous night.
"""
filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poema.txt"

os.makedirs(os.path.dirname(filename), exist_ok=True)

fout = open(filename, "wt")

fout.write(poem)
fout.write("\n")

print(poem, file=fout, sep="", end="")
fout.write("\n")

# Si el source es demaciado grande podemos escribirlo en partes
# En este caso escribe de 100 en 100 caracteres
size = len(poem)
offset = 0
chunk = 100
while True:
    if offset > size:
        break
    fout.write(poem[offset:offset+chunk])
    offset += chunk
fout.write("\n")
fout.close()


# Usando x proteje al archivo de ser sobreescrito si ya existe
filenameTwo = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poemaDos.txt"

os.makedirs(os.path.dirname(filenameTwo), exist_ok=True)

foutTwo = open(filenameTwo, "wt")
foutTwo.write(poem)
foutTwo.close()
try:
    foutTwo = open(filenameTwo, "xt")
    foutTwo.write(poem)
except FileExistsError:
    print("File Already Exists!")
foutTwo.close()

Para leer los datos de un archivo podemos utilizar las funciones `read()`, `readline()` o `readlines()`.

In [None]:
# Guardar todo el texto e imprimirlo
filenameThree = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poema.txt"
os.makedirs(os.path.dirname(filenameThree), exist_ok=True)
fin = open(filenameThree, "rt")
textoDeArchivo = fin.read()
fin.close()
print(textoDeArchivo)

In [None]:
# Guardar en partes de 100 caracteres e imprimirlo
filenameThree = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poema.txt"
os.makedirs(os.path.dirname(filenameThree), exist_ok=True)
textoDeArchivo = ""
fin = open(filenameThree, "rt")
chunk = 100
while True:
    fragment = fin.read(chunk)
    if not fragment:
        break
    textoDeArchivo += fragment
fin.close()
print(textoDeArchivo)

In [None]:
# Guardar cada linea e imprimirlo
filenameThree = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poema.txt"
os.makedirs(os.path.dirname(filenameThree), exist_ok=True)
textoDeArchivo = ""
fin = open(filenameThree, "rt")
while True:
    line = fin.readline()
    if not line:
        break
    textoDeArchivo += line
fin.close()
print(textoDeArchivo)

In [None]:
# Guardar cada linea con un iterador e imprimirlo
filenameThree = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poema.txt"
os.makedirs(os.path.dirname(filenameThree), exist_ok=True)
textoDeArchivo = ""
fin = open(filenameThree, "rt")
for line in fin:
    textoDeArchivo += line
fin.close()
print(textoDeArchivo)

Tambien podemos guardar directamente bytes en el archivo en vez de un string.

In [None]:
import os
bdata = bytes(range(0,10))
filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/archivoBinario.bin"
os.makedirs(os.path.dirname(filename), exist_ok=True)
fout = open(filename, "wb")
fout.write(bdata)
fout.close()

# Si quieres un context manager que cierre automaticamente el archivo
# Puedes utilizar el keyword with
with open(filename, "ab") as fout:
    fout.write(bdata)
    
fin = open(filename, "rb")
bdataRead = fin.read()
fin.close()
print(bdataRead)

# tell() te dicen en que posicion del archivo estas
# seek() te transporta a una posicion del archivo
fin = open(filename, "rb")
currentOffset = fin.tell()
print(currentOffset)

currentOffset = fin.seek(9)
bdataReadTwo = fin.read(1)
print(bdataReadTwo)

# Origin 0 (default) relativo al inicio
# Oirign 1 relativo a la posicion actual
# Origin 2 relativo al final
currentOffset = fin.seek(8, 0)
currentOffset = fin.seek(1, 1)
bdataReadTwo = fin.read(1)
print(bdataReadTwo)

currentOffset = fin.seek(0)
currentOffset = fin.seek(-1, 2)
bdataReadTwo = fin.read(1)
print(bdataReadTwo)

### Archivos Estructurados

Un **archivo estructurado** permite organizar mejor la informacion dado que un archivo plano organiza toda su informacion en una unica linea.

- Separadores o delimitadores = CSV
- Tags = HTML o XML
- Puntuacion = JSON
- Indentacion = YAML
- Personalizados = Config Files

In [None]:
import csv, os
# CSV files have lines (Rows) and fields (Columns)
personas = [
    ["Doctor", "No"],
    ["Rosa", "Klebb"],
    ["Mister", "Big"],
    ["Auric", "Goldfinger"],
    ["Ernst", "Blofeld"]
    ]
personasRead = []
personasReadList = []
filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/separadores.csv"
os.makedirs(os.path.dirname(filename), exist_ok=True)
with open(filename, "wt") as fout:
    csvout = csv.writer(fout)
    csvout.writerows(personas)
    
with open(filename, "rt") as fin:
    personasRead=[]
    csvin = csv.reader(fin)
    personasRead = [linea for linea in csvin]
    personasRead = [trueItem for trueItem in personasRead if trueItem]
print(personasRead)
print()

with open(filename, "rt") as fin:
    personasRead=[]
    csvin = csv.DictReader(fin, fieldnames=["Primer Columna", "Ultima Columna"])
    personasRead = [linea for linea in csvin]
    personasReadList = []
    for orderDict in personasRead:
        personasReadList.append(dict(orderDict))
print(personasReadList)
print()

with open(filename, "wt") as fout:
    csvout = csv.DictWriter(fout, ["Primer Columna", "Ultima Columna"])
    csvout.writeheader()
    csvout.writerows(personasReadList)
    
with open(filename, "rt") as fin:
    personasRead=[]
    csvin = csv.reader(fin)
    personasRead = [linea for linea in csvin]
    personasRead = [trueItem for trueItem in personasRead if trueItem]
print(personasRead)
print()

Otro formato popular para estructurar datos es con Markup. XML suele utilizarse en aplicaciones que necesitan intercambiar mensajes o feeds. Otros subformatos de XML son RSS y Atom. Tambien existen XML especializados para el sector de finanzas.

Algunos modulos para trabajar con XML son etree, dom y sax.

In [None]:
import os
# import xml.etree.ElementTree as xmlET

from defusedxml.ElementTree import parse
xmlData = """<?xml version = "1.0"?>
<menu>
    <breakfast hours = "7-11">
        <item price = "$6.00">Breakfast Burritos</item>
        <item price = "$4.00">Pancakes</item>
    </breakfast>
    <lunch hours = "11-3">
        <item price = "$5.00">Hamburger</item>
    </lunch>
    <dinner hours = "3-10">
        <item price = "$8.00">Spaghetti</item>
    </dinner>
</menu>
"""

filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/markupMenu.xml"
os.makedirs(os.path.dirname(filename), exist_ok=True)
with open(filename, "wt") as fout:
    fout.write(xmlData)
# tree = xmlET.ElementTree(file=filename)
tree = parse(filename)
root = tree.getroot()
print(root.tag)
for child in root:
    print("Tag:", child.tag, " | Atributos:", child.attrib)
    for grandchild in child:
        print("\tTag:", grandchild.tag, " | Atributos:", grandchild.attrib,
               " | Valor:", grandchild.text)

Python cuenta con el modulo `json` para trabajar con archivos estructurados de este tipo.

In [None]:
import json, os

menu = \
"""{
    "breakfast": {
        "hours": "7-11",
        "items": {
            "breakfast burritos": "$6.00",
            "pancakes": "$4.00"
        }
    },
    "lunch": {
        "hours": "11-3",
        "items": {
            "hamburger": "$5.00",
        }
    },
    "dinner": {
        "hours": "3-10",
        "items": {
            "spaghetti": "$8.00"
        }
    }
}"""

filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/jsonMenu.json"
os.makedirs(os.path.dirname(filename), exist_ok=True)
with open(filename, "wt") as fout:
    fout.write(menu)
    
menu_json = json.dumps(filename)
print(type(menu_json))

menu_Read = json.loads(menu_json)
print(type(menu_Read))

import datetime as dt
now = dt.datetime.utcnow()
now_str = str(now)
now_json = json.dumps(now_str)
print(now_json)

from time import mktime
now_epoch = int(mktime(now.timetuple()))
epoch_json = json.dumps(now_epoch)
print(epoch_json)

YAML surge como una alternativa a JSON que admite una gran cantidad de tipos de datos como tiempos y otros descriptores. Para delimitar su estructura utiliza indentación.

In [None]:
import yaml
yamlData = \
"""
name:
    first: James
    last: McIntyre
dates:
    birth: 1828-05-25
    death: 1906-03-31
details:
    bearded: true
    themes: [cheese, Canada]
books:
    url: http://www.gutenberg.org/files/36068/36068-h/36068-h.htm
poems:
    - title: "Motto"
      text: |
        Politeness, perseverance and pluck,
        To their possessor will bring good luck.
    - title: "Canadian Charms"
      text: |
        Here industry is not in vain,
        For we have bounteous crops of grain...
"""

filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/poetJames.yaml"
os.makedirs(os.path.dirname(filename), exist_ok=True)
with open(filename, "wt") as fout:
    fout.write(yamlData)
with open(filename, "rt") as fin:
    text = fin.read()
pythonData = yaml.safe_load(text)
print(pythonData["details"])
print(pythonData["poems"][1]["title"])

Los archivos de configuracion guardan el estado de las opciones de un programa. Los *dinamicos* son indicados mediante argumentos, mientras que los estaticos se guardan en un archivo.

Podemos utilizar cualquier variante de archivo estructurado pero corremos el riesgo de modificar el programa que parsea el archivo. Una buena alternativa es utilizar `configparser` que genera archivos `INI`.

In [None]:
configData = \
"""
[english]
greeting = Hello
[french]
greeting = Bonjour
[files]
home = /usr/local
# Simple Interpolation:
bin = %(home)s/bin
"""
filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/settings.cfg"
os.makedirs(os.path.dirname(filename), exist_ok=True)
with open(filename, "wt") as fout:
    fout.write(configData)

import configparser
cfg = configparser.ConfigParser()
cfg.read(filename)
print(list(cfg))
print(cfg["english"])
print(cfg["english"]["greeting"])
print(cfg["files"]["bin"])

Existen otros formatos para el intercambio de datos más compactos y rapidos que XML o JSON, por ejemplo MsgPack, Protocol Buffer, Avro o Thrift.

Guardar estructuras de datos en un archivo se denomina **Serialización**. Python cuenta con el modulo `pickle` para intentar guardar o restaurar una estructura de datos en cualquier archivo estructurado con un formato especial.

In [None]:
import pickle, datetime
now = datetime.datetime.utcnow()
pickled = pickle.dumps(now)
nowTwo = pickle.loads(pickled)
print(now)
print(nowTwo)

# Tambien funciona para serializar clases

class ejemploClase():
    def  __str__(self):
        return "Este es un ejemplo."
objEjemplo = ejemploClase()
print(repr(objEjemplo))
print(objEjemplo)
pickledData = pickle.dumps(objEjemplo)
print(pickledData)
objEjemploFromPickledData = pickle.loads(pickledData)
print(objEjemploFromPickledData)

# Igual que con YAML se debe tener cuidado de no reconstruir
# Archivos que no se confien.

Hay otros archivos estructurados especiales que se asemejan a bases de datos pero no pertenecen propiamente a esta categoria. Por ejemplo los **Spreadsheets** pueden ser transformados a CSV. El modulo `xlrd` permite trabajar con archivos binarios xls.

El formato binario **HDF5** es utilizado para jerarquias multidimencionales en las ciencias, permite acceder a bases de datos con mucha informacion. A pesar de su eficiencia no es ampliamente para negocios.

HDF5 es ideal para aplicaciones **WORM** (Write Once and Read Many), en donde las protecciones para escrituras conflictivas no es necesario. Para trabajar con HDF5 y otros formatos similares existen las librerias `h5py` y `PyTables`.

### Bases de Datos

Las **Bases de Datos Relacionales** tienen muchas ventajas y son utilizadas ampliamente:

- Acceso por multiples usuarios simultaneamente.
- Proteccion por corrupcion por otros usuarios.
- Metodos eficientes para guardar y extraer datos.
- Datos definidos por Schemas y limitados por Contraints.
- Joins para definir relaciones a traves de tipos de datos.
- Un lenguaje Query declarativo: SQL.

Una **tabla** es una serie de filas y columnas. Para crearla solo hay que nombrarla y especificar el orden, nombres y tipos de datos de sus columnas. Una columna puede ser opcional, permitiendo datos nulos.

Una columna o serie de columnas son la **llave primaria** de la tabla, sus valores deben de ser unicos previniendo que se duplique la introduccion de una nueva fila de datos.

El lenguaje declarativo de las bases de datos es **SQL**. A diferencia de otros lenguajes en SQL no determinas como hacer algo, unicamente lo que pretendes obtener. Las sentencias de SQL son peticiones que un cliente envia a un servidor de base de datos, el servidor decide que generar al recibir la petición.

Existen multiples definiciones de SQL en donde cada sistema de base de datos añade sus propias reglas, resultando en multiples **dialectos de SQL**. Las declaraciones más comunes se dividen en **DDL** (Data Definition Language) y **DML** (Data Manipulation Language).

| DDL | - |
| --- | --- |
| Create Database | CREATE DATABASE dbname |
| Select Current Database | USE dbname |
| Delete a Database | DROP DATABASE dbname |
| Create Table | CREATE TABLE tbname (colNames colDataTypes) |
| Delete Table | DROP TABLE tbname |
| Remove all Rows | TRUNCATE TABLE tbname |

| DML | - |
| --- | --- |
| Add Row | INSERT INTO tbname VALUES ( ... ) |
| Select All Rows and Columns | SELECT * FROM tbname |
| Select All Rows, some Col | SELECT cols FROM tbname |
| Select Some Rows Some Col | SELECT cols FROM tbname WHERE condition |
| Change some rows in a column | UPDATE tbname SET col = value WHERE condition |
| Delete some rows | DELETE FROM tbname WHERE condition |

Python cuenta con una interfaz estandar para trabajar con bases de datos denominada **Python DB-API** que es similar al JDBC de Java o el DBI de Perl. La interfaz define un *Conector* y un *Cursor* para poder ejecutar comandos y recibir resultados.

- Connect: Conecta a la base de datos. El servidor puede requerir nombre de usuario, contraseña, direcion entre otros.
- Cursor: Crea un objeto Cursor en la base de datos que administra la llegada de peticiones.
- Execute y Executemany: Permite ejecutar uno o mas comandos SQL en la base de datos.
- Fetchone, Fetchmany y Fetchall: Obtiene los resultados de Execute.

**SQLite** es un sistema de base de datos ligero, rapido y libre. Python puede trabajar con este sistema mediante la libreria `sqlite3`. SQlite genera archivos de base de datos que pueden ser utilizados de forma local, sin embargo su funcionalidad es limitada a comparación de **MySQL** o **PostgreSQL**.

In [None]:
import sqlite3

filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/zooEnterprise.db"
os.makedirs(os.path.dirname(filename), exist_ok=True)
connectObj = sqlite3.connect(filename)
cursorObj = connectObj.cursor()
try:
    cursorObj.execute("""
    CREATE TABLE zoo
    (critter VARCHAR(20) PRIMARY KEY,
    count INT,
    damages FLOAT)
    """)
    
except sqlite3.OperationalError as err:
        print("Ya existe la tabla!")

cursorObj.execute("INSERT INTO zoo VALUES ('duck', 5, 0.0)")
cursorObj.execute("INSERT INTO zoo VALUES ('bear', 2, 1000.0)")
    
    # Using a safer placeholder
tempIns = "INSERT INTO zoo (critter, count, damages) VALUES (?, ?, ?)"
cursorObj.execute(tempIns, ("weasel", 1, 2000.0))

cursorObj.execute("SELECT * FROM zoo")
allRows = cursorObj.fetchall()
print(allRows)
cursorObj.execute("SELECT * FROM zoo ORDER BY count")
allRows = cursorObj.fetchall()
print(allRows)
cursorObj.execute("SELECT * FROM zoo ORDER BY count DESC")
allRows = cursorObj.fetchall()
print(allRows)
cursorObj.execute("SELECT * FROM zoo WHERE damages = (SELECT MAX(damages) FROM zoo)")
allRows = cursorObj.fetchall()
print(allRows)

cursorObj.close()
connectObj.close()

**MySQL** es un sistema de base de datos popular. A diferencia de SQLite es un servidor que cualquier cliente puede accesar desde una red. MySQL tiene distintos drivers para distintas plataformas, el más popular es MysqlDB. SQL en MySQL puede ser ejecutado desde el DB-API, pero una libreria que es utilizada ampliamente y permite un mayor control es **SQLAlchemy**.

En un nivel más basico SQLAlchemy permite conectarte a Pools de bases de datos, ejecutar SQL y regresar resultados de forma similar a DB-API. Tambien permite utilizar **SQL Expression Language** un dialecto creado especificamente para Python. Finalmente puede administrar un **ORM** (Object Relational Model) que utiliza SQLEL para relacionar los objetos de Python con la base de datos.

Para conectar con una base de datos utilizando SQLAlchemy definimos:

    dialect + driver :// user : password @ host : port / dbname

| Dialecto | Driver | Libreria |
| --- | --- | --- |
| sqlite | pysqlite (or nothing) | sqlite3 | 
| mysql | mysqlconnector | mysql.connector |
| mysql | pymysql | pymysql |
| mysql | oursql | oursql |
| postgresql | psycopg2 | psycopg2 |
| postgresql | pypostgresql | py-postgresql |
 













In [None]:
import sqlalchemy as sa
# dialect + driver :// user : password @ host : port / dbname
# SQlite  no necesita user, password, host o port.
# Podemos omitir el driver pysqlite.

conn = sa.create_engine('sqlite:////Users/dario/Desktop/Python/Jupyter/Python/TextFiles/zooEnterpriseTwo.db')
#sqlalchemy_utils.functions.database_exists(url)
try:
    conn.execute('''CREATE TABLE zoo
    (critter VARCHAR(20) PRIMARY KEY,
    count INT,
    damages FLOAT)''')
except Exception as err:
    print("Ya existe la tabla!")
    print(err)
ins = "INSERT INTO zoo (critter, count, damages) VALUES (?,?,?)"
conn.execute(ins, "duck", 10, 0.0)
conn.execute(ins, "bear", 2, 1000.0)
conn.execute(ins, "weasel", 1, 2000.0)
rows = conn.execute("SELECT * FROM zoo")
print(rows)
for row in rows:
    print(row)

Para utilizar **SQL Expression Language** escribimos las operaciones SQL en forma de funciones. Se recomienda utilizar este lenguaje ya que automaticamente traduce los distintos dialectos de SQL.

In [None]:
import sqlalchemy as sa
# El objeto que tiene los metodos de la base de datos es ZOOThree

conn = sa.create_engine('sqlite:////Users/dario/Desktop/Python/Jupyter/Python/TextFiles/zooEnterpriseThree.db')
meta = sa.MetaData()
try:
    zooThree = sa.Table("zoo", meta,
                   sa.Column("critter", sa.String, primary_key=True),
                   sa.Column("count", sa.Integer),
                   sa.Column("damages", sa.Float)
                  )
    meta.create_all(conn)
    conn.execute(zooThree.insert(("bear", 2, 1000.0)))
    conn.execute(zooThree.insert(("weasel", 1, 2000.0)))
    conn.execute(zooThree.insert(("duck", 10, 0.0)))
except Exception as err:
    print("Ya existe la tabla!")
    print(err)
result = conn.execute(zooThree.select())
rows = result.fetchall()
print(rows)

Finalmente si queremos abstraer la base de datos podemos utilizar un **ORM** para relacionar el objeto de python directamente a la base de datos. Finalmente existe la opcion de utilizar un **DataSet** estructura incluida en el modulo SQLAlchemy.

In [None]:
import sqlalchemy as sa
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
conn = sa.create_engine('sqlite:////Users/dario/Desktop/Python/Jupyter/Python/TextFiles/zooEnterpriseFour.db')
Base = declarative_base()
class ZooDB(Base):
    __tablename__ = "zoo"
    critter = sa.Column("critter", sa.String, primary_key=True)
    count =  sa.Column("count", sa.Integer)
    damages = sa.Column("damages", sa.Float)
    def __init__(self, critter, count, damages):
        self.critter = critter
        self.count = count
        self.damages = damages
    def __repr__(self):
        return "<ZooDB({}, {}, {})>".format(self.critter, self.count, self.damages)
Base.metadata.create_all(conn)
first = ZooDB("duck", 10, 0.0)
second = ZooDB("bear", 2, 1000.0)
third = ZooDB("weasel", 1, 2000.0)
SessionClass = sessionmaker(bind = conn)
session = SessionClass()
try:
    session.add(first)
    session.add_all([second, third])
    session.commit()
except Exception as err:
    print("Ya existe la tabla!")
    print(err)
session.rollback()
rows = session.query(ZooDB).all()
print(rows)
for row in rows:
    print("Critter:", row.critter,"| Count:",row.count,"| Damages:", row.damages)
session.close()

### NoSQL

Existen otras formas de guardar informacion que se consideran bases de datos pero que no utilizan peticiones SQL. Estas estructuras se denominan **NoSQL Data Stores**.

Un formato NoSQL es `dbm`. Es una estructura de datos similar a un diccionario de Python. Una desventaja es que guarda los datos en bytes y no es posible iterar sus elementos.

In [None]:
import dbm, os
filename = "C:/Users/dario/Desktop/Python/Jupyter/Python/TextFiles/dbmUnix"
os.makedirs(os.path.dirname(filename), exist_ok=True)

with dbm.open(filename, "c") as db:
    db["mustard"] = "yellow"
    db["ketchup"] = "red"
    db["pesto"] = "green"
    getPestoColor = db["pesto"]
    print(getPestoColor)
    
with dbm.open(filename, "r") as db:
    getMustardColor = db["mustard"]
    print(getMustardColor)

Un servidor rapido por utilizar la memoria cache es `memcached`. Generalmente se utiliza al frente de una base de datos para guardar la informacion que se esta utilizando en el momento.

In [None]:
import memcache
db = memcache.Client(["127.0.0.1:11211"])
correctSet = db.set("marco", "polo")
print(correctSet)
getValueSet = db.get("marco")
print(getValueSet)
correctSet = db.set("ducks", 0)
print(correctSet)
getValueSet = db.get("ducks")
print(getValueSet)
incrementValue = db.incr("ducks", 33)
getValueIncremented = db.get("ducks")
print(getValueIncremented)

Un [servidor de estructuras de datos](https://github.com/MicrosoftArchive/redis/releases) o **Redis** es similar a memcached, aunque incluye la opcion de guardar en disco y permite guardar estructuras de datos más complejas. Para inicar el servidor ejecute `redis-server`, para detener agrege el comando `stop`.

In [None]:
# Iniciando el servidor Redis con el nombre de localhost.

import redis
conn = redis.Redis("localhost", 6379)
conn.set("secret", "ni!")
conn.set("carats", 24)
conn.set("fever", 101.5)
print("Value of secret key:", conn.get("secret"))
conn.setnx("secret", "error")
print("Old Value:", conn.getset("secret", "ni new!"))
print("New Value:", conn.get("secret"))
print("Substring:", conn.getrange("secret", 3, 5))
conn.setrange("secret", 3, "old again!")
print("Replace:", conn.get("secret"))
print()

conn.mset({"pie":"cherry", "cordial": "sherry"})
print("Multiple Get:", conn.mget(["fever", "carats"]))
conn.delete("fever")
conn.incr("carats", 10)
conn.decr("carats", 9)
print("Increment Int:", conn.get("carats"))
conn.incrbyfloat("fever", 0.44)
print("Increment Float:", conn.get("fever"))
print()

conn.lpush("zoo", "bear")
conn.lpush("zoo", "alligator", "duck")
conn.linsert("zoo", "before", "bear", "beaver")
conn.linsert("zoo", "after", "bear", "cassowary")
conn.lset("zoo", 2, "marmoset")
conn.rpush("zoo", "yak")
print("Value at index 3:", conn.lindex("zoo", 3))
print("List range:", conn.lrange("zoo", 0, 2))
conn.ltrim("zoo", 1, 4)
print("New List range:", conn.lrange("zoo", 0, -1))
print()

conn.hmset("song", {"do":"a deer", "re":"about a deer"})
conn.hset("song", "mi", "a note to fallow re")
print("Mi Value:", conn.hget("song", "mi"))
print("Re and Do Value:", conn.hmget("song", "re", "do"))
print("Keys:", conn.hkeys("song"))
print("Values:", conn.hvals("song"))
print("Lenght:", conn.hlen("song"))
print("Get All:", conn.hgetall("song"))
conn.hsetnx("song", "fa", "a note that rhymes with la")
print("Add Value :", conn.hget("song", "fa"))
print()

conn.sadd("setZoo", "duck", "goat", "turkey")
print("Set Lenght:", conn.scard("setZoo"))
print("Set Members:", conn.smembers("setZoo"))
conn.srem("setZoo", "turkey")
print("Remove Turkey:", conn.smembers("setZoo"))
conn.sadd("better_zoo", "tiger", "wolf", "duck")
print("Intersect :", conn.sinter("setZoo", "better_zoo"))
conn.sinterstore("fowl_zoo", "setZoo", "better_zoo")
print("Inter store:", conn.smembers("fowl_zoo"))
print("Union:", conn.sunion("setZoo", "better_zoo"))
conn.sunionstore("fabulous_zoo", "setZoo", "better_zoo")
print("Union store:", conn.smembers("fabulous_zoo"))
conn.sdiffstore("zoo_sale", "setZoo", "better_zoo")
print("Difference store:", conn.smembers("zoo_sale"))
print()

import time
now = time.time()
conn.zadd("logins", {"smeagol":now} )
conn.zadd("logins", {"sauron":now+(5*60)})
conn.zadd("logins", {"bilbo":now+(2*60*60)})
conn.zadd("logins", {"treebeard":now+(24*60*60)})
print("Rank of bilbo:", conn.zrank("logins", "bilbo"))
print("Score of bilbo:", conn.zscore("logins", "bilbo"))
print("Sort everybody:", conn.zrange("logins", 0, -1))
print("Sort with score:", conn.zrange("logins", 0, -1, withscores=True))
print()

days = ["2013-02-25", "2013-02-26", "2013-02-27"]
big_spender = 1089
tire_kicker = 40459
late_joiner = 550212
conn.setbit(days[0], big_spender, 1)
conn.setbit(days[0], tire_kicker, 1)
conn.setbit(days[1], big_spender, 1)
conn.setbit(days[2], big_spender, 1)
conn.setbit(days[2], late_joiner, 1)
count = 1
for day in days:
    print("Visitors at day", count, ":", conn.bitcount(day))
    count += 1
print("Visits of (tire_kicker) at second day:", conn.getbit(days[1], tire_kicker))
print("Bit Operation:", conn.bitop("and", "everyday", *days))
print("No. of users that visited everyday:", conn.bitcount("everyday"))
print("User that visited everyday:", conn.getbit("everyday", big_spender))
print("Bit Operation:", conn.bitop("or", "alldays", *days))
print("Total unique user visits:", conn.bitcount("alldays"))
print()

key = "now you see it"
conn.set(key, "but not for long")
conn.expire(key, 5) # In seconds
print("Time until key expires:", conn.ttl(key))
print("Key value:", conn.get(key))
time.sleep(6)
print("After it expires:", conn.get(key))

Otras bases de datos NoSQL compatibles con Python son las siguientes:

| Nombre | Libreria |
| --- | --- |
| Cassandra | pycassa |
| CouchDB | couchdb-python |
| HBase | happybase |
| Kyoto Cabinet | kyotocabinet |
| MongoDB | mongodb |
| Riak | riak-python-client |

Una categoria especial de bases de datos se denomina **Full Text Data Bases**. Se caracterizan por no tener valores llave y estar diseñadas para ser indexadas por completo, utiles para buscar entre una gran cantidad de texto. Generalmente necesitan de grandes servidores.

| Nombre | Libreria |
| --- | --- |
| Lucene | pylucene |
| Solr | SolPython |
| ElasticSearch | pyes |
| Sphinx | sphinxapi |
| Xapian | xappy |
| Whoosh | whoosh-api |

## Web API's

Ademas de la web (HTTP) existen otros protocolos para el intercambio de informacion entre clientes y servidores, pero la mayoria se basa en  [TCP/IP](https://en.wikipedia.org/wiki/Internet_protocol_suite) para mover los bytes de una computadora a otra.

- El cliente realiza una peticion a un servidor.
- La peticion abre una coneccion TCP/IP.
- Envia la URL y otra informacion por HTTP
- El servidor recibe la URL y la informacion.
- El servidor usa la URL y esa informacion para su respuesta.
- El cliente recibe la respuesta del servidor.

El protocolo HTTP define el formato de la peticion y la respuesta. El cliente más utilizado es el **navegador** que incluye automaticamente la informacion adicional que la URL necesita. El servidor puede responder con informacion para visualizar (HTML, CSS, JS) pero no necesariamente.

- **Caching**: El contenido que no cambia debera ser guardado por el clente para evitar descargarlo nuevamente.
- **Sessions**: Hay datos que deben ser recordados durante toda la coneccion con el servidor.
- **Autentificacion**: Usuario y contraseña debera ser recordado durante toda la coneccion despues de iniciar sesión y tal vez despues.

Los **cookies** pueden solucionar algunos de estos problemas.

Para acceder a un servidor desde una terminal podemos utilizar el antiguo cliente CLI `telnet`.

``` 
# Para conectar con un servidor de google que se encuentre escuchando en el puerto 80
telnet www.google.com 80

# El comando HTTP GET genera el Contenido de la respuesta HTTP
# El comando HTTP HEAD solo regresa los Headers de la respuesta
# Algunos headers son obligatorios y otros opcionales. Presionar enter dos veces para enviar comando.
# Sintaxis : HEAD URL PROTOCOL (/ = Home Dir)
HEAD / HTTP/1.1

# Para salir del cliente utilizamos q
q
``` 

Python 3 organizo sus modulos web en dos paquetes:

- html: Todos los detalles HTTP
    - client: Actua como cliente
    - server: Actua como servidor
    - cookies y cookiejar: Administra cookies
- urllib: Permite manejar URLs
    - request: Generar peticiones
    - response: Generar respuestas
    - parse: Traduce URLs

In [None]:
import urllib.request as ur
import json

# Rest API
url = "http://quotes.rest/qod.json"

# HTTPResponse Object
conn = ur.urlopen(url)

# Byte Data from the resource
data = conn.read()
print("Codigo de Estatus:", conn.status)

# Get Data String
data_json = json.loads(data.decode("utf-8"))

quotesList = data_json.get("contents").get("quotes")
firstQuote = quotesList[0]
firstQuoteContent = firstQuote.get("quote")
print(firstQuoteContent)

Existen multiples codigos de estatus HTTP agrupados por su primer digito:

- 100s: Estatus de informacion, el servidor recibio la peticion pero existe informacion extra para el cliente.
- 200s: Estatus de exito, el servidor recibio la peticion y genero la respuesta correctamente.
- 300s: Estatus de redireccion, el recurso se encuentra en otra direccion se genera un nuevo URL para el cliente.
- 400s: Error del cliente, por ejemplo al pedir un recurso inexistente (404).
- 500s: Error del servidor, por ejemplo cuando el servidor web y el servidor backend estan desconectados (503).

El servidor puede enviar la respuesta en cualquier formato dentro del protocolo HTTP. El formato lo especifica en el Header `Content-Type`, que especifica un `MIME Type`.

In [None]:
import urllib.request as ur

# Site
url = "http://www.google.com"

# HTTPResponse Object
conn = ur.urlopen(url)

# Headers list
headers = conn.getheaders()

# Print Headers
for header, value in headers:
    if(header == "Set-Cookie" or header == "P3P"):
        print("|{0:^20}|{1:^40.35s}|".format(header, value))
    else:
        print("|{0:^20}|{1:^40s}|".format(header, value))

Obtener el titulo de los videos populares ([API Documentation](https://developers.google.com/youtube/v3/docs/videos/list#examples)) en Youtube utilizando su API y urllib request.

In [None]:
import json
from urllib.request import urlopen
url = "https://www.googleapis.com/youtube/v3/\
videos?part=snippet&chart=mostPopular&regionCode=US&maxResults=25&\
key=YOURPERSONALGOOGLEAPIKEY"
response = urlopen(url)
contents = response.read()
text = contents.decode('utf8')
data = json.loads(text)

for currentVideo in data['items'][0:6]:
    title = currentVideo['snippet']['title']
    print(title)

Obtener la misma lista utilizando el modulo `requests`.

In [None]:
import requests
url = "https://www.googleapis.com/youtube/v3/videos?part=snippet&chart=mostPopular&regionCode=US&maxResults=25&key=YOURPERSONALGOOGLEAPIKEY"
response = requests.get(url)
data = response.json()
for currentVideo in data['items'][0:6]:
    title = currentVideo['snippet']['title']
    print(title)

En el lado de los **Servidores** Python tambien es un excellente lenguaje para programar el backend. Muchos frameworks permiten crear rapidamente servidores.

    python -m http.server
    Serving HTTP on 0.0.0.0 port 8000...

Note que 0.0.0.0 significa cualquier direccion TCP, los clientes pueden acceder al servidor sin importar su direccion. Al iniciar un cliente como un navegador y entrar en `localhost:8000 o 127.0.0.1` obtendremos un listado con los archivos del servidor.

Hoy en dia no solo basta con mostrar y descargar archivos. Los servidores deben ejecutar programas de forma dinamica y remota para mostrar los resultados al cliente. En un inicio se utilizo el **Common Gateway Interface** (CGI).

El problema de CGI es que inicia el programa en el servidor cada vez que el cliente realiza una peticion. Para evitar este problema se crearon modulos dinamicos que se ejecutaban primero en el servidor (**mod_php, mod_perl, mod_python**). Una alternativa era ejecutar el lenguaje en un programa maestro que se comunicara con el servidor web (**FastCGI o SCGI**).

Python desarrollo su propia alternativa con la definicion del **Web Server Gateway Interface** (WSGI), el cual es el API universal entre Web Apps de Python y Servidores. La mayoria de los frameworks de Python implementan esta interfaz.




Dos frameworks populares para el desarrollo web estatico sin bases de datos son Bottle y Flask.

In [None]:
from bottle import route, run, static_file, template
import os

htmldata = """
<p>This is a test.</p><p>This is a test.</p>
"""

@route('/')
def hello():
    return template(htmldata)
run(host="localhost", port=9999, debug=True)

Otro framework basado en bottle pero con mayor configuracion es **Flask**. Incluye las librerias `werkzeug` y `jinga2`.

In [None]:
from flask import Flask
htmldata = """
<p>This is a test.</p><p>This is a test.</p>
"""
app = Flask(__name__, static_folder = ".", static_url_path="")
@app.route("/")
def home():
    return app.send_static_file(htmldata)
app.run(port=9999, debug=True)

Ademas de Bottle y Flask podemos utilizar otros servidores como apache con **mod_wsgi** o nginx con **uWSGI**. En TEXTFILES ejecuta Apache wsgi para un ejemplo con Bottle como interfaz.

Otros servidores populares son:

- Cherrypy
- Pylons
- Tornado
- Gevent
- Gunicorn

Otros frameworks populares son:

- Django
- Web2Py
- Pyramid
- Turbogears
- Wheezy.web

Python tiene sus propias maneras de interactuar con el navegador sin requerir de servidores utilizando su modulo **webbrowser**. Por ejemplo:

    import antigravity
    
El codigo anterior hace uso de esta libreria.

In [None]:
import webbrowser
url = "http://www.python.org"
openInTab = webbrowser.open(url)

Los **servicios Web** y **Web APIs** son una forma estandar de los servidores de generar informacion y resultados que no sean HTML. Estas respuestas no estan diseñadas para ser consumidas manualmente  por humanos sino por otros programas que ejecuta automaticamente el cliente.

Al inicio de estos servicios un estandar popular para servir datos mediante HTTP fue **REST** (Representational State Transfer) que utiliza los verbos (comandos) HTTP cuidadosamente para otorgar la informacion. El formato de la respuesta suele darse en  JSON o XML.

Para consumir APIs o HTML automaticamente podemos utiliar un web fetcher denominados **crawler** o spider. Una vez que se recolecta la informacion podemos parsearla en busca de lo que necesitamos con un **scraper**. 

La libreria `scrapy` es un crawler y scraper complejo. Mientras que `BeautifulSoup` es solo un scraper.

In [None]:
def get_links(url):
    import requests
    from bs4 import BeautifulSoup as soup
    result = requests.get(url)
    page = result.text
    doc = soup(page, "lxml")
    links = [element.get("href") for element in doc.find_all("a")]
    return links
    
url = "http://google.com"
print("Links in", url)
for num, link in enumerate(get_links(url), start = 1):
    print(num, link)
print()