# **Regular Expressions**

<div>
    En computacion una regular expression, tambien <b>referida como "regex" o "regexp"</b>, nos <b>provee una consistente y flexible manera de vincular string y textos </b>, tales como caracteres particulares, palabras, o patrones de caracteres. 
    Una regular expression es escrita en un lenguaje formal que puede ser interpretada por un procesador de regular expression.
</div>

## Regular Expression Quick Guide
---

In [1]:
# ^        Matches the beginning of a line
# $        Matches the end of the line
# .        Matches any character
# \s       Matches whitespace
# \S       Matches any non-whitespace character
# *        Repeats a character zero or more times
# *?       Repeats a character zero or more times 
#          (non-greedy)
# +        Repeats a character one or more times
# +?       Repeats a character one or more times 
#          (non-greedy)
# [aeiou]  Matches a single character in the listed set
# [^XYZ]   Matches a single character not in the listed set
# [a-z0-9] The set of characters can include a range
# (        Indicates where string extraction is to start
# )        Indicates where string extraction is to end


In [2]:
x = 1 
y = dict({
    'A': 18,
    'B': 12
})

## The Regular Expression Module
---
<div>
    <ul>
        <li> Antes de que tu puedas usar regular expression en tu programa, debes importar la libreria "re"
        <li> Puedes usar <b>re.search()</b> para ver si un string se vincula a una regular expresion, similar a una el metodo find() para los string. 
        <li> Puedes usar <b>re.findall()</b> para extraer porciones de un string que se vincula a una regular expression, similar a combinar find() y slicing: var[5:10]
    </ul>
</div>

<p style="color:chocolate; font-weight:bold; font-size:17px">Example</p>

Using **re.search() like find()**

In [3]:
letras = "Hola me llamo sebastian, tengo 25 años, estoy aprendiendo Python"

#find() entrega la posicion del primer caracter del string que se esta buscando dentro de otro string. 
print(letras.find("me"))
print("")

hand = open("mbox-short.txt")
for line in hand:
    line = line.rstrip()
    if line.find('From:') >=0:
        print(line)
        
#----------------------------------------------------------------------------------------------        
import re 

letras = "Hola me llamo sebastian, tengo 25 años, estoy aprendiendo Python"

#re.search() es capaz de reconocer la primera y ultima posicion del string que se esta buscando.
print(re.search("me",letras))
print("")

hand = open("mbox-short.txt")
for line in hand:
    line = line.strip()
    if re.search("From:",line):
        print(line)
        
#find() y re.search() son equivalentes en el ejemplo anterior. 

5

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
<re.Match object; span=(5, 7), match='me'>

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.ed

<p style="color:Chocolate; font-weight:bold; font-size:17px">Example</p>

**Using re.search() like starswith()**

In [None]:
#startswith() retorna un True o False si la sentencia comienza con el string ingresado
hand = open("mbox-short.txt")
for line in hand:
    line = line.rstrip()
    #Revisamos si la linea comienza con "From:"
    if line.startswith("From:"):
        print(line)
        
#------------------
print("\n\n\n")
#Para el caso de regex no cambiamos el metodo, como si lo hacemos cuando trabajamos con los string  
#En las regex podemos cambiar ciertos parametros para consultar ciertas cosas. 
#En el siguiente ejemplo utilizamos ^ que significa hacer match con el principio de la sentencia a la
#cual consultamos. 

import re

hand = open("mbox-short.txt")
for line in hand:
    line = line.rstrip()
    #al anteponer ^ en el string que estamos buscando hacer match con el principio de la sentencia 
    if re.search("From:",line):
        print(line)


## Wild-Card Characters 
---
<ul>
    <li>El caracter <b>punto</b> hace vinculos con algun caracter cualquiera. 
    <li>El caracter <b>asterisco</b>, repite el proceso 0 a n numero de veces.  
</ul>

<img style = "display:flex; margin-left:auto; margin-right:auto" 
  src="2021-06-09_18h11_29.png" width="500" height="400" > </img>
  
  **La figura anterior da un ejemplo de una busqueda**, en donde se quiere encontrar todas las lineas que comience con "X", hagan match con algun caracter cualquiera (punto), se repita cero o mas veces (asterisco)
y terminen en ":"

**Haciendo mas preciso el proceso** de busqueda tenemos

<img style = "display:flex; margin-left:auto; margin-right:auto" 
  src="2021-06-09_18h19_38.png" width="500" height="400" > </img>
  
  **En la figura anterior se quiere** buscar todas las lineas que comiencen con "X-", se siga haciendo match mientras no exista un whitespace character (\S), y se repita una o mas veces (+), hasta que se encuentre un ":". 

## Matching and Extracting Data
---

* **re.search()** retorna un True/False dependiendo de si el string matches la regular expression.
* Si queremos extraer el matches string, utilizamos **re.findall()**

<img src="2021-06-09_21h54_00.png" style="display:flex; margin-left:auto; margin-right:auto"></img>

<p style="text-align: justify">La imagen anterior muestra un ejemplo en donde extraemos todos los numeros dentro de una sentencia mediante la regex [0-9]+. En donde la expresion "[]" indica uno o conjunto de caracteres a ser buscados, y 0-9 indica un rango de caracter a ser considerado</p>

<p style="color:chocolate; font-weight:bold; font-size:17px">Example</p>

In [2]:
import re
x = "Mis 2 favoritos numeros son 19 y 42"
y = re.findall("[0-9]+",x)
print(y)

z = re.findall("[AEIOU]+",x)
print(z)

['2', '19', '42']
[]


## Warning: Greedy Matching
---
El repetir caracteres (* ; +) empuja hacia afuera en ambas direcciones para hacer match con el string mas largo posible. 

In [5]:
import re
x = "From: Using the: character"
y = re.findall("^F.+:",x)
print(y)

#¿Por que no retorna solo "From:"?

['From: Using the:']


**¿Por que la regex no retorna solo "From:"?**

La logica del greedy matching es que cuando la regex puede hacer match con mas de una posibilidad de 
superposicion de string, eligira la mas larga.

## Non-Greedy Matching
---
**No todas las regex de repeticiones son greedy**. Si se agrega un caracter "?", los caracterers + y * se relajan un poco. 

In [6]:
import re
x = "From: Using the: character"
y = re.findall("^F.+?:",x)
print(y)

['From:']


Ahora tenemos una regex de repeticion sin ser greedy

## Fine-Tuning String Extraction
---
Puedes refinar el match para re.findall() y separadamente determinar cual porcion de el match sera extraida usando parentesis. 

In [18]:
import re
x = "From seba@gmail.com Sat Jan 5 09:14:16 2008; marcia@gmial.com"

#Buscamos todos los caracteres que no tengan espacios y contengan un signo de @
y = re.findall("\S+@\S+",x)
print(y)

['seba@gmail.com', 'marcia@gmial.com']


Podemos hacer lo anterior de otra manera.

In [17]:
import re
x = "From seba@gmail.com Sat Jan 5 09:14:16 2008; marcia@gmail.com"

#Utilizamos parentesis para declarar cuanto partimos y terminamos lo que queremos extraer
y = re.findall("^From (\S+@\S+)",x)
print(y)

['seba@gmail.com']


## String Parsing Examples
---
### Store Apart String

In [2]:
data = "From sebagasca@gmail.com Sat Jan 5 09:14:16 2008"
#Buscamos la posicion de el caracter "@"
atpos = data.find("@")
print(atpos)

#Buscamos la posicion del whitespace despues de la posicion de "@"
sppos = data.find(" ", atpos)
print(sppos)

#Seleccionamos las posiciones de la sentencia que queremos extraer.--> gmail.com
host = data[atpos+1: sppos]
print(host)

14
24
gmail.com


### The Double Split Pattern

In [4]:
data = "From sebagasca@gmail.com Sat Jan 5 09:14:16 2008"

#Generamos la lista de palabras/frases 
words = data.split()

#Elegimos la frase que queremos analizar
email = words[1]

#Generamos una lista de palabras/frase separadas por "@", de la frase que analizamos anteriormente 
pieces = email.split("@")

#Obtenemos el host del mail.
print(pieces[1])

['sebagasca', 'gmail.com']


### The Regex Version

In [13]:
import re
data = "From sebagasca@gmail.com Sat Jan 5 09:14:16 2008"

#El primer caracter "@", nos determina de donde queremos partir nuestra busqueda

#utilizamos los parentesis () para indicar que queremos extraer una secuencia de string luego de identificar
#los caracteres que declaramos anteriormente 

#Extraemos todos los caracteres que no sean whitespace con la expresion [^ ]*, que es sinonimo de \S

y = re.findall("@([^ ]*)",data)
print(y)

z= re.findall("@(\S*)",data)
print(z)

['gmail.com']
['gmail.com']


**Even Cooler Regex Version**

In [18]:
import re
data = "From sebagasca@gmail.com Sat Jan 5 09:14:16 2008"


y = re.findall("^From.*@([^ ]*)",data)
print(y)

['gmail.com']


<p style="color:chocolate; font-weight:bold; font-size:16px">Example</p>

In [22]:
import re

hand = open("mbox-short.txt")
numlist = list()
for line in hand:
    line = line.rstrip()
    stuff = re.findall("^X-DSPAM-Confidence: ([0-9.]+)", line)
    if len(stuff) != 1: 
        continue
    num = float(stuff[0])
    numlist.append(num)
        
print("Maximun:", max(numlist))

Maximun: 0.9907


## Escape Character
---
Si quieres que un caracter utilizado en las Regex se comporte "normal", la mayoria de las veces se antepone un \

In [25]:
import re
x = "We just received $10.00 for cookies"

#Queremos usar el signo de dolar para buscar una expresion en nuestra sentencia, pero el signo de dolar 
#esta como caracter fundamental en las regex. Para poder usarlo entonces debemos anteponer un \

y = re.findall("\$[0-9.]+", x)
print(y)

['$10.00']


---
---
---
---

# **Networking with Python**

## Networking Socket, Port, Protocols, Browser with Python
---

Un `socket` en palabras simples un cable que conecta con un servidor web.

Un `protocolo` es una forma de comunicarse con una aplicacion en particular que coexiste en un servidor web:

* El port 23 es la extencion para comunicarnos con las aplicaciones de  login, 
* El port 80 o 443 es la extencion para comunicarnos con los web server, 
* El port 109 y 110 es para personal mail box


Importamos la libreria `socket` para importar el _socket_ que viene por defecto en python

In [4]:
import socket 

De la libreria socket utilizamos la funcion `socket` y utilizamos los parametros `socket.AF_INET` y `socket.SOCK_STREAM`. 

* El parametro `socket.AF_INET` es el que nos perimte extender el cable por el internet. 
* El parametro `socket.SOCK_STREAM` es el que calibra la serie de caracteres que van de un lado a otro

EL archivo `mysock` no es manejable y manipulable aun. 


In [2]:
mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

Ya teniendo el cable creado 'mysock', usamos la funcion `connect()` que requiere una tupla de dos parametros:

1. la `url` de la web a la que queremos conectar 
2. el numero del `protocolo` 

En resumen en esta linea de codigo hacemos la 'llamada telefonica'

In [3]:
mysock.connect(('data.pr4e.org',80))

<p style="text-align:justify">
    Un concepto <b>importante a considerar es el protocolo que se usa</b> para la interaccion entre la llamada y la respuesta. Se podria decir que <b>el protocolo son las reglas que se aplican entre la comunicacion</b> entre el que hace la llamada y el que responde. Por ejemplo, responde a las preguntas 
    <ul><li> ¿Quien habla primero? 
    <li> ¿Como se da la respuesta a cierta pregunta?. </ul></p>
 
**En esta seccion utilizamos el protocolo http** (hipertext transferer protocol)

In [10]:
import socket 
mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('data.pr4e.org',80))

Armamos solicitud de la forma `'GET - URL - Protocolo - Blank space'` (blankc space dos veces). La solicitud la codificamos con `.encode()`. Se codifica la solicitud debido a que lo que queremos pasar de:
> Unicode -> UTF-8. 


In [11]:
cmd = 'GET http://data.pr4e.org/romeo.txt HTTP/1.0\r\n\r\n'.encode()

Ahora mandamos la solicitud por medio del cableado ya creado por _mysock_ con la funcion `send()`

In [12]:
mysock.send(cmd)

47

Hacemos un `ciclo while` para extraer la informacion de la servidor web al que nos hemos conectado con la funcion `recv()`.

In [13]:
while True:
    data = mysock.recv(512)
#Extraemos 512 caracteres a la vez
    if (len(data)) < 1:
        break
#Si la data que extraemos es menor a 1, es decir 0, nos indicara que no hay mas informacion a recibir
#y por lo mismo se corta el ciclo while
    print(data.decode())
#mientras recivimos la data esta es mostrada en la consola. Esto se hace mediante la funcion ''.decode()'
#que como su nombre lo dice está lo esta decodificando

HTTP/1.1 200 OK
Date: Tue, 22 Jun 2021 15:23:38 GMT
Server: Apache/2.4.18 (Ubuntu)
Last-Modified: Sat, 13 May 2017 11:22:22 GMT
ETag: "a7-54f6609245537"
Accept-Ranges: bytes
Content-Length: 167
Cache-Control: max-age=0, no-cache, no-store, must-revalidate
Pragma: no-cache
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Connection: close
Content-Type: text/plain

But soft what light through yonder window breaks
It is the east and Juliet is the sun
Arise fair sun and kill the envious moon
Who is already s
ick and pale with grief



Terminamos por cerrar el cable que hemos enviado al servidor con la funcion `.close()`

In [14]:
mysock.close()

## Networking Text Processing
---

<p style="text-align:justify">
Lo que hemos hecho hasta ahora esta es su mayoria codificado en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ASCII</mark> (American Standard Code for information interchage). Cada caracter esta representado por un numero entre <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">0-256</mark> stored in <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">8 bits</mark> of memory, 8 bits de memoria es <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">1 byte</mark>. Ej: mi computador tiene 512 megabyte de memoria. La funcion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ord()</mark> nos dice el numero de valores que usa la codificacion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ASCII</mark>.


In [15]:
print(ord('f'))
print(ord('F'))
print(ord('1'))
print(ord('\n'))

102
70
49
10


<p style="text-align:justify">
Pero en realidad la codificacion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ASCII</mark> es bastantes simmple. Hoy se usa la codificacion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">UNICODE</mark> que posee billones de caracteres para diferentes lenguas para diferentes grupos de caracteres, lo que permite hacer pequeñas variaciones de caracteres y darnos mayor espacio de maniobra, aunque UNICODE nos entrega mayor cantidad de caracteres de lo que uno normalmente quiere.
<br><br>    
Ahora, el problema es que si queremos mandar un mensaje a traves de internet con la encriptacion UNICODE, se torna demasiado largo. Es aqui que aparecen otras formas de encriptar los caracteres, en donde en vez de usar <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">8 bits</mark> por caracter puede ser mediante <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">4 byte</mark> (<mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">utf-32</mark>), aunque la mejor forma para mover archivos y informacion por medio de internet es la encriptacion que da <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">utf-8</mark>. 
<br><br>
La encriptacion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">utf-8</mark> es versatil, puede leer archivos encriptados por <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">1 a 4 bytes</mark> por lo que puede leer archivos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ASCII</mark>

<mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">Python 2.x</mark> diferenciaba sus string en ASCII y en UNICODE, en cambio en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">Python 3.x</mark> todos los string son en formato 
UNICODE

<p style="text-align:justify">
Ahora haremos otra vez un browser pero en menos lineas que el codigo anterior. <b>No utilizaremos la libreria socket</b>, sino que utilizaremos la libreria <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib</mark>.
Importamos los modulos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib.request</mark>, <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">
urllib.parse</mark>, <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib.error</mark>

In [18]:
import urllib.request, urllib.parse, urllib.error

<p style="text-align:justify">
Utilizamos la funcion <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urlopen</mark> del modulo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">request</mark> de la libreria <i>urllib</i>. Esto: 
<ul>
<li><b>genera</b> los sockets, 
<li>los <b>conecta</b>, 
<li>genera la <b>llamada</b>, 
<li><b>manda</b> la solicitud, 
<li><b>codificada</b> automaticamente, 
<li><b>recibe</b> la informacion solicitada 
</ul>

<b>en solo un momento</b>,y en un <b>archivo mas manejable</b>, dado que podemos poner este archivo en un ciclo for para ser leido


In [None]:
fhand = urllib.request.urlopen('http://data.pr4e.org/romeo.txt')
for line in fhand:
#cada linea leida seran en bytes por lo que tenemos que decodificarlas para tenerlas en formato UNICODE
    print(line.decode().strip())
#Recordar que la funcion strip() elimina el salto de linea que va al final de la oracion o sentencia de cada .txt
    
#Hay que notar que el resultado desplegado no tiene encabezado(como sucedia en el caso anterior)


Podemos este metodo para manejar lo que recibimos de las paginas web como si fueran un archivo en nuestro ordenador

In [None]:
import urllib.request, urllib.parse, urllib.error
fhand = urllib.request.urlopen('http://data.pr4e.org/romeo.txt')
dic = dict()
for line in fhand:
    words = line.decode().split()
    for word in words:
        dic[word] = dic.get(word,0) + 1
print(dic)

Asi tambien podemos recibir informacion de paginas en formato html.

In [19]:
fhandhtml = urllib.request.urlopen('http://www.dr-chuck.com/page1.html')
for line in fhandhtml:
    print(line.decode().strip())

<h1>The First Page</h1>
<p>
If you like, you can switch to the
<a href="http://www.dr-chuck.com/page2.htm">
Second Page</a>.
</p>


## Networking Web Scrapping
---

El obtener y manejar datos en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">.html</mark> es a lo que llamamos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">scraping web</mark> o spider web. Una forma 'facil' y practica de hacer esto es mediante la libreria <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">beautifulsoup</mark>. 

In [None]:
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup

url = input('Enter -')
html = urllib.request.urlopen(url).read()
#Genermos el archivo tipo soup para manejar las etiquetas Html
soup = BeautifulSoup(html, 'html.parser')

#Recuperamos todos los 'anchor tags - <a></a>'
tags = soup('a')
for tag in tags:
    print(tag.get('href',None))

<p style="color:chocolate; font-weight:bold; font-size:16px"> Exercise</p>

In [None]:
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import ssl

#Con la libreria ssl creamos una varible, siguiendo el codigo siguiente, que tiene por finalidad poder asegurar
#nuestra conexion a las paginas web. (Si quieres entrar en detalle sobre esta parte del codigo googlea)
#En palabras del profe es ingnorar el error del certificado SSL
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

#La variable creada anteriormente sera utilizada como parametro en urllib.request.urlopen()
url = input('Enter -')
html = urllib.request.urlopen(url,context = ctx).read()
soup = BeautifulSoup(html,'html.parser')

------------------------------------------------------------
------------------------------------------------------------
------------------------------------------------------------
------------------------------------------------------------

# **Web Services**

<div style ="text-align: justify">
    <b>Anteriormente vimos como crear un aplicación browser</b> para poder conectarnos (mediante un socket, un puerto y un protocolo) con un Servidor Web. <b>Aunque solo nos enfocamos en extraer la informacion visible</b> que la url estaba programada a entregar (en formato <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">HTML</mark>). Pero la informacion que podemos obtener de un servidor web no solo se acota a lo anterior. <b>En ocaciones es necesario extraer datos que sirvan exclusivamente para un uso "de programacion"</b>, por lo que es necesario que vengan en un formato "amigable" para ser trabajados con un lenguaje de programacion (Javascript, PHP, Python, JAVA, etc). En estos casos tenemos los formatos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark> y <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark><div> 


## Web Services XML Files
---

<p style = "text-align:justify" >
    <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas">XML</mark> significa extensible markup lenguage (Lenguaje de marcado extensible). 
<br><br>    
El formato <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark> es bastante similar a <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">HTML</mark>, <b>utiliza etiquetas</b>, <b>atributos</b> y <b>serialize/de-serialize</b> (esto quiere decier que posee la capacidad de convertir la data de un programa a un formato en comun que puede ser alamcenado y trasmitido entre sistemas de una manera independiente a los lenguajes de programacion). 
<br><br>
Al igual que en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">HTML</mark>, en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark> <b>existe un estructura de orden jerarquico</b>. Hay nodos mayores y menor (nodos padres y nodos hijos). 
<br><br>
Por ultimo, a diferencia de los archivos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">HTML</mark> que <b>posee etiquetas preconcebidas</b> como por ejemplo: h1, p, a; en <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark> las etiquetas <b>pueden tomar cualquier nombre</b></p>

<p style="color:chocolate; font-weight:bold; font-size:16px">Example 1</p>

Importamos la libreria `xml` con el modulo `etree.ElementTree`

In [None]:
import xml.etree.ElementTree as ET

In [None]:
#Para poder crear posteriormente un archivo tipo XML se debe usar la triple comilla 
data = ''' 
<person>
    <name>Chuck</name>
    <phone type="intl">
        +1 734 303 4456
    </phone>
    <email hide="yes"/>
</person>
'''
print(type(data))

#Generamos el archivo XML
tree = ET.fromstring(data)
print(type(tree),"\n")

#Buscamos la etiqueta name, y luego obtenemos el texto contenido en esa etiqueta
print('Name:', tree.find('name').text)
#Buscamos la etiqueta email, y luego recibimos el valor que contiene el atributo hide
print('Attr:', tree.find('email').get('hide'))

<p style="color:chocolate; font-weight:bold; font-size:16px">Example 2</p>

In [None]:
import xml.etree.ElementTree as ET

x = '''
<stuff>
    <users>
    
        <user x="2">
            <id>001</id>
            <name>Chuck</name>
        </user>
        
        <user x = "7">
            <id>009</id>
            <name>Brent</name>
        </user>
        
    </users>
</stuff>
'''

stuff = ET.fromstring(x)
#Vamos a buscar todos las etiques <user> contenidas en la etique <users>. El resultado sera un lista de los tag
lst = stuff.findall('users/user')
print(lst)
print('Users count:', len(lst),'\n')

#Ahora para obtener la informacion de cada tag haremos una iteration
for item in lst:
    print('Usuario:', item.find('name').text)
    print('ID:', item.find('id').text)
    #Asumiendo que ya estamos analziando el tag <user> no es necesario usar item.find('user').get('x') para 
    #recuperar el atributo, tan solo tenemos que usar item.get()
    print('Atributo:', item.get('x'))

## XML Schema
---

Es la descripcion del **'formato legal'** de un archivo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark>. Expresando en terminos de codigo, las limitaciones en la estructura y contenido de un documento XML

A menudo usado para especificar un **'contrato'** entre sistemas 

>"mi sistema solo aceptara XML que sean conformados por este particular Schema"

Si en un determinado archivo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark> se encuentran las especificaciones de un Schema "se dira como valido"

<p style = "color: Chocolate; font-weight: bold; font-size: 1.1em"> Example 1</p>

In [None]:
#XML
'''
<person>
    <name>Chuck</name>
    <phone type="intl">
        +1 734 303 4456
    </phone>
    <email hide="yes"/>
</person>
'''

#XML Schema
'''
<xs:complexType name="person">
    <xs:sequence>
        <xs:element name ="lastaname" type="xs:string"/>
        <xs:element name ="age" type="xs:integer"/>
        <xs:element name ="dateborn" type="xs:date"/>
    </xs:sequence>
</xs:complexType>
'''

Hay diferentes lenguajes de <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">
XML Schema</mark>. <b>Uno muy comun</b> es llamado <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XSD</mark> el cual es la <b>especificacion XML Schema de W3C</b> (world wide web consortiums) 

## JSON (Java Script Object Notation)
---

Comunmente encontraras mas archivos tipo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> que <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">XML</mark>. El formato <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> es muy <b>bueno para extraer data de un sistema</b> y <b>moverla a un segundo sistema</b> con minimo escandalo.

El formato <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> fue presentado por <b>Douglas Crockford</b>, el cual dice que no lo creo sino que lo "descubrio". 

Los archivos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> <b>no son un estandar internacional</b>. Realmente lo que paso fue que Douglas Crockford decidio crear JSON.org (simplemente un pagina web) y <b>la gente empezo a leerlo empezo a usarlo</b>.

En Python los archivos <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> son leidos simplemente como una variable de tipo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">list()</mark> o <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">dic()</mark>. 

<p style="color:chocolate; font-weight:bold; font-size:16px">Example 1</p>

Importamos la libreria <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">json</mark>

In [22]:
import json

In [23]:
data = '''
{
    "name": "Chuck",
    "phone": {
        "type": "intl",
        "number": "+1 734 303 4456"
    },
    "email": {
        "hide": "yes"
    }
}
'''
print(type(data))

Tranformamos los datos del archivo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">JSON</mark> a un formato manejable por Python con el con el metodo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">loads()</mark>

In [28]:
info = json.loads(data)

<class 'dict'>


Exploramos la `info` como un objeto tipo `dic()`

In [25]:
print('Name', info["name"])
print('Hide', info["email"]["hide"])

Name Chuck
Hide yes


<p style="color:chocolate; font-weight:bold; font-size:16px">Example 2</p>

In [None]:
import json

data = '''
[
    {"id": "001",
    "x": "2",
    "name":"Chuck"},
    {"id":"009",
    "x": "7",
    "name":"Chuck"}
]
'''
print(type(data))

info = json.loads(data)
print('User count:', len(info))

for item in info:
    print('Name',item["name"])
    print('Id',item["id"])

## Web Services SOA
---

<div style = "text-align:justify" >
El <b>efoque orientado al servicio</b> (SOA = Service-Oriented Aproach) es una forma de abordar la solucion a un complejo problema de aplicacion, donde todos los datos realmente no están presentes en un solo sistema de computadora, sino de alguna manera estan difundidos a traves del internet o una red interna. 
<br>
<br>
Por lo que <b>la idea de aquí es que algunas aplicaciones no pueden contener todo</b>. Por ejemplo un sitio web de viajes, en él se puede reservar un vuelo, un auto, un hotel, etc., aún sabiendo que este sitio web no es un hotel, no es una compañía de arriendo de autos, ni una aerolinea. Lo que se esta haciendo es hablar con todos estos servicios en otro lugar de la web en su nombre y realizar las reservas.
<br>
<br>
Los servicios publican las reglas de su aplicacion que deben seguir para hacer uso del servicio <b>(API)</b>
</div>

## Web Services GeoJSON
---

### Application Program Interface (API)

<div style = "text-align:justify" >
Una <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">
API</mark> es la interfaz de programacion de la aplicacion (Application Program Interface). 
<br><br>
Una <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">API</mark> en sí es en gran medida abstracta, ya que especifica una interfaz y controla el comportamiento de los objetos especificados en esa interfaz.Tiene un set de reglas que te dicen por ejemplo:

<ul>
<li>Lo que son las URLs que maneja, 
<li>Si su formato es XML o JSON, etc. 
</ul>

<div style = "text-align:justify" >
Una <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">API</mark> es definida tipicamente en los termino del lenguaje de programacion usado en la construccion de la aplicacion. 
<br><br>
<b>La siguiente URL es un ejemplo de una respuesta</b> de la <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">API de Google Map</mark> para la direccion Ann Arbor

http://maps.googleapis.com/maps/api/geocode/json?address=Ann+Arbor%2C+MI

<br>
<div style = "text-align:justify" >
Podemos observar que es un archivo JSON y la direccion es Ann Arbor. El signo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">+</mark> significa un espacio, y el signo <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">%</mark> significa una ','. Esta parte de la URL se llama <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">'URl encoded'</mark> (No hay que preocuparse de esto por ahora ya que Python tiene una libreria que nos permite codificar una direccion con este tipo de formato)
</div>

<p style="color:chocolate; font-weight:bold; font-size:16px">Example 1 </p>

<br>
<div style = "text-align:justify" >
La URL anterior nos mostrara algo como el ejemplo debajo (en realidad ahora no nos muestra algo como lo de abajo dado que la API de google actualmente pide una key para ser usada)
</div>

In [None]:
GeoJSON_P ='''
{
        "status": "OK",
        "results": [
        {
            "geometry":{
                "location_type":"APPROXIMATE",
                "location": {
                    "lat": "42.2808256",
                    "lng": "-83.7430378"
                }
            },
            "address_components": [
                {
                    "long_name": "Ann Arbor",
                    "types": [
                        "locality",
                        "political"
                    ],
                    "short_name": "Ann Arbor"
                }
            ],
            "formatted:address": "Ann Arbor, Mi, USA",
            "types": [
                "locality",
                "political"
            ]
        }
    ]
}
'''

Importamos la librerias con sus metodos correspondientes: <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib.request</mark>, <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib.parse</mark>, <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">urllib.error</mark> y <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">json</mark>

In [None]:
import urllib.request, urllib.parse, urllib.error
import json

serviceurl = 'http://maps.googleapis.com/maps/api/geocode/json?'

while True:
    address = input('Enter location: ')
    if len(address) < 1: break
    
    #codificamos la direccion 
    url = serviceurl + urllib.parse.urlencode({'address':address})
    
    print('Retrieving' + url)
    #hacemos la solicitud para abrir la url
    uh = urllib.request.urlopen(url)
    #decodificamos la informacion solicitadda 
    data = uh.read().decode()
    print('Retrieved', len(data), 'characters')
    
    #en esta parte podria existir un error en caso de que la url no este 
    #disponible.     
    try:
        js = json.loads(data)
    except:
        js = None
    
    #si el json no existe o si 'status' no esta correcto ('OK') entonces 
    #entregamos mensaje de que hubo un error
    if not js or 'status' not in js or js['status'] != 'OK':
        print('==== Failure to Retrieve ====')
        print(data)
        continue 
        
#Como sabemos que actualmente la API de google pide key, simulamos el GeoJson
js = json.loads(GeoJSON_P)
lat = js["results"][0]["geometry"]["location"]["lat"]
lng = js["results"][0]["geometry"]["location"]["lng"]
print('lat', lat, "long", lng)

En los archivos del curso, en la carpeta:`code3/geocode/` , se encuentra el archivo geoload.py para estudiar la forma de conectar a una key API

## Web Services Twitter
---

### API Security and Rate Limiting

Cuando hablamos de la seguridad y un rango limitado de computo de las API nos referimos a:
* Las fuentes de computos que corren estas API no son "libres" 
* Los datos provenientes de esas APIs son usualmente valiosos
* Los provedores de datos podrian limitar el numero de consultas por dia, ademas de demandar una API "key", o incluso cargo por el uso
* Ellos pueden cambiar las reglas mientras las cosas progresan

<div style = "text-align:justify" >
En este sub captiulo se enseña el uso de la API de Twitter. <b>Actualmente la API de Twitter funciona de manera distinta a como funcionaba el 2016</b>. Dado que el ejercicio prospuesto por el curso se realizo el año 2016, no funciona el metodo para ingresar la 'Key' y el 'Token' que pide actualmente la API de Twitter 
para usar su funcionalidad interna. <br> 
<b>Es por esto que, (por motivos de descontinuidad) los ejercicios que se proponen no se mostraran aquí</b>. <b>De todas formas son ejercicios que ayudan a entender el uso de una API</b> obviando el uso de 'Key' y 'Token'. Para ver el ejercicio consulte el siguente Link. 
</div>


https://www.youtube.com/watch?v=zJzPyEPCbXs&t=19s

**Los codigos de practica del video se encuentran en la carpeta <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">code3</mark>

----------------------------------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------
--------------------------------------------
--------------------------------------------

# **Database**

## Relation Databse and SQLite
---
<h3 style="color: DarkCyan"><b> SQL </b></h3>

**Structure Query Lenguaje** (SQL) es el lenguaje que usamos para emitir comandos a la base de datos:
* Crear Tablas
* Recibir datos
* Incertar datos
* Remover datos

<div style = "text-align:justify" >
<b>SQL es un lenguaje imperativo no de procedimientos</b>, es decir que solo se basa en expresar una orden o imposicion, donde solo se dice lo que se quiere y entonces "algo" comienza a iterar y a resolver el requerimiento solicitado.
</div>

<h3 style="color: DarkCyan"><b> Sistemas comunes de Bases de Datos </b></h3>

Son 3 los sistemas de bases de datos en amplio uso:
* **Orcle**: Grande, de uso comercial, de escala empresarial, muy modificlable
* **MySql**: Muy simple pero rapido y escalable, comercial-open source
* **SqlServer**: Muy agradable perteneciene a Microsoft (tambien de Access)

Muchos otros pequeños projectos, libres y open source
* HSQL, **SQLite**, **Postgres**

<div style = "text-align:justify" >
Mysqlo fue comprado por Oracle, aunque se siguio con un servidor open source llamado <b>MariaDB</b>. Por otro lado, el sistema de bases de datos mas popular es <b>Postgres</b>. 
</div>


## Lets Make a Database
---
<div style = "text-align:justify" >
Vamos a practicar con el Broser de SQLite y iremos aprendiendo los comandos principales para crear y manejar tablas en nuestra base de datos.
</div>

**CREATE TABLA**
<br>
`CREATE TABLE "Users" ("name" TEXT, "email" TEXT)`

Se crea una tabla de nombre *Users* con las columnas *name* y *email*, ambas de tipo texto

**INSERT INTO**
<br>
`INSERT INTO Users (name,email) VALUES ('Kristin','kf@umish.edu')`

Se incerta en la tabla *Users* en las columbas *name y email* los valores *Kristin, 'kf@umish.edu'*

**DELETE FROM**
<br>
`DELETE FROM Users WHERE email = 'ted@umich.edu'`

Se borra, de la tabla *Users*, todas las filas si es que la clausula `WHERE` no esta presente. La clausula `DELETE` recorre toda la tabla que se le asigna, y es la clausula `WHERE` la que  determina en que momento (o en que fila) la clausula `DELETE` se activa o se apaga

**UPDATE**
<br>
`UPDATE Users SET name='Charles' WHERE email='csev@umich.edu'`

Se actualiza el valor de un campo. En este caso `UPDATE` actualiza la tabla *Users*, la clausula `SET` (colocar) determina el cambio, y la clausula `WHERE` determina la fila donde se hara

**SELECT**
<br>
`SELECT * FROM Users`

Se seleccionan todas (\*) las filas de la tabla *User*

`SELECT * FROM Users WHERE email = 'csev@umich.edu'`

Se seleccionan todas (\*) las filas de la tabla *User*, donde (`WHERE`) el campo mail sea igual a *'csev@umich.edu'*

**ORDEN BY**
<br>
`SELECT * FROM Users ORDEN BY email`
<br>
`SELECT * FROM Users ORDEN BY name DESC`

Se seleccionan todas las filas de la tabla *Users*, para ser ordenadas 'ORDEN BY' por el campo email. El otro caso nos dice lo mismo pero por el campo *name* y de orden descendiente 







<p style="color:chocolate; font-weight:bold; font-size:16px">Exercise 1</p>

In [None]:
#Improtamos la libreria para trabajar con SQlite
import sqlite3

#Creamos virtualmente la base de datos 'emaildb.sqlite' y nos conectamos a ella, aunque aun no es un archivo manejable
conn = sqlite3.connect('emaildb.sqlite')
#la variable cur sera el cursor que nos permitira estar conectados a la base y ademas poder realizar consultas SQL
cur = conn.cursor()

#Esta linea nos permite decir que si ya existe la tabla 'Counts' entonces que la descarte de la base de datos.
#Esto lo hacemos para evitar que estalle el codigo. 
cur.execute('DROP TABLE IF EXISTS Counts')

#Creamos la tabla 'Counts', con los campos email TEXT y count INTEGER
cur.execute('''CREATE TABLE Counts (email TEXT, count INTEGER)''')

fname = input('Enter file name: ')
if (len(fname) < 1): fname = 'mbox-short.txt'
fh = open(fname)
for line in fh:
    if not line.startswith('From: '): continue
    pieces = line.split()
    email = pieces[1]
#Se utiliza '?' en email = ? dado que es peligroso poner un email (ej. csev@umich.cl) directamente, tecnicamente igual se podria hacer pero no es recomendable.
#Si googleas SQL Injection te enteraras mas en detalle lo que sucede con esto. Lo que hacemo entonces seleccionar el campo 'count',
#usando de identificador el campo 'email'. Destacando que el campo 'email' ahora es colocado como una tupla de un solo elemento.    
    cur.execute('SELECT count FROM Counts WHERE email = ? ', (email,))
#Se recupera la primera fila seleccionada por consulta anterior con el metodo fetchone()  
    row = cur.fetchone()
#Si la fila recuperada esta vacia entonces se incerta a la tabla 'Counts' en los campos 'email' y 'count' los valores (?,1)
#en donde el valor de email sera agregado mediante una tupla de un solo elemento.
    if row is None:
        cur.execute('''INSERT INTO Counts (email, count)
                VALUES (?, 1)''', (email,))
#En caso contrario se actualiza el campo count y suma 1 al valor anterior 
    else:
        cur.execute('UPDATE Counts SET count = count + 1 WHERE email = ?',
                    (email,))
#finalmente el metodo commit() entrega a la base de datos el/los valores que tenemos en nuestra base de datos virtual, es decir pasa los datos virtuales 
#de la BD al disco de memoria de la BD. En este momento tenemos recien los datos cargados en nuestra BD.
#Esta parte de mandar la informacion a la memoria de la base de datos es la que requiere mayor tiempo de procesamiento. Se puede cambiar la poscision 
#del del metodo commit() en el codigo, muchas veces se realiza el commit luego de unas 10 o mas iteraciones. En este caso lo haremos al finalizar cada ciclo.
    conn.commit()

#Generamos una variable que contenga la declaracion que queremos realizar. En resumen lo que queremos hacer es ordenar la tabla de forma decendiente 
#por medio del campo count, pero considerando solo los primeros 10 con mayor valor 
sqlstr = 'SELECT email, count FROM Counts ORDER BY count DESC LIMIT 10' # https://www.sqlite.org/lang_select.html

for row in cur.execute(sqlstr):
    print(str(row[0]), row[1])

#Finalmente cerramos el cursos, por lo que cerramos la coneccion con la base de datos.
cur.close()

#Ahora tenemos una bases de datos creadas que se encuentra en el directorio de trabajo. 

<p style="color:chocolate; font-weight:bold; font-size:16px">Exercise 2</p>
<br>
<div style = "text-align:justify" >
    El siguiente ejercicio <b>se basa de llevar los datos obtenidos por consulta a la</b> <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">API de twitter</mark><b> a una base de datos</b>. Como se dijo anteriormente, <b>por motivos de descontinuidad en el acceso a </b><mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">la API de Twitter</mark> este ejercicio <b>solo sera indicativo</b> para observar el uso de ingreso de informacion a una base de datos.
</div>

<br>

El link del ejercicio es: 
https://www.youtube.com/watch?v=wQNjza1gb_g
<br>

Los codigos de practica del ejercicio se encuentran en la carpeta `code3`

## Complex Data Models and Relationships
---

<h3 style="color: DarkCyan"><b> Databse Desing </b></h3>

<p style="text-align:justify">
El diseño de bases de datos es una forma de arte propia con particulares habilidades y experincia, que comienzan con una imagen diseño de la BD que se quiere modelar.
<br><br>
Los modelos de base de datos se convierte en la columna vertebral del conocimientos que las aplicaciones gestionan y utilizan


<img style = "display:flex; margin-left:auto; margin-right:auto" 
  src="2021-05-24_11h07_59.png" width="400" height="400" > </img>
<br>
<h3 style="color: DarkCyan"><b> Building a Data Model </b></h3>

<p style="text-align:justify">
<ol>
<li> Dibuja un esquema de los objetos de datos o atributos que manejara tu aplicacion 
<li>Descubre como representar los objetos (los cuales seran las tablas con sus propios atributos) y las relaciones entre ellos. Se debe identificar el objeto principal que modulara la base de datos.
<li>Regla basica: No pongas el mismo dato de string dos veces en la BD - encambio usa una relacion (para mas informacion google normalizacion de bases de datos)

<h3 style="color: DarkCyan"><b> Data Base Normalization (3FN) </b></h3>
<br>
<div style = "text-align:justify" >
Lo que se trata de resolver en la construccion de una base de datos es la nocion de normalizacion de esta. Hay mucha teoria sobre la normalizacion de las bases de datos, pero en este caso solo nos reduciremos a no replicar datos de cadenas y usar lo que se llaman 'keys' para apuntar hacia otras tablas y generar la relaciones.
</div>

<h3 style="color: DarkCyan"><b> Three kinds of Keys </b></h3>

* **Primary key** - generalmente un campo de int (entero) de auto-incremento, identificado comunmente por ID
* **Logical key** - campo que normalmente usan los usuarios para buscar informacion. ej: nombre del track, album, artista, genero, etc.
* **Foreign key** - generalmente un campo int (entero) para apuntar a una fila en otra tabla.

    
<h3 style="color: DarkCyan"><b> Key Rules </b></h3>

* Nunca usar tu Logical key como Primary key
* Las relaciones que son basadas en **matching string fields** son menos eficientes que las que se usan con con campos de int (enteros)

<h3 style="color: DarkCyan"><b> Foreign Key </b></h3>

* Una Foreign key es cuando una tabla tiene una columna que contiene una key la cual apunta a la Primary key  de otra tabla
* Cuando todas las Primary keys son enteros, entonces todas las Foreign keys son entero - esto es bueno -
    
|Artist| <---------- |Album|
| --- | --- | --- |
|id||id|
|name||title|
|||artist_id|

* Es bueno usar tener una convencion de nomeclatura. En el caso anterior se observa que la Foreign key de la tabla Album pose el nombre de la tabla a la que apunta (Artist) mas el sufijo de id. 

## Relationship Building (in tables)

---
En el siguiente video se ve el desarrollo en el Browser de SQLite de como se crea una base de datos basica. Se muestra como se crean las tablas y las relaciones entre ellas del siguiente esquema.

<img style = "display:flex; margin-left:auto; margin-right:auto" 
  src="2021-05-24_12h12_13.png" width="400" height="400" > </img>
 

**URL**: https://www.youtube.com/watch?time_continue=103&v=GfuH_8uH16k&feature=emb_logo

## Join Across Tables
---

Ya construida la base de datos y las relaciones entre tablas, **lo que queremos ahora es mostrar la tabla de salida con la cual el usuario va a ver y interactuar**. Para estas ocaciones, en bases de datos relacional, tenemos el metodo Join

* La operacion Join genera un link atraves varias tablas
* Se debe indicar al metodo Join como usar las keys que haran la coneccion entre tablas usando la clausula 'ON'

**Veamos la siguiente sentencia:**

`SELECT Album.title, Artist.name from Album JOIN Artist ON Album.artist_id = Artist.id`

1. Se selecciona el campo title de la tabla Album, como tambien el campo name de la tabla Artist. Esto nos indica que campos se mostraran para la tabla de salida.
2. Se hace el `JOIN` de la tabla Album a la tabla Artist. Se puede entender esto graficamente como: la tabla Album trae hacia si la tabla Artist.  
3. La clausula `ON` determina la condiciones para la union entre las tablas. En este ejemplo solo se realizara la union cuando se cumpla que el campo artist_id de la tabla Album sea igual al campo id de la tabla Artist. 

<div style = "text-align:justify" >
En caso de que la clausula <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ON</mark> se omita, lo que ocurrira es que se uniran las tablas sin considerar ningun restriccion, es decir se uniran las tablas tal cual estan definidas y ordenadas. Es mas todos las filas de la tabla que se estra trayendo se concadenaran con la primera fila de la tabla receptora, luego todos las filas de la tabla que se esta atrayendo se concadenaran con la segunda fila de la tabla receptora, y asi sucesivamente.  Es decir que si una tabla tiene 10 fila y se une con una tabla de 30 fila, emitiendo la clausula <mark style="background-color: #e5e7e9 ; padding:0 0.3em 0; font-family:Consolas ">ON</mark>, la tabla resultante tendra 300 filas.
</div>


<p style="color:chocolate; font-weight:bold; font-size:16px">Exercise</p>

In [None]:
#Debido a que vamos a leer un archivo fuera de nuestra carpeta de nuestro directorio
#cambiamos de directorio. Importamos la libreria 'os'
import os
#Visualizamos el directorio actual
os.getcwd()
#Cambiamos el directorio
os.chdir('C:\\Users\\yo\\Desktop\\Python -Geocomputing with Python - freeCodeCamp\\code3\\tracks')

#---------------------------------------------------------------------------------------------------------

#El objetivo del sgte codigo es hacer una base de datos que contenga una lista de canciones 
#y sus caracteristicas como el album al que pertenecen y el artista que la interpreta.

#Importamos las librerias para trabajar con XML y SQL
import xml.etree.ElementTree as ET
import sqlite3

#Nos conectamos a una base de datos, y creamos el cursos para manejar la base de datos
conn = sqlite3.connect('trackdb.sqlite')
cur = conn.cursor()

#Con exectuescript() podemos declarar y correr una bloque de codigo de SQL. Notese que cada sentencia 
#declarada tiene que ir separada por ';'. La finalidad de las siguientes sentencias son:

#1.En caso de que las tablas Artist, Album y Track existan las descartamos de nuestra BD
#2.Creamos las tablas Artist, Album y Track. Notese que el id de cada tabla se declara como: un entero, 
#no nulo, declarado como primary key, que autoincrementa, y unico. 
#3.Se observa en las tablas Album y Track las respectivas foreign key artist_id y album_id
#4.Se observa que las logical key de caracter string se declaran como unicas. Recordemos que los campos
#de tipo string son los que tenemos que evitar que no se repitan cada una de las tablas. 

cur.executescript('''
DROP TABLE IF EXISTS Artist;
DROP TABLE IF EXISTS Album;
DROP TABLE IF EXISTS Track;

CREATE TABLE Artist (
    id  INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    name    TEXT UNIQUE
);

CREATE TABLE Album (
    id  INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    artist_id  INTEGER,
    title   TEXT UNIQUE
);

CREATE TABLE Track (
    id  INTEGER NOT NULL PRIMARY KEY 
        AUTOINCREMENT UNIQUE,
    title TEXT  UNIQUE,
    album_id  INTEGER,
    len INTEGER, rating INTEGER, count INTEGER
);
''')

#Abrimos el archivo que queremos explorar
fname = input('Enter file name: ')
if ( len(fname) < 1 ) : fname = 'Library.xml'

#Se crea una funcion para poder recorrer el archivo XML, el cual posee la caracteristica de ser una
#lista de diccionarios. Se observa diccionarios anidados

#Ejemplo del archivo XML
#<dic>
# <dic>
#    <key>369</key>
#    <dic>
#        <key>Track ID</key><integer>369</integer>
#        <key>Name</key><string>Another One Bites The Dust</string>
#        <key>Artist</key><string>Queen</string>
#    </dic>
# </dic>
# <dic>
#    <key>369</key>
#    <dic>
#        <key>Track ID</key><integer>388</integer>
#        <key>Name</key><string>someboy to love</string>
#        <key>Artist</key><string>Queen</string>
#    </dic>
# </dic>
#</dic>

#La funcion opera de la siguiente forma:
#1.Se comienza declarando una variable como falsa
#2.Se recorren las etiquetas hijos (Mas adelante nos daremos cuenta que recuperaremos cada etiqueta 
#de tipo diccionarios que contenga las caracteristicas que queremos obtener)
#3.Como la etiqueta hijo que queremos obtener es la que sigue de la etiqueta <key> se procede a recuperar
#en segundo lugar, en nuestro codigo, la verificacion de que estamos ante una etiqueta de tipo <key>, para 
#posteriormente en el ciclo siguiente, poder retornar el valor que queremos tener.  


def lookup(d, key):
    found = False
    for child in d:
        if found : return child.text
        if child.tag == 'key' and child.text == key :
            found = True
    return None

#Abrimos y analizamos el archivo XML.
stuff = ET.parse(fname)

#Se procede a crear una lista  de todos los elementos dict que se encuentra en la ruta 'dict/dict/dict'
all = stuff.findall('dict/dict/dict')

#Obtenemos el valor del largo de nuestra lista, es decir el numero de canciones que pudimos recuperar
print('Dict count:', len(all))

#Se realiza un ciclo por cada elemento de la lista 'all', en donde cada elemento tendra una estructura de 
#diccionario (pero con estructura XML)
for entry in all:
    #Se verifica que dentro del elemento dict que se esta analizando exista la etiqueta Track ID, en caso de
    #que no exista se pasa al siguiente ciclo
    if ( lookup(entry, 'Track ID') is None ) : continue
    
    #Se guardan en variables las caracteristicas que queremos tener en nuestra BD
    name = lookup(entry, 'Name')
    artist = lookup(entry, 'Artist')
    album = lookup(entry, 'Album')
    count = lookup(entry, 'Play Count')
    rating = lookup(entry, 'Rating')
    length = lookup(entry, 'Total Time')

    #Si alguna de estas variables esta vacia se pasa al siguiente ciclo
    if name is None or artist is None or album is None : 
        continue

    print(name, artist, album, count, rating, length)
    
    #Comenzamos a agregar las caracteristicas que recuperarmos a nuestra BD
    #La sentencia INSERT OR IGNORE es para que se ignore la linea de comando en caso de que exista algun
    #error al momento de incertar el dato en la BD. Esto puede suceder si nuestra valor a agregar ya existe 
    #en la base de datos, ya que definimos anteriormente que el valor artist en la BD debe ser unico
    
    cur.execute('''INSERT OR IGNORE INTO Artist (name) 
        VALUES ( ? )''', ( artist, ) )
    
    #Se selecciona la fila donde el name = al nombre del artista con el cual estamos trabajando
    cur.execute('SELECT id FROM Artist WHERE name = ? ', (artist, ))
    
    #Se selecciona la primera posicion o primer atributo de nuestra lista seleccionada, la cual corresponde
    #a el id de nuestra tabla, creandose la variable artist_id que sera la key foreign para la tabla Album
    
    artist_id = cur.fetchone()[0]

    cur.execute('''INSERT OR IGNORE INTO Album (title, artist_id) 
        VALUES ( ?, ? )''', ( album, artist_id ) )
    cur.execute('SELECT id FROM Album WHERE title = ? ', (album, ))
    album_id = cur.fetchone()[0]

    #El comando INSERT OR REPLACE busca lo mismo que el comando INSERT OR IGNORE, aunque en este caso es 
    #remplazar el registro de datos. Esto es para evitar errores dado que existen restricciones de 
    #valores unicos en nuestra BD
    cur.execute('''INSERT OR REPLACE INTO Track
        (title, album_id, len, rating, count) 
        VALUES ( ?, ?, ?, ?, ? )''', 
        ( name, album_id, length, rating, count ) )
    
    #Las modificaciones se manda a guardar a nuestra BD
    conn.commit()

#Con este codigo pudimos crear una base de datos de Tracks
cur.close()
#Ahora podemos hacer el Join con la siguiente sentencia
#SELECT Track.title, Album.title, Artist.name 
#FROM Track JOIN Album JOIN Artist 
#ON Track.album_id = Album.id AND Album.artist_id = Artist.id

#Ojo que con la siguiente sentencia solo hacemos un join virtual, es decir tal join no se esta guardando en 
#ninguna tabla en especifico.

## Database Many to Many Relationship
---

<div style = "text-align:justify" >
<b>Hasta ahora todo lo que hemos hecho ha sido lo que es llamado un "relacion de muchos a uno"</b>, por ejemplo: <i>hay muchos tracks asociados a un album, hay muchos albums asociados a un artista, hay muchos tracks asociados a un genero</i>. 
</div>
<br>

<div style = "text-align:justify" >
Esta forma de relacionar tablas es probablemente la mas comun, pero <b>hay veces que no puedes modelar cosas con este tipo de relación</b>. <b>En esto casos podemos estar frente a las relaciones "<i>de muchos a muchos</i>"</b>. ej: Tienes muchos libros asociados a muchos autores, y muchos autores tienen asociado muchos libros. Para estos caso se usa "<b>una connection table</b>, o tambien llamada <b>juction table</b>" la cual se compone de dos foreign key. 
</div>    
<br>

<div style = "text-align:justify" >
<b>La idea de la "<i>connection table</i>" es romper el efecto de la "<i>relacion de muchos a muchos</i>" a dos relaciones de muchos a uno</b>. 
</div>
<br>

<div style = "text-align:justify" >
Entonces imaginemos un sistema de administracion de educacion, en donde se toman algunas clases, y ademas algunas personas son estudiantes y otras son profesores. Entonces, encontramos que un estudiante pueden ser parte de muchas clases y una clase puede tener muchos estudiantes. 
</div>
<br>

<div style = "text-align:justify" >
Ahora lo que hacemos es crear una tabla llamada <i>Member</i>. En estas tablas de coneccion a menudo no pondremos una primary key, sino que se conformara simplemente por 2 foreign key. Si tuvieramos que poner una restriccion a esta tabla, lo hariamos poniendo que solo exista unico par de foreign key. Es decir podrian haber muchos user_id y muchos course_id, pero no podrian existir la misma convinacion de user_id y course_id.
</div>
<br>

<img style="display:flex; margin-left:auto; margin-right:auto "  src="2021-05-23_12h17_46.png"> </img>

<br>
<div style = "text-align:justify" >
Entonces, lo anterior se veria en codigo SQL como se muestra en la siguiente imagen. Se observa que la tabla <i>Member</i> es conformada por user_id y course_id y role, siendo los dos primeros campos foreign key y el ultimo una forma de modelar un atributo que deseamos mostrar. En este caso el campo role sera 0 para cuando el registro se refiera a un estudiante y 1 cuando el registro se refiera a un profesor. Por ultimo se indica que la primary key de la tabla sera la combincacion unívoca entre el campo user_id y course_ide.  
</div>
<br>

<img style = "display:flex; margin-left:auto; margin-right:auto" src="2021-05-23_14h04_20.png"> </img> 

<p style="color:Chocolate; font-weight:bold; font-size: 1.1em">Exercise 1</p>

In [None]:
#Debido a que vamos a leer un archivo fuera de nuestra carpeta de nuestro directorio
#cambiamos de directorio. Importamos la libreria 'os'
import os
#Visualizamos el directorio actual
os.getcwd()
#Cambiamos el directorio
os.chdir('C:\\Users\\yo\\Desktop\\Python -Geocomputing with Python - freeCodeCamp\\code3\\roster')

#---------------------------------------------------------------------------------------------------------

import json
import sqlite3

conn = sqlite3.connect('rosterdb.sqlite')
cur = conn.cursor()

# Do some setup
cur.executescript('''
DROP TABLE IF EXISTS User;
DROP TABLE IF EXISTS Member;
DROP TABLE IF EXISTS Course;

CREATE TABLE User (
    id     INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    name   TEXT UNIQUE
);

CREATE TABLE Course (
    id     INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    title  TEXT UNIQUE
);

CREATE TABLE Member (
    user_id     INTEGER,
    course_id   INTEGER,
    role        INTEGER,
    PRIMARY KEY (user_id, course_id)
)
''')

fname = input('Enter file name: ')
if len(fname) < 1:
    fname = 'roster_data_sample.json'

# [
#   [ "Charley", "si110", 1 ],
#   [ "Mea", "si110", 0 ],
# ]

str_data = open(fname).read()
json_data = json.loads(str_data)

for entry in json_data:

    name = entry[0]
    title = entry[1]

    print((name, title))

    cur.execute('''INSERT OR IGNORE INTO User (name)
        VALUES ( ? )''', ( name, ) )
    cur.execute('SELECT id FROM User WHERE name = ? ', (name, ))
    user_id = cur.fetchone()[0]

    cur.execute('''INSERT OR IGNORE INTO Course (title)
        VALUES ( ? )''', ( title, ) )
    cur.execute('SELECT id FROM Course WHERE title = ? ', (title, ))
    course_id = cur.fetchone()[0]

    cur.execute('''INSERT OR REPLACE INTO Member
        (user_id, course_id) VALUES ( ?, ? )''',
        ( user_id, course_id ) )

    conn.commit()


<p style="color:Chocolate; font-weight:bold; font-size: 1.1em">Exercise 2</p>

<div style = "text-align:justify" >
<br>
El siguiente ejercicio sigue la linea de trabajo con la API de Twitter, por este motivo no explicaremos el codigo en este lugar. De todas formas el desarrollo del codigo es explicado en el siguiente video y sirve como estudio en el manejo de BD.
</div>
<br>

**URL**: https://www.youtube.com/watch?v=A_TpMJkSOcI

---
---
---
---

# **Data Visualization**

## Retrieving and Data Visualitations
---

<div style = "text-align:justify" >
Llegamos al ultimo capitulo en donde traeremos todo lo que aprendimos, Database, Web Services, Networking, Loops, etc. Y vamos a resolver un problema de multiples pasos de analisis de datos. Vamos a encontrar algunos datos de internet por medio de HTML o API o de alguna otra forma, y vamos a escribir un proceso relativamente lento pero reniciable con el cual vamos a extraer datos. 
<br>
<br>
Lo que se tiende hacer es construir dos tipos de bases de datos. Una es una base de datos cruda, es decir una base con datos que queremos recibir y tambien los que no queremos recibir. Y una Base de datos limpia, la cual se construye luego de explorar los datos almacenados en la BD anterior y extrayendo solo la informacion que nos parece importante.
Ya terminada la Clean Database podremos hacer las visualizaciones o analisis o lo que sea que queramos hacer con los datos. Esto es lo que se llama Personal Data Mining.
<div>
<br>
    
<img src = "2021-05-24_15h42_12.png" 
     style="display:flex; margin-left:auto; margin-right:auto; width:70%"></img>
<br>

<p style="font-weight:bold; color:DarkCyan; font-size: 1.15em">Many Data Mining Technologies</p> 

<div style = "text-align:justify" >
Si se quiere escalar el proceso de Data Maning almcenando grandes cantidades de registros a un nivel empresarial, es necesario tener en cuenta que existen tecnologias que ayudan a que esto suceda. A continuacion podrias investigar las siguientes:
</div>
   
<ul>
<li> hadoop.apache.org
<li> spark.apache.org
<li> aws.amazon.com/redshift
<li> community.pentaho.com
</ul>

<p style="font-weight:bold; color:DarkCyan; font-size: 1.15em">GeoData</p>

* Hacemos un Google Map de datos de entrada de usuarios
* Usamos la API GeoData de Google
* Los datos caches en una base de datos evita el rango limitado y nos permite reiniciado
* Visualizamos en un navegador usando la API de Google Map

El siguiente diagrama explica el algoritmo que podemos usar para realizar data mining y posteriormente la visualizacion de datos de la API de Google Map.

<img src = "2021-05-24_15h46_11.png" 
     style="display:flex; margin-left:auto; margin-right:auto; width:80%"></img>

Entonces: 
* El input **where.data** indica las direcciones de lugares de establecimientos de estudios guardadas por medio de una plataforma de consulta de direcciones elaborada por Dr.Chuck.
* **google geodata** hace referencia a la API de Google Map, la cual nos va a permitir poder geolocalizar las direcciones obtenidas por el input where.data
* **geoload.py** es el codigo que toma where.data como input y procesa esas direcciones con la API de Google Map, ademas de almacenar los datos georeferenciados en una base de datos.

En este algoritmo no fue necesario hacer dos bases de datos, una cruda y otra limpia, dado que el proceso es bastante simple y los datos de la API de Google Map vienen bastante claros y limpios. 

- **geodump.py** nos permite seleccionar informacion de la BD y poder desplegarla atractivamente en resumenes que nos interese 
- Por ultimo, traspasamos la informacion que queremos desplegar a un codigo en JavaScript para poder desplegarlo en un Browser.



<p style="color:chocolate; font-weight:bold; font-size:16px">Example</p>

In [None]:
import os 
os.chdir("C:\\Users\\yo\\Desktop\\Python -Geocomputing with Python - freeCodeCamp\\code3\\geodata")
print(os.getcwd())

##---##
#name of code: geoload.py

#Importamos las librerias a utilizar. Varias de estas librerias ya son conocidas.
import urllib.request, urllib.parse, urllib.error
import http
import sqlite3
import json
import time
import ssl
import sys

api_key = False
# If you have a Google Places API key, enter it here
# api_key = 'AIzaSy___IDByT70'

#Si la api_key es falsa usamos la simulacion de la API de Google Map creada por el Profesor Dr.Chuck
#en caso contrario utilizamos la API oficial de Google Map.
if api_key is False:
    api_key = 42
    serviceurl = "http://py4e-data.dr-chuck.net/json?"
else :
    serviceurl = "https://maps.googleapis.com/maps/api/geocode/json?"

# Additional detail for urllib
# http.client.HTTPConnection.debuglevel = 1

conn = sqlite3.connect('geodata.sqlite')
cur = conn.cursor()

#Creamos la tabla locations con los atributos adress y geodata, con la cual vamos a trabajar. 
#En este caso se crea la tabla solo si esta no existe, en caso contrario no es creada. 
cur.execute('''CREATE TABLE IF NOT EXISTS Locations (address TEXT, geodata TEXT)''')

# Ignore SSL certificate errors
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

#Abrimos el archivo where.data. El metodo open() aun no nos entrega un archivo manejable. Para esto tenemos
#que utilizar un ciclo for para recorrerlo. 
fh = open("where.data")
count = 0
for line in fh:
#Esta primera condicion indica que vamos a geolocalizar 200 direcciones del archivo where.data, si queremos
#geolocalzar mas datos tenemos que volver a correr el script
    if count > 200 :
        print('Retrieved 200 locations, restart to retrieve more')
        break
#Se eliminara el salto de linea '\n' que trae cada linea en nuestro archivo fh con el metodo .strip().
#Ademas la linea con la cual estemos trabajando, limpia de '\n', sera almacenada en la variable address
#la cual contendra la direccion que queremos geolocalizar. 
    address = line.strip()
    print('')
#Seleccionamos el atributo geodata de la tabla locations en donde la direccion es igual a la direccion 
#que actualmente estamos leyendo. Cabe destacar que la direccion tiene que ser codificada con el metodo 
#.encode() para ser procesada correctamente en la API. 
    cur.execute("SELECT geodata FROM Locations WHERE address= ?",
        (memoryview(address.encode()), ))

#Tratamos de obtener el valor geocodificado de la direccion que estamos trabajando actualmente. si esta 
#sentencia no estalla, entonces significa que la direccion con la cual estamos trabajando en este paso 
#del ciclo ya esta ingresada a la BD. En caso contrario 'pass' nos indica que no estallo y por lo tanto
#seguimos con la sentencias siguientes
    try:
        data = cur.fetchone()[0]
        print("Found in database ",address)
        continue
    except:
        pass

#Creamos un diccionarios vacio y agregamos la key "address" que contrendra en su value la direccion
#con la que estamos trabajando. En caso de que estemos utilizando la API oficial de Google Map, se 
#cambiara el nombre de la key a 'key' y el value a la variable 'api_key'
    parms = dict()
    parms["address"] = address
    if api_key is not False: parms['key'] = api_key
#Creamos la url con la direccion codificada para ser entregada al servidor web. OJO!, nuestro
#parametro es un diccionario!. 
    url = serviceurl + urllib.parse.urlencode(parms)
    
    print('Retrieving', url)
#Mandamos la solicitud al servidor, lo leemos y decodificamos los datos. 
    uh = urllib.request.urlopen(url, context=ctx)
    data = uh.read().decode()
#Imprimimos por pantalla el largo de los datos recuperados (que es un texto con estructura JSON), ademas
#imprimimos los primero 20 caracteres para observar la estructura de lo que estamos imprimiendo
    print('Retrieved', len(data), 'characters', data[:20].replace('\n', ' '))
    print("\n")
#Count nos estara contando el numero de solicitudes que realizamos a la API
    count = count + 1

#Cargamos la data como json. 
    try:
        js = json.loads(data)
#los archivos tipo json son objetos en Python por lo que tienen metodos propipios, dicho esto
#queremos observar el json file que cargamos, y para esto lo ordenamos con el metodo json.dump(). 
#        print(json.dump(js))
    except:
        print(data)  # We print in case unicode causes an error
        continue
#Los objetos JSON dentro de su contenido (aparte de la informacion que extraemos) poseen una key 
#determinado por "status", el cual determina el estado del archivo JSON
#Las siguientes sentencias buscan advertirnos del estado del archivo JSON
    if 'status' not in js or (js['status'] != 'OK' and js['status'] != 'ZERO_RESULTS') :
        print('==== Failure To Retrieve ====')
        print(data)
        break

#El paso siguente es insertar en nuestra base de datos los datos de 'data' (no en formato json), a nuestra
#base de datos. Hay que darse cuenta que en este momento no estamos ingresando los valores de long ni lat
#de nuestra direccion. 
    cur.execute('''INSERT INTO Locations (address, geodata)
            VALUES ( ?, ? )''', (memoryview(address.encode()), memoryview(data.encode()) ) )
    conn.commit()
#Si count es modulo de 10 entonces hacemos una pausa de 5 segundos.
    if count % 10 == 0 :
        print('Pausing for a bit...')
        time.sleep(5)

#Finalmente obtenemos una BD que contiene la direccion y el JSON que contienue la long y lat de la direccion
#Si volvemos a correr el codigo, el mismo se dara cuenta que direcciones ya han sido agregadas para no 
#agregarlas otra vez.
print("Run geodump.py to read the data from the database so you can vizualize it on a map.")


In [None]:
import os 
os.chdir("C:\\Users\\yo\\Desktop\\Python -Geocomputing with Python - freeCodeCamp\\code3\\geodata")
print(os.getcwd())

##---##
#name of code: geodump.py
#El siguiente codigo es para desplegar en algun browser mediante un archivo HTMl y un codigo en JS
#los datos geocodificados (long y lat) de las direcciones en nuestra BD

import sqlite3
import json
import codecs

conn = sqlite3.connect('geodata.sqlite')
cur = conn.cursor()

#Seleccionamos todas las columnas o atributos de nuestra tabla Locations
cur.execute('SELECT * FROM Locations')
#Creamos un archivo llamado where.js, en modo writing, con la codificacion utf-8
fhand = codecs.open('where.js', 'w', "utf-8")
#Escribimos en el archivo "[\n]"
fhand.write("myData = [\n")

#Recorremos las filas de nuestra base de datos
count = 0
for row in cur :
#Decodificamos los valores almacenados en la columna geodata
    data = str(row[1].decode())
#Creamos el objeto JSON  
    try: js = json.loads(str(data))
    except: continue
#Verificamos el estado del objeto JSON
    if not('status' in js and js['status'] == 'OK') : continue

#Recuperamos la longuitud y la latitud de la direccion que estamos explorando
    lat = js["results"][0]["geometry"]["location"]["lat"]
    lng = js["results"][0]["geometry"]["location"]["lng"]
    if lat == 0 or lng == 0 : continue
#Recuperamos la direccion del JSON
    where = js['results'][0]['formatted_address']
    where = where.replace("'", "")
#imprimimos la direccion con lat y lng
    try :
        print(where, lat, lng)
#Sumamos 1 al contador
        count = count + 1
#escribimos en nuestro archivo where.js
        if count > 1 : fhand.write(",\n")
        output = "["+str(lat)+","+str(lng)+", '"+where+"']"
        fhand.write(output)
    except:
        continue
#Finalizamos la escritura de nuestro archivo where.js
fhand.write("\n];\n")
#Cerramos el cursor y el archivo que estamos escribiendo
cur.close()
fhand.close()
print(count, "records written to where.js")
print("Open where.html to view the data in a browser")