# Extraccion de datos

Aqui mostramos como extraer datos de 
 * BBDD (ej. Oracle)
 * API (ej. jobisjob)
 * SQLaaS

Ventajas a hacerlo con codigo en lugar de un client de SQL:
 * Automatization: se puede integrar con otro codigo, con otra extraciones, y crear un proceso mas complejo (ej 10 extracions de fuentes diferentes que se mesclan), cuando una query en un cliente de sql es siempre adhoc y manual. 
 * reproducibilidad: el proceso es un fichero de codigo, que se puede re-ejecutar en el futuro y re-generar muchos dataset en un solo commandline.
 * "Compartibilidad": Cuando en github: otros puede proponer cambios, ver errors, compartir la query con solo un enlace (el conociemento no es solo en un fichero en un email de alguien). 
 
Desventajas:
 * Necesita configurar su entorno ... hasta que alguien crea algo mas generico (docker)
 * No acceso a las funcionalidades de los clients de SQL (auto-complete, color coding...)

Cosas a tener en mente:
 * Evitar tener duplicar usuarios y passwords en muchos sitios de su ordenador, y nunca en git/github
 * No cargar datos personales (GDPR), o borarlos junto despues, hasta que CORE tenga un sistema mas robusto.

## Extraccion de BBDD

La manera mas nativa de python, usando pandas

In [None]:
import pandas as pd
from sqlalchemy import create_engine

params = {
    'user' : "put the user here",
    'password' : "put the password here",
    'service' : "MKTG",
    'host' : "10.10.2.224",
    'port' : 1521,    
}
connection_str = "oracle+cx_oracle://{user}:{password}@{host}:{port}/?service_name={service}".format(**params)  # Ex: 'oracle+cx_oracle://scott:tiger@host:1521/?service_name=hr'
connection = create_engine(connection_str, encoding='UTF8')
query_str = """
    SELECT nombre, poblacion
    FROM dwhpro.dim_empresa de
    WHERE rownum < 10
    """
df = pd.read_sql(query_str, connection, coerce_float=True)
df

Funciona pero necesita los usuarios y password en el fichero. Tenemos codigo para ayudar en ese.

Setup:
 * git clone git@github.mpi-internal.com:arthur-prevot/python_db_connectors.git
 * Modificar el fichero con los credentials en el repo (buscando por ficheros *.cfg* y haciendo un rename a *.cfg)

In [None]:
import sys; sys.path.append('/Users/aprevot/code_schibsted/python_db_connectors/')
from query_oracle import query as query_rcl
query_str = """
    SELECT nombre, poblacion
    FROM dwhpro.dim_empresa de
    WHERE rownum < 10
    """
df = query_rcl(query_str, db='oracle_mktg_infojobs')  # db = titulo de la connection en el fichero de credentials.cfg
df

## Extraccion de API (JobisJob)

Usa una libraria estandard de python por la extraction: "requests"

In [None]:
import requests

token = "put the token here"
url = "https://www.jobmarketinsights.com/jmi-api/1.1/missingAdvertisers?token={token}&offset=0&period=2020-02&location=ES&size=100".format(token=token)

response = requests.get(url)
data = response.json()
data

Ahora lo ponemos mas bonito, en un dataframe (de pandas)

In [None]:
rows = data['companies']
df = pd.DataFrame.from_dict(rows)
df['total_offers'] = data['total']['offers']
df['total_companies'] = data['total']['companies']
df['period_from'] = data['echo']['period']['from']
df['period_to'] = data['echo']['period']['to']
df

## Extraccion de SQLaaS

In [None]:
from query_hive import query as query_hv

query_str = """
    SELECT * 
    FROM src_infojobs_dwhpro_dw_pro.DIM_PUBLICACION
    limit 10
    """
df = query_hv(query_str, db='sqlaas_dev')
df

Ahora, podriamos escribir mas codigo de pandas para mezclar los datos de jobisjob y de sqlaas por ejemplo, algo que ningun de las herramientas separadas permitten hacer. Podemos tambian automatizar la creation de sql query en python.
Un ejemplo aqui, que probablemente se podria hacer todo en sql, pero a veces hacerlo en python podria mas facil que en sql.

In [None]:
for item in ['merca', 'adev', 'adevint', 'dia']:
    query_str = """
        SELECT nombre, poblacion
        FROM dwhpro.dim_empresa de
        WHERE lower(nombre) like '{}%'
        """.format(item)
    df = query_rcl(query_str, db='oracle_mktg_infojobs')
    print 'Size output for string {} is {}'.format(item, len(df))
dfs

## Funcionalidad Bonus

Otra libraria que permite 
 * crear un cache en local, para cargar los datos de local la proxima vece, mas rapido, especialmente si la query tarde mucho tiempo.
 * Si queremos force-ar una query a oracle aunque el fichero en local, las funciones van a comparar con los datos de antes y decir si hay cambios.
 
Setup:
 * git clone git@github.mpi-internal.com:arthur-prevot/analysis_toolkit.git


In [None]:
import sys; sys.path.append('/Users/aprevot/code_schibsted/analysis_toolkit/')
from query_helper import query_and_cache

name = 'empresas'
db = 'oracle_mktg_infojobs'
folder = 'data/'
query_str = """
    SELECT
        --de.cod_empresa,
        de.razon,
        de.nombre,
        CASE
          WHEN num_empleados = 0 THEN 'Autónomo'
          WHEN num_empleados <= 100 THEN 'De 1 a 100'
          WHEN num_empleados <= 500 THEN 'De 101 a 500'
          WHEN num_empleados > 500 THEN 'Mas de 500'
          ELSE 'n/a'
        END as Market
    FROM dwhpro.dim_empresa de
    WHERE de.cliente_prueba is null AND de.flag_actual = 1 and rownum < 10
    """
df = query_and_cache(query_str, name, folder, db=db, force_rerun=True)
df

That's it ! Good luck.