In [2]:
import json
import os
import logging
from time import sleep, time
import pandas as pd
import csv
from elasticsearch import Elasticsearch, ElasticsearchException, helpers



In [3]:
# ==================================================================== #
# functions
# ==================================================================== #

def logger(name: str):
    logger = logging.getLogger(name)
    logger.setLevel(logging.INFO)
    handler = logging.StreamHandler()
    formatter = logging.Formatter('%(levelname)s %(asctime)s %(name)s %(message)s')
    handler.setFormatter(formatter)
    logger.addHandler(handler)
    return logger

def load_csv(filepath: str, delimiter: str, header='infer', encoding='utf-8'):
    return pd.read_csv(filepath, delimiter=delimiter, header=header, encoding=encoding)   

def find_ids(df, id_column: str):
    return list(set(df[id_column]))

def id_count(df, id_column: str):
    return len(list(set(df[id_column])))

def single_id_df(df, id_column: str, id_value: any):
    return df[df[id_column] == id_value]

def extract_features_by_category(single_id_df, category: str, related_features: list):
    lc = [ [str(reg[i]).rstrip().lower() for i in range(len(reg)) ] 
          for reg in single_id_df[single_id_df['TIPO'] == category][related_features].values ]
    related_features = [feat.lower() for feat in related_features]
    out = []
    for reg in lc:
        out.append(dict(zip(related_features, reg)))
    category_key = category.lower()
    category_dict = {category_key: out}
    return category_dict

def curriculum_json_generator(df, field_map: dict, id_column: str, outter_key: str):
    id_list = find_ids(df=df, id_column=id_column)
#     logger.info('Found \'{}\' units on \'{}\' to process'.format(len(id_list), id_column))
    out = []
    for f_id in id_list:
        f_info = {'matricula': str(f_id), outter_key: {} }
        f_df = single_id_df(df=df, id_column=id_column, id_value=f_id)
        for key in field_map.keys():
            try:
                f_info[outter_key][key.lower()] = extract_features_by_category(single_id_df=f_df, category=key, related_features=field_map[key])[key.lower()]
            except:
#                 logger.error('id: \'{}\' key: \'{}\''.format(f_id, key))
                print('error')
        out.append(f_info)
#     logger.info('Generated: \'{}\'. Delta: \'{}\''.format(len(out), len(out)-len(id_list)))
    return out



def elastic_bulk_index (index: str, docType: str, data: list, elastic, _id_key: str):
    bulk = []
    for reg in data:
        k = reg[_id_key]
        bulk.append({"_index": index, "_type": docType, "_id": k, "_source": reg})
    return helpers.bulk(client=elastic, actions=bulk)[0]

def sentRate(total: int, good: int):
    acc = 100.0 - ( (total - good)/total)
#     logger.info('Delivery rate {}%'.format(acc))
    return acc

In [18]:
config = {"loggername" : "people_analytics",
"csv_file" : "/home/f4119597/Downloads/temp-master/res_final_query_all.csv",
"csv_file_delimiter" : ";",
"csv_reader_encoding" : "utf-8",
"elastic_hosts" : ["localhost:9200"],
"es_index" : "people_analytics",
"es_doc_type" : "curriculo",
"es_id_key" : "matricula",
"id_column" : "MATRICULA_FUNCIONARIO",
"outter_key" : "curriculo",
"mapping" : {
    "CAPACIDADE": ["NOME", "ATIVO", "CODIGO"],
    "CONHECIMENTO": ["NOME", "CODIGO", "NIVEL", "CODIGO_AREA", "CODIGO_SUB_AREA"],
    "FERRAMENTA": ["NOME", "CODIGO", "ATIVO"],
    "INTERESSE": ["NOME", "CODIGO"],
    "MOTIVACAO": ["NOME", "CODIGO"],
    "REALIZACAO": ["NOME", "CODIGO"],
    "FORMACAO_SUPERIOR": ["NOME", "CODIGO", "NIVEL", "DATA_FIM", "MODALIDADE", "NATUREZA", "URL", "ESTADO", "NOME_INSTITUICAO_ENSINO"]
    }
}


In [19]:
# ==================================================================== #
# global variables
# ==================================================================== #

loggername = config['loggername']

csv_file = config['csv_file']
csv_file_delimiter = config['csv_file_delimiter']
csv_reader_encoding = config['csv_reader_encoding']

elastic_hosts = config['elastic_hosts']
es_index = config['es_index']
es_doc_type = config['es_doc_type']
es_id_key = config['es_id_key']

mapping = config['mapping']

id_column = config['id_column']
outter_key = config['outter_key']

In [20]:
# json.load('config.json')

In [21]:
# logger = logger(loggername)
# logger.info('START PROCESS')

In [22]:
ts1 = time()
es = Elasticsearch(hosts=elastic_hosts)

In [23]:
df = load_csv(filepath=csv_file, delimiter=csv_file_delimiter, header='infer', encoding=csv_reader_encoding)

  if (await self.run_code(code, result,  async_=asy)):


In [25]:
obj = curriculum_json_generator(df=df, field_map=mapping, id_column=id_column, outter_key=outter_key)

In [51]:
bulk = elastic_bulk_index(index=es_index, docType=es_doc_type, data=obj, _id_key=es_id_key, elastic=es)

BulkIndexError: ('1 document(s) failed to index.', [{'index': {'_index': 'people_analytics', '_type': 'curriculo', '_id': '2384107', 'status': 400, 'error': {'type': 'mapper_parsing_exception', 'reason': "failed to parse field [curriculo.formacao_superior.data_fim] of type [date] in document with id '2384107'. Preview of field's value: 'nan'", 'caused_by': {'type': 'illegal_argument_exception', 'reason': 'failed to parse date field [nan] with format [strict_date_optional_time||epoch_millis]', 'caused_by': {'type': 'date_time_parse_exception', 'reason': 'Failed to parse with all enclosed parsers'}}}, 'data': {'matricula': '2384107', 'curriculo': {'capacidade': [], 'conhecimento': [{'nome': 'teoria geral da administração', 'codigo': '100010001', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'empreendedorismo', 'codigo': '100010003', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'gestao empresarial', 'codigo': '100010004', 'nivel': '3', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'gestao empresarial', 'codigo': '100010010', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'conformidade e controles internos', 'codigo': '100010021', 'nivel': '3', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'cronoanalise', 'codigo': '100010035', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'atendimento bancario', 'codigo': '100010040', 'nivel': '5', 'codigo_area': '10', 'codigo_sub_area': '1'}, {'nome': 'gestão financeira', 'codigo': '100600010', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '60'}, {'nome': 'credito e cobranca', 'codigo': '100600020', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '60'}, {'nome': 'gestão do crédito', 'codigo': '100600030', 'nivel': '3', 'codigo_area': '10', 'codigo_sub_area': '60'}, {'nome': 'gestao de risco', 'codigo': '100600041', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '60'}, {'nome': 'investimentos financeiros', 'codigo': '100600120', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '60'}, {'nome': 'informacao cadastral', 'codigo': '100900020', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '90'}, {'nome': 'fundamentos em gestão de pessoas', 'codigo': '101000001', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'gestão de pessoas', 'codigo': '101000002', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'treinamento e desenvolvimento', 'codigo': '101000010', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'avaliacao de desempenho', 'codigo': '101000030', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'estilo de gestao', 'codigo': '101000070', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'relacoes humanas', 'codigo': '101000090', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'cultura organizacional', 'codigo': '101000091', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'gestao empresarial em lideranca', 'codigo': '101000100', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '100'}, {'nome': 'responsabilidade socioambiental', 'codigo': '101100010', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '110'}, {'nome': 'adm. publica', 'codigo': '101600010', 'nivel': '3', 'codigo_area': '10', 'codigo_sub_area': '160'}, {'nome': 'negociacao e vendas', 'codigo': '102000181', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '200'}, {'nome': 'comportamento do consumidor', 'codigo': '102000230', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '200'}, {'nome': 'gestao pela excelencia', 'codigo': '102400012', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '240'}, {'nome': 'estrategia, estrutura e funcionamento do b.b.', 'codigo': '102800001', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '280'}, {'nome': 'gestao empresarial', 'codigo': '102800010', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '280'}, {'nome': 'seguranca bancaria', 'codigo': '103000001', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '300'}, {'nome': 'gestão de segurança', 'codigo': '103000002', 'nivel': '3', 'codigo_area': '10', 'codigo_sub_area': '300'}, {'nome': 'grafoscopia', 'codigo': '103000006', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '300'}, {'nome': 'seguranca patrimonial', 'codigo': '103000020', 'nivel': '1', 'codigo_area': '10', 'codigo_sub_area': '300'}, {'nome': 'ciencia da informacao', 'codigo': '250100010', 'nivel': '1', 'codigo_area': '25', 'codigo_sub_area': '10'}, {'nome': 'filosofia', 'codigo': '500200010', 'nivel': '1', 'codigo_area': '50', 'codigo_sub_area': '20'}, {'nome': 'historia', 'codigo': '500400000', 'nivel': '1', 'codigo_area': '50', 'codigo_sub_area': '40'}, {'nome': 'estudos sociais', 'codigo': '500700001', 'nivel': '1', 'codigo_area': '50', 'codigo_sub_area': '70'}, {'nome': 'desenvolvimento regional sustentavel', 'codigo': '501400001', 'nivel': '1', 'codigo_area': '50', 'codigo_sub_area': '140'}, {'nome': 'comunicacao', 'codigo': '700010001', 'nivel': '1', 'codigo_area': '70', 'codigo_sub_area': '1'}, {'nome': 'comunicacao escrita e revisao gramatical', 'codigo': '700010007', 'nivel': '1', 'codigo_area': '70', 'codigo_sub_area': '1'}, {'nome': 'lingua de sinais - libras', 'codigo': '700010015', 'nivel': '1', 'codigo_area': '70', 'codigo_sub_area': '1'}, {'nome': 'cerimonial, etiqueta e protocolo', 'codigo': '701800020', 'nivel': '1', 'codigo_area': '70', 'codigo_sub_area': '180'}, {'nome': 'direito', 'codigo': '900010001', 'nivel': '1', 'codigo_area': '90', 'codigo_sub_area': '1'}, {'nome': 'conhecimentos juridicos', 'codigo': '900010003', 'nivel': '3', 'codigo_area': '90', 'codigo_sub_area': '1'}, {'nome': 'direito tributario', 'codigo': '901400010', 'nivel': '1', 'codigo_area': '90', 'codigo_sub_area': '140'}, {'nome': 'direito penal', 'codigo': '901800000', 'nivel': '1', 'codigo_area': '90', 'codigo_sub_area': '180'}, {'nome': 'economia - microeconomia', 'codigo': '1000010010', 'nivel': '1', 'codigo_area': '100', 'codigo_sub_area': '1'}, {'nome': 'economia e finanças', 'codigo': '1000200010', 'nivel': '1', 'codigo_area': '100', 'codigo_sub_area': '20'}, {'nome': 'educacao empresarial', 'codigo': '1100010001', 'nivel': '1', 'codigo_area': '110', 'codigo_sub_area': '1'}, {'nome': 'armazenamento de dados, conceitos', 'codigo': '1600100010', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '10'}, {'nome': 'bi - business inteligence', 'codigo': '1600500030', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '50'}, {'nome': 'ciencia da computacao', 'codigo': '1601100010', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '110'}, {'nome': 'logica de programacao', 'codigo': '1601300040', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '130'}, {'nome': 'gerenciadores de bancos de dados, instal.e admin.', 'codigo': '1601900220', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '190'}, {'nome': 'itil - it infrastructure library', 'codigo': '1602500040', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '250'}, {'nome': 'gestao de projetos em tecnologia da informacao', 'codigo': '1602600000', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '260'}, {'nome': 'informatica construcao aplicativos', 'codigo': '1602900014', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '290'}, {'nome': 'informatica infraestrutura', 'codigo': '1602900015', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '290'}, {'nome': 'linguagem cobol', 'codigo': '1603200090', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '320'}, {'nome': 'linguagem jcl', 'codigo': '1603200190', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '320'}, {'nome': 'linguagem sql', 'codigo': '1603200350', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '320'}, {'nome': 'excel', 'codigo': '1608000050', 'nivel': '1', 'codigo_area': '160', 'codigo_sub_area': '800'}, {'nome': 'matematica financeira', 'codigo': '1800400010', 'nivel': '1', 'codigo_area': '180', 'codigo_sub_area': '40'}, {'nome': 'pf - pessoa fisica', 'codigo': '1900010110', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '1'}, {'nome': 'pj - micro empresa', 'codigo': '1900010210', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '1'}, {'nome': 'capitalizacao', 'codigo': '1900020070', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'crédito', 'codigo': '1900020251', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'credito rural', 'codigo': '1900020260', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'fundo de investimento renda fixa', 'codigo': '1900020530', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'previdencia aberta', 'codigo': '1900020990', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'seguro de vida', 'codigo': '1900021130', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '2'}, {'nome': 'agencia', 'codigo': '1900030010', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '3'}, {'nome': 'acordo de trabalho - acompanhamento', 'codigo': '1900040010', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '4'}, {'nome': 'prevencao e combate a lavagem de dinheiro', 'codigo': '1900050030', 'nivel': '3', 'codigo_area': '190', 'codigo_sub_area': '5'}, {'nome': 'clientes - atualizacao cadastral', 'codigo': '1900050110', 'nivel': '1', 'codigo_area': '190', 'codigo_sub_area': '5'}, {'nome': 'psicologia do trabalho e organizacional', 'codigo': '1950800009', 'nivel': '1', 'codigo_area': '195', 'codigo_sub_area': '80'}, {'nome': 'orientacao profissional', 'codigo': '1950800020', 'nivel': '1', 'codigo_area': '195', 'codigo_sub_area': '80'}, {'nome': 'psiquiatria', 'codigo': '2083200010', 'nivel': '1', 'codigo_area': '208', 'codigo_sub_area': '320'}, {'nome': 'educacao fisica', 'codigo': '2084700001', 'nivel': '1', 'codigo_area': '208', 'codigo_sub_area': '470'}, {'nome': 'nutricao', 'codigo': '2085020001', 'nivel': '1', 'codigo_area': '208', 'codigo_sub_area': '502'}, {'nome': 'seguranca do trabalho', 'codigo': '2085060009', 'nivel': '1', 'codigo_area': '208', 'codigo_sub_area': '506'}, {'nome': 'conhecendo o cliente', 'codigo': '4002000001', 'nivel': '1', 'codigo_area': '400', 'codigo_sub_area': '200'}], 'ferramenta': [], 'interesse': [], 'motivacao': [], 'realizacao': [], 'formacao_superior': [{'nome': 'espec direito penal e processu', 'codigo': '1775', 'nivel': '4', 'data_fim': '2016-04-01', 'modalidade': '1', 'natureza': '2', 'url': '', 'estado': '3', 'nome_instituicao_ensino': 'banco do brasil s a'}, {'nome': 'bacharel em direito', 'codigo': '1940201', 'nivel': '4', 'data_fim': '2019-08-01', 'modalidade': '1', 'natureza': '2', 'url': '', 'estado': '3', 'nome_instituicao_ensino': 'associacao educativa do brasil'}, {'nome': 'licenciatura em historia', 'codigo': '3641050', 'nivel': '4', 'data_fim': '2006-09-11', 'modalidade': '9', 'natureza': '2', 'url': 'nan', 'estado': '3', 'nome_instituicao_ensino': 'banco do brasil s a'}, {'nome': 'licenciatura em filosofia', 'codigo': '3721030', 'nivel': '4', 'data_fim': 'nan', 'modalidade': '9', 'natureza': '2', 'url': 'nan', 'estado': '1', 'nome_instituicao_ensino': 'fundacao universidade de brasi'}]}}}}])

In [35]:
sr = sentRate(total=len(obj), good=bulk)
# logger.info('Runtime: {} seconds'.format(time()-ts1))
# logger.info('END PROCESS')

In [40]:
err = [data for data in obj if data['matricula'] == '2384107']

In [50]:
err[0]['curriculo']['formacao_superior']

[{'nome': 'espec direito penal e processu',
  'codigo': '1775',
  'nivel': '4',
  'data_fim': '2016-04-01',
  'modalidade': '1',
  'natureza': '2',
  'url': '',
  'estado': '3',
  'nome_instituicao_ensino': 'banco do brasil s a'},
 {'nome': 'bacharel em direito',
  'codigo': '1940201',
  'nivel': '4',
  'data_fim': '2019-08-01',
  'modalidade': '1',
  'natureza': '2',
  'url': '',
  'estado': '3',
  'nome_instituicao_ensino': 'associacao educativa do brasil'},
 {'nome': 'licenciatura em historia',
  'codigo': '3641050',
  'nivel': '4',
  'data_fim': '2006-09-11',
  'modalidade': '9',
  'natureza': '2',
  'url': 'nan',
  'estado': '3',
  'nome_instituicao_ensino': 'banco do brasil s a'},
 {'nome': 'licenciatura em filosofia',
  'codigo': '3721030',
  'nivel': '4',
  'data_fim': 'nan',
  'modalidade': '9',
  'natureza': '2',
  'url': 'nan',
  'estado': '1',
  'nome_instituicao_ensino': 'fundacao universidade de brasi'}]