# Recuperar, Preparar e Prever

O _out of time_ será semelhante ao que acontece na produção.


In [1]:
import xml.etree.ElementTree as xml
from os import listdir
from os.path import isfile, join
import pandas as pd
import string
import unicodedata
from datetime import datetime
from io import StringIO
import re

In [2]:
def efetuar_parse(texto):
    'Limpar texto e tirar todos os prefixos de tags, retornando raiz do XML.'

    # retirar quebras de linha e textos inuteis
    texto = texto.replace(',', ' ') \
                 .replace('\n', ' ') \
                 .replace('\t', ' ') \
                 .lower()
    
    it = xml.iterparse(StringIO(texto))
    for _, el in it:
        if '}' in el.tag:
            el.tag = el.tag.split('}', 1)[1] \
                           .replace('sov:', '')    
        
    return it.root

In [3]:
uteis = ['homem', 'solteiro', 'tem_cnh', 'idioma-en-le', 'idioma-en-fala', 'skill_estagio', 
         'experiencia_meses', 'tempo_emprego', 'tempo_empresa', 'tempo_cargo', 'taxa_permanencia', 'tempo_municipio']

recuperar arquivo xml

In [4]:
dir_interesse = '/home/mourao/mudanca_emprego/data/out_of_time/curriculosComInteresse/'

In [5]:
arquivos_interesse = [a for a in listdir(dir_interesse) if isfile(join(dir_interesse, a)) and '.xml' in a]

In [6]:
arquivo = 'cv48023.xml'

In [7]:
with open(join(dir_interesse, arquivo), 'r') as r:
        texto = r.read()

In [8]:
# executar parse
raiz = efetuar_parse(texto)

identificar **sexo** e criar variável binária **homem**

In [9]:
sexo = raiz.find('.//gender')

In [10]:
if not sexo or sexo.text == 'female':
    homem = 0
else:
    homem = 1

print(homem)

0


identificar **estado civil** e criar variável binária **solteiro**

In [11]:
estado_civil = raiz.find('*//maritalstatus')

solteiro = 0
if estado_civil:
    if estado_civil.text == 'single' or estado_civil.text == 'separated' or estado_civil.text == 'divorced':
        solteiro = 1

print(solteiro)

0


identificar **drivinglicense** e criar a variável binária **tem_cnh**

In [12]:
tem_cnh = 0
if raiz.find('*//drivinglicense') is not None:
    tem_cnh = 1

print(tem_cnh)

0


identificar **Language Read** para a língua inglesa e criar a variável binária **idioma-en-le**

identificar **Language Speak** para a língua inglesa e criar a variável binária **idioma-en-fala**

In [13]:
idioma_en_le = 0
idioma_en_fala = 0

linguas = raiz.findall('*//language')
for lingua in linguas:
    
    codigo = lingua.find('languagecode')
    if codigo is not None and codigo.text == 'en':
        
        le = lingua.find('read')
        if le is not None and le.text == 'true':
            idioma_en_le = 1
        
        fala = lingua.find('speak')
        if fala is not None and fala.text == 'true':
            idioma_en_fala = 1
            
        break
        
print(idioma_en_le, idioma_en_fala)

0 1


identificar dados de emprego de **employerorg** e guardá-los para efetuar cálculo das próximas variáveis

In [14]:
employerorg = raiz.findall('*//employerorg')

In [15]:
def monta_data(xml_date):
    import datetime
   
    try:
        dt = xml_date.find('anydate').text
        mes = dt[5:7]
        ano = dt[0:4]
    except:
        try:
            dt = xml_date.find('yearmonth').text
            mes = dt[5:7]
            ano = dt[0:4]
        except:
            try:
                dt = xml_date.find('year').text
                ano = dt[0:4]
                mes = 1                    
            except:
                mes = None
                ano = None
        
    try:
        data = datetime.date(int(ano), int(mes), 1)
    except:
        data = None
    
    return data 

In [16]:
ls_emp = []
for es in employerorg:
    d = {}
    
    d['nome'] = es.find('employerorgname').text
    
    ph = es.find('positionhistory')
    
    # data de inicio
    d['data_inicio'] = monta_data(ph.find('startdate'))
    
    # data de fim
    d['data_fim'] = monta_data(ph.find('enddate'))
    
    # skills
    userarea = ph.find('userarea')
    phua = userarea.find('positionhistoryuserarea')
    skills = phua.findall('skill')

    estagio = False
    for s in skills:
        if re.search(r'est[a|á]gi', s.attrib['name']):
            estagio = True
    d['estagio'] = estagio

    # cargo
    try:
        cargo = phua.find('normalizedtitle').text
    except:
        cargo = None
    d['cargo'] = cargo
    
    # municipio
    try:
        municipio = ph.find('orginfo').find('positionlocation').find('municipality').text
    except:
        municipio = None
    d['municipio'] = municipio
    
    ls_emp.append(d)    

emp = pd.DataFrame(ls_emp)

emp

Unnamed: 0,cargo,data_fim,data_inicio,estagio,municipio,nome
0,analista de teste junior,2018-01-01,2014-05-01,False,cargo,capgemini brasil
1,técnico de teleprocessamentos junior,2014-05-01,2013-04-01,False,cargo,tm solutions


In [17]:
# checar se ha alguma data_inicio maior que data_fim
if len(emp.loc[emp.data_inicio > emp.data_fim]):
    raise Exception('Encontrada data de início de emprego maior que data de fim.')

In [37]:
# tratar datas vazias
emp.sort_values(by=['data_fim', 'data_inicio'], ascending=False).reset_index(drop=True)

Unnamed: 0,cargo,data_fim,data_inicio,estagio,municipio,nome
0,analista de teste junior,2018-01-01,2014-05-01,False,cargo,capgemini brasil
1,técnico de teleprocessamentos junior,2014-05-01,2013-04-01,False,cargo,tm solutions


identificar skill **estagio** e calcular quanto tempo a pessoa adquiriu esse skill, criando variável temporal **skill_estagio**

calcular tempo total de experiência, em meses, criando variável temporal **experiencia_meses**

calcular tempo no emprego atual, em meses, criando variável temporal **tempo_emprego**

calcular tempo na empresa atual, em meses, criando variável temporal **tempo_empresa**

calcular tempo no cargo atual, independente da empresa, em meses, criando variável temporal **tempo_cargo**

dividir tempo no emprego atual pelo tempo médio nos empregos, para criar variável **taxa_permanencia**

calcular tempo no município atual, a partir do município das empresas, criando variável temporal **tempo_municipio**.