In [1]:
import pandas as pd
import numpy as np
from os import listdir
from os.path import isfile, join
from datetime import timedelta, date
from dateutil.relativedelta import relativedelta as rd
import scipy.stats as stats
from copy import deepcopy

from multiprocessing.dummy import Pool as ThreadPool

In [2]:
# achatar startdate e enddate
def extrai_tempo(linha, **kwargs):
    valor = None    
    
    if kwargs['inicio'] == True:
        nome = 'startdate'
    else:
        nome = 'enddate'
    
    if kwargs['tipo'] == 'ano':
        pos_ini = 0
        pos_fim = 4
    else:
        pos_ini = 5
        pos_fim = 7
        
    try:
        valor = int(linha['employerorg_positionhistory_' + nome + '_anydate'][pos_ini:pos_fim])
    except:
        pass
    
    try:
        valor = int(linha['employerorg_positionhistory_' + nome + '_yearmonth'][pos_ini:pos_fim])
    except:
        pass
    
    if kwargs['tipo'] == 'ano':
        try: 
            valor = int(linha['employerorg_positionhistory_' + nome + '_year'])
        except:
            pass
    
    try:
        valor = int(valor)
    except:
        valor = None
    
    return valor

In [3]:
def intervalo_datas(data_inicio, data_fim):
    r = rd(data_fim, data_inicio)
    quantidade = r.years * 12 + r.months + 1
    for n in range(quantidade):
        yield data_inicio + rd(months=n)

In [4]:
MES_INICIO_MODA = 1
MES_FIM_MODA = 12
ANO_FIM_CORRENTE = 2018
MES_FIM_CORRENTE = 9
DATA_FIM_CORRENTE = date(ANO_FIM_CORRENTE, MES_FIM_CORRENTE, 1)

In [5]:
caminho = '../data/out_of_time/curriculosComInteresse/csv/'
# caminho = '../data/out_of_time/curriculosSemInteresse/csv/'

In [6]:
arquivos = [f for f in listdir(caminho) if isfile(join(caminho, f)) and '.csv' and not 'df.csv' in f]

In [7]:
# Recuperando curriculos completos
for arquivo in arquivos:
    nome = arquivo.replace('.csv', '')
    exec(nome + ' = pd.read_csv(caminho + "' + arquivo + '", low_memory=False)')

In [8]:
dfs = [df for df in dir() if isinstance(eval(df), pd.DataFrame)]

In [9]:
employerorg['ano_inicio'] = employerorg.apply(extrai_tempo, axis=1, inicio=True, tipo='ano')
employerorg['mes_inicio'] = employerorg.apply(extrai_tempo, axis=1, inicio=True, tipo='mes')
employerorg['ano_fim'] = employerorg.apply(extrai_tempo, axis=1, inicio=False, tipo='ano')
employerorg['mes_fim'] = employerorg.apply(extrai_tempo, axis=1, inicio=False, tipo='mes')

In [10]:
ls = []
for i, l in employerorg.iterrows():
    try:
        dt_ini = date(int(l['ano_inicio']), int(l['mes_inicio']), 1)
        dt_fim = date(int(l['ano_fim']), int(l['mes_fim']), 1)
    
        if dt_ini > dt_fim:
            ls.append(l.id)
    except:
        if pd.isnull(l.ano_inicio) and pd.isnull(l.mes_inicio) and pd.isnull(l.ano_fim) and pd.isnull(l.mes_fim):
            ls.append(l.id)
    
employerorg = employerorg.loc[~employerorg.id.isin(ls)]
employerorg.reset_index(drop=True, inplace=True)

In [11]:
def seleciona_maior_data(mes_inicio, ano_inicio, mes_fim, ano_fim):
    try:
        mes_inicio = int(mes_inicio)
    except:
        mes_inicio = MES_INICIO_MODA
    
    try:
        mes_fim = int(mes_fim)
    except:
        mes_fim = MES_FIM_MODA
        
    try:
        data = date(int(ano_inicio), int(mes_inicio), 1)
    except ValueError:
        data = date(int(ano_fim), int(mes_fim), 1)
        
    return data

In [12]:
employerorg['data_ordem'] = employerorg.apply(lambda x : seleciona_maior_data(x.mes_inicio, x.ano_inicio, 
                                                                              x.mes_fim, x.ano_fim), axis=1)
employerorg.sort_values(by=['id', 'data_ordem'], ascending=False, inplace=True)

In [13]:
guarda_id = None
employerorg['data_inicio'] = None
employerorg['data_fim'] =  None
for i, l in employerorg.iterrows():
    # guarda
    if guarda_id != l.id:
        guarda_id = l.id
        ano = ANO_FIM_CORRENTE
        mes = MES_FIM_CORRENTE
      
    try:
        ano_fim = int(l.ano_fim)
    except ValueError:
        ano_fim = int(ano)        

    try:
        mes_fim = int(l.mes_fim)
    except ValueError:
        mes_fim = int(mes)        
    
    ano = ano_fim
    mes = mes_fim
    employerorg.at[i, 'data_fim'] = date(ano, mes, 1)
    
    try: 
        ano_inicio = int(l.ano_inicio)
    except ValueError:
        ano_inicio = ano
        
    try:
        mes_inicio = int(l.mes_inicio)
    except ValueError:
        mes_inicio = MES_INICIO_MODA
    
    ano = ano_inicio
    mes = mes_inicio
    employerorg.at[i, 'data_inicio'] = date(ano, mes, 1)    

In [14]:
def monta_df(i):
    ls = []
    
    temp = employerorg.loc[employerorg['id'] == i]
    
    # identificar data da primeira contratacao e data da ultima saida
    data_inicio = np.min(temp['data_inicio'])
    data_fim = np.max(temp['data_fim'])
    
    # lista para calcular tempo medio nos empregos
    ls_tempo_medio = []
    
    # iterar, mes a mes, criando um registro para cada id em cada mes
    linha = {'id': i}
    for data in intervalo_datas(data_inicio, data_fim):
        linha = deepcopy(linha)
        
        # criar variavel alvo quando a data de fim for igual aa data iterada
        # incluir ou nao periodo desempregado na variavel alvo?
        if data in [x for x in temp['data_fim'].tolist() if x != DATA_FIM_CORRENTE]:
            linha['label'] = 1
        else:
            linha['label'] = 0
            
            
        #### obter detalhes da experiencia profissional        
        
        # experiencia total em meses
        try:
            linha['experiencia_meses'] += 1
        except KeyError:
            linha['experiencia_meses'] = 1
        
        
        # tempo no emprego em meses
        if data in temp['data_inicio'].tolist():
            linha['tempo_emprego'] = 1
        else:
            linha['tempo_emprego'] += 1
        
        
        # media de tempo de mudanca de emprego
        if linha['label'] == 1:
            ls_tempo_medio.append(linha['tempo_emprego'])
            linha['tempo_medio'] = np.mean(ls_tempo_medio)
        else:
            linha['tempo_medio'] = np.mean(ls_tempo_medio + [linha['tempo_emprego']])
        
        
        # interacao entre tempo no emprego atual e tempo medio nos empregos
        linha['taxa_permanencia'] = linha['tempo_emprego'] / np.float(linha['tempo_medio'])
        
        
        # tempo na empresa (mudanca de cargos)
        try:
            empresa = temp.loc[(temp['data_inicio'] <= data) & (temp['data_fim'] >= data), 
                               'employerorg_employerorgname'].values[0]
        except IndexError:
            empresa = None
            
        try:
            if linha['empresa'] == empresa:
                linha['tempo_empresa'] += 1
            else:
                linha['tempo_empresa'] = 1
        except KeyError:
            linha['tempo_empresa'] = 1
        
        linha['empresa'] = empresa
        
        # skills
        COMECO_CAMPO = 'employerorg_positionhistory_userarea_positionhistoryuserarea_skill_'
        skills = [x for x in temp.columns if COMECO_CAMPO in x]
        datas_menores = temp.loc[temp['data_fim'] <= data]
        for skill in skills:
            if datas_menores[skill].sum() > 0:
                s = skill.replace(COMECO_CAMPO, '').replace('#', 'sharp').replace('.', 'dot').replace('+', 'p')
                try:
                    linha['skill_' + s] += 1
                except KeyError:
                    linha['skill_' + s] = 1
        
        #
        
        CAMPO_CARGO = 'employerorg_positionhistory_userarea_positionhistoryuserarea_normalizedtitle'
        
        try:
            cargo = temp.loc[(temp['data_inicio'] <= data) & (temp['data_fim'] >= data), CAMPO_CARGO].values[0]
        except IndexError:
            cargo = None
            
        if pd.notnull(cargo):
            if 'gestor' in cargo or 'gerente' in cargo or 'coordenador' in cargo:
                try:
                    linha['cargo_gerente'] += 1
                except KeyError:
                    linha['cargo_gerente'] = 1
            else:
                linha['cargo_gerente'] = 0

            if 'analista' in cargo or 'programador' in cargo or 'desenvolvedor' in cargo:
                try:
                    linha['cargo_analista'] += 1
                except KeyError:
                    linha['cargo_analista'] = 1
            else:
                linha['cargo_analista'] = 0

            if 'consultor' in cargo:
                try:
                    linha['cargo_consultor'] += 1
                except KeyError:
                    linha['cargo_consultor'] = 1
            else:
                linha['cargo_consultor'] = 0

            if 'estagi' in cargo:
                try:
                    linha['cargo_estagiario'] += 1
                except KeyError:
                    linha['cargo_estagiario'] = 1
            else:
                linha['cargo_estagiario'] = 0

            if 'engenheir' in cargo:
                try:
                    linha['cargo_engenheiro'] += 1
                except KeyError:
                    linha['cargo_engenheiro'] = 1
            else:
                linha['cargo_engenheiro'] = 0

        # tempo no mesmo cargo        
        try:
            if linha['cargo'] == cargo:
                linha['tempo_cargo'] += 1
            else:
                linha['tempo_cargo'] = 1
        except KeyError:
            linha['tempo_cargo'] = 1
            
        linha['cargo'] = cargo
        
        # mudanca de localidade 
        CAMPO_MUNICIPIO = 'employerorg_positionhistory_orginfo_positionlocation_municipality'
        
        try:
            municipio = temp.loc[(temp['data_inicio'] <= data) & (temp['data_fim'] >= data), 
                                 CAMPO_MUNICIPIO].values[0]
        except IndexError:
            municipio = None  
            
        try:
            if linha['municipio_empresa'] == municipio:
                linha['tempo_municipio'] +=1
            else:
                linha['tempo_municipio'] = 1
        except KeyError:
            linha['tempo_municipio'] = 1
        
        linha['municipio_empresa'] = municipio

        #
        
        if 'idioma-total' not in linha:
            idiomas = language.loc[language['id'] == i]
            linha['idioma-total'] = len(idiomas)

            for index, idioma in idiomas.iterrows():
                nome_idioma = idioma['language_languagecode']

                if idioma['language_read'] == True:
                    linha['idioma-' + nome_idioma + '-le'] = 1
                if idioma['language_speak'] == True:
                    linha['idioma-' + nome_idioma + '-fala'] = 1
                if idioma['language_write'] == True:
                    linha['idioma-' + nome_idioma + '-escreve'] = 1

        #
        if 'homem' not in linha and 'mulher' not in linha:
            try:
                sexo = personalinformation.loc[personalinformation['id'] == i,
                                               'personalinformation_gender'].values[0]
            except IndexError:
                sexo = None
                
            if pd.notnull(sexo):
                if sexo == 'male':
                    linha['homem'] = 1

                if sexo == 'female':
                    linha['mulher'] = 1                
            else:
                linha['homem'] = 0
                linha['mulher'] = 0
            
        #
        
        if 'solteiro' not in linha and 'casado' not in linha:
            try:
                estado_civil = personalinformation.loc[personalinformation['id'] == i,
                                                       'personalinformation_maritalstatus'].values[0]
            except IndexError:
                estado_civil = None
            
            if pd.isnull(estado_civil):
                estado_civil = ''
                
            if estado_civil == 'single' or estado_civil == 'separated' or estado_civil == 'divorced':
                linha['solteiro'] = 1
            else:
                linha['solteiro'] = 0

            if estado_civil == 'married':
                linha['casado'] = 1
            else:
                linha['casado'] = 0                    
        #
        
        if 'tem_cnh' not in linha:
            try:
                tem_cnh = personalinformation.loc[personalinformation['id'] == i,
                                              'personalinformation_drivinglicense'].values[0]
            except IndexError:
                tem_cnh = None
                
            if pd.notnull(tem_cnh):
                linha['tem_cnh'] = 1
            else:
                linha['tem_cnh'] = 0
        
        # criar linha
        ls.append(linha)
    
    return ls

In [15]:
# recuperar os ids unicos encontrados no employerorg
ids = np.unique(employerorg['id']).tolist()

In [16]:
# amostra
# ids = np.random.choice(ids, size=4, replace=False)

In [17]:
# criar threads
pool = ThreadPool(4)
resultado = pool.map(monta_df, ids)

# fechar pool e esperar threads finalizarem
pool.close()
pool.join()

cv23007.xml
cv17297.xml
cv34788.xml
cv32973.xml
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargocargo nan
municipio  nannan

municipio nan
cargo nan
municipio nan
cargo nan
municipio nancargo
cargo nan
municipio nan
cargo  nan
municipionan
 municipio nan
nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargocargo nan
 municipio nan
nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nancargo
municipio nan
 nan
municipio nan
cargo nan
municipiocargo nan
municipio nan
 nan
cargo nan
municipio nan
cargocargo nan
municipio  nannan

municipio nan
cargo nancargo
municipio nan
 nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargocargocargo nan
municipio nan nan
municipio nan

 nan
municipio nan
cargo cargonan 
municipionan
cargomunicipio  nan nan
municipio nan

nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
munici

cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan
cargo nan
municipio nan


In [18]:
resultado = [item for sublista in resultado for item in sublista]

In [19]:
# criar dataframe 
df = pd.DataFrame(resultado)

In [20]:
df = df.fillna(0)

In [21]:
uteis = ['tempo_emprego', 'solteiro', 'tempo_empresa', 'idioma-en-fala', 'idioma-en-le', 'tempo_cargo', 
           'experiencia_meses', 'homem', 'tem_cnh', 'taxa_permanencia', 'skill_estagio', 'tempo_municipio', 
           'label', 'id']

In [22]:
df = df[[x for x in df.columns if x in uteis]]

In [23]:
nao_encontradas = [x for x in uteis if x not in df.columns]
for coluna in nao_encontradas:
    df[coluna] = 0

In [24]:
df.to_csv(caminho + 'df.csv', index=False)