# Importando as libraries

In [24]:
import os
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup
import nltk
from nltk.tokenize.toktok import ToktokTokenizer
import unicodedata
import warnings
warnings.filterwarnings('ignore')
from tqdm import tqdm
from nltk.stem import SnowballStemmer
from nltk.stem import RSLPStemmer
from nltk.stem import WordNetLemmatizer
from sklearn.model_selection import train_test_split, GridSearchCV
from collections import Counter
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import glob

In [25]:
import sqlite3

In [26]:
#nltk.download('stopwords')
#nltk.download('punkt')

# Lendo e salvando todos os arquivos de trabalhadores em um único dataframe

In [27]:
path = r'SINE/Trabalhadores' # use your path
all_files = glob.glob(path + "/*.csv")

li = []

for filename in all_files:
    df = pd.read_csv(filename, sep=";", encoding='iso-8859-1')
    li.append(df)

trabalhadores = pd.concat(li, axis=0, ignore_index=True)

# Criando todo o framework para o preprocessamento

In [28]:
def remove_accented_chars(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    return text

In [29]:
CONTRACTION_MAP = {
    "d'aquela": "de aquela",
    "d'aquella": "de aquela",
    "d'aquellas": "de aquelas",
    "d'aquelle": "de aquele",
    "d'aquelles": "de aqueles",
    "d'aquillo": "de aquilo",
    'daquela': "de aquela",
    'daquelas': "de aquelas",
    'daquele': "de aquele",
    'daqueles': "de aqueles",
    'daquella': "de aquela",
    'daquelle': "de aquele",
    'daquelles': "de aquela",
    'daqueloutro': "de aquele outro",
    'daquillo': "de aquilo",
    'daquilo': "de aquilo",
    "n'aquella": "em aquela",
    "n'aquellas": "em aquelas",
    "n'aquelle": "em aquele",
    "n'aquelles": "em aqueles",
    "n'aquillo": "em aquilo",
    'naquela': "em aquela",
    'naquelas': "em aquelas",
    'naquele': "em aquele",
    'naqueles': "em aqueles",
    'naquella': "em aquela",
    'naquelle': "em aquele",
    'naquilo': "em aquilo",
    "d'essa": "de essa",
    "d'essas": "de essas",
    "d'esse": "de esse",
    "d'esses": "de essa",
    "d'esta": "de esta",
    "d'estas": "de estas",
    "d'este": "de este",
    "d'estes": "de estes",
    'dessa': "de essa",
    'dessas': "de essas",
    'desses': "de esses",
    'desta': "de esta",
    'destas': "de estas",
    'deste': "de este",
    'destes': "de estes",
    "n'essa": "em essa",
    "n'essas": "em essas",
    "n'esse": "em esse",
    "n'esses": "em esses",
    "n'esta": "em esta",
    "n'estas": "em estas",
    "n'este": "em este",
    "n'estes": "em estes",
    'nessa': "em essa",
    'nessas': "em essas",
    'nesse': "em esse",
    'nesses': "em esses",
    'nesta': "em esta",
    'nestas': "em estas",
    'neste': "em este",
    'nestes': "em estes",
    "d'isso": "de isso",
    "d'isto": "de isto",
    'disso': "de isso",
    'disto': "de isto",
    "n'isso": "em isso",
    "n'isto": "em isto",
    'nisso': "em isso",
    'nisto': "em isto"
}

In [30]:
def expand_contractions(text, contraction_mapping=CONTRACTION_MAP):
    contractions_pattern = re.compile('({})'.format('|'.join(contraction_mapping.keys())), flags=re.IGNORECASE|re.DOTALL)
    
    def expand_match(contraction):
        match = contraction.group(0)
        expanded_contraction = contraction_mapping.get(match) if contraction_mapping.get(match) else contraction_mapping.get(match.lower())
        expanded_contraction = expanded_contraction[0:]
        return expanded_contraction
    
    expanded_text = contractions_pattern.sub(expand_match, text)
    return expanded_text

In [31]:
def remove_special_characters(text, remove_digits=False):
    pattern = r'[^a-zA-z0-9\s\-]' if not remove_digits else r'[^a-zA-z\s\-]'
    text = re.sub(pattern, '', text)
    return text

In [32]:
def caseconversion(text, case_type = 'lower'):
    if case_type == 'lower':
        text = text.lower()
    elif case_type == 'upper':
        text = text.upper()
    elif case_type == 'title':
        text = text.title()
    return text

In [33]:
def simple_stemmer(text, stemmer='RSLP'):
    ps = RSLPStemmer()
    if stemmer=='Snowball':
        ps = SnowballStemmer("portuguese")
    text = ' '.join([ps.stem(word) for word in text.split()])
    return text

In [34]:
stopword_list = nltk.corpus.stopwords.words('portuguese')
new_stopwords = ['ate', 'até', 'ano', 'vai', 'sera', 'será']
stopword_list.extend(new_stopwords)

In [35]:
def remove_stopwords(text, is_lower_case=False):
    tokens = nltk.word_tokenize(text)
    tokens = [token.strip() for token in tokens]
    if is_lower_case:
        filtered_tokens = [token for token in tokens if token not in stopword_list]
    else:
        filtered_tokens = [token for token in tokens if token.lower() not in stopword_list]
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text

In [36]:
def preprocess_corpus(corpus, contraction_expansion=True, accented_char_removal=True, 
                     text_lower_case=True, stem_or_lemma='stem', special_char_removal=True, stopword_removal=True, 
                     remove_digits=False):
    preprocessed_corpus = []
    # preprocess each document in the corpus
    for doc in tqdm(corpus):
        # remove accented characters
        if accented_char_removal:
            doc = remove_accented_chars(doc)
        # expand contractions
        if contraction_expansion:
            doc = expand_contractions(doc)
        # lowercase the text
        if text_lower_case:
            doc = doc.lower()
        # remove extra newlines
            doc = re.sub(r'[\r|\n|\r\n]+', ' ',doc)
        # lemmatize or stem text
#         if stem_or_lemma == 'stem':
#             doc = simple_stemmer(doc, stemmer='RSLP')
#         elif stem_or_lemma == 'lemma':
#             doc = lemmatize_text(doc)
#         else doc = doc
        # remove special characters and\or digits
        if special_char_removal:
            # insert spaces between special characters to isolate them
            special_char_pattern = re.compile(r'([{.(-)!}])')
            doc = special_char_pattern.sub(" \\1 ", doc)
            doc = remove_special_characters(doc, remove_digits=remove_digits)
        # remove extra whitespace
        doc = re.sub(' +', ' ', doc)
        # remove stopwords
        if stopword_removal:
            doc = remove_stopwords(doc, is_lower_case=text_lower_case)
        preprocessed_corpus.append(doc)
    return preprocessed_corpus

# Criando um dataframe apenas com trabalhadores que cadastraram cursos profissionalizantes

In [37]:
trab_com_cursos = trabalhadores[trabalhadores.CURSOS_PROFISSIONALIZANTES.notnull()]

# Explodindo o campo PRETENSOES em linhas diferentes linhas, caso o trabalhador possua mais de um CBO cadastrado.

In [38]:
trab_com_cursos.PRETENSOES = trab_com_cursos.PRETENSOES.str.split('|')
trab_com_cursos = trab_com_cursos.explode('PRETENSOES')

# Removendo os registros com o campo PRETENSOES nulo

In [39]:
trab_com_cursos = trab_com_cursos[trab_com_cursos.PRETENSOES.notnull()]

# Criando um campo com Código da Ocupação a partir do campo PRETENSOES

In [40]:
trab_com_cursos['cod_ocupacao'] = trab_com_cursos.PRETENSOES.str.split('-').apply(lambda x:x[0])

In [41]:
trab_com_cursos['pretensao'] = trab_com_cursos.PRETENSOES.str.split('(').apply(lambda x:x[0])
trab_com_cursos['pretensao'] = trab_com_cursos.pretensao.str.split('-').apply(lambda x:x[1])

In [42]:
trabalhadores.PRETENSOES = trabalhadores.PRETENSOES.astype(str)

In [43]:
trabalhadores['pretensao'] = trabalhadores.PRETENSOES.str.split('(').apply(lambda x:x[0])
trabalhadores['pretensao'] = trabalhadores.pretensao.str.split('-').apply(lambda x:x[1] if len(x)>1 else x[0])

In [44]:
trab_com_cursos.head(3)

Unnamed: 0,NACIONALIDADE,DEFICIENCIAS,BAIRRO,CEP,CODIGO_MUNICIPIO_IBGE,NOME_MUNICIPIO,UF,ESCOLARIDADE,ESTUDANTE,CURSOS_PROFISSIONALIZANTES,...,IDIOMAS,HABILITACAO,VEICULOS,DISP_VIAJAR,DISP_DORMIR_EMP,DISP_AUSENTAR_DOMIC,PRETENSOES,MUNICIPIOS_INTERESSE,cod_ocupacao,pretensao
1,BRASILEIRA,,,42850000.0,291005,DIAS D AVILA,BA,Médio Completo,N,vigilante,...,,AB,N,N,N,N,"414110-Armazenista(N,16,0,Indiferente)",,414110,Armazenista
1,BRASILEIRA,,,42850000.0,291005,DIAS D AVILA,BA,Médio Completo,N,vigilante,...,,AB,N,N,N,N,"716610-Pintor de obras(N,176,0,Indiferente)",,716610,Pintor de obras
1,BRASILEIRA,,,42850000.0,291005,DIAS D AVILA,BA,Médio Completo,N,vigilante,...,,AB,N,N,N,N,"717020-Ajudante de obras(N,19,10,Indiferente)",,717020,Ajudante de obras


In [45]:
trabalhadores.head(3)

Unnamed: 0,NACIONALIDADE,DEFICIENCIAS,BAIRRO,CEP,CODIGO_MUNICIPIO_IBGE,NOME_MUNICIPIO,UF,ESCOLARIDADE,ESTUDANTE,CURSOS_PROFISSIONALIZANTES,...,POS_GRADUACOES,IDIOMAS,HABILITACAO,VEICULOS,DISP_VIAJAR,DISP_DORMIR_EMP,DISP_AUSENTAR_DOMIC,PRETENSOES,MUNICIPIOS_INTERESSE,pretensao
0,IGNORADO,,,41500100.0,292740,SALVADOR,BA,Médio Completo,N,,...,,,Nenhum,N,N,N,N,"513505-Auxiliar nos serviços de alimentação(N,...",,Auxiliar nos serviços de alimentação
1,BRASILEIRA,,,42850000.0,291005,DIAS D AVILA,BA,Médio Completo,N,vigilante,...,,,AB,N,N,N,N,"414110-Armazenista(N,16,0,Indiferente)|716610-...",,Armazenista
2,BRASILEIRA,,BOCA DO RIO,41710700.0,292740,SALVADOR,BA,Médio Completo,N,ROTINAS DE ESCRITORIO,...,,,AB,N,N,N,N,"354810-Operador de turismo(N,5,0,Indiferente)|...",,Operador de turismo


In [46]:
#trab_com_cursos.to_pickle("./trabalhadores.pkl")

In [None]:
# trab_com_cursos = pd.read_pickle("./trabalhadores.pkl")

# Extraindo as 10 principais ocupações procuradas (com cursos)

In [47]:
top_10_ocup_com_cursos = list(trab_com_cursos.pretensao.value_counts().index[:10])

In [48]:
top_10_ocup_com_cursos

['Auxiliar de linha de produção',
 'Operador de caixa',
 'Auxiliar de limpeza',
 'Recepcionista atendente',
 'Auxiliar administrativo',
 'Repositor de mercadorias',
 'Vendedor interno',
 'Assistente administrativo',
 'Porteiro',
 'Operador de telemarketing ativo e receptivo']

In [49]:
print(f'As ocupações mais procuradas pelos trabalhadores são: {top_10_ocup_com_cursos}')

As ocupações mais procuradas pelos trabalhadores são: ['Auxiliar de linha de produção', 'Operador de caixa', 'Auxiliar de limpeza', 'Recepcionista atendente', 'Auxiliar administrativo', 'Repositor de mercadorias', 'Vendedor interno', 'Assistente administrativo', 'Porteiro', 'Operador de telemarketing ativo e receptivo']


# Criando o corpus apenas para a principal ocupação

In [50]:
corpus = trab_com_cursos.loc[trab_com_cursos.pretensao == top_10_ocup_com_cursos[0],'CURSOS_PROFISSIONALIZANTES'].copy()

In [51]:
corpus = preprocess_corpus(corpus)

100%|████████████████████████████████████████████████████████████████████████| 322456/322456 [01:45<00:00, 3053.36it/s]


In [52]:
def get_top_n_words(corpus, n=10, n_gram=2):
    """
    List the top n words in a vocabulary according to occurrence in a text corpus.
    
    get_top_n_words(["I love Python", "Python is a language programming", "Hello world", "I love the world"]) -> 
    [('python', 2),
     ('world', 2),
     ('love', 2),
     ('hello', 1),
     ('is', 1),
     ('programming', 1),
     ('the', 1),
     ('language', 1)]
    """
    vec = CountVectorizer(ngram_range=(n_gram,n_gram)).fit(corpus)
    bag_of_words = vec.transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) for word, idx in     vec.vocabulary_.items()]
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:n]

In [53]:
t = get_top_n_words(corpus)

In [54]:
t

[('informatica basica', 85465),
 ('operador empilhadeira', 17913),
 ('informatica basico', 10569),
 ('auxiliar administrativo', 8300),
 ('ensino medio', 8097),
 ('mecanica basica', 6732),
 ('seguranca trabalho', 6507),
 ('controlador acesso', 4282),
 ('atendimento cliente', 4196),
 ('informatica avancada', 4134)]

# Agora, para as 10 ocupações com maior procura, vamos rodar e gravar os resultados. Quais são as características dos candidatos à mesma ocupação?

In [55]:
top_caracteristicas = {}

In [56]:
for job in top_10_ocup_com_cursos:
    corpus = trab_com_cursos.loc[trab_com_cursos.pretensao == job,'CURSOS_PROFISSIONALIZANTES'].copy()
    corpus = preprocess_corpus(corpus)
    top_caracteristicas[job] = get_top_n_words(corpus)

100%|████████████████████████████████████████████████████████████████████████| 322456/322456 [01:49<00:00, 2956.00it/s]
100%|████████████████████████████████████████████████████████████████████████| 198904/198904 [01:05<00:00, 3046.08it/s]
100%|████████████████████████████████████████████████████████████████████████| 189689/189689 [00:57<00:00, 3290.73it/s]
100%|████████████████████████████████████████████████████████████████████████| 169051/169051 [00:55<00:00, 3063.06it/s]
100%|████████████████████████████████████████████████████████████████████████| 156776/156776 [00:50<00:00, 3100.17it/s]
100%|████████████████████████████████████████████████████████████████████████| 128422/128422 [00:39<00:00, 3230.81it/s]
100%|████████████████████████████████████████████████████████████████████████| 127537/127537 [00:41<00:00, 3062.63it/s]
100%|████████████████████████████████████████████████████████████████████████| 104219/104219 [00:37<00:00, 2810.70it/s]
100%|███████████████████████████████████

In [57]:
top_caracteristicas

{'Auxiliar de linha de produção': [('informatica basica', 85465),
  ('operador empilhadeira', 17913),
  ('informatica basico', 10569),
  ('auxiliar administrativo', 8300),
  ('ensino medio', 8097),
  ('mecanica basica', 6732),
  ('seguranca trabalho', 6507),
  ('controlador acesso', 4282),
  ('atendimento cliente', 4196),
  ('informatica avancada', 4134)],
 'Operador de caixa': [('informatica basica', 67146),
  ('auxiliar administrativo', 9424),
  ('informatica basico', 8777),
  ('operador caixa', 7821),
  ('atendimento cliente', 5965),
  ('ensino medio', 4666),
  ('tecnico enfermagem', 4230),
  ('atendente farmacia', 4021),
  ('tecnico administracao', 3868),
  ('assistente administrativo', 3818)],
 'Auxiliar de limpeza': [('informatica basica', 43458),
  ('ensino medio', 7085),
  ('informatica basico', 6152),
  ('ensino fundamental', 5023),
  ('controlador acesso', 4124),
  ('serie ensino', 3892),
  ('auxiliar administrativo', 3541),
  ('cuidador idosos', 3395),
  ('parou serie', 2889

# Quais são as demais características dos candidatos à mesma função?

In [58]:
top_outras_caracteristicas = {}

Vamos obter as 10 ocupações com maior procura, com ou sem cursos.

In [59]:
top_10_ocup = list(trabalhadores.pretensao.value_counts().index[:10])

In [60]:
for job in tqdm(top_10_ocup):
    temp_trab = trabalhadores[trabalhadores.pretensao == job]
    top_outras_caracteristicas[job] = {'ESCOLARIDADE': (temp_trab.ESCOLARIDADE.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'POS_GRADUACOES': (temp_trab.POS_GRADUACOES.isna().value_counts()/temp_trab.shape[0]).to_dict(),
                                       'IDIOMAS': (temp_trab.IDIOMAS.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'HABILITACAO': (temp_trab.HABILITACAO.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'VEICULOS': (temp_trab.VEICULOS.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'DISP_VIAJAR': (temp_trab.DISP_VIAJAR.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'DISP_DORMIR_EMP': (temp_trab.DISP_DORMIR_EMP.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict(),
                                       'DISP_AUSENTAR_DOMIC': (temp_trab.DISP_AUSENTAR_DOMIC.value_counts(dropna=False)[:5]/temp_trab.shape[0]).to_dict()
                                       }

100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:01<00:00,  6.19s/it]


In [61]:
top_outras_caracteristicas

{'Operador de caixa': {'ESCOLARIDADE': {'Médio Completo': 0.7606047401625523,
   'Médio Incompleto': 0.11340014777485175,
   'Fundamental Completo': 0.04265009567474376,
   'Superior Incompleto': 0.03773184548055245,
   'Fundamental Incompleto': 0.019475967641096565},
  'POS_GRADUACOES': {True: 0.9996892939014456, False: 0.0003107060985544588},
  'IDIOMAS': {nan: 0.9724570410927761,
   'Inglês Básico': 0.011310459807134873,
   'Espanhol Básico': 0.002913816948638766,
   'Inglês Intermediário': 0.0022734592577155523,
   'Francês Avançado': 0.0018187674061724418},
  'HABILITACAO': {'Nenhum': 0.8825909857340432,
   'AB': 0.06261864615501203,
   'B': 0.04388155277267302,
   'A': 0.005346418354394407,
   'AD': 0.0023681867267870338},
  'VEICULOS': {'N': 0.9771517344599587, 'S': 0.022848265540041303},
  'DISP_VIAJAR': {'N': 0.8023568194304984, 'S': 0.19764318056950153},
  'DISP_DORMIR_EMP': {'N': 0.82816058200557, 'S': 0.17183941799443003},
  'DISP_AUSENTAR_DOMIC': {'N': 0.8300892332758654, 

In [62]:
for key, value in top_outras_caracteristicas.items():
    print('Ocupação:', key)
    for k, v in top_outras_caracteristicas[key].items():
        print('\n')
        print('Característica:', k)
        print('Distribuição percentual:\n')
        print(v)

Ocupação: Operador de caixa


Característica: ESCOLARIDADE
Distribuição percentual:

{'Médio Completo': 0.7606047401625523, 'Médio Incompleto': 0.11340014777485175, 'Fundamental Completo': 0.04265009567474376, 'Superior Incompleto': 0.03773184548055245, 'Fundamental Incompleto': 0.019475967641096565}


Característica: POS_GRADUACOES
Distribuição percentual:

{True: 0.9996892939014456, False: 0.0003107060985544588}


Característica: IDIOMAS
Distribuição percentual:

{nan: 0.9724570410927761, 'Inglês Básico': 0.011310459807134873, 'Espanhol Básico': 0.002913816948638766, 'Inglês Intermediário': 0.0022734592577155523, 'Francês Avançado': 0.0018187674061724418}


Característica: HABILITACAO
Distribuição percentual:

{'Nenhum': 0.8825909857340432, 'AB': 0.06261864615501203, 'B': 0.04388155277267302, 'A': 0.005346418354394407, 'AD': 0.0023681867267870338}


Característica: VEICULOS
Distribuição percentual:

{'N': 0.9771517344599587, 'S': 0.022848265540041303}


Característica: DISP_VIAJAR
Di

# Lendo e salvando todos os arquivos de vagas em um único dataframe

In [63]:
path = r'SINE/Vagas' # use your path
all_files = glob.glob(path + "/*.csv")

li = []

for filename in tqdm(all_files):
    df = pd.read_csv(filename, sep=";", encoding='iso-8859-1', usecols = list(range(12)))
    li.append(df)

vagas = pd.concat(li, axis=0, ignore_index=True)

100%|██████████████████████████████████████████████████████████████████████████████████| 27/27 [00:02<00:00, 10.32it/s]


# Eliminando todos os registros que possuem o campo OBSERVACOES_OCUPACAO nulo.

In [64]:
vagas_com_observacoes = vagas[vagas.OBSERVACOES_OCUPACAO.notnull()]

In [65]:
vagas_com_observacoes.shape

(1759, 12)

# Criando o corpus apenas para vagas da principal ocupação

In [66]:
todas_as_vagas = list(vagas_com_observacoes.TITULO_OCUPACAO.value_counts().index)

In [67]:
top_exigencias = {}

In [68]:
for job in todas_as_vagas:
    corpus_vagas = vagas_com_observacoes.loc[vagas_com_observacoes.TITULO_OCUPACAO == job,'OBSERVACOES_OCUPACAO'].copy()
    corpus_vagas = preprocess_corpus(corpus_vagas)
    try:
        top_exigencias[job] = get_top_n_words(corpus_vagas)
    except:
        top_exigencias[job] = 'Não existe vaga para essa ocupação.'

100%|██████████████████████████████████████████████████████████████████████████████| 111/111 [00:00<00:00, 1293.69it/s]
100%|█████████████████████████████████████████████████████████████████████████████████| 49/49 [00:00<00:00, 893.22it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 43/43 [00:00<00:00, 1077.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 1144.76it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 38/38 [00:00<00:00, 1154.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 35/35 [00:00<00:00, 1032.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 1297.38it/s]
100%|█████████████████████████████████████████████████████████████████████████████████| 22/22 [00:00<00:00, 919.10it/s]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 557.18it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1671.17it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 716.09it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 385.65it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1253.45it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1002.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 1002.75it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 716.19it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1505.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.22it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 300.83it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 501.33it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 601.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.54it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.54it/s]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 668.47it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1003.06it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1001.98it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 401.08it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1002.94it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1002.58it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 2006.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1001.74it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.70it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.65it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.46it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 250.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.46it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 334.23it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.94it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.90it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.89it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.59it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.17it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.17it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1004.14it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1004.14it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 501.05it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.18it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.98it/s]
100%|███████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 334.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.03it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████

100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.94it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.70it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1016.06it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1006.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.94it/s]
100%|███████████████████████████████████

In [69]:
top_exigencias

{'Auxiliar de linha de produção': [('vaga exclusiva', 15),
  ('linha producao', 15),
  ('pessoa deficiencia', 12),
  ('auxiliar producao', 10),
  ('linhas producao', 8),
  ('disponibilidade trabalhar', 8),
  ('exclusiva pcd', 7),
  ('segunda sexta', 7),
  ('area servico', 6),
  ('segunda sabado', 6)],
 'Vendedor pracista': [('experiencia vendas', 16),
  ('ensino medio', 11),
  ('medio completo', 11),
  ('ter experiencia', 10),
  ('necessario ter', 6),
  ('vendas externas', 6),
  ('cnh ab', 6),
  ('segunda sexta', 5),
  ('realizar vendas', 5),
  ('horario comercial', 4)],
 'Auxiliar administrativo': [('medio completo', 7),
  ('ensino medio', 6),
  ('auxiliar administrativo', 5),
  ('pacote office', 5),
  ('rotinas administrativas', 4),
  ('enviar curriculo', 4),
  ('segunda sexta', 4),
  ('vaga exclusiva', 3),
  ('exclusiva pcd', 3),
  ('horario trabalho', 3)],
 'Vendedor interno': [('ensino medio', 9),
  ('medio completo', 9),
  ('materiais construcao', 7),
  ('experiencia vendas', 7),

# Preparando os resultados para salvar em BD

In [70]:
maisProcuradas = pd.DataFrame(top_10_ocup, columns=['pretensao'])

In [71]:
maisProcuradasComCursos = pd.DataFrame(top_10_ocup_com_cursos, columns=['pretensao'])

In [110]:
def flat_caracteristicas(data):
    flat = [[(k, v) for v in vs] for k, vs in data.items()]
    flat2 = []
    for i in flat:
        for j in i:
            try:
                flat2.append([j[0], j[1][0], j[1][1]])
            except:
                flat2.append([j[0], '-', '0'])
    return flat2

In [73]:
 flatten_top_caracteristicas = flat_caracteristicas(top_caracteristicas)

In [74]:
topCaracteristicasConcorrentes = pd.DataFrame.from_records(flatten_top_caracteristicas, columns=['pretensao', 'caracteristica', 'ocorrencias'])

In [75]:
topCaracteristicasConcorrentes

Unnamed: 0,pretensao,caracteristica,ocorrencias
0,Auxiliar de linha de produção,informatica basica,85465
1,Auxiliar de linha de produção,operador empilhadeira,17913
2,Auxiliar de linha de produção,informatica basico,10569
3,Auxiliar de linha de produção,auxiliar administrativo,8300
4,Auxiliar de linha de produção,ensino medio,8097
...,...,...,...
95,Operador de telemarketing ativo e receptivo,atendimento cliente,2374
96,Operador de telemarketing ativo e receptivo,tecnico administracao,1932
97,Operador de telemarketing ativo e receptivo,informatica avancada,1924
98,Operador de telemarketing ativo e receptivo,seguranca trabalho,1868


In [76]:
flatten_top_outras_caracteristicas = []
for ks, vs in top_outras_caracteristicas.items():
    for kk, vv in vs.items():
        for k, v in vv.items():
            flatten_top_outras_caracteristicas.append(list((ks, kk, k, round(v,3))))

In [77]:
topOutrasCaracteristicasConcorrentes = pd.DataFrame.from_records(flatten_top_outras_caracteristicas, columns=['pretensao', 'caracteristica', 'valor','proporcao'])

In [78]:
topOutrasCaracteristicasConcorrentes

Unnamed: 0,pretensao,caracteristica,valor,proporcao
0,Operador de caixa,ESCOLARIDADE,Médio Completo,0.761
1,Operador de caixa,ESCOLARIDADE,Médio Incompleto,0.113
2,Operador de caixa,ESCOLARIDADE,Fundamental Completo,0.043
3,Operador de caixa,ESCOLARIDADE,Superior Incompleto,0.038
4,Operador de caixa,ESCOLARIDADE,Fundamental Incompleto,0.019
...,...,...,...,...
246,Empregado doméstico nos serviços gerais,DISP_VIAJAR,S,0.250
247,Empregado doméstico nos serviços gerais,DISP_DORMIR_EMP,N,0.777
248,Empregado doméstico nos serviços gerais,DISP_DORMIR_EMP,S,0.223
249,Empregado doméstico nos serviços gerais,DISP_AUSENTAR_DOMIC,N,0.786


In [111]:
flatten_top_exigencias = flat_caracteristicas(top_exigencias)

In [112]:
topExigenciasVagas = pd.DataFrame.from_records(flatten_top_exigencias, columns=['pretensao', 'caracteristica', 'ocorrencias'])

In [120]:
topExigenciasVagas['ocorrencias'] = topExigenciasVagas['ocorrencias'].astype(int)

# Salvando os resultados no banco SQLite

In [81]:
conn = sqlite3.connect('coronathon_db.sqlite')

In [82]:
cur = conn.cursor()

In [83]:
maisProcuradas.to_sql(name='pre_maisprocuradas', con=conn, if_exists='replace')

In [84]:
maisProcuradasComCursos.to_sql(name='pre_maisProcuradasComCursos', con=conn, if_exists='replace')

In [85]:
topCaracteristicasConcorrentes.to_sql(name='pre_topCaracteristicasConcorrentes', con=conn, if_exists='replace')

In [86]:
topOutrasCaracteristicasConcorrentes.to_sql(name='pre_topOutrasCaracteristicasConcorrentes', con=conn, if_exists='replace')

In [121]:
topExigenciasVagas.to_sql(name='pre_topExigenciasVagas', con=conn, if_exists='replace')

In [None]:
cur.execute("DROP TABLE pre_topExigenciasVagas;")
print(cur.fetchall())

In [89]:
def to_csv():
    db = sqlite3.connect('coronathon_db.sqlite')
    cursor = db.cursor()
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
    tables = cursor.fetchall()
    for table_name in tables:
        table_name = table_name[0]
        table = pd.read_sql_query("SELECT * from %s" % table_name, db)
        table.to_csv(table_name + '.csv', index_label='index')
    cursor.close()
    db.close()

In [96]:
to_csv()

In [122]:
cur.execute("SELECT * FROM pre_topExigenciasVagas;")
print(cur.fetchall())

[(0, 'Auxiliar de linha de produção', 'vaga exclusiva', 15), (1, 'Auxiliar de linha de produção', 'linha producao', 15), (2, 'Auxiliar de linha de produção', 'pessoa deficiencia', 12), (3, 'Auxiliar de linha de produção', 'auxiliar producao', 10), (4, 'Auxiliar de linha de produção', 'linhas producao', 8), (5, 'Auxiliar de linha de produção', 'disponibilidade trabalhar', 8), (6, 'Auxiliar de linha de produção', 'exclusiva pcd', 7), (7, 'Auxiliar de linha de produção', 'segunda sexta', 7), (8, 'Auxiliar de linha de produção', 'area servico', 6), (9, 'Auxiliar de linha de produção', 'segunda sabado', 6), (10, 'Vendedor pracista', 'experiencia vendas', 16), (11, 'Vendedor pracista', 'ensino medio', 11), (12, 'Vendedor pracista', 'medio completo', 11), (13, 'Vendedor pracista', 'ter experiencia', 10), (14, 'Vendedor pracista', 'necessario ter', 6), (15, 'Vendedor pracista', 'vendas externas', 6), (16, 'Vendedor pracista', 'cnh ab', 6), (17, 'Vendedor pracista', 'segunda sexta', 5), (18, 'V