# Trabalho Final

**Aluno**:

**Matrícula**:



## 05 - Tratamento da base *experiencia_trabalho.csv*

Descreva a base com suas palavras.

In [141]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

experiencia = pd.read_csv("bases/experiencia_trabalho.csv")

# Análise inicial
print("Nº de registros:", len(experiencia))
print("Nº de valores únicos de perfil_id:", experiencia.perfil_id.nunique())
print("Nº de valores únicos de company:", experiencia.company.nunique())
print("Nº de valores únicos de location:", experiencia.location.nunique())
print("Nº de valores únicos de position:", experiencia.position.nunique())
print("Nº de valores vazios de company:", experiencia.company.isnull().sum())
print("Nº de valores vazios de date:", experiencia.date.isnull().sum())
print("Nº de valores vazios de location:", experiencia.location.isnull().sum())
print("Nº de valores vazios de position:", experiencia.position.isnull().sum())

experiencia.describe(include="all")

Nº de registros: 497
Nº de valores únicos de perfil_id: 111
Nº de valores únicos de company: 2
Nº de valores únicos de location: 71
Nº de valores únicos de position: 386
Nº de valores vazios de company: 25
Nº de valores vazios de date: 26
Nº de valores vazios de location: 160
Nº de valores vazios de position: 25


Unnamed: 0,company,date,location,position,perfil_id
count,472,471,337,472,497.0
unique,2,328,71,386,
top,Any Company,mar de 2017 – o momento,"Belo Horizonte e Região, Brasil",Software Developer,
freq,318,21,138,9,
mean,,,,,54.187123
std,,,,,32.199717
min,,,,,0.0
25%,,,,,27.0
50%,,,,,54.0
75%,,,,,81.0


In [142]:
experiencia = experiencia[(experiencia.company.notnull()) & (experiencia.position.notnull()) & (experiencia.date.notnull())]
print("Nº de valores únicos de perfil_id:", experiencia.perfil_id.nunique())
print("Nº de registros restantes após remoção dos vazios:", len(experiencia))
print("Nº de valores vazios de company:", experiencia.company.isnull().sum())
print("Nº de valores vazios de date:", experiencia.date.isnull().sum())
print("Nº de valores vazios de location:", experiencia.location.isnull().sum())
print("Nº de valores vazios de position:", experiencia.position.isnull().sum())

Nº de valores únicos de perfil_id: 110
Nº de registros restantes após remoção dos vazios: 471
Nº de valores vazios de company: 0
Nº de valores vazios de date: 0
Nº de valores vazios de location: 134
Nº de valores vazios de position: 0


## 05.1 - Tratamento das data

A coluna **date** pode ser quebrada no ano de início (**inicio**) e no ano de fim (**fim**) da experiência. As experiências em aberto, possuem o texto "o momento" que será interpretado como o mês/ano da extração dos dados (09/2017). As experiências em aberto serão marcadas na coluna booleana **atual**, que indicando que o funcionário ainda trabalha na trojan.

In [143]:
experiencia.date = experiencia.date.str.replace('o momento','set de 2017')

ini_fim = experiencia.date.str.split('–')

experiencia['mesano_ini'] = ini_fim.str.get(0).str.strip()
experiencia['mesano_fim'] = ini_fim.str.get(1).str.strip()

experiencia['atual'] = (experiencia.mesano_fim.str.contains('set de 2017'))
experiencia['ano_ini'] = experiencia.mesano_ini.str.extract('(\d+)')
experiencia['ano_fim'] = experiencia.mesano_fim.str.extract('(\d+)')

A informação de duração da experiência (**duracao**) é derivada calculando a diferença do fim ao início em meses.

In [148]:
# calcula a duração estimada de cada experiência em meses

experiencia.mesano_ini = experiencia.mesano_ini.str.replace('jan','01') \
                        .str.replace('fev','02') \
                        .str.replace('mar','03') \
                        .str.replace('abr','04') \
                        .str.replace('mai','05') \
                        .str.replace('jun','06') \
                        .str.replace('jul','07') \
                        .str.replace('ago','08') \
                        .str.replace('set','09') \
                        .str.replace('out','10') \
                        .str.replace('nov','11') \
                        .str.replace('dez','12')

experiencia.mesano_fim = experiencia.mesano_fim.str.replace('jan','01') \
                        .str.replace('fev','02') \
                        .str.replace('mar','03') \
                        .str.replace('abr','04') \
                        .str.replace('mai','05') \
                        .str.replace('jun','06') \
                        .str.replace('jul','07') \
                        .str.replace('ago','08') \
                        .str.replace('set','09') \
                        .str.replace('out','10') \
                        .str.replace('nov','11') \
                        .str.replace('dez','12')

experiencia.loc[(experiencia.mesano_ini.str.len() == 4), 'mesano_ini'] = '01 de '+experiencia.mesano_ini
experiencia.loc[(experiencia.mesano_fim.str.len() == 4), 'mesano_fim'] = '01 de '+experiencia.mesano_fim 

experiencia['mesano_ini_d'] = pd.to_datetime(experiencia.mesano_ini, format='%m de %Y')
experiencia['mesano_fim_d'] = pd.to_datetime(experiencia.mesano_fim, format='%m de %Y')

experiencia['duracao'] = experiencia.mesano_fim_d.dt.to_period('M') - experiencia.mesano_ini_d.dt.to_period('M')

Algumas informações consolidadas por funcionários podem ser extraídas dessa base. É possível extrair o tempo de carreira na empresa em meses (**tempo_empresa_meses**), o tempo de carreira no mercado em geral em meses (**tempo_mercado_meses**), e também a quantidade de empregos que o funcionário já teve (**qtd_empregos**), o que pode auxiliar em algo na análise. Portanto, obtenha essas informações.

In [197]:
tempo_empresa_meses = experiencia[(experiencia.atual) & (experiencia.company == 'Trojan Technologies')].groupby(['perfil_id']).duracao.max().to_frame()
tempo_mercado_meses = experiencia.groupby(['perfil_id']).duracao.sum().to_frame()
qtd_empregos = experiencia.groupby(['perfil_id']).position.count().to_frame()

#experiencia[(experiencia.atual) & (experiencia.company == 'Trojan Technologies') & ((experiencia.perfil_id == 6) | (experiencia.perfil_id == 11) | (experiencia.perfil_id == 12))]

## 05.2 - Cargo atual na empresa


In [60]:
cargo_atual = experiencia[(experiencia.atual) & (experiencia.company == 'Trojan Technologies')]

## 05.3 - Setor do Funcionário na empresa

A partir da posicao dos funcionários, é possível descobrir (ou inferir) o setor que eles trabalham.

In [61]:
cargo_atual

Unnamed: 0,company,date,location,position,perfil_id,mesano_ini,mesano_fim,atual,ano_ini,ano_fim
0,Trojan Technologies,set de 2011 – set de 2017,"Belo Horizonte e Região, Brasil",CEO and Founder,0,set de 2011,set de 2017,True,2011,2017
10,Trojan Technologies,jul de 2017 – set de 2017,"Belo Horizonte e Região, Brasil",Product Manager,1,jul de 2017,set de 2017,True,2017,2017
16,Trojan Technologies,nov de 2016 – set de 2017,"Belo Horizonte e Região, Brasil",Full Stack Developer,2,nov de 2016,set de 2017,True,2016,2017
20,Trojan Technologies,ago de 2017 – set de 2017,,CRM Analyst,3,ago de 2017,set de 2017,True,2017,2017
24,Trojan Technologies,mar de 2017 – set de 2017,,Sales Operations Coordinator,4,mar de 2017,set de 2017,True,2017,2017
29,Trojan Technologies,jul de 2016 – set de 2017,,Key Account Manager,5,jul de 2016,set de 2017,True,2016,2017
34,Trojan Technologies,nov de 2016 – set de 2017,"Belo Horizonte e Região, Brasil",Software Engineer and Data Scientist,6,nov de 2016,set de 2017,True,2016,2017
35,Trojan Technologies,nov de 2016 – set de 2017,"Belo Horizonte Area, Brazil",Data Engineer,6,nov de 2016,set de 2017,True,2016,2017
39,Trojan Technologies,abr de 2017 – set de 2017,"Belo Horizonte e Região, Brasil",Aprediz administrativo,7,abr de 2017,set de 2017,True,2017,2017
41,Trojan Technologies,jan de 2011 – set de 2017,"Belo Horizonte e Região, Brasil",Founder and CFO,8,jan de 2011,set de 2017,True,2011,2017


## 05.4 Salvando Base Tratada

A base tratada será gravada no arquivo **experiencia_trabalho-tratado.csv**.

As informações consolidadas por perfil serão gravadas na base **perfil-experiencia,csv** contendo as colunas: **perfil_id**, **posicao_atual**, **data_admissao**, **departamento**, **tempo_empresa_meses**, **tempo_mercado_meses**, **qtd_empregos**.

In [None]:
# Grava um csv tratado

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)