# Trabalho Final

**Aluno**: Carlos Alberto Rocha Cardoso

**Matrícula**:


## 04 - Tratamento da base *habilidades.csv*

Descreva a base com suas palavras.

In [1]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

habilidades = pd.read_csv("bases/habilidades.csv")

# Análise inicial
print("Nº de registros:", len(habilidades))
print("Nº de valores únicos de perfil_id:", habilidades.perfil_id.nunique())
print("Nº de valores únicos de name:", habilidades.name.nunique())
print("Valores faltantes em name:", habilidades.name.isnull().sum())
print("Valores faltantes em endorsement_count:", habilidades.endorsement_count.isnull().sum())

habilidades.describe(include="all")

Nº de registros: 2594
Nº de valores únicos de perfil_id: 100
Nº de valores únicos de name: 764
Valores faltantes em name: 417
Valores faltantes em endorsement_count: 618


Unnamed: 0,endorsement_count,name,perfil_id
count,1976.0,2177,2594.0
unique,69.0,764,
top,2.0,Microsoft Office,
freq,297.0,35,
mean,,,55.196993
std,,,31.803147
min,,,0.0
25%,,,31.0
50%,,,56.0
75%,,,82.0


Apesar da grande quantidade de registros, os registros sem **name** podem ser desconsiderados pois não descrevem habilidade alguma.

In [2]:
habilidades = habilidades.loc[habilidades.name.notnull()]
print("Nº de registros restantes (com nome):", len(habilidades))

Nº de registros restantes (com nome): 2177


In [6]:
habilidades.head(5)

habilidades.endorsement_count.unique()

array(['+ de 99', '97', '73', '75', '67', '64', '71', '68', '28', '40',
       '36', '42', '44', '31', '37', '22', '24', '49', '65', '34', '25',
       '72', '45', '21', '18', '15', '12', '10', '8', '6', '4', '3', '2',
       nan, '11', '1', '7', '5', '13', '9', '23', '80', '57', '52', '50',
       '47', '41', '39', '38', '35', '27', '20', '19', '17', '16', '14',
       '29', '48', '43', '33', '32', '90', '26', '54', '60', '30', '88',
       '53', '51', '46'], dtype=object)

## 04.2 - Contagem de Endossos e Habilidades

Afim de consolidar essa base em algum tipo de informação sintética por perfil, calcule a quantidade de habilidades (**qtd_habilidades**) e a quantidade total de endossos de cada perfil (**qtd_endossos**).

In [22]:
qtd_habilidades = habilidades.groupby('perfil_id').name.count().to_frame()
qtd_habilidades = qtd_habilidades.rename(index=int, columns={"name":"qtd_habilidades"})

habilidades['endosso'] = habilidades.endorsement_count
habilidades.endosso.fillna("0", inplace=True)
habilidades.loc[habilidades.endosso.str.contains("de"), 'endosso'] = "100"
habilidades.endosso = pd.to_numeric(habilidades.endosso)

qtd_endossos = habilidades.groupby('perfil_id').endosso.sum().to_frame()
qtd_endossos = qtd_endossos.rename(index=int, columns={"endosso":"qtd_endossos"})

## 04.3 - Agrupando habilidades

Afim de entender melhor o perfil do funcionários no que tange diversidade, agrupe as habilidades em categorias. Por exemplo, c++, python em liguagens de programação, ferramentas do office informática, análise SWOT, PDCA, SCRUM gestão de projetos. Essa informação pode ser utilizada para averiguar a proximidades entre os perfis contratados em cada setor da empresa ou tipo cargo.

In [221]:
habilidades['categoria'] = habilidades.name

habilidades['categoria'] = habilidades.categoria.str.replace("VBA|Visual Ba.*|C\+\+|C\#|ASP.NET|AJAX|ActionScript|^Viual Basic.*|[j,J]Query|Ruby.*|Python|Prolog|Programming La.*|^PHP|.*Java.*|Lua", "Linguagens de Programação") \
                            .str.replace(".*Portugue.*", "Idiomas") \
                            .str.replace(".*Adobe.*", "Ferramentas de Edição") \
                            .str.replace("Gest.*(risc|pro|Pess).*|Anál.*ris.*|Anál.*req.*|Agil.*|PMO|Scrum|.*Project.*|PMI|PDCA", "Gerenciamento de Projetos") \
                            .str.replace(".*Sis.*op.*|.*Linux.*|FreeBSD|.*Windows.*|.*Ubuntu.*|^iOS$|DOS", "Sistemas Operacionais") \
                            .str.replace("Datab.*|Banc.*dad.*|.*SQL.*|.*ETL.*", "Bancos de Dados") \
                            .str.replace(".*Boots.*|^\.NET.*|.*Framework.*|.*Dojo.*|.*Angular.*|.*TestLink.*|Mic.*Vi.*", "Frameworks Desenvolvimento") \
                            .str.replace(".*Gest.*mud.*|.*COBIT.*|.*ITIL.*", "Governança") \
                            .str.replace("Oracle i.*|Amad.*|.*ERP.*|.*CRM.*", "Sistemas de Gestão") \
                            .str.replace(".*A.*W.*S.*|.*Cloud.*", "Infraestrutura") \
                            .str.replace(".*EC2|Análises$|Data.*Mini.*|.*Data.*Anal.*|Aná.*dad.*|.*Machine.*|.*\sS3.*|A/B.*|Hypo.*", "Ciência de Dados") \
                            .str.replace("Arq.*inf.*|.*\sS3.*|.*Data Extrac.*|.*Data.*Ware.*", "Engenharia de Dados") \
                            .str.replace("^Web S.*|Arq.*sof.*|Access.*|.*[b,B]ug.*|Algo.*|.*Test.*|An[á,a].*sist.*|Sist.*fro.*|Desen.*sist.*|Sist.*dist.*", "Desenvolvimento de Sistemas") \
                            .str.replace("Mic.*Of.*|Mic.*Wo.*|Mic.*Po.*|Mic.*Ex.*", "Informática") \
                            .str.replace(".*equip.*", "Habilidades Pessoais") \
                            .str.replace("Stock.*|.*[f,F]ina.*|Gest.*at.*|.*Inv.*", "Finanças") \
                            .str.replace("5S|Bus.*|Administração$", "Gestão de Empresas") \
                            .str.replace("AMP|Andro*|.*iOS.*|[M,m]ob.*[a,A]pp.*|Mob.*Tes.*|Mob.*Dev.*", "Mobile") \
                            .str.replace(".*merc.*|Adve.*|.*[c,C]lie.*|.*[A,a]ff?il.*|Gest.*(cart|co|ven|rel|mark).*", "Vendas")

habilidades.categoria.sort_values().unique()
#habilidades[['name']].loc[habilidades.name.str.contains("^Web S")].name.unique()

array(['Análise de rede', 'Apache', 'Apache Cordova',
       'Application Development', 'Art Direction', 'Asset Management',
       'Auditoria', 'AutoCAD', 'Automação de testes', 'Axure', 'B2B',
       'BDD', 'BMC Remedy', 'Bancos de Dados', 'Bash',
       'Brand Development', 'Brazilian Laws', 'C',
       'C (linguagem de programação)', 'C/Linguagens de Programação',
       'CBL', 'CEP (Controle estatístico de processos)',
       'CLP (Controlador lógico programável)', 'CSS', 'CSS3', 'CVS',
       'Call Centers', 'Capacidade analítica', 'Capital Markets',
       'Capital de risco', 'Cartões de crédito',
       'Centrais de atendimento', 'Centro de processamento de dados',
       'Ceph', 'Chemical Engineering', 'Chrome Developer Tools',
       'Chrome Extensions', 'Ciência da computação', 'Ciência de Dados',
       'Cloud', 'Coaching', 'Cobertura for J2ME', 'Coded UI',
       'Communicação estratégica', 'Compatibilidade cross-browser',
       'Competitive Analysis', 'Compilers', 'Compl

## 04.4 - Salvando bases

A base tratada será gravada no arquivo **habilidades-tratado.csv**.

Uma nova base consolidada com um registro por perfil será gravada no arquivo **perfil-habilidades.csv**, contendo as colunas: **perfil_id**, **qtd_habilidades** e **qtd_endossos**.

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)
* [Continuar para o próximo documento](05-tratamento-base-experiencia.ipynb)