# Trabalho Final

**Aluno**: Carlos Alberto Rocha Cardoso

**Matrícula**: 96983


## 04 - Tratamento da base *habilidades.csv*

Essa base descreve as habilidades profissionais dos funcionários, representados pela coluna chave **perfil_id**, apresentando o nome da habilidade (coluna **name**) e o número de endossos que o funcionário recebeu de outras pessoas para aquela habilidade (coluna **endorsement_count**). Podem existir mais de um registro por **perfil_id**, no caso do funcionário possuir habilidades profissionais diversas.

Dos 111 funcionários, 110 constam nessa base. São 764 nomes únicos de habilidades. 

In [68]:
import numpy as np
import pandas as pd
from unicodedata import normalize

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

habilidades = pd.read_csv("bases/habilidades.csv")

# Análise inicial
print("Nº de registros:", len(habilidades))
print("Nº de valores únicos de perfil_id:", habilidades.perfil_id.nunique())
print("Nº de valores únicos de name:", habilidades.name.nunique())
print("Valores faltantes em name:", habilidades.name.isnull().sum())
print("Valores faltantes em endorsement_count:", habilidades.endorsement_count.isnull().sum())

habilidades.describe(include="all")

Nº de registros: 2594
Nº de valores únicos de perfil_id: 100
Nº de valores únicos de name: 764
Valores faltantes em name: 417
Valores faltantes em endorsement_count: 618


Unnamed: 0,endorsement_count,name,perfil_id
count,1976.0,2177,2594.0
unique,69.0,764,
top,2.0,Microsoft Office,
freq,297.0,35,
mean,,,55.196993
std,,,31.803147
min,,,0.0
25%,,,31.0
50%,,,56.0
75%,,,82.0


Apesar da grande quantidade de registros, os registros sem **name** podem ser desconsiderados pois não descrevem habilidade alguma.

In [69]:
habilidades = habilidades.loc[habilidades.name.notnull()]
print("Nº de registros restantes (com nome):", len(habilidades))

Nº de registros restantes (com nome): 2177


In [70]:
habilidades.head(5)

Unnamed: 0,endorsement_count,name,perfil_id
0,+ de 99,Empresas startups,0
3,+ de 99,Empreendedorismo,0
6,97,Start-ups,0
9,73,Entrepreneurship,0
10,75,New Business Development,0


## 04.2 - Contagem de Endossos e Habilidades

Afim de consolidar essa base em algum tipo de informação sintética por perfil, calcule a quantidade de habilidades (**qtd_habilidades**) e a quantidade total de endossos de cada perfil (**qtd_endossos**).

In [71]:
#Antes que calcular a quantidade de habilidades por perfil, foi realizado um tratamento de texto na tentativa 
#de consolidar algumas habilidades que possuem mesma semântica

#São 764 valores únicos de habilidades 

#Convertendo as habilidades para mesmo padrão: sem acentos, sem espaços, caixa alta

#Função para remover acentos
def remove_acentos(text):
    return normalize('NFKD', text).encode('ASCII', 'ignore').decode('ASCII')

#Copiando as habilidades para nova coluna, mantendo os valores orginais
habilidades['nome'] = habilidades.name

#Aplicando tratamento, sem acentos, sem espaços, caixa alta
habilidades['nome'] = habilidades.nome.apply(remove_acentos)
habilidades['nome'] = habilidades.nome.str.strip()
habilidades['nome'] = habilidades.nome.str.upper()

print("Nº de valores únicos de name após tratamento:", habilidades.nome.nunique())

Nº de valores únicos de name após tratamento: 754


In [72]:
#Calculando a quantidade de habilidades para cada perfil
qtd_habilidades = habilidades.groupby('perfil_id').nome.count().to_frame()
qtd_habilidades = qtd_habilidades.rename(index=int, columns={"name":"qtd_habilidades"})

print('Quantidade de perfis únicos em qtd_habilidades:',qtd_habilidades.index.nunique())
qtd_habilidades.head(5)

Quantidade de perfis únicos em qtd_habilidades: 100


Unnamed: 0_level_0,nome
perfil_id,Unnamed: 1_level_1
0,33
1,28
2,47
3,9
4,11


In [73]:
#Para calcular a quantidade total de endossos de cada perfil, foi necessário tratar alguns valores não númericos no campo
#endorsement_count. Foi atribuído aos valores nulos o valor numérico 0. Para os valores "+ de 99" foi atribuído o valor
#numérico 100

#Copiando valores de endorsement_count para nova coluna, mantendo valores originais
habilidades['endosso'] = habilidades.endorsement_count

#Convertendo valores não númericos
habilidades.endosso = habilidades.endosso.fillna("0")
habilidades.loc[habilidades.endosso.str.contains("de"), 'endosso'] = "100"
habilidades.endosso = pd.to_numeric(habilidades.endosso)

#Calculando a quantidade total de endossos por perfil
qtd_endossos = habilidades.groupby('perfil_id').endosso.sum().to_frame()
qtd_endossos = qtd_endossos.rename(index=int, columns={"endosso":"qtd_endossos"})

print('Quantidade de perfis únicos em qtd_endossos:', qtd_endossos.index.nunique())
qtd_endossos.head(5)

Quantidade de perfis únicos em qtd_endossos: 100


Unnamed: 0_level_0,qtd_endossos
perfil_id,Unnamed: 1_level_1
0,1600
1,314
2,117
3,14
4,103


## 04.3 - Agrupando habilidades

Afim de entender melhor o perfil do funcionários no que tange diversidade, agrupe as habilidades em categorias. Por exemplo, c++, python em liguagens de programação, ferramentas do office informática, análise SWOT, PDCA, SCRUM gestão de projetos. Essa informação pode ser utilizada para averiguar a proximidades entre os perfis contratados em cada setor da empresa ou tipo cargo.

In [74]:
#exportando dados de habilidades para inserir as informações de categoria
#a das habilidades, definição e inserção da categoria será feita em planilha eletrônica em função da grande
#quantidade de registros
habilidades.groupby('nome').nome.count() \
            .to_frame() \
            .sort_index() \
            .to_csv('bases/nome_habilidades.csv')



In [75]:
#Após definição das categorias em planilha eletrônica a nova base é importada
categorias = pd.read_csv('bases/nome_habilidades-categorias.csv')

#As categorias são anexadas ao dataframe de habilidades conforme o nome da habilidade
habilidades = pd.merge(habilidades, categorias[['nome','categoria']], how='left', on='nome')

In [78]:
habilidades.head(5)

Unnamed: 0,endorsement_count,name,perfil_id,nome,endosso,categoria
0,+ de 99,Empresas startups,0,EMPRESAS STARTUPS,100,Gestão de Empresas
1,+ de 99,Empreendedorismo,0,EMPREENDEDORISMO,100,Gestão de Empresas
2,97,Start-ups,0,START-UPS,97,Gestão de Empresas
3,73,Entrepreneurship,0,ENTREPRENEURSHIP,73,Gestão de Empresas
4,75,New Business Development,0,NEW BUSINESS DEVELOPMENT,75,Gestão de Empresas


## 04.4 - Salvando bases

A base tratada será gravada no arquivo **habilidades-tratado.csv**.

Uma nova base consolidada com um registro por perfil será gravada no arquivo **perfil-habilidades.csv**, contendo as colunas: **perfil_id**, **qtd_habilidades** e **qtd_endossos**.

In [91]:
# Grava habilidades-tratado.csv
habilidades_tratado = habilidades.groupby(['perfil_id','categoria','nome'], as_index=False).endosso.sum()
habilidades_tratado.to_csv('bases/habilidades-tratado.csv')

In [90]:
# Grava perfil-habilidades.csv
perfil_habilidades = pd.concat([qtd_habilidades,qtd_endossos], axis=1, sort=False)
perfil_habilidades.to_csv('bases/perfil-habilidades.csv')

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)
* [Continuar para o próximo documento](05-tratamento-base-experiencia.ipynb)