# Trabalho Final

**Aluno**: Carlos Alberto Rocha Cardoso

**Matrícula**: 96983


## 03 - Tratamento da base *formacao.csv*

Essa base descreve a formação acadêmica dos funcionários, representados pela coluna chave **perfil_id**, apresentando o ano de início e término da formação (coluna **date**), o título obtido (coluna **degree**), a área de estudo (**major**) e a escola (**school**). Podem existir mais de um registro por **perfil_id**, no caso do funcionário possuir formações diversas.

Todos os 111 funcionários constam nessa base.

In [100]:
import numpy as np
import pandas as pd
#import warnings

#warnings.filterwarnings('ignore')
#warnings.filterwarnings(action='once')

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

#Aumentar a quantidade de caracteres exibidos para uma coluna (originalmente 50)
pd.options.display.max_colwidth = 100

formacao = pd.read_csv("bases/formacao.csv")

# Análise inicial da qualidade dessa base
print("Quantidade de registros: ", len(formacao))
print("Quantidade de valores distintos de perfil_id: ", formacao.perfil_id.nunique())
print("Dados faltantes em degree: ", len(formacao.loc[formacao.degree.isnull()]))
print("Dados faltantes em date: ", len(formacao.loc[formacao.date.isnull()]))
print("Dados faltantes em major: ", len(formacao.loc[formacao.major.isnull()]))
print("Dados faltantes em school: ", len(formacao.loc[formacao.school.isnull()]))
print("Dados faltantes em degree + major: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull())]))
print("Dados faltantes em degree + major + school: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull()) & (formacao.school.isnull())]))
print("Valores distintos em degree: ", len(formacao.groupby('degree').nunique()))
print("Valores distintos em major: ", len(formacao.groupby('major').nunique()))
print("Valores distintos em school: ", len(formacao.groupby('school').nunique()))


Quantidade de registros:  220
Quantidade de valores distintos de perfil_id:  111
Dados faltantes em degree:  29
Dados faltantes em date:  7
Dados faltantes em major:  50
Dados faltantes em school:  1
Dados faltantes em degree + major:  13
Dados faltantes em degree + major + school:  1
Valores distintos em degree:  135
Valores distintos em major:  114
Valores distintos em school:  122


In [101]:
formacao.head(5)

Unnamed: 0,date,degree,major,school,perfil_id
0,2016 – 2016,"Nome do diploma\r\nExecutive Education, Innovation & Entrepreneurship",,Stanford University,0
1,2007 – 2010,Nome do diploma\r\nEconomics,Área de estudo\r\nEconomics,Universidade Federal de Minas Gerais,0
2,2015 – 2015,Nome do diploma\r\nMaster of Business Administration (MBA),Área de estudo\r\nGestão de Negócios,Centro Universitário Newton Paiva,1
3,2009 – 2012,Nome do diploma\r\nBacharel em Design de Ambientes,Área de estudo\r\nDesign de Interiores,Universidade do Estado de Minas Gerais,1
4,2016 – 2019,Nome do diploma\r\nBachelor’s Degree,Área de estudo\r\nComputer Technology/Computer Systems Technology,Universidade Federal de Minas Gerais,2


## 03.1 - Tratamento das datas

Um primeiro tratamento feito será o de data. A coluna **date** que indica o íncio e o fim do curso e será quebrada em duas colunas numéricas (**inicio** e **fim**), e ainda numa terceira coluna indicando a duração estimada do curso em anos baseado na informação obtida (**duracao**).

In [102]:
#Separa as informações de início e término na string pelo caractere -
inicio_termino = formacao.date.str.split('–')

#Converte as strings coletadas para valores numéricos
formacao['inicio'] = pd.to_numeric(inicio_termino.str.get(0))
formacao['termino'] = pd.to_numeric(inicio_termino.str.get(1))

#------------ Calcula a duração da formação ---------------------
#Para os casos em que o término não foi informado, considerou-se o início da formação igual ao fim
#O cálculo de duração foi definido como: (término - duração) + 1
#Soma-se 1 ao final considerando que o ano de início não pode ser subtraído do período de formação
#Exemplo 1: se a formação se inciou em 2016 e terminou em 2016, sua duração será de 1 ano (2016 - 2016 = 0 + 1 = 1)
#Exemplo 2: se a formação de inicou em 2011 e terminou em 2015, sua duração será de 5 anos (2015 - 2011 = 4 + 1 = 5)

formacao.loc[formacao.termino.isnull(), 'termino'] = formacao['inicio']
formacao['duracao'] = (formacao['termino'] - formacao['inicio']) + 1

#Substitui os valores nulos de duração pelo número 0
formacao.duracao.fillna(0, inplace=True)

## 03.2 - Tratamento da coluna de grau de escolaridade

Uma vez que a coluna **degree** não é muito precisa, uma coluna **grau** será criada. Ela começará vazia e será armazenado a inferência do grau de formação baseado na análise das demais colunas.

Uma primeira estratégia será avaliar o nome do **degree** para inferir se ele contém algum fragmento que possa indicar algum dos seguintes graus de escolaridade, representados por números: **Ensino Médio**=1, **Técnico**=2, **Superior**=3 ou **Pós-Graduação**=4.

Para isso, utilize a função [`contains`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.contains.html).

In [103]:
#formacao['grau'] = None
#formacao['desc_grau'] = formacao.degree
#

# Troca os valores não informados de proficiência por "Não informado"
#formacao.instituicao.fillna("-", inplace=True)
#formacao.desc_grau.fillna("-", inplace=True)
#formacao.area.fillna("-", inplace=True)

#Antes de avaliar o nome do degree foi feito um tratamento para retirar o texto "Nome do diploma\r\n"
#Dispensável para a análise que será realizada

#Copiando o campo para uma nova coluna, mantendo o dado original
formacao['desc_grau'] = formacao.degree
formacao.desc_grau = formacao.desc_grau.str.replace("Nome do diploma\r\n", "")

#Substituímos os valores nulos pelo texto Não informado
formacao.desc_grau.fillna("Não informado", inplace=True)

#Conforme análise da descrição do grau foram definidas as seguintes regras de inferência 

#------Regras de Ensino Médio------------
formacao.loc[formacao.desc_grau.str.contains("Non-degree Student", case=False), "grau"] = 1
formacao.loc[formacao.desc_grau.str.contains("Ensino Médio$", case=False), "grau"] = 1
formacao.loc[formacao.desc_grau.str.contains("High School$", case=False), "grau"] = 1
formacao.loc[formacao.desc_grau.str.contains("^Cur.*Admi", case=False), "grau"] = 1
formacao.loc[formacao.desc_grau.str.contains("^Under", case=False), "grau"] = 1

#------Regras de Ensino Técnico------------
formacao.loc[formacao.desc_grau.str.contains("T[é,e]ch?ni", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("Google", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("Help Desk", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("Turismo", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("English Program", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("Minor", case=False), "grau"] = 2
formacao.loc[formacao.desc_grau.str.contains("Gastronomia", case=False), "grau"] = 2

#------Regras de Ensino Superior------------
formacao.loc[formacao.desc_grau.str.contains("T[é,e]ch?n[ó,o]", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("Bach|B\.S\.", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("^Eng.*Prod|^Eng.*Comp", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("Anali.*Sist", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("^Admin", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("^Ciência", case=False, regex=True), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("^Psic[ó,o]l", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("^Grad", case=False), "grau"] = 3
formacao.loc[formacao.desc_grau.str.contains("2011", case=False), "grau"] = 3

#------Regras de Pós-Graduação------------
formacao.loc[formacao.desc_grau.str.contains("M[ae]st|MBA", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("P[ó,o]s", case=False, regex=True), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("Executive", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("Interniship|Interchange", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("^Market.*[DE]", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("Gestão de vendas e Negociação", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("Processos Gerenciais", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("Study Abroad", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains(".*Especialista$|.*Especialização$", case=False), "grau"] = 4
formacao.loc[formacao.desc_grau.str.contains("[\s]Speciali|^Speci", case=False), "grau"] = 4

Para os demais casos do grau de escolaridade não cobertos pela análise do texto, deverá ser feita uma análise mais profunda. Tente encontrar outros padrões para definir o grau de escolaridade, por exemplo, o nome da instituição de ensino (campo **school**) ou, então, o tempo de duração.

In [30]:
#Ao avaliar os alunos que não foram enquadrados nas regras anteriores decidiu-se:

In [104]:
#Atribuir grau 1 - Ensino Médio conforme regra a seguir.
#Inferência a partir do nome da instituição e duração da formação (min. 11 anos: 1° série ao 3º ano)

idg1 = formacao.grau.isnull() & formacao.school.str.contains("^Col[e,é]gio", case=False) & (formacao.duracao > 10)
print("Total de casos enquadrados:",len(formacao[idg1]))

Total de casos enquadrados: 4


In [105]:
#Atribuindo o grau 1 de formação
formacao.loc[idg1, 'grau'] = 1
formacao[idg1]

Unnamed: 0,date,degree,major,school,perfil_id,inicio,termino,duracao,desc_grau,grau
23,2002 – 2012,,,Colégio Santo Antônio,12,2002.0,2012.0,11.0,Não informado,1.0
93,1998 – 2009,,,Colegio Santo Antônio,47,1998.0,2009.0,12.0,Não informado,1.0
109,1998 – 2012,,,Colégio Piracicabano,55,1998.0,2012.0,15.0,Não informado,1.0
117,2002 – 2014,,,Colégio Santo Agostinho,59,2002.0,2014.0,13.0,Não informado,1.0


In [106]:
#Atribuir grau 2 - Ensino Técnico conforme regra a seguir.
#Inferência a partir do nome da instituição

idg2 = formacao.grau.isnull() & formacao.school.str.contains("Caldwell.*Technical", case=False)
print("Total de casos enquadrados:",len(formacao[idg2]))


Total de casos enquadrados: 1


In [107]:
#Atribuindo o grau 2 de formação
formacao.loc[idg2, 'grau'] = 2
formacao[idg2]

Unnamed: 0,date,degree,major,school,perfil_id,inicio,termino,duracao,desc_grau,grau
125,2014 – 2014,Nome do diploma\r\nInternational Business Management,Área de estudo\r\nBusiness Administration,Caldwell Community College and Technical Institute,63,2014.0,2014.0,1.0,International Business Management,2.0


In [108]:
#Atribuir grau 3 - Ensino Superior conforme regra a seguir.
#Inferência a partir dos registros com mais de dois anos de duração e nome da instituição

idg3 = formacao.grau.isnull() & (((formacao.duracao > 2) & formacao.school.str.contains("Uni|Fed", case=False))) 
print("Total de casos enquadrados:",len(formacao[idg3]))

Total de casos enquadrados: 25


In [109]:
#Atribuindo o grau 3 de formação
formacao.loc[idg3, 'grau'] = 3
formacao[idg3].head(5)

Unnamed: 0,date,degree,major,school,perfil_id,inicio,termino,duracao,desc_grau,grau
1,2007 – 2010,Nome do diploma\r\nEconomics,Área de estudo\r\nEconomics,Universidade Federal de Minas Gerais,0,2007.0,2010.0,4.0,Economics,3.0
14,2007 – 2009,,Área de estudo\r\nEconomia,UFMG - Universidade Federal de Minas Gerais,8,2007.0,2009.0,3.0,Não informado,3.0
15,2007 – 2009,,Área de estudo\r\nDireito,Universidade FUMEC,8,2007.0,2009.0,3.0,Não informado,3.0
20,2013 – 2017,Nome do diploma\r\nComunicação Social - Publicidade e Propaganda,Área de estudo\r\nComunicação Aplicada,Universidade Federal de Minas Gerais,11,2013.0,2017.0,5.0,Comunicação Social - Publicidade e Propaganda,3.0
24,2015 – 2019,,Área de estudo\r\nComunicação Social - Publicidade,Universidade Federal de Minas Gerais,13,2015.0,2019.0,5.0,Não informado,3.0


In [110]:
#Atribuir grau 4 - Pós-Graduação conforme regra a seguir.
#Inferência a partir do nome da instituição e área dos cursos

idg4 = formacao.grau.isnull() & (formacao.school.str.contains("Ecomm", case=False) | formacao.major.str.contains("Softwaretechnik|Inno", case=False))
print("Total de casos enquadrados:",len(formacao[idg4]))

Total de casos enquadrados: 3


In [111]:
#Atribuindo o grau 4 de formação
formacao.loc[idg4, 'grau'] = 4
formacao[idg4]

Unnamed: 0,date,degree,major,school,perfil_id,inicio,termino,duracao,desc_grau,grau
13,2016 – 2016,,Área de estudo\r\nInnovation & Entrepreneurship,Stanford University,8,2016.0,2016.0,1.0,Não informado,4.0
170,2014 – 2015,,Área de estudo\r\nSoftwaretechnik,University of Stuttgart,87,2014.0,2015.0,2.0,Não informado,4.0
186,2012 – 2012,,Área de estudo\r\nMarketing Digital,Ecommerce School,94,2012.0,2012.0,1.0,Não informado,4.0


In [119]:
#Preenchendo os valores nulos de grau com o valor 0
formacao['grau'] = formacao.grau.fillna(0)

## 03.3 - Tratamento da coluna de grau de escolaridade

A coluna **school** apresenta uma vasta de gama de categorias. Porém numa análise visual dos seus diferentes valores é possível ver que algumas instituições de ensino apresentam variações de nome. Foi feita uma substituição para agrupar esses casos num único nome. O resultao do tratamento é armazenado na nova coluna **instituicao**.

In [118]:
#Copiando o campo para uma nova coluna, mantendo o dado original
formacao['instituicao'] = formacao.school

#Regras para tratamento da coluna instituicao
formacao.instituicao = formacao.instituicao.str.replace("^Univ.*.Fed.*.M.*.G.*", "UFMG - Universidade Federal de Minas Gerais") \
                        .str.replace("^Fun.*Get.*as", "FGV - Fundação Getúlio Vargas") \
                        .str.replace("(^Uni-BH|^Cent.*Uni.*zonte.*)", "UNI-BH - Centro Universitário de Belo Horizonte") \
                        .str.replace(".*Uni.*UNA.*", "Centro Universitário UNA") \
                        .str.replace(".*Col.*Santo.*nio", "CSA - Colégio Santo Antônio") \
                        .str.replace(".*(COTEMIG|Cotemig).*", "COTEMIG") \
                        .str.replace("(Ufam|.*Univ.*Fe.*Amaz.*|.*Fed.*Univer.*Amazonas.*)", "UFAM - Universidade Federal do Amazonas") \
                        .str.replace(".*UEA", "UEA - Universidade do Estado do Amazonas") \
                        .str.replace(".*Inst.*Fed.*cnologia.*Amazonas.*", "IFAM - Instituto Federal de Educação, Ciência e Tecnologia do Amazonas")\
                        .str.replace(".*Fund.*Nokia.*", "Fundação Nokia de Ensino") \
                        .str.replace(".*P.*U.*C.*Minas.*", "PUCMG - Pontifícia Universidade Católica de Minas Gerais") \
                        .str.replace("^P.*U.*C.*(SP|São Paulo)", "PUCSP - Pontifícia Universidade Católica de São Paulo") \
                        .str.replace(".*Universidade Paulista.*", "UNIP - Universidade Paulista") \
                        .str.replace(".*Estácio.*Sá.*", "Universidade Estácio de Sá") \
                        .str.replace(".*Univ.*Alfenas.*", "UNIFAL - Universidade Federal de Alfenas") \
                        .str.replace(".*F(ucapi|UCAPI)", "Instituto de Ensino Superior FUCAPI") \
                        .str.replace(".*Senac M.*", "SENAC MG")

#Preenchendo valores nulos com "Não informado"
formacao['instituicao'] = formacao.instituicao.fillna('Não Informado')

## 03.4 - Área de Formação

Agrupe as formações em grupos mais macros, por exemplo: Engenharia de Alimento, Engharia Elétrica estariam no grupo de engenharias, já Ciência da Computação, Sistemas de Informação poderiam estar no grupo de T.I. Crie áreas que façam sentido, agrupe os dados criando uma nova coluna no dataframe chamada area.

In [121]:
#Copiando o campo para uma nova coluna, mantendo o dado original
formacao['area'] = formacao.major

#Regras para formatação da coluna area
formacao.area = formacao.area.str.replace("Área de estudo\r\n", "") \
                .str.replace(".*Comp.*|.*Data.*|.*[s,S][y,i]s.*|.*[s,S]oft.*|.*[I,i]nf.*|.*Dig.*Imag.*|.*Des.*Intera.*|.*Int.*Des.*|.*Exatas.*", "TI") \
                .str.replace(".*Eng.*|.*Ingé.*", "Engenharia") \
                .str.replace(".*Mark.*|.*Pub.*|.*Comu.*|.*Jor.*|.*Rel.*Púb.*|.*Red.*|.*Cine.*", "Comunicação e Marketing") \
                .str.replace(".*Psi.*|.*Hum.*|.*Pess.*", "RH") \
                .str.replace(".*Direi.*", "Jurídico") \
                .str.replace(".*Quali.*|.*Exch.*|.*Adm.*|.*Bus.*|.*Fina.*|.*Org.*|.*Neg.*|.*Inn.*|.*Proj.*|.*Conta.*|.*Gest.*(Com|Emp|Prod).*|.*[E,e]con.*|.*Atua.*", "Gestão Empresarial") \
                .str.replace(".*Desi.*|.*Fine.*|.*Cine.*", "Design") \
                .str.replace(".*Culi.*|.*Tour.*", "Turismo e Gastronomia")

formacao.loc[formacao.area.str.contains("Miguel", case=False) 
             & (formacao.desc_grau.str.contains("MARKET", case=False)), "area"] = "Comunicação e Marketing"

formacao.loc[formacao.area.str.contains("Miguel", case=False) 
             & (formacao.desc_grau.str.contains("Sist", case=False)), "area"] = "TI"

formacao.loc[formacao.area.str.contains("-", case=False) 
             & (formacao.desc_grau.str.contains("Publi|Mark|Comu", case=False)), "area"] = "Comunicação e Marketing"

formacao.loc[formacao.area.str.contains("-", case=False) 
             & (formacao.desc_grau.str.contains("Sis|Infor|Banc|Help", case=False)), "area"] = "TI"

formacao.loc[formacao.area.str.contains("-", case=False) 
             & (formacao.desc_grau.str.contains("Eng[ie].*Comp|Eng[ie].*Prod", case=False)), "area"] = "Engenharia"

formacao.loc[formacao.area.str.contains("-", case=False) 
             & (formacao.desc_grau.str.contains("Econ|Bach.*Adm|Emp|Entrep|Nego*", case=False)), "area"] = "Gestão Empresarial"

formacao.loc[formacao.area.str.contains("-", case=False) 
             & (formacao.desc_grau.str.contains("Psi", case=False)), "area"] = "RH"

formacao.area = formacao.area.str.replace(".*High.*|^-$", "Outros")

#Preenchendo valores nulos com "Não informado"
formacao['area'] = formacao.area.fillna('Não informado')

## 03.5 - Escolaridade

Uma informação consolidada de cada funcionário que pode ser derivada dessa base é a sua escolaridade (**escolaridade**), que é pode ser obtida pegando o maior grau daquele perfil. Gere uma base à parte contendo essa informação.

In [125]:
#Consolidando as escolaridades por perfil
escolaridade = formacao.groupby("perfil_id").grau.max().to_frame()
escolaridade = escolaridade.rename(index=int, columns={"grau":"escolaridade_numero"})

print('Total de perfis únicos para escolaridade:',escolaridade.index.nunique())

Total de perfis únicos para escolaridade: 111


In [124]:
escolaridade.head(5)

Unnamed: 0_level_0,escolaridade_numero
perfil_id,Unnamed: 1_level_1
0,4.0
1,4.0
2,3.0
3,3.0
4,3.0


In [131]:
#Atribuindo a descrição do grau de escolaridade

escolaridade.loc[escolaridade.escolaridade_numero == 1, 'escolaridade'] = 'Ensino Médio'
escolaridade.loc[escolaridade.escolaridade_numero == 2, 'escolaridade'] = 'Técnico'
escolaridade.loc[escolaridade.escolaridade_numero == 3, 'escolaridade'] = 'Superior'
escolaridade.loc[escolaridade.escolaridade_numero == 4, 'escolaridade'] = 'Pós Graduação'

## 03.6 Salvando Base Tratada

A base tratada será gravada no arquivo **formacao-tratado.csv**.

A base consolidadada com uma informação por registro será gravada no arquivo **perfil-formacao.csv** contendo as colunas: **perfil_id**, **escolaridade**, **escolaridade_numero**, **area**, **duracao**.

In [132]:
#Consolidando as informações de área e duração
area = formacao.sort_values(by="grau", ascending = False).drop_duplicates(subset="perfil_id", keep="first")
area = area.sort_values(by="perfil_id").set_index('perfil_id')
area = area[['area', 'duracao']]

# Grava a formação tratada em arquivo
formacao_tratado = formacao[['perfil_id','date','duracao','desc_grau','grau','instituicao','area']].copy().set_index('perfil_id')
formacao_tratado.to_csv('bases/formacao-tratado.csv')

# Grava o consolidade da formação por perfil em arquivo
formacao_perfil = pd.concat([escolaridade, area], axis=1)
formacao_perfil.to_csv('bases/perfil-formacao.csv')

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)
* [Continuar para o próximo documento](04-tratamento-base-habilidades.ipynb)