# Trabalho Final

**Aluno**:

**Matrícula**:


## 03 - Tratamento da base *formacao.csv*

Descreve a base aqui com suas palavras.

In [123]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

formacao = pd.read_csv("bases/formacao.csv")

# Análise inicial da qualidade dessa base
print("Quantidade de registros: ", len(formacao))
print("Quantidade de valores distintos de perfil_id: ", formacao.perfil_id.nunique())
print("Dados faltantes em degree: ", len(formacao.loc[formacao.degree.isnull()]))
print("Dados faltantes em date: ", len(formacao.loc[formacao.date.isnull()]))
print("Dados faltantes em major: ", len(formacao.loc[formacao.major.isnull()]))
print("Dados faltantes em school: ", len(formacao.loc[formacao.school.isnull()]))
print("Dados faltantes em degree + major: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull())]))
print("Dados faltantes em degree + major + school: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull()) & (formacao.school.isnull())]))
print("Valores distintos em degree: ", len(formacao.groupby('degree').nunique()))
print("Valores distintos em major: ", len(formacao.groupby('major').nunique()))
print("Valores distintos em school: ", len(formacao.groupby('school').nunique()))


Quantidade de registros:  220
Quantidade de valores distintos de perfil_id:  111
Dados faltantes em degree:  29
Dados faltantes em date:  7
Dados faltantes em major:  50
Dados faltantes em school:  1
Dados faltantes em degree + major:  13
Dados faltantes em degree + major + school:  1
Valores distintos em degree:  135
Valores distintos em major:  114
Valores distintos em school:  122


In [124]:
formacao.head(5)

Unnamed: 0,date,degree,major,school,perfil_id
0,2016 – 2016,"Nome do diploma\r\nExecutive Education, Innova...",,Stanford University,0
1,2007 – 2010,Nome do diploma\r\nEconomics,Área de estudo\r\nEconomics,Universidade Federal de Minas Gerais,0
2,2015 – 2015,Nome do diploma\r\nMaster of Business Administ...,Área de estudo\r\nGestão de Negócios,Centro Universitário Newton Paiva,1
3,2009 – 2012,Nome do diploma\r\nBacharel em Design de Ambie...,Área de estudo\r\nDesign de Interiores,Universidade do Estado de Minas Gerais,1
4,2016 – 2019,Nome do diploma\r\nBachelor’s Degree,Área de estudo\r\nComputer Technology/Computer...,Universidade Federal de Minas Gerais,2


## 03.1 - Tratamento das datas

Um primeiro tratamento feito será o de data. A coluna **date** que indica o íncio e o fim do curso e será quebrada em duas colunas numéricas (**inicio** e **fim**), e ainda numa terceira coluna indicando a duração estimada do curso em anos baseado na informação obtida (**duracao**).

In [125]:
inicio_termino = formacao.date.str.split('–')

formacao['inicio'] = pd.to_numeric(inicio_termino.str.get(0))
formacao['termino'] = pd.to_numeric(inicio_termino.str.get(1))
formacao['duracao'] = (formacao['termino'] - formacao['inicio']) + 1


## 03.2 - Tratamento da coluna de grau de escolaridade

Uma vez que a coluna **degree** não é muito precisa, uma coluna **grau** será criada. Ela começará vazia e será armazenado a inferência do grau de formação baseado na análise das demais colunas.

Uma primeira estratégia será avaliar o nome do **degree** para inferir se ele contém algum fragmento que possa indicar algum dos seguintes graus de escolaridade, representados por números: **Ensino Médio**=1, **Técnico**=2, **Superior**=3 ou **Pós-Graduação**=4.

Para isso, utilize a função [`contains`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.contains.html).

In [126]:
formacao.degree.unique() 
    

array(['Nome do diploma\r\nExecutive Education, Innovation & Entrepreneurship',
       'Nome do diploma\r\nEconomics',
       'Nome do diploma\r\nMaster of Business Administration (MBA)',
       'Nome do diploma\r\nBacharel em Design de Ambientes',
       'Nome do diploma\r\nBachelor’s Degree',
       'Nome do diploma\r\nTechnician',
       'Nome do diploma\r\nEngenharia de Produção Civil',
       'Nome do diploma\r\nBachelor of Science (B.S.)',
       'Nome do diploma\r\nPós Graduação em Gestão Estratégica de Negócios',
       'Nome do diploma\r\nBacharel em Publicidade e Propaganda',
       "Nome do diploma\r\nMaster's Degree",
       'Nome do diploma\r\nCursando administração', nan,
       'Nome do diploma\r\nBacharel',
       'Nome do diploma\r\nBacharelado em Engenharia',
       'Nome do diploma\r\nTécnico',
       'Nome do diploma\r\nComunicação Social - Publicidade e Propaganda',
       'Nome do diploma\r\nEnsino Médio',
       'Nome do diploma\r\nGraduação em Engenharia',
     

In [232]:
formacao['grau'] = formacao['degree']

formacao.grau = formacao.grau.str.replace("Nome do diploma\r\n", "")

# Troca os valores não informados de proficiência por "Não informado"
formacao.grau.fillna("Não informado", inplace=True)
formacao.school.fillna("Não informado", inplace=True)

formacao.loc[formacao.grau.str.contains("Médio", case=False), "grau"] = "1"
formacao.loc[formacao.grau.str.contains("High School", case=False), "grau"] = "1"

formacao.loc[formacao.grau.str.contains("Tec", case=False), "grau"] = "2"
formacao.loc[formacao.grau.str.contains("Téc", case=False), "grau"] = "2"
formacao.loc[formacao.grau.str.contains("Help Desk", case=False), "grau"] = "2"
formacao.loc[formacao.grau.str.contains("Turismo", case=False), "grau"] = "2"
formacao.loc[formacao.grau.str.contains("Google AdWords Fundamentals", case=False), "grau"] = "2"
formacao.loc[formacao.grau.str.contains("English Program", case=False), "grau"] = "2"

formacao.loc[formacao.grau.str.contains("Bach", case=False), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("B.S.", case=False, regex=False), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Enge", case=False, regex=True), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Graduação", case=False, regex=True), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Analis", case=False, regex=True), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Ciência", case=False, regex=True), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Admin", case=False), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Psic[ó,o]l", case=False), "grau"] = "3"
formacao.loc[formacao.grau.str.contains("^Cursando administração", case=False), "grau"] = "3"

formacao.loc[formacao.grau.str.contains("MBA", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Master", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Mestrado", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Speci", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("P[ó,o]s", case=False, regex=True), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Executive", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Minor", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("International Business Management", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Interniship", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Gestão de vendas e Negociação", case=False), "grau"] = "4"
formacao.loc[formacao.grau.str.contains("Processos Gerenciais", case=False), "grau"] = "4"



formacao.grau.unique() 

array(['4', 'Economics', '3', '2', 'Não informado',
       'Comunicação Social - Publicidade e Propaganda', '1',
       'Study Abroad', 'College', '2011', 'Non-degree Student',
       'Graduate', 'Under Graduate', 'Marketing Estratégico',
       'Publicidade e Propaganda', 'Sistemas de Informação',
       'Licenciatura em História', 'Marketing', 'Interchange Student',
       'Marketing Digital', 'Comercio exterior', 'Gestão Comercial',
       'Marketing Digital e Publicidade On Line'], dtype=object)

Para os demais casos do grau de escolaridade não cobertos pela análise do texto, deverá ser feita uma análise mais profunda. Tente encontrar outros padrões para definir o grau de escolaridade, por exemplo, o nome da instituição de ensino (campo **school**) ou, então, o tempo de duração.

In [233]:

formacao.loc[formacao.school.str.contains("^Col[e,é]gio", case=False, regex=True), "grau"] = "1"
formacao.loc[formacao.school.str.contains("Marista", case=False, regex=True), "grau"] = "1"
formacao.loc[formacao.school.str.contains("^Loyola", case=False, regex=True) 
             & (formacao.duracao > 5), "grau"] = "1"

formacao.loc[formacao.school.str.contains("Udacity", case=False, regex=True), "grau"] = "2"
formacao.loc[formacao.school.str.contains("Ecommerce School", case=False), "grau"] = "2"
formacao.loc[formacao.school.str.contains("Claudio Torres", case=False), "grau"] = "2"

formacao.loc[(formacao.duracao > 2)
             & (formacao.grau.str.len() > 1)
             & (formacao.school.str.contains("Uni|Fed", case=False)), 'grau'] = "3"

formacao.loc[(formacao.duracao <= 2)
             & (formacao.grau.str.len() > 1)
             & (formacao.school.str.contains("Uni|Fed", case=False)), 'grau'] = "4"
formacao.loc[formacao.school.str.contains("IEC", case=False, regex=True), "grau"] = "4"
formacao.loc[(formacao.duracao == 1)
             & (formacao.grau.str.len() > 1)
             & (formacao.school.str.contains("Stanford", case=False)), 'grau'] = "4"


Unnamed: 0,date,degree,major,school,perfil_id,inicio,termino,duracao,grau
0,2016 – 2016,"Nome do diploma\r\nExecutive Education, Innova...",,Stanford University,0,2016.0,2016.0,1.0,4
1,2007 – 2010,Nome do diploma\r\nEconomics,Área de estudo\r\nEconomics,Universidade Federal de Minas Gerais,0,2007.0,2010.0,4.0,3
2,2015 – 2015,Nome do diploma\r\nMaster of Business Administ...,Área de estudo\r\nGestão de Negócios,Centro Universitário Newton Paiva,1,2015.0,2015.0,1.0,4
3,2009 – 2012,Nome do diploma\r\nBacharel em Design de Ambie...,Área de estudo\r\nDesign de Interiores,Universidade do Estado de Minas Gerais,1,2009.0,2012.0,4.0,3
4,2016 – 2019,Nome do diploma\r\nBachelor’s Degree,Área de estudo\r\nComputer Technology/Computer...,Universidade Federal de Minas Gerais,2,2016.0,2019.0,4.0,3
5,2013 – 2015,Nome do diploma\r\nTechnician,"Área de estudo\r\nInformatics, COLTEC",Universidade Federal de Minas Gerais,2,2013.0,2015.0,3.0,2
6,2014 – 2019,Nome do diploma\r\nEngenharia de Produção Civil,,Centro Federal de Educação Tecnológica de Mina...,3,2014.0,2019.0,6.0,3
7,2011 – 2016,Nome do diploma\r\nBachelor of Science (B.S.),Área de estudo\r\nChemical Engineering,Universidade Federal de Minas Gerais,4,2011.0,2016.0,6.0,3
8,2015 – 2015,Nome do diploma\r\nBachelor of Science (B.S.),Área de estudo\r\nChemical Engineering,California State University-Long Beach,4,2015.0,2015.0,1.0,3
9,2011 – 2011,Nome do diploma\r\nPós Graduação em Gestão Est...,Área de estudo\r\nEconomia e Gestão Empresarial,Universidade FUMEC,5,2011.0,2011.0,1.0,4


## 03.3 - Tratamento da coluna de grau de escolaridade

A coluna **school** apresenta uma vasta de gama de categorias. Porém numa análise visual dos seus diferentes valores é possível ver que algumas instituições de ensino apresentam variações de nome. Foi feita uma substituição para agrupar esses casos num único nome. O resultao do tratamento é armazenado na nova coluna **instituicao**.

## 03.4 - Área de Formação

Agrupe as formações em grupos mais macros, por exemplo: Engenharia de Alimento, Engharia Elétrica estariam no grupo de engenharias, já Ciência da Computação, Sistemas de Informação poderiam estar no grupo de T.I. Crie áreas que façam sentido, agrupe os dados criando uma nova coluna no dataframe chamada area.

## 03.5 - Escolaridade

Uma informação consolidada de cada funcionário que pode ser derivada dessa base é a sua escolaridade (**escolaridade**), que é pode ser obtida pegando o maio grau daquele perfil. Gere uma base à parte contendo essa informação.

## 03.6 Salvando Base Tratada

A base tratada será gravada no arquivo **formacao-tratado.csv**.

A base consolidadada com uma informação por registro será gravada no arquivo **perfil-formacao.csv** contendo as colunas: **perfil_id**, **escolaridade**, **escolaridade_numero**, **area**, **duracao**.

In [None]:
# Grava a formação tratada em arquivo
formacao_tratado.to_csv('bases/formacao-tratado.csv')

# Grava o consolidade da formação por perfil em arquivo
formacao_perfil = pd.concat([escolaridade, area], axis=1)
formacao_perfil.to_csv('bases/perfil-formacao.csv')

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)
* [Continuar para o próximo documento](04-tratamento-base-habilidades.ipynb)