# Trabalho Final

**Aluno**: Heitor Vinicius de Paula Salatiel

**Matrícula**: 1185913


## 03 - Tratamento da base *formacao.csv*

A base "formação.csv" possui informações a respeito da escolaridade dos indivíduos presentes na empresa Trojan Technologies. A base possui 220 registros, distribuidos em 5 colunas:
    1. Date: Referente a data de inicio e fim do curso (registro)
    2. Degree: O nível da escolaridade, indo do ensino médio ao mestrado
    3. Major: O nome do curso
    4. School: A escola/universidade onde foi prestado o curso
    5. Perfil_Id: ID de identificação do usuário

In [1]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

formacao = pd.read_csv("bases/formacao.csv")

# Análise inicial da qualidade dessa base
print("Quantidade de registros: ", len(formacao))
print("Quantidade de valores distintos de perfil_id: ", formacao.perfil_id.nunique())
print("Dados faltantes em degree: ", len(formacao.loc[formacao.degree.isnull()]))
print("Dados faltantes em date: ", len(formacao.loc[formacao.date.isnull()]))
print("Dados faltantes em major: ", len(formacao.loc[formacao.major.isnull()]))
print("Dados faltantes em school: ", len(formacao.loc[formacao.school.isnull()]))
print("Dados faltantes em degree + major: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull())]))
print("Dados faltantes em degree + major + school: ", len(formacao.loc[(formacao.degree.isnull()) & (formacao.major.isnull()) & (formacao.school.isnull())]))
print("Valores distintos em degree: ", len(formacao.groupby('degree').nunique()))
print("Valores distintos em major: ", len(formacao.groupby('major').nunique()))
print("Valores distintos em school: ", len(formacao.groupby('school').nunique()))

Quantidade de registros:  220
Quantidade de valores distintos de perfil_id:  111
Dados faltantes em degree:  29
Dados faltantes em date:  7
Dados faltantes em major:  50
Dados faltantes em school:  1
Dados faltantes em degree + major:  13
Dados faltantes em degree + major + school:  1
Valores distintos em degree:  135
Valores distintos em major:  114
Valores distintos em school:  122


In [2]:
formacao.head(5)

Unnamed: 0,date,degree,major,school,perfil_id
0,2016 – 2016,"Nome do diploma\nExecutive Education, Innovati...",,Stanford University,0
1,2007 – 2010,Nome do diploma\nEconomics,Área de estudo\nEconomics,Universidade Federal de Minas Gerais,0
2,2015 – 2015,Nome do diploma\nMaster of Business Administra...,Área de estudo\nGestão de Negócios,Centro Universitário Newton Paiva,1
3,2009 – 2012,Nome do diploma\nBacharel em Design de Ambientes,Área de estudo\nDesign de Interiores,Universidade do Estado de Minas Gerais,1
4,2016 – 2019,Nome do diploma\nBachelor’s Degree,Área de estudo\nComputer Technology/Computer S...,Universidade Federal de Minas Gerais,2


## 03.1 - Tratamento das data

Um primeiro tratamento feito será o de data. A coluna **date** que indica o íncio e o fim do curso e será quebrada em duas colunas numéricas (**inicio** e **fim**), e ainda numa terceira coluna indicando a duração estimada do curso em anos baseado na informação obtida (**duracao**).

In [3]:
def getCourseDates(val, fromFlag):
    '''Função que extrai a data'''
    interval = val
    years = str(interval).strip().split(" – ")
    if(len(years) < 2):
        return 1;
    fromYear = int(years[0].strip())
    toYear = int(years[1].strip())
    return fromYear if fromFlag else toYear

In [4]:
formacao["inicio"] = formacao.date.apply(getCourseDates,args=(True,))
formacao["fim"] = formacao.date.apply(getCourseDates,args=(False,))
formacao["duracao"] = formacao.fim - formacao.inicio
formacao.head()

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao
0,2016 – 2016,"Nome do diploma\nExecutive Education, Innovati...",,Stanford University,0,2016,2016,0
1,2007 – 2010,Nome do diploma\nEconomics,Área de estudo\nEconomics,Universidade Federal de Minas Gerais,0,2007,2010,3
2,2015 – 2015,Nome do diploma\nMaster of Business Administra...,Área de estudo\nGestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0
3,2009 – 2012,Nome do diploma\nBacharel em Design de Ambientes,Área de estudo\nDesign de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3
4,2016 – 2019,Nome do diploma\nBachelor’s Degree,Área de estudo\nComputer Technology/Computer S...,Universidade Federal de Minas Gerais,2,2016,2019,3


## 03.2 - Tratamento da coluna de grau de escolaridade

Uma vez que a coluna **degree** não é muito precisa, uma coluna **grau** será criada. Ela começará vazia e será armazenado a inferência do grau de formação baseado na análise das demais colunas.

Uma primeira estratégia será avaliar o nome do **degree** para inferir se ele contém algum fragmento que possa indicar algum dos seguintes graus de escolaridade, representados por números: **Ensino Médio**=1, **Técnico**=2, **Superior**=3 ou **Pós-Graduação**=4.

Para isso, utilize a função [`contains`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.contains.html).

#### Removendo prefixos nas colunas *degree* e *major*

In [5]:
formacao["major"] = formacao["major"].apply(lambda d: str(d).strip()[15:])
formacao["degree"] = formacao["degree"].apply(lambda d: str(d).strip()[16:])
formacao.head()

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0
1,2007 – 2010,Economics,Economics,Universidade Federal de Minas Gerais,0,2007,2010,3
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,Universidade Federal de Minas Gerais,2,2016,2019,3


#### Adicionando a coluna *grau*

In [6]:
def GetGrauByDegree(degree):
    if(degree.find('MBA') > -1):
        return 4
    elif(degree.find('Master') > -1 or degree.find('Mestrado')> -1 or degree.find('Mestre')> -1):
        return 5
    elif(degree.find('Espec')>-1 or degree.find('Post')> -1 or degree.find('Spec')> -1 or degree.find('Pós Graduação')> -1 \
         or degree.find('Pós Graduado')> -1):
        return 4 
    elif(degree.find('Graduate')> -1 or degree.find('Graduação')> -1 or degree.find('Tecnól')> -1 \
         or degree.find('Bachelor')> -1 or degree.find('Bacharel')> -1 or degree.find('Eng')> -1 \
        or degree.find('Minor') > -1):
        return 3 
    elif(degree.find('Tech')> -1 or degree.find('tecn')> -1 or degree.find('Técn')> -1):
        return 2
    else:
        return 1

In [7]:
formacao["grau"] = pd.Series()
formacao["grau"] = formacao.degree.apply(GetGrauByDegree)
formacao.head()

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao,grau
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0,1
1,2007 – 2010,Economics,Economics,Universidade Federal de Minas Gerais,0,2007,2010,3,1
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0,4
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3,3
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,Universidade Federal de Minas Gerais,2,2016,2019,3,3


Para os demais casos do grau de escolaridade não cobertos pela análise do texto, deverá ser feita uma análise mais profunda. Tente encontrar outros padrões para definir o grau de escolaridade, por exemplo, o nome da instituição de ensino (campo **school**) ou, então, o tempo de duração.

In [8]:
def GetGrauByUniversity(row):
    if(int(row.grau) != int(1)):
        return row.grau
    else:
        if(str(row.school).find('Uni') > -1 or str(row.school).find('Centro') > -1 or str(row.school).find('FEAD') > -1):
            return 3
        else:
            return 1

In [9]:
formacao["grau"] = formacao.apply(lambda row: GetGrauByUniversity(row), axis=1)
formacao.head()

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao,grau
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0,3
1,2007 – 2010,Economics,Economics,Universidade Federal de Minas Gerais,0,2007,2010,3,3
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0,4
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3,3
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,Universidade Federal de Minas Gerais,2,2016,2019,3,3


## 03.3 - Tratamento da coluna de grau de escolaridade

A coluna **school** apresenta uma vasta de gama de categorias. Porém numa análise visual dos seus diferentes valores é possível ver que algumas instituições de ensino apresentam variações de nome. Foi feita uma substituição para agrupar esses casos num único nome. O resultao do tratamento é armazenado na nova coluna **instituicao**.

In [10]:
formacao['school'].replace("Universidade Federal de Minas Gerais","UFMG", inplace=True)
formacao['school'].replace("UFMG - Universidade Federal de Minas Gerais","UFMG",inplace=True)

formacao['school'].replace("Centro Universitário de Belo Horizonte","Uni-BH",inplace=True)

formacao['school'].replace("Graduação em Administração em Comércio Exterior - 1994 Universidade UNA Belo Horizonte, MG",\
                           "Centro Universitário UNA",inplace=True)

formacao['school'].replace("Federal University of Amazonas","Universidade Federal do Amazonas",inplace=True)
formacao['school'].replace("Federal University of Amazonas - UFAM","Universidade Federal do Amazonas",inplace=True)
formacao['school'].replace("Universidade Fereral do Amazonas","Universidade Federal do Amazonas",inplace=True)

formacao['school'].replace("Colegio Santo Antônio","Colégio Santo Antônio",inplace=True)
formacao['school'].replace("CSA | Colégio Santo Antônio","Colégio Santo Antônio",inplace=True)

formacao['school'].replace("Pontifícia Universidade Católica de Minas Gerais","PUC Minas",inplace=True)
formacao['school'].replace("Pontifícia Universidade Católica de São Paulo","PUC-SP",inplace=True)

formacao.head(10)

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao,grau
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0,3
1,2007 – 2010,Economics,Economics,UFMG,0,2007,2010,3,3
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0,4
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3,3
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,UFMG,2,2016,2019,3,3
5,2013 – 2015,Technician,"Informatics, COLTEC",UFMG,2,2013,2015,2,2
6,2014 – 2019,Engenharia de Produção Civil,,Centro Federal de Educação Tecnológica de Mina...,3,2014,2019,5,3
7,2011 – 2016,Bachelor of Science (B.S.),Chemical Engineering,UFMG,4,2011,2016,5,3
8,2015 – 2015,Bachelor of Science (B.S.),Chemical Engineering,California State University-Long Beach,4,2015,2015,0,3
9,2011 – 2011,Pós Graduação em Gestão Estratégica de Negócios,Economia e Gestão Empresarial,Universidade FUMEC,5,2011,2011,0,4


## 03.4 - Área de Formação

Agrupe as formações em grupos mais macros, por exemplo: Engenharia de Alimento, Engharia Elétrica estariam no grupo de engenharias, já Ciência da Computação, Sistemas de Informação poderiam estar no grupo de T.I. Crie áreas que façam sentido, agrupe os dados criando uma nova coluna no dataframe chamada area.

In [11]:
def GetGradAreaByMajor(major):
    if(major.find('Eng') > -1):
        return "Engenharia"
    elif(major.find('Informática Industrial') > -1 or major.find('Industrial Informatics')>-1):
        return "Controle e Automação"
    elif(major.find('Design') > -1):
        return "Design"
    elif(major.find('Image Management') > -1 or major.find('Publicidade') > -1 \
         or major.find('Comun') > -1 or major.find('Mark') > -1 or major.find('Redes Sociais') > -1  ):
        return "Marketing"
    elif(major.find('Entrep') > -1 or major.find('Project Management') > -1 or major.find('Gest') > -1 or major.find('Business') > -1 or major.find('Admin') > -1 or major.find('Negó') > -1):
        return "Administração"
    elif(major.find('Econo') > -1 or major.find('econô') > -1):
        return "Economia"
    elif(major.find('Direito') > -1):
        return "Direito"
    elif(major.find('Jornal') > -1):
        return "Jornalismo"
    elif(major.find('Art') > -1): 
        return "Artes"
    elif(major.find('Chef') > -1 or major.find('Culin') > -1): 
        return "Gastronomia"
    elif(major.find('Contabi') > -1 or major.find('Finan') > -1): 
        return "Finanças"
    elif(major.find('Psi') > -1): 
        return "RH"
    elif(major.find('Comput') > -1 or major.find('Informatic') > -1 or major.find('Informátic') > -1 \
         or major.find('Information Technology') > -1 or major.find('Information') > -1\
         or major.find('Tecnologia da Informação') > -1 or major.find('Sistemas de Informação')>-1):
        return "TI"
    elif(major.find('Data') > -1): 
        return "Data Science"
    elif(major.find('Tourism') > -1): 
        return "Turismo"
    elif(major.find('Consultoria') > -1): 
        return "Consultoria"
    else:
        return "Outros"

In [12]:
formacao['area'] = formacao.major.apply(GetGradAreaByMajor)
formacao.head(10)

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao,grau,area
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0,3,Outros
1,2007 – 2010,Economics,Economics,UFMG,0,2007,2010,3,3,Economia
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0,4,Administração
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3,3,Design
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,UFMG,2,2016,2019,3,3,TI
5,2013 – 2015,Technician,"Informatics, COLTEC",UFMG,2,2013,2015,2,2,TI
6,2014 – 2019,Engenharia de Produção Civil,,Centro Federal de Educação Tecnológica de Mina...,3,2014,2019,5,3,Outros
7,2011 – 2016,Bachelor of Science (B.S.),Chemical Engineering,UFMG,4,2011,2016,5,3,Engenharia
8,2015 – 2015,Bachelor of Science (B.S.),Chemical Engineering,California State University-Long Beach,4,2015,2015,0,3,Engenharia
9,2011 – 2011,Pós Graduação em Gestão Estratégica de Negócios,Economia e Gestão Empresarial,Universidade FUMEC,5,2011,2011,0,4,Administração


In [13]:
def GetGradAreaByDegree(row):
    if(row.area != 'Outros'):
        return row.area
    if(row.degree.find('Eng') > -1):
        return "Engenharia"
    elif(row.degree.find('Design') > -1):
        return "Design"
    elif(row.degree.find('Publicidade') > -1 or row.degree.find('Comun') > -1):
        return "Marketing"
    elif(row.degree.find('Entrep') > -1 or row.degree.find('Gest') > -1 or row.degree.find('Business') > -1 or row.degree.find('Admin') > -1 or row.degree.find('Negó') > -1):
        return "Administração"   
    elif(row.degree.find('Econo') > -1):
        return "Economia"
    elif(row.degree.find('Direito') > -1):
        return "Direito"
    elif(row.degree.find('Jornal') > -1):
        return "Jornalismo"
    elif(row.degree.find('Comput') > -1 or row.degree.find('Informatic') > -1 or row.degree.find('Informátic') > -1 \
         or row.degree.find('Information technology') > -1 or row.degree.find('Tecnologia da Informação') > -1):
        return "TI"
    else:
        return "Outros"

In [14]:
formacao["area"] = formacao.apply(lambda row: GetGradAreaByDegree(row), axis=1)
formacao.head(10)

Unnamed: 0,date,degree,major,school,perfil_id,inicio,fim,duracao,grau,area
0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,0,2016,2016,0,3,Administração
1,2007 – 2010,Economics,Economics,UFMG,0,2007,2010,3,3,Economia
2,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,1,2015,2015,0,4,Administração
3,2009 – 2012,Bacharel em Design de Ambientes,Design de Interiores,Universidade do Estado de Minas Gerais,1,2009,2012,3,3,Design
4,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,UFMG,2,2016,2019,3,3,TI
5,2013 – 2015,Technician,"Informatics, COLTEC",UFMG,2,2013,2015,2,2,TI
6,2014 – 2019,Engenharia de Produção Civil,,Centro Federal de Educação Tecnológica de Mina...,3,2014,2019,5,3,Engenharia
7,2011 – 2016,Bachelor of Science (B.S.),Chemical Engineering,UFMG,4,2011,2016,5,3,Engenharia
8,2015 – 2015,Bachelor of Science (B.S.),Chemical Engineering,California State University-Long Beach,4,2015,2015,0,3,Engenharia
9,2011 – 2011,Pós Graduação em Gestão Estratégica de Negócios,Economia e Gestão Empresarial,Universidade FUMEC,5,2011,2011,0,4,Administração


In [15]:
formacao.area.unique()

array(['Administração', 'Economia', 'Design', 'TI', 'Engenharia',
       'Marketing', 'Direito', 'Outros', 'Controle e Automação',
       'Jornalismo', 'Finanças', 'Data Science', 'Consultoria', 'Artes',
       'Turismo', 'RH'], dtype=object)

## 03.5 - Escolaridade

Uma informação consolidada de cada funcionário que pode ser derivada dessa base é a sua escolaridade (**escolaridade**), que é pode ser obtida pegando o maio grau daquele perfil. Gere uma base à parte contendo essa informação.

In [16]:
education_group = formacao.sort_values(by=['perfil_id','grau'],ascending=False).groupby('perfil_id').agg({
    'date':'first',
    'degree':'first',
    'major':'first',
    'school':'first',
    'fim':'first',
    'duracao':'first',
    'grau':'first',
    'area':'first',
}).reset_index()
education_group.head(10)

Unnamed: 0,perfil_id,date,degree,major,school,fim,duracao,grau,area
0,0,2016 – 2016,"Executive Education, Innovation & Entrepreneur...",,Stanford University,2016,0,3,Administração
1,1,2015 – 2015,Master of Business Administration (MBA),Gestão de Negócios,Centro Universitário Newton Paiva,2015,0,4,Administração
2,2,2016 – 2019,Bachelor’s Degree,Computer Technology/Computer Systems Technology,UFMG,2019,3,3,TI
3,3,2014 – 2019,Engenharia de Produção Civil,,Centro Federal de Educação Tecnológica de Mina...,2019,5,3,Engenharia
4,4,2011 – 2016,Bachelor of Science (B.S.),Chemical Engineering,UFMG,2016,5,3,Engenharia
5,5,2011 – 2011,Pós Graduação em Gestão Estratégica de Negócios,Economia e Gestão Empresarial,Universidade FUMEC,2011,0,4,Administração
6,6,1992 – 1998,Master's Degree,Information Retrieval,UFMG,1998,6,5,TI
7,7,2016 – 2019,Cursando administração,Administração de Empresas,FEAD,2019,3,3,Administração
8,8,2016 – 2016,,Innovation & Entrepreneurship,Stanford University,2016,0,3,Administração
9,9,2013 – 2013,Master of Business Administration (MBA),Gestão Estratégica de Negócios,Uni-BH,2013,0,4,Administração


## 03.6 Salvando Base Tratada

A base tratada será gravada no arquivo **formacao-tratado.csv**.

A base consolidadada com uma informação por registro será gravada no arquivo **perfil-formacao.csv** contendo as colunas: **perfil_id**, **escolaridade**, **escolaridade_numero**, **area**, **duracao**.

In [21]:
# Grava a formação tratada em arquivo
formacao.to_csv('bases/formacao-tratado.csv')

# Grava o consolidade da formação por perfil em arquivo
formacao_perfil = pd.concat([education_group.degree, education_group.grau,\
                            education_group.area,education_group.duracao], axis=1)
formacao_perfil.head()

Unnamed: 0,degree,grau,area,duracao
0,"Executive Education, Innovation & Entrepreneur...",3,Administração,0
1,Master of Business Administration (MBA),4,Administração,0
2,Bachelor’s Degree,3,TI,3
3,Engenharia de Produção Civil,3,Engenharia,5
4,Bachelor of Science (B.S.),3,Engenharia,5


In [22]:
formacao_perfil.to_csv('bases/perfil-formacao.csv')

### Navegação:
* [Voltar para a análise](00-analise-dos-dados.ipynb)
* [Continuar para o próximo documento](04-tratamento-base-habilidades.ipynb)