# Machine Learning pra Previsão de Evasão Escolar

Neste trabalho será feita uma análise exploratória, limpeza de dados e teste de diversos algoritmos de classificação para prever a evasão escolar.  A acurácia mínima de 90% será buscada.

In [1]:
# Importação dos pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Carregando os dados
dados2018 = pd.read_csv("Relatorio_matriculas_Fechado2018.csv", encoding = 'latin-1', low_memory = False)
dados2019 = pd.read_csv("Relatorio_matriculas_Fechado2019.csv", encoding = 'latin-1', low_memory = False)
dados2020 = pd.read_csv("Relatorio_matriculas_Fechado2020.csv", encoding = 'latin-1', low_memory = False)

## Limpeza e transformação dos dados.
Observar, limpar e transformar os dados.
Essa primeira limpeza deve ser feita para que quando o algoritmo receber as novas informações, ele receba apenas as colunas necessárias com os dados corretos.

In [3]:
# Criação de uma lista das colunas utilizadas
colunas = ['cidade_realizacao_turma', 'modalidade', 'produto_educacao', 'carga_horaria', 'inicio', 'turno', 'gratuidade_turma', 'tipo', 'online', 'cpf', 'nascimento', 'bairro', 'cidade', 'genero', 'escolaridade', 'situacao_ocupacional', 'organizacao', 'situacao_matricula']

In [4]:
Limpo2018 = dados2018[colunas]

In [5]:
#dados = pd.DataFrame(Limpo2018)

In [6]:
Limpo2018.dtypes

cidade_realizacao_turma    object
modalidade                 object
produto_educacao           object
carga_horaria               int64
inicio                     object
turno                      object
gratuidade_turma           object
tipo                       object
online                     object
cpf                         int64
nascimento                 object
bairro                     object
cidade                     object
genero                     object
escolaridade               object
situacao_ocupacional       object
organizacao                object
situacao_matricula         object
dtype: object

In [7]:
Limpo2019 = dados2019[colunas]

In [8]:
Limpo2019.dtypes

cidade_realizacao_turma     object
modalidade                  object
produto_educacao            object
carga_horaria                int64
inicio                      object
turno                       object
gratuidade_turma            object
tipo                        object
online                      object
cpf                        float64
nascimento                  object
bairro                      object
cidade                      object
genero                      object
escolaridade                object
situacao_ocupacional        object
organizacao                 object
situacao_matricula          object
dtype: object

In [9]:
Limpo2020 = dados2020[colunas]

In [10]:
Limpo2020.dtypes

cidade_realizacao_turma     object
modalidade                  object
produto_educacao            object
carga_horaria                int64
inicio                      object
turno                       object
gratuidade_turma            object
tipo                        object
online                      object
cpf                        float64
nascimento                  object
bairro                      object
cidade                      object
genero                      object
escolaridade                object
situacao_ocupacional        object
organizacao                 object
situacao_matricula          object
dtype: object

In [11]:
dados = [Limpo2018, Limpo2019, Limpo2020]

In [12]:
dadosTotal = pd.concat(dados)

In [13]:
dadosTotal.shape

(324922, 18)

In [14]:
dadosTotal.head(10)

Unnamed: 0,cidade_realizacao_turma,modalidade,produto_educacao,carga_horaria,inicio,turno,gratuidade_turma,tipo,online,cpf,nascimento,bairro,cidade,genero,escolaridade,situacao_ocupacional,organizacao,situacao_matricula
0,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,10701000000.0,9/26/2001,Interior,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Desistente
1,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,7608760000.0,3/22/2002,Centro,Concórdia,F,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Desistente
2,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Sim,8903923000.0,5/24/2001,Jardim,Concórdia,M,Médio/Incompleto,Busca do primeiro emprego,,Evadido / Desistente
3,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Não,11352080000.0,8/17/2000,Cinquentenário,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Desistente
4,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,6527107000.0,5/12/2002,Santa Cruz,Concórdia,M,Médio/Incompleto,Busca do primeiro emprego,,Evadido / Desistente
5,Concórdia,Ensino Médio,Ensino Médio,4960,2/14/2018,"Manhã,Tarde",Sem Gratuidade,PF,Não,15873870000.0,11/20/2000,Itaíba,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Desistente
6,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Não,11458760000.0,12/28/2000,Centro,Concórdia,F,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Desistente
7,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Não,8331868000.0,1/13/2000,Natureza,Concórdia,F,Médio/Incompleto,Busca do primeiro emprego,,Evadido / Desistente
8,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Não,12810780000.0,2/21/2001,São Cristovão,Concórdia,F,Médio/Incompleto,Busca do primeiro emprego,,Evadido / Eliminado
9,Concórdia,Ensino Médio,Ensino Médio,4960,2/14/2018,"Manhã,Tarde",Sem Gratuidade,PF,Não,12269540000.0,5/25/2003,Sunti,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Evadido / Transferido de Curso


In [15]:
dadosTotal.dtypes

cidade_realizacao_turma     object
modalidade                  object
produto_educacao            object
carga_horaria                int64
inicio                      object
turno                       object
gratuidade_turma            object
tipo                        object
online                      object
cpf                        float64
nascimento                  object
bairro                      object
cidade                      object
genero                      object
escolaridade                object
situacao_ocupacional        object
organizacao                 object
situacao_matricula          object
dtype: object

In [16]:
# Existem valores null na coluna cpf.  Isso significa que não será possível verificar se estes registros estão duplicados.
# Então as linhas com valores null no cpf serão eliminadas.
dadosTotal['cpf'].isna().sum()

1079

In [17]:
#dadosTotal['cpf'].dropna(axis = 0, how = 'any', inplace = True)
dadosTotal.dropna(subset=['cpf'], axis = 0, how = 'any', inplace = True)

In [18]:
dadosTotal['cpf'].isna().sum()

0

In [19]:
# Transformando a coluna cpf para valor inteiro
#dadosTotal['cpf'] = dadosTotal.cpf.astype('int64')
dadosTotal.cpf.astype(pd.Int64Dtype())

0         10700995978
1          7608759950
2          8903922930
3         11352076900
4          6527107196
             ...     
111834    18549747858
111835     9042493950
111836     3419903294
111837     2992143979
111838    12416678965
Name: cpf, Length: 323843, dtype: Int64

#### Entendendo melhor como estão os registros duplicados.

In [20]:
# Observando os valores únicos de CPF. 
len(dadosTotal.cpf.unique())

195791

In [21]:
dadosTotal.columns

Index(['cidade_realizacao_turma', 'modalidade', 'produto_educacao',
       'carga_horaria', 'inicio', 'turno', 'gratuidade_turma', 'tipo',
       'online', 'cpf', 'nascimento', 'bairro', 'cidade', 'genero',
       'escolaridade', 'situacao_ocupacional', 'organizacao',
       'situacao_matricula'],
      dtype='object')

In [22]:
for i in range(0,len(dadosTotal["produto_educacao"])):
    if dadosTotal.iloc[i,17] == "Evadido / Eliminado" or dadosTotal.iloc[i,17] == "Evadido / Desistente" or dadosTotal.iloc[i,17] == "Evadido / Transferido de Curso":
        dadosTotal.iloc[i,17] = "Desistente"
        
for i in range(0,len(dadosTotal["produto_educacao"])):
    if dadosTotal.iloc[i,17] == "Finalizado / Concluinte" or dadosTotal.iloc[i,17] == "Finalizado / Não Concluinte":
        dadosTotal.iloc[i,17] = "Concluinte"
        
for i in range(0,len(dadosTotal["produto_educacao"])):
    if dadosTotal.iloc[i,17] == "Matriculado / Regular" or dadosTotal.iloc[i,17] == "Matriculado / Trancado" :
        dadosTotal.iloc[i,17] = "Matriculado"

In [23]:
# Salvando em um arquivo csv  - Versão 1 ********************************
dadosTotal.to_csv("TECNICOS_Joinville1.csv", encoding = "latin-1")

In [24]:
alunosTotal = pd.read_csv("TECNICOS_Joinville1.csv", encoding = 'latin-1', low_memory = False)
alunosTotal.drop(["Unnamed: 0"], axis = 1, inplace = True)

In [25]:
alunosTotal.head()

Unnamed: 0,cidade_realizacao_turma,modalidade,produto_educacao,carga_horaria,inicio,turno,gratuidade_turma,tipo,online,cpf,nascimento,bairro,cidade,genero,escolaridade,situacao_ocupacional,organizacao,situacao_matricula
0,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,10701000000.0,9/26/2001,Interior,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Desistente
1,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,7608760000.0,3/22/2002,Centro,Concórdia,F,Fundamental/Completo,Busca do primeiro emprego,,Desistente
2,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Sim,8903923000.0,5/24/2001,Jardim,Concórdia,M,Médio/Incompleto,Busca do primeiro emprego,,Desistente
3,Concórdia,Ensino Médio,Ensino Médio,4960,2/1/2016,Manhã,Sem Gratuidade,PF,Não,11352080000.0,8/17/2000,Cinquentenário,Concórdia,M,Fundamental/Completo,Busca do primeiro emprego,,Desistente
4,Concórdia,Ensino Médio,Ensino Médio,4960,2/6/2017,"Manhã,Tarde",Sem Gratuidade,PF,Sim,6527107000.0,5/12/2002,Santa Cruz,Concórdia,M,Médio/Incompleto,Busca do primeiro emprego,,Desistente


In [26]:
# Criar um dataframe apenas com estudantes que saíram do curso: finalizados ou desistentes
finalizados = alunosTotal[alunosTotal["situacao_matricula"] == "Concluinte"]
desistentes = alunosTotal[alunosTotal["situacao_matricula"] == "Desistente"]
df = [finalizados, desistentes]
alunosTotal = pd.concat(df)

In [27]:
alunosTotal["situacao_matricula"].unique()

array(['Concluinte', 'Desistente'], dtype=object)

In [28]:
len(alunosTotal.cpf.unique())

178915

In [29]:
# Removendo os registros duplicados, mantendo o último registro, para pegar os estudantes duplicados que se formaram.
alunosTotal.drop_duplicates(subset =["cpf"], keep = 'last', inplace = True)

In [30]:
# Agora temos apenas registros únicos de cada estudante
alunosTotal.shape

(178915, 18)

In [31]:
# Eliminar a coluna CPF
alunosTotal.drop(["cpf"], axis = 1, inplace = True)

In [32]:
# Converter a coluna INICIO para o tipo data e criar um série temporal
data_inicio = pd.to_datetime(alunosTotal["inicio"])

In [33]:
# Adicionar a nova coluna ao dataframe
alunosTotal["DATA_INICIO"] = data_inicio

In [34]:
# Extrair o ano da DATA_INICIO e criar uma nova coluna chamada ANO_INICIO
alunosTotal["ANO_INICIO"] = alunosTotal["DATA_INICIO"].dt.year

In [35]:
# Elminar a coluna INICIO
alunosTotal.drop(["inicio"], axis = 1, inplace = True)

In [36]:
# Converter a coluna NASCIMENTO para o tipo data e criar um série temporal
data_nasc = pd.to_datetime(alunosTotal["nascimento"])

In [37]:
# Adicionar a nova coluna ao dataframe
alunosTotal["DATA_NASC"] = data_nasc

In [38]:
# Extrair o ano da DATA_NASC e criar uma nova coluna chamada ANO_NASC
alunosTotal["ANO_NASC"] = alunosTotal["DATA_NASC"].dt.year

In [39]:
# Elminar as colunas NASCIMENTO e DATA_NASC
alunosTotal.drop(["nascimento", "DATA_NASC"], axis = 1, inplace = True)

In [40]:
# Cálculo da idade de cada estudante, considerando apenas o ano da matrícula e o ano de nascimento.
alunosTotal["IDADE"] = alunosTotal["ANO_INICIO"] - alunosTotal["ANO_NASC"]

In [41]:
# Elminar as colunas extras
alunosTotal.drop(["DATA_INICIO", "ANO_INICIO", "ANO_NASC"], axis = 1, inplace = True)

In [42]:
alunosTotal['cidade_realizacao_turma'].value_counts()

Joinville         12908
Blumenau          12304
Florianópolis     12215
Jaraguá do Sul    11344
Itajaí             9391
                  ...  
Entre Rios            4
Nova Itaberaba        3
José Boiteux          2
Calmon                2
Barra Velha           1
Name: cidade_realizacao_turma, Length: 181, dtype: int64

In [43]:
# Criando um dataframe apenas com as informações de Joinville
joinville = alunosTotal[alunosTotal["cidade_realizacao_turma"] == "Joinville"]
alunosJoinville = pd.DataFrame(joinville)

In [44]:
alunosJoinville['modalidade'].unique()

array(['Ensino Médio', 'Qualificação / Aperfeiçoamento', 'Curso Técnico',
       'Aprendizagem Industrial', 'Pós-Graduação', 'Graduação',
       'Extensão Profissional', 'Educação de Jovens e Adultos',
       'Educação Continuada', 'Educação Infantil'], dtype=object)

In [45]:
# Criar um dataframe apenas com o curso técnico
tecnico = alunosJoinville[alunosJoinville["modalidade"] == "Curso Técnico"]
tecnicoJoinville = pd.DataFrame(tecnico)

In [46]:
# Elminar a coluna INICIO
tecnicoJoinville.drop(["modalidade", "cidade_realizacao_turma"], axis = 1, inplace = True)

In [47]:
# Salvando em um arquivo csv  - Versão 2 ********************************
tecnicoJoinville.to_csv("TECNICOS_Joinville2.csv", encoding = "latin-1")

In [48]:
##############################################
tecnicoJoinville = pd.read_csv("TECNICOS_Joinville2.csv", encoding = 'latin-1', low_memory = False)
tecnicoJoinville.drop(["Unnamed: 0"], axis = 1, inplace = True)

### Verificar se existem valores faltantes nos resgistros (nan).

In [49]:
tecnicoJoinville["produto_educacao"].unique()

array(['Técnico em Automação Industrial',
       'Técnico em Fabricação Mecânica', 'Técnico em Logística',
       'Técnico em Mecânica', 'Técnico em Mecatrônica',
       'Técnico em Informática para Internet',
       'Técnico em Manutenção Automotiva', 'Técnico em Plástico',
       'Técnico em Química', 'Técnico em Informática',
       'Técnico em Produção de Moda', 'Técnico em Eletrotécnica',
       'Técnico em Eletromecânica', 'Técnico em Têxtil',
       'Técnico em Edificações', 'Técnico em Desenvolvimento de Sistemas',
       'Técnico em Metalurgia', 'Técnico em Administração',
       'Técnico em Segurança do Trabalho', 'Técnico em Qualidade',
       'Técnico em Desenvolvimento de Sistemas - Integrado ao EM'],
      dtype=object)

In [50]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [51]:
tecnicoJoinville.head()

Unnamed: 0,produto_educacao,carga_horaria,turno,gratuidade_turma,tipo,online,bairro,cidade,genero,escolaridade,situacao_ocupacional,organizacao,situacao_matricula,IDADE
0,Técnico em Automação Industrial,1200,Tarde,Mista,PF,Não,Aventureiro,Joinville,M,Médio/Completo,Empregado,{SCHULZ},Concluinte,21
1,Técnico em Fabricação Mecânica,1600,Noite,Mista,,Não,Jardim Paraíso,Joinville,M,Médio/Completo,Empregado,,Concluinte,18
2,Técnico em Logística,1300,Noite,Mista,PF,Não,Vila da Glória,São Francisco do Sul,M,Médio/Completo,Empregado,"{""SENAI/SC - JOINVILLE SUL""}",Concluinte,18
3,Técnico em Automação Industrial,1600,Tarde,Mista,,Não,Aventureiro,Joinville,M,Médio/Completo,Busca do primeiro emprego,,Concluinte,16
4,Técnico em Mecânica,1620,Tarde,Mista,PF,Não,Ulisses Guimarães,Joinville,M,Médio/Completo,Empregado,{SCHULZ},Concluinte,17


In [52]:
# Limpeza nos nomes dos cursos para facilitar a visualização no gráfico
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Automação Industrial":
        tecnicoJoinville.iloc[i,0] = "AUTOMACAO"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Segurança do Trabalho":
        tecnicoJoinville.iloc[i,0] = "SEGURANCA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Qualidade":
        tecnicoJoinville.iloc[i,0] = "QUALIDADE"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Desenvolvimento de Sistemas - Integrado ao EM":
        tecnicoJoinville.iloc[i,0] = "DESENVOLVIMENTO_EM"

for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Administração":
        tecnicoJoinville.iloc[i,0] = "ADMINISTRACAO"

for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Fabricação Mecânica":
        tecnicoJoinville.iloc[i,0] = "FABRICACAO"

for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Mecânica":
        tecnicoJoinville.iloc[i,0] = "MECANICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Mecatrônica":
        tecnicoJoinville.iloc[i,0] = "MECATRONICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Plástico":
        tecnicoJoinville.iloc[i,0] = "PLASTICO"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Informática":
        tecnicoJoinville.iloc[i,0] = "INFORMATICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Produção de Moda":
        tecnicoJoinville.iloc[i,0] = "MODA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Eletrotécnica":
        tecnicoJoinville.iloc[i,0] = "ELETROTECNICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Manutenção Automotiva":
        tecnicoJoinville.iloc[i,0] = "AUTOMOTIVO"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Eletromecânica":
        tecnicoJoinville.iloc[i,0] = "ELETROMECANICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Têxtil":
        tecnicoJoinville.iloc[i,0] = "TEXTIL"

for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Informática para Internet":
        tecnicoJoinville.iloc[i,0] = "INTERNET"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Química":
        tecnicoJoinville.iloc[i,0] = "QUIMICA"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Logística":
        tecnicoJoinville.iloc[i,0] = "LOGISTICA"

for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Edificações":
        tecnicoJoinville.iloc[i,0] = "EDIFICACOES"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Desenvolvimento de Sistemas":
        tecnicoJoinville.iloc[i,0] = "DESENVOLVIMENTO"
        
for i in range(0,len(tecnicoJoinville["produto_educacao"])):
    if tecnicoJoinville.iloc[i,0] == "Técnico em Metalurgia":
        tecnicoJoinville.iloc[i,0] = "METALURGIA"

In [53]:
tecnicoJoinville["produto_educacao"].unique()

array(['AUTOMACAO', 'FABRICACAO', 'LOGISTICA', 'MECANICA', 'MECATRONICA',
       'INTERNET', 'AUTOMOTIVO', 'PLASTICO', 'QUIMICA', 'INFORMATICA',
       'MODA', 'ELETROTECNICA', 'ELETROMECANICA', 'TEXTIL', 'EDIFICACOES',
       'DESENVOLVIMENTO', 'METALURGIA', 'ADMINISTRACAO',
       'Técnico em Segurança do Trabalho', 'QUALIDADE',
       'DESENVOLVIMENTO_EM'], dtype=object)

In [54]:
tecnicoJoinville["carga_horaria"].unique()

array([1200, 1600, 1300, 1620, 1280, 1150,  900, 1570, 1400, 1360,  960,
        800, 1000, 1320, 1800, 1520, 1440, 1250], dtype=int64)

In [55]:
tecnicoJoinville["carga_horaria"].value_counts()

1200    830
1280    262
1000    179
960      82
1360     71
1320     67
1250     40
800      35
1600     34
1150     28
900      23
1400     19
1620     12
1440     11
1570      6
1300      2
1800      2
1520      1
Name: carga_horaria, dtype: int64

In [56]:
tecnicoJoinville["turno"].unique()

array(['Tarde', 'Noite', 'Manhã', 'EAD'], dtype=object)

In [57]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [58]:
for i in range(0, len(tecnicoJoinville["turno"])):
    if tecnicoJoinville.iloc[i, 2] == "Manhã":
        tecnicoJoinville.iloc[i, 2] = "Manha"

In [59]:
tecnicoJoinville["turno"].unique()

array(['Tarde', 'Noite', 'Manha', 'EAD'], dtype=object)

In [60]:
tecnicoJoinville["gratuidade_turma"].unique()

array(['Mista', 'Sem Gratuidade', 'Regimental', 'Pago por Pessoa Física',
       'Pago pela Empresa', 'PRONATEC', 'Bolsa de Estudo'], dtype=object)

In [61]:
tecnicoJoinville["gratuidade_turma"].value_counts()

Sem Gratuidade            585
Mista                     432
Pago por Pessoa Física    337
Regimental                260
Pago pela Empresa          78
PRONATEC                   11
Bolsa de Estudo             1
Name: gratuidade_turma, dtype: int64

In [62]:
for i in range(0, len(tecnicoJoinville["gratuidade_turma"])):
    if(tecnicoJoinville.iloc[i,3] == "Sem Gratuidade"):
        tecnicoJoinville.iloc[i,3] = "Sem_Gratuidade"
        
    if(tecnicoJoinville.iloc[i,3] == "Pago por Pessoa Física"):
        tecnicoJoinville.iloc[i,3] = "Pago_PF"
        
    if(tecnicoJoinville.iloc[i,3] == "Pago pela Empresa"):
        tecnicoJoinville.iloc[i,3] = "Pago_PJ"
        
    if(tecnicoJoinville.iloc[i,3] == "Bolsa de Estudo"):
        tecnicoJoinville.iloc[i,3] = "Bolsa"

In [63]:
tecnicoJoinville["tipo"].unique()

array(['PF', nan, 'PJ, PF', 'PF, PJ', 'PJ, PF, PJ', 'PF, PJ, PJ',
       'PJ, PJ, PF', 'PJ'], dtype=object)

In [64]:
# Existem muito mais valores de pessoa física do que as outras ocorrências. 
tecnicoJoinville["tipo"].value_counts()

PF            1149
PF, PJ          25
PJ, PF          24
PF, PJ, PJ      20
PJ, PJ, PF      14
PJ, PF, PJ      13
PJ               3
Name: tipo, dtype: int64

In [65]:
# Por isso, os valores NA na coluna TIPO serão convertidos para PF.
tecnicoJoinville["tipo"].fillna(value = "PF", inplace = True)

In [66]:
for i in range(0, len(tecnicoJoinville["tipo"])):
    if tecnicoJoinville.iloc[i, 4] == "PJ, PF":
        tecnicoJoinville.iloc[i, 4] = "PJ_PF"
    if tecnicoJoinville.iloc[i, 4] == "PF, PJ":
        tecnicoJoinville.iloc[i, 4] = "PF_PJ"
    if tecnicoJoinville.iloc[i, 4] == "PF, PJ, PJ":
        tecnicoJoinville.iloc[i, 4] = "PF_PJ_PJ"
    if tecnicoJoinville.iloc[i, 4] == "PJ, PJ, PF":
        tecnicoJoinville.iloc[i, 4] = "PJ_PJ_PF"
    if tecnicoJoinville.iloc[i, 4] == "PJ, PF, PJ":
        tecnicoJoinville.iloc[i, 4] = "PJ_PF_PJ"

In [67]:
tecnicoJoinville["online"].unique()

array(['Não', 'Sim'], dtype=object)

In [68]:
tecnicoJoinville["online"].value_counts()

Não    1109
Sim     595
Name: online, dtype: int64

In [69]:
for i in range(0, len(tecnicoJoinville['online'])):
    if tecnicoJoinville.iloc[i, 5] == 'Não':
        tecnicoJoinville.iloc[i, 5] = 'Nao'

In [70]:
tecnicoJoinville["bairro"].unique()

array(['Aventureiro', 'Jardim Paraíso', 'Vila da Glória',
       'Ulisses Guimarães', 'Jardim Sofia', 'Centro Norte',
       'Santo Antônio', 'Saguaçu', 'Comasa', 'Itaum', 'Boehmerwaldt',
       'Santa Catarina', 'América', 'Paranaguamirim', 'Boehmerwald',
       'Pirabeiraba (Pirabeiraba)', 'Boa Vista', 'Garuva', 'Itinga',
       'Petrópolis', 'Floresta', 'Jardim Iririú', 'Nova Brasília',
       'Centro', 'João Costa', 'Vila Nova', 'jardim sofia',
       'Costa e Silva', 'Parque Guarani', 'Rainha', 'Espinheiros',
       'Bom Retiro', 'Czerniewicz', 'Guanabara', 'Anita Garibaldi',
       'Rio Bonito (Pirabeiraba)', 'Jarivatuba', 'Iririú',
       'Adhemar Garcia', 'São Marcos', 'Pinheiros ', 'São Cristovão',
       'Morro do Meio', 'Vila nova', 'José Amandio', 'Atiradores',
       'Zona Industrial Norte', 'Profipo', 'Glória',
       'Dona Francisca (Pirabeiraba)', 'Vila Cubatão',
       'Barra do Rio Cerro', 'Acaraí', 'Fátima', 'Salinas', 'Rio Bonito',
       'SANTA CATARINA', 'Santa Li

In [71]:
tecnicoJoinville["bairro"].value_counts()

Aventureiro       134
Vila Nova         116
Costa e Silva     104
Jardim Iririú      76
Jardim Paraíso     66
                 ... 
Porto do Rei        1
Porto grande        1
tapera              1
IRIRIU              1
Conquista           1
Name: bairro, Length: 114, dtype: int64

In [72]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [73]:
for i in range(0, len(tecnicoJoinville["bairro"])):
    if tecnicoJoinville.iloc[i,7] != "Joinville":
        tecnicoJoinville.iloc[i,6] = "ForaJoinville"

In [74]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [75]:
tecnicoJoinville["bairro"].unique()

array(['Aventureiro', 'Jardim Paraíso', 'ForaJoinville',
       'Ulisses Guimarães', 'Jardim Sofia', 'Santo Antônio', 'Saguaçu',
       'Comasa', 'Itaum', 'Boehmerwaldt', 'Santa Catarina', 'América',
       'Paranaguamirim', 'Boehmerwald', 'Pirabeiraba (Pirabeiraba)',
       'Boa Vista', 'Itinga', 'Petrópolis', 'Floresta', 'Jardim Iririú',
       'Nova Brasília', 'João Costa', 'Vila Nova', 'jardim sofia',
       'Costa e Silva', 'Parque Guarani', 'Espinheiros', 'Bom Retiro',
       'Guanabara', 'Anita Garibaldi', 'Rio Bonito (Pirabeiraba)',
       'Jarivatuba', 'Iririú', 'Adhemar Garcia', 'São Marcos',
       'Morro do Meio', 'Vila nova', 'Atiradores',
       'Zona Industrial Norte', 'Profipo', 'Glória',
       'Dona Francisca (Pirabeiraba)', 'Vila Cubatão', 'Fátima', 'Centro',
       'Rio Bonito', 'SANTA CATARINA', 'Bucarein', 'Ulysses Guimarães',
       'Jardim Paraiso', 'Ulisses guimaraes', 'Rio Bonito (Piraberaba)',
       'PARANAGUAMIRIM', 'Centro (Pirabeiraba)', 'Pirabeiraba', 'I

In [76]:
# Correção do bairro Itaum
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "ITAUM" or tecnicoJoinville.iloc[i,6] == "itaum":
        tecnicoJoinville.iloc[i,6] = "Itaum"

In [77]:
# Correção do bairro Santa Catarina
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "SANTA CATARINA" or tecnicoJoinville.iloc[i,6] == "Santa Catarina":
        tecnicoJoinville.iloc[i,6] = "Santa_Catarina"

In [78]:
# Correção do bairro Pirabeiraba
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Pirabeiraba (Pirabeiraba)" or tecnicoJoinville.iloc[i,6] == "Rio Bonito (Piraberaba)" or tecnicoJoinville.iloc[i,6] == "Dona Francisca (Pirabeiraba)" or tecnicoJoinville.iloc[i,6] == "Centro (Pirabeiraba)" or tecnicoJoinville.iloc[i,6] == "Rio Bonito" or tecnicoJoinville.iloc[i,6] == "PIRABEIRABA" or tecnicoJoinville.iloc[i,6] == "Rio Bonito (Pirabeiraba)":
        tecnicoJoinville.iloc[i,6] = "Pirabeiraba"

In [79]:
# Correção do bairro Centro
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "centro":
        tecnicoJoinville.iloc[i,6] = "Centro"

In [80]:
# Correção do bairro Paranaguamirim
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "PARANAGUAMIRIM" or tecnicoJoinville.iloc[i,6] == "Paraguaramirim":
        tecnicoJoinville.iloc[i,6] = "Paranaguamirim"

In [81]:
# Correção do bairro Costa e Silva
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Costa E Silva" or tecnicoJoinville.iloc[i,6] == "Costa e Silva":
        tecnicoJoinville.iloc[i,6] = "Costa_e_Silva"

In [82]:
# Correção do bairro Boa Vista
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "BOA VISTA" or tecnicoJoinville.iloc[i,6] == "Boa Vista":
        tecnicoJoinville.iloc[i,6] = "Boa_Vista"

In [83]:
# Correção do bairro Água Branca
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Agua Branca ":
        tecnicoJoinville.iloc[i,6] = "Agua_Branca"

In [84]:
# Correção do bairro Jardim Sofia
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "jardim sofia" or tecnicoJoinville.iloc[i,6] == "JARDIM SOFIA" or tecnicoJoinville.iloc[i, 6] == "Jardim Sofia":
        tecnicoJoinville.iloc[i,6] = "Jardim_Sofia"

In [85]:
# Correção do bairro Jardim Paraíso
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Jardim Paraiso" or tecnicoJoinville.iloc[i, 6] == "Jardim Paraíso":
        tecnicoJoinville.iloc[i,6] = "Jardim_Paraiso"

In [86]:
# Correção do bairro Vila Nova
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Vila nova" or tecnicoJoinville.iloc[i,6] == "Vila Nova":
        tecnicoJoinville.iloc[i,6] = "Vila_Nova"

In [87]:
# Correção do bairro Jardim Iririú
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Jardim Iririu" or tecnicoJoinville.iloc[i,6] == "Jardim Iririú":
        tecnicoJoinville.iloc[i,6] = "Jardim_Iririu"

In [88]:
# Correção do bairro Ulysses Guimarães
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == "Ulisses guimaraes" or tecnicoJoinville.iloc[i,6] == "Ulisses Guimarães" or tecnicoJoinville.iloc[i,6] == "Ulysses Guimarães":
        tecnicoJoinville.iloc[i,6] = "Ulysses_Guimaraes"

In [89]:
# Correção do bairro Iririú
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'Iririu' or tecnicoJoinville.iloc[i,6] == 'IRIRIU' or tecnicoJoinville.iloc[i,6] == 'Iririú':
        tecnicoJoinville.iloc[i,6] = 'Iririu'

In [90]:
# Correção do bairro Itinga
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'itinga':
        tecnicoJoinville.iloc[i,6] = 'Itinga'

In [91]:
# Correção do bairro Aventureiro
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'Aventureiro ':
        tecnicoJoinville.iloc[i,6] = 'Aventureiro'

In [92]:
# Correção do bairro Boehmerwald
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'Boehmerwaldt':
        tecnicoJoinville.iloc[i,6] = 'Boehmerwald'

In [93]:
# Correção do bairro Santo Antônio
for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'Santo Antônio':
        tecnicoJoinville.iloc[i,6] = 'Santo_Antonio'

In [94]:

for i in range(0,len(tecnicoJoinville['bairro'])):
    if tecnicoJoinville.iloc[i,6] == 'Saguaçu':
        tecnicoJoinville.iloc[i,6] = 'Saguacu'
        
    if tecnicoJoinville.iloc[i,6] == 'América':
        tecnicoJoinville.iloc[i,6] = 'America'
        
    if tecnicoJoinville.iloc[i,6] == 'Petrópolis':
        tecnicoJoinville.iloc[i,6] = 'Petropolis'
        
    if tecnicoJoinville.iloc[i,6] == 'Nova Brasília':
        tecnicoJoinville.iloc[i,6] = 'Nova_Brasilia'
        
    if tecnicoJoinville.iloc[i,6] == 'João Costa':
        tecnicoJoinville.iloc[i,6] = 'Joao_Costa'
        
    if tecnicoJoinville.iloc[i,6] == 'Parque Guarani':
        tecnicoJoinville.iloc[i,6] = 'Parque_Guarani'
        
    if tecnicoJoinville.iloc[i,6] == 'Bom Retiro':
        tecnicoJoinville.iloc[i,6] = 'Bom_Retiro'
        
    if tecnicoJoinville.iloc[i,6] == 'Anita Garibaldi':
        tecnicoJoinville.iloc[i,6] = 'Anita_Garibaldi'
        
    if tecnicoJoinville.iloc[i,6] == 'Adhemar Garcia':
        tecnicoJoinville.iloc[i,6] = 'Adhemar_Garcia'
        
    if tecnicoJoinville.iloc[i,6] == 'São Marcos':
        tecnicoJoinville.iloc[i,6] = 'Sao_Marcos'
        
    if tecnicoJoinville.iloc[i,6] == 'São Cristovão':
        tecnicoJoinville.iloc[i,6] = 'Sao_Cristovao'
        
    if tecnicoJoinville.iloc[i,6] == 'Morro do Meio':
        tecnicoJoinville.iloc[i,6] = 'Morro_Meio'
        
    if tecnicoJoinville.iloc[i,6] == 'José Amandio':
        tecnicoJoinville.iloc[i,6] = 'Jose_Amandio'
        
    if tecnicoJoinville.iloc[i,6] == 'Zona Industrial Norte':
        tecnicoJoinville.iloc[i,6] = 'Zona_Industrial_N'
    
    if tecnicoJoinville.iloc[i,6] == 'Glória':
        tecnicoJoinville.iloc[i,6] = 'Gloria'
        
    if tecnicoJoinville.iloc[i,6] == 'Vila Cubatão':
        tecnicoJoinville.iloc[i,6] = 'Vila_Cubatao'
        
    if tecnicoJoinville.iloc[i,6] == 'Fátima':
        tecnicoJoinville.iloc[i,6] = 'Fatima'

In [95]:
tecnicoJoinville["bairro"].unique()

array(['Aventureiro', 'Jardim_Paraiso', 'ForaJoinville',
       'Ulysses_Guimaraes', 'Jardim_Sofia', 'Santo_Antonio', 'Saguacu',
       'Comasa', 'Itaum', 'Boehmerwald', 'Santa_Catarina', 'America',
       'Paranaguamirim', 'Pirabeiraba', 'Boa_Vista', 'Itinga',
       'Petropolis', 'Floresta', 'Jardim_Iririu', 'Nova_Brasilia',
       'Joao_Costa', 'Vila_Nova', 'Costa_e_Silva', 'Parque_Guarani',
       'Espinheiros', 'Bom_Retiro', 'Guanabara', 'Anita_Garibaldi',
       'Jarivatuba', 'Iririu', 'Adhemar_Garcia', 'Sao_Marcos',
       'Morro_Meio', 'Atiradores', 'Zona_Industrial_N', 'Profipo',
       'Gloria', 'Vila_Cubatao', 'Fatima', 'Centro', 'Bucarein'],
      dtype=object)

In [96]:
# Salvando em um arquivo csv  - Versão 3 ********************************
tecnicoJoinville.to_csv("TECNICOS_Joinville3.csv", encoding = "latin-1")

In [97]:
##############################################
tecnicoJoinville = pd.read_csv("TECNICOS_Joinville3.csv", encoding = 'latin-1', low_memory = False)
tecnicoJoinville.drop(["Unnamed: 0"], axis = 1, inplace = True)

In [98]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [99]:
tecnicoJoinville["cidade"].unique()

array(['Joinville', 'São Francisco do Sul', 'Schroeder', 'Garuva',
       'Araquari', 'Jaraguá do Sul', 'Barra Velha',
       'Balneário Barra do Sul', 'Concórdia', 'Bombinhas', 'Guaramirim',
       'Pinheiro Preto', 'Penha', 'Guaratuba', 'Itapoá',
       'Balneário Piçarras', 'Balneário Camboriú', 'Itajaí',
       'São Bento do Sul', 'Matinhos', 'São Miguel do Oeste',
       'Florianópolis', 'São Joaquim', 'Palhoça', 'Luiz Alves',
       'Canoinhas'], dtype=object)

In [100]:
for i in range(0, len(tecnicoJoinville["cidade"])):
    if tecnicoJoinville.iloc[i,7] == "São Francisco do Sul":
        tecnicoJoinville.iloc[i,7] = "SaoFrancisco_Sul"
    
    if tecnicoJoinville.iloc[i,7] == "Jaraguá do Sul":
        tecnicoJoinville.iloc[i,7] = "Jaragua_Sul"
        
    if tecnicoJoinville.iloc[i,7] == "Barra Velha":
        tecnicoJoinville.iloc[i,7] = "Barra_Velha"
        
    if tecnicoJoinville.iloc[i,7] == "Balneário Barra do Sul":
        tecnicoJoinville.iloc[i,7] = "Bal_Barra_Sul"
        
    if tecnicoJoinville.iloc[i,7] == "Concórdia":
        tecnicoJoinville.iloc[i,7] = "Concordia"
        
    if tecnicoJoinville.iloc[i,7] == "Pinheiro Preto":
        tecnicoJoinville.iloc[i,7] = "Pinheiro_Preto"
        
    if tecnicoJoinville.iloc[i,7] == "Itapoá":
        tecnicoJoinville.iloc[i,7] = "Itapoa"
        
    if tecnicoJoinville.iloc[i,7] == "Balneário Piçarras":
        tecnicoJoinville.iloc[i,7] = "Bal_Picarras"
        
    if tecnicoJoinville.iloc[i,7] == "Balneário Camboriú":
        tecnicoJoinville.iloc[i,7] = "Bal_Camboriu"
        
    if tecnicoJoinville.iloc[i,7] == "Itajaí":
        tecnicoJoinville.iloc[i,7] = "Itajai"
        
    if tecnicoJoinville.iloc[i,7] == "São Bento do Sul":
        tecnicoJoinville.iloc[i,7] = "Sao_Bento"
        
    if tecnicoJoinville.iloc[i,7] == "São Miguel do Oeste":
        tecnicoJoinville.iloc[i,7] = "Sao_Miguel_Oeste"
        
    if tecnicoJoinville.iloc[i,7] == "Florianópolis":
        tecnicoJoinville.iloc[i,7] = "Florianopolis"
        
    if tecnicoJoinville.iloc[i,7] == "São Joaquim":
        tecnicoJoinville.iloc[i,7] = "Sao_Joaquim"
        
    if tecnicoJoinville.iloc[i,7] == "Palhoça":
        tecnicoJoinville.iloc[i,7] = "Palhoca"
        
    if tecnicoJoinville.iloc[i,7] == "Luiz Alves":
        tecnicoJoinville.iloc[i,7] = "Luiz_Alves"
        
    if tecnicoJoinville.iloc[i,7] == "Nova Trento":
        tecnicoJoinville.iloc[i,7] = "Nova_Trento"
    
    if tecnicoJoinville.iloc[i,7] == "São João do Itaperiú" or tecnicoJoinville.iloc[i,7] == "Sao_Joao_Itaperiú":
        tecnicoJoinville.iloc[i,7] = "Sao_Joao_Itaperiu"

In [101]:
tecnicoJoinville["cidade"].unique()

array(['Joinville', 'SaoFrancisco_Sul', 'Schroeder', 'Garuva', 'Araquari',
       'Jaragua_Sul', 'Barra_Velha', 'Bal_Barra_Sul', 'Concordia',
       'Bombinhas', 'Guaramirim', 'Pinheiro_Preto', 'Penha', 'Guaratuba',
       'Itapoa', 'Bal_Picarras', 'Bal_Camboriu', 'Itajai', 'Sao_Bento',
       'Matinhos', 'Sao_Miguel_Oeste', 'Florianopolis', 'Sao_Joaquim',
       'Palhoca', 'Luiz_Alves', 'Canoinhas'], dtype=object)

In [102]:
tecnicoJoinville["cidade"].value_counts()

Joinville           1567
Araquari              41
Garuva                22
Barra_Velha           17
Bal_Barra_Sul         10
Guaratuba              8
Jaragua_Sul            6
SaoFrancisco_Sul       6
Itapoa                 5
Sao_Bento              3
Guaramirim             3
Bal_Picarras           2
Luiz_Alves             1
Palhoca                1
Sao_Joaquim            1
Florianopolis          1
Sao_Miguel_Oeste       1
Matinhos               1
Bal_Camboriu           1
Itajai                 1
Schroeder              1
Penha                  1
Pinheiro_Preto         1
Bombinhas              1
Concordia              1
Canoinhas              1
Name: cidade, dtype: int64

In [103]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [104]:
for i in range(0, len(tecnicoJoinville["escolaridade"])):
    if tecnicoJoinville.iloc[i,9] == "Médio/Completo":
        tecnicoJoinville.iloc[i,9] = "Medio_C"
        
    if tecnicoJoinville.iloc[i,9] == "Superior/Completo":
        tecnicoJoinville.iloc[i,9] = "Superior_C"
        
    if tecnicoJoinville.iloc[i,9] == "Médio/Incompleto":
        tecnicoJoinville.iloc[i,9] = "Medio_I"
        
    if tecnicoJoinville.iloc[i,9] == "Superior/Incompleto":
        tecnicoJoinville.iloc[i,9] = "Superior_I"

In [105]:
tecnicoJoinville["escolaridade"].unique()

array(['Medio_C', 'Superior_C', 'Medio_I', 'Superior_I'], dtype=object)

In [106]:
tecnicoJoinville["escolaridade"].value_counts()

Medio_C       1390
Medio_I        304
Superior_C       7
Superior_I       3
Name: escolaridade, dtype: int64

In [107]:
tecnicoJoinville["situacao_ocupacional"].unique()

array(['Empregado', 'Busca do primeiro emprego', 'Desempregado',
       'Autônomo', 'Empregador', nan, 'Aposentado',
       'Aprendiz com contrato'], dtype=object)

In [108]:
tecnicoJoinville["situacao_ocupacional"].value_counts()

Empregado                    942
Busca do primeiro emprego    662
Desempregado                  75
Autônomo                      14
Aprendiz com contrato          4
Empregador                     3
Aposentado                     1
Name: situacao_ocupacional, dtype: int64

In [109]:
# Apenas 3 valores nan.
tecnicoJoinville["situacao_ocupacional"].isna().sum()

3

In [110]:
# Como a maioria dos valores da situação ocupacional é Empregado, os valores nan serão substituídos por esse valor.
tecnicoJoinville["situacao_ocupacional"].fillna(value = "Empregado", inplace = True)

In [111]:
for i in range(0,len(tecnicoJoinville["situacao_ocupacional"])):
    if tecnicoJoinville.iloc[i,10] == "Autônomo":
        tecnicoJoinville.iloc[i,10] = "Empregado"

In [112]:
for i in range(0,len(tecnicoJoinville["situacao_ocupacional"])):
    if tecnicoJoinville.iloc[i,10] == "Aprendiz com contrato" or tecnicoJoinville.iloc[i,10] == "Autônomo/Conta Própria" or tecnicoJoinville.iloc[i,10] == "Empregador":
        tecnicoJoinville.iloc[i,10] = "Empregado"

In [113]:
for i in range(0,len(tecnicoJoinville["situacao_ocupacional"])):
    if tecnicoJoinville.iloc[i,10] == "Busca do primeiro emprego":
        tecnicoJoinville.iloc[i,10] = "Desempregado"

In [114]:
# Ao todo, são 1365 valores missing.
tecnicoJoinville["organizacao"].isna().sum()

1210

In [115]:
# Os valores missing serão substituidos por NÃO DECLARADO.
tecnicoJoinville["organizacao"].fillna(value = "N_D", inplace = True)

In [116]:
# Correção do nome das empresas para retirar caracteres estranhos.
tecnicoJoinville["organizacao"] = tecnicoJoinville["organizacao"].map(lambda x: x.lstrip('{').rstrip("}"))
tecnicoJoinville["organizacao"] = tecnicoJoinville["organizacao"].map(lambda x: x.lstrip('"').rstrip('"'))

In [117]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE'],
      dtype='object')

In [118]:
# Correção da empresa Embraco
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "UNIDADE EMBRACO-COMPRESSORES E SOLUCOES DE REFRIGE" or tecnicoJoinville.iloc[i,11] == "Embraco S.a" or tecnicoJoinville.iloc[i,11] == "EMBRACO INDUSTRIA DE COMPRESSORES E SOLUCOES EM RE" or tecnicoJoinville.iloc[i,11] == "UNIDADE EMBRACO - COMPONENTES":
        tecnicoJoinville.iloc[i,11] = "Embraco"
# Correção da empresa Tupy
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "TUPY S/A" or tecnicoJoinville.iloc[i,11] == "Tupy Fundições Ltda." or tecnicoJoinville.iloc[i,11] == "TUPY S.A." or tecnicoJoinville.iloc[i,11] == "TUPY S/A - 84.683.374/0003-00" or tecnicoJoinville.iloc[i,11] == "Industria de Fundição Tupy":
        tecnicoJoinville.iloc[i,11] = "TUPY"
        
for i in range(0,len(tecnicoJoinville["organizacao"])):
    # Correção da empresa ****
    if tecnicoJoinville.iloc[i,11] == "****" or tecnicoJoinville.iloc[i,11] == '***' or tecnicoJoinville.iloc[i,11] == "NÃO DECLARADO":
        tecnicoJoinville.iloc[i,11] = "N_D"

In [119]:
# Correção da empresa Ciser
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "Cia Industrial H. Carlos Schneider (Ciser)" or tecnicoJoinville.iloc[i,11] == "CISER PARAFUSOS E PORCAS" or tecnicoJoinville.iloc[i,11] == "CIA. INDUSTRIAL H. CARLOS SCHNEIDER" or tecnicoJoinville.iloc[i,11] == "CISER":
        tecnicoJoinville.iloc[i,11] = "Ciser"

In [120]:
# Correção Britânia
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "BRITANIA" or tecnicoJoinville.iloc[i,11] == "BRITÂNIA" or tecnicoJoinville.iloc[i,11] == "Britania Industria e Comercio Ltda.":
        tecnicoJoinville.iloc[i,11] = "Britânia"
        
# Correção da Whirlpool
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "WHIRLPOOL S.A UNIDADE DE ELETRODOMESTICOS" or tecnicoJoinville.iloc[i,11] == "Whirlpool S/a - Unidade Embraco - Eletronicos" or tecnicoJoinville.iloc[i,11] == "UNIDADE DE ELETRODOMESTICOS":
        tecnicoJoinville.iloc[i,11] = "Whirlpool"

# Correção da Wetzel
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "WETZEL S.A - CORPORATIVO" or tecnicoJoinville.iloc[i,11] == "WETZEL S/A - ALUMÍNIO" or tecnicoJoinville.iloc[i,11] == "WETZEL S/A":
        tecnicoJoinville.iloc[i,11] = "Wetzel"

# Correção da Schulz
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "SCHULZ" or tecnicoJoinville.iloc[i,11] == "SCHULZ COMPRESSORES":
        tecnicoJoinville.iloc[i,11] = "Schulz"

# Correção da Malharia Princesa
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "MALHARIA PRINCESA S.A":
        tecnicoJoinville.iloc[i,11] = "MALHARIA PRINCESA S.A."
        
# Correção da WEG
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == "DIVISAO AUTOMACAO - FABRICA - PARQUE FABRIL II" or tecnicoJoinville.iloc[i,11] == "DIVISAO AUTOMACAO - ESCRITORIO - PARQUE FABRIL II" or tecnicoJoinville.iloc[i,11] == "WEG DRIVES & CONTROLS - AUTOMACAO LTDA":
        tecnicoJoinville.iloc[i,11] = "WEG"
        
# Correção da Krona
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'KRONA TUBOS E CONEXOES LTDA.' or tecnicoJoinville.iloc[i,11] == 'KRONA ACESSORIOS HIDRAULICOS LTDA':
        tecnicoJoinville.iloc[i,11] = "KRONA"

# Correção da Dohler
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'DOHLER S.A.' or tecnicoJoinville.iloc[i,11] == 'DOHLER S/A':
        tecnicoJoinville.iloc[i,11] = "DOHLER"
# Correção da Tigre
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'TIGRE MATERIAIS E SOLUÇÕES PARA CONSTRUÇÃO LTDA.' or tecnicoJoinville.iloc[i,11] == 'Tigre S/A Tubos e Conexões (joinville)' or tecnicoJoinville.iloc[i,11] == "Tigre S.A - Tubos e Conexões":
        tecnicoJoinville.iloc[i,1] = "TIGRE"        

# Correção Lepper
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'Buschle & Lepper SA' or tecnicoJoinville.iloc[i,11] == 'CIA FABRIL LEPPER' or tecnicoJoinville.iloc[i,11] == 'LEPPER':
        tecnicoJoinville.iloc[i,11] = "Lepper"  

# Correção AB PLAST
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'AB PLAST MANUFT. PLASTICOS LTDA':
        tecnicoJoinville.iloc[i,11] = "AB_PLAST"  
        
# Correção AB PLAST
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'Van Mar':
        tecnicoJoinville.iloc[i,11] = "VAN_MAR"  
        
# Correção TRAPP
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'Metalurgica Trapp Ltda':
        tecnicoJoinville.iloc[i,11] = "TRAPP" 
        
# Correção MADEIRAS TORQUATO
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'MADEIRAS TORQUATO':
        tecnicoJoinville.iloc[i,11] = "TORQUATO" 
        
# Correção 62 BATALHAO DE INFANTARIA
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == '62 BATALHAO DE INFANTARIA':
        tecnicoJoinville.iloc[i,11] = "BATALHAO"
        
# Correção Componente Equipamentos Industriais Ltda Epp
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'Componente Equipamentos Industriais Ltda Epp' or tecnicoJoinville.iloc[i,11] == 'Component Indústria e Comércio Ltda' :
        tecnicoJoinville.iloc[i,11] = "COMPONENT_EQUIPAMENTOS"
        
# Correção AUTO ELETRICA COLZANI
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'AUTO ELETRICA COLZANI':
        tecnicoJoinville.iloc[i,11] = "AUTO_ELETRICA_COLZANI"
        
# Correção Auto Mecânica Nicoluzzi Ltda
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'Auto Mecânica Nicoluzzi Ltda':
        tecnicoJoinville.iloc[i,11] = "AutoMecânica_Nicoluzzi"        

In [121]:
tecnicoJoinville["organizacao"].unique()

array(['Schulz', 'N_D', 'SENAI/SC - JOINVILLE SUL', 'Embraco',
       'SACARBI SERVICOS E PRODUTOS LTDA', 'SOLO INDUSTRIA E COMERCIO',
       'AB_PLAST', 'VAN_MAR', 'SEW-EURODRIVE', 'BMW DO BRASIL LTDA',
       'TUPY', 'TRAPP', 'DOCOL METAIS SANITARIOS LTDA. (ATIVA)',
       'TOTAL CONEXOES', "Kit's Brasil Fabricação de Produtos",
       'Franklin Electric Industria de Motobombas S.a.',
       'Tigre S/A Tubos e Conexões (joinville)', 'WEG', 'FREMAX',
       'COSMA DO BRASIL PRODUTOS E SERVICOS AUTOMOTIVOS LT', 'MILIUM',
       'CRISTAL MASTER', 'Cadorin Ferramentaria e Usinagem Ltda',
       'Britânia', 'GABIVEL VEICULOS', 'TORQUATO', 'NYCOLPLAST', 'Ciser',
       'KRONA', 'COMPONENT_EQUIPAMENTOS', 'UNIPLAST',
       'PLASBOHN INDÚSTRIA E COMÉRCIO LTDA',
       'Plastibras Industria de Plasticos LTDA',
       'DURIN INDUSTRIA DE PLASTICOS LTDA', 'TUV RHEINLAND',
       'Garuva Abrasivos', 'GOMES MAQUINAS AGRICOLA', 'ILPEA',
       'Whirlpool', 'BATALHAO', 'PONTEIRAS RODRIGUES', 'Coppe

In [122]:
empresa = []
for i in range(0, len(tecnicoJoinville["organizacao"])):
               empresa.append(tecnicoJoinville["organizacao"][i].split(" ")[0])

In [123]:
tecnicoJoinville["empresa"] = empresa

In [124]:
tecnicoJoinville.head()

Unnamed: 0,produto_educacao,carga_horaria,turno,gratuidade_turma,tipo,online,bairro,cidade,genero,escolaridade,situacao_ocupacional,organizacao,situacao_matricula,IDADE,empresa
0,AUTOMACAO,1200,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Empregado,Schulz,Concluinte,21,Schulz
1,FABRICACAO,1600,Noite,Mista,PF,Nao,Jardim_Paraiso,Joinville,M,Medio_C,Empregado,N_D,Concluinte,18,N_D
2,LOGISTICA,1300,Noite,Mista,PF,Nao,ForaJoinville,SaoFrancisco_Sul,M,Medio_C,Empregado,SENAI/SC - JOINVILLE SUL,Concluinte,18,SENAI/SC
3,AUTOMACAO,1600,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Desempregado,N_D,Concluinte,16,N_D
4,MECANICA,1620,Tarde,Mista,PF,Nao,Ulysses_Guimaraes,Joinville,M,Medio_C,Empregado,Schulz,Concluinte,17,Schulz


In [125]:
tecnicoJoinville.columns

Index(['produto_educacao', 'carga_horaria', 'turno', 'gratuidade_turma',
       'tipo', 'online', 'bairro', 'cidade', 'genero', 'escolaridade',
       'situacao_ocupacional', 'organizacao', 'situacao_matricula', 'IDADE',
       'empresa'],
      dtype='object')

In [126]:
tecnicoJoinville["empresa"].unique()

array(['Schulz', 'N_D', 'SENAI/SC', 'Embraco', 'SACARBI', 'SOLO',
       'AB_PLAST', 'VAN_MAR', 'SEW-EURODRIVE', 'BMW', 'TUPY', 'TRAPP',
       'DOCOL', 'TOTAL', "Kit's", 'Franklin', 'Tigre', 'WEG', 'FREMAX',
       'COSMA', 'MILIUM', 'CRISTAL', 'Cadorin', 'Britânia', 'GABIVEL',
       'TORQUATO', 'NYCOLPLAST', 'Ciser', 'KRONA',
       'COMPONENT_EQUIPAMENTOS', 'UNIPLAST', 'PLASBOHN', 'Plastibras',
       'DURIN', 'TUV', 'Garuva', 'GOMES', 'ILPEA', 'Whirlpool',
       'BATALHAO', 'PONTEIRAS', 'Copper', 'ANDRESA', 'CCP', 'Comfio',
       'DOHLER', 'INCASA', 'MALHARIA', 'PARANA', 'PAVILOCHE', 'TAF',
       'FORTLEV', 'ERZINGER', 'AB', 'TECELAGEM', 'LINKPLAS', 'SULBRAS',
       'TOTVS', 'SCHERER', 'SCHULZE', 'EMBALE', 'Cr', 'LUNELLI', 'IBT',
       'BK', 'KONARDI', 'Coltex', '3JM', 'LEAR', 'Wetzel', 'SINTEX',
       'CARIBOR', 'BOREAL', 'AUTO_ELETRICA_COLZANI', 'BENTELER',
       'AutoMecânica_Nicoluzzi', 'Mecanica', 'LUZVILLE', 'ITAYA',
       'Manfer', 'ELKEM', 'ROGGA', 'ESTRIBO', 'VIQU

In [127]:
# Correção Sigosta Ltda
for i in range(0,len(tecnicoJoinville["organizacao"])):
    if tecnicoJoinville.iloc[i,11] == 'SIGOSTA' or tecnicoJoinville.iloc[i,11] == 'SIGOSTA TÉXTIL':
        tecnicoJoinville.iloc[i,11] = "Sigosta"
        
# Correção Modelação
for i in range(0,len(tecnicoJoinville["empresa"])):
    if tecnicoJoinville.iloc[i,14] == 'Modelação':
        tecnicoJoinville.iloc[i,14] = "Modelacao"

In [128]:
tecnicoJoinville.head()

Unnamed: 0,produto_educacao,carga_horaria,turno,gratuidade_turma,tipo,online,bairro,cidade,genero,escolaridade,situacao_ocupacional,organizacao,situacao_matricula,IDADE,empresa
0,AUTOMACAO,1200,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Empregado,Schulz,Concluinte,21,Schulz
1,FABRICACAO,1600,Noite,Mista,PF,Nao,Jardim_Paraiso,Joinville,M,Medio_C,Empregado,N_D,Concluinte,18,N_D
2,LOGISTICA,1300,Noite,Mista,PF,Nao,ForaJoinville,SaoFrancisco_Sul,M,Medio_C,Empregado,SENAI/SC - JOINVILLE SUL,Concluinte,18,SENAI/SC
3,AUTOMACAO,1600,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Desempregado,N_D,Concluinte,16,N_D
4,MECANICA,1620,Tarde,Mista,PF,Nao,Ulysses_Guimaraes,Joinville,M,Medio_C,Empregado,Schulz,Concluinte,17,Schulz


In [129]:
tecnicoJoinville.drop(["organizacao"], axis = 1, inplace = True)

In [130]:
# Salvando em um arquivo csv ###############################################################3
tecnicoJoinville.to_csv("TECNICOS_Joinville4.csv", encoding = "latin-1")

In [131]:
tecnicoJoinville = pd.read_csv("TECNICOS_Joinville4.csv", encoding = 'latin-1', low_memory = False)
tecnicoJoinville.drop(["Unnamed: 0"], axis = 1, inplace = True)

In [132]:
tecnicoJoinville.head()

Unnamed: 0,produto_educacao,carga_horaria,turno,gratuidade_turma,tipo,online,bairro,cidade,genero,escolaridade,situacao_ocupacional,situacao_matricula,IDADE,empresa
0,AUTOMACAO,1200,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Empregado,Concluinte,21,Schulz
1,FABRICACAO,1600,Noite,Mista,PF,Nao,Jardim_Paraiso,Joinville,M,Medio_C,Empregado,Concluinte,18,N_D
2,LOGISTICA,1300,Noite,Mista,PF,Nao,ForaJoinville,SaoFrancisco_Sul,M,Medio_C,Empregado,Concluinte,18,SENAI/SC
3,AUTOMACAO,1600,Tarde,Mista,PF,Nao,Aventureiro,Joinville,M,Medio_C,Desempregado,Concluinte,16,N_D
4,MECANICA,1620,Tarde,Mista,PF,Nao,Ulysses_Guimaraes,Joinville,M,Medio_C,Empregado,Concluinte,17,Schulz


In [133]:
tecnicoJoinville["situacao_matricula"].unique

<bound method Series.unique of 0       Concluinte
1       Concluinte
2       Concluinte
3       Concluinte
4       Concluinte
           ...    
1699    Desistente
1700    Desistente
1701    Desistente
1702    Desistente
1703    Desistente
Name: situacao_matricula, Length: 1704, dtype: object>

## Teste dos algoritmos de classificação

In [134]:
# Salvando em um arquivo csv ###############################################################
tecnicoJoinville.to_csv("TECNICOS_Joinville5.csv", encoding = "latin-1")

In [135]:
# Salvando em um arquivo csv ###############################################################
tecnicoJoinville.to_csv("TECNICO_PERFIL.csv", encoding = "latin-1")