# Gestão de Dependências

## Instalação

In [47]:
%pip install --upgrade pip --quiet
%pip install pandas openpyxl --quiet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


## Importação

In [48]:
import pandas as pd

# Engenharia de Dados

## Carregamento do Dataset

In [49]:
caminho_do_dataset = './data/processed/base-de-dados-mesclada.csv'

df = pd.read_csv(caminho_do_dataset)
df.head()

Unnamed: 0,projeto_id,projeto_nome,projeto_setor,projeto_macrossetor,projeto_impacto,projeto_status,projeto_alcance-geografico,projeto_publico-alvo,proponente_id,proponente_nome,proponente_empresa,proponente_atuacao,proponente_cargo,avaliador_id,avaliador_nome,avaliador_empresa,avaliador_atuacao,avaliador_cargo,avaliacao
0,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,167,Geci Quintais,Siemens,Tecnologia Energética,Embaixador,5
1,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,384,Nautilia Carneiro Nascimento Chousa,Uber,Transporte e Tecnologia,Embaixador,5
2,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,499,Cleomarcos Taveira Franco Bencatel,Apple,Tecnologia,CFO,5
3,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,575,Josenara Carrasqueira,Siemens,Tecnologia e Engenharia,CIO,5
4,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,796,Cecil Severo,LinkedIn,Tecnologia e Networking,CFO,5


## Remoção de Dados Inconsistentes

In [50]:
avaliadores_presentes = df[df['avaliador_id'].isin(df['proponente_id'])]

# comparando o número de avaliadores presentes com o número de proponentes
print(f'Número de avaliadores presentes: {avaliadores_presentes.shape[0]}')
print(f'Número de proponentes: {df.shape[0]}')

Número de avaliadores presentes: 9091
Número de proponentes: 9101


In [51]:
# Remove do df original os avaliadores que não são proponentes
df_v1 = df[df['avaliador_nome'].isin(df['proponente_nome'])]

df_v1.shape

(9091, 19)

## Tratamento de colunas categóricas

In [52]:
# Não precisamos, do ponto de vista do modelo
# Do nome do avaliador se ele é sempre algum proponente
df_v2 = df_v1.drop(columns=['avaliador_nome'])

# O mesmo vale para avaliador_empresa, avaliador_cargo, avaliador_atuacao
df_v2 = df_v2.drop(columns=['avaliador_empresa', 'avaliador_cargo', 'avaliador_atuacao'])

In [53]:
df_v2.shape

(9091, 15)

In [54]:
# Como visto na análise de dados, temos muitos macrossetores
# Mas o projeto trabalha com 6, logo, faremos um dicionário para mapear

# Mapeamento de macrossetor para tema
macrossetor_para_macrotema = {
    "Educação": "Produtividade e Competitividade",
    "Serviços Sociais": "DE&I",
    "Tecnologia e Inovação": "Produtividade e Competitividade",
    "Sustentabilidade": "Conservação do Planeta",
    "Saúde e Bem-estar": "Bem estar Saúde e Felicidade",
    "Meio Ambiente": "Conservação do Planeta",
    "Ciência e Pesquisa": "Produtividade e Competitividade",
    "Tecnologia e Informação": "Produtividade e Competitividade",
    "Transporte e Logística": "Redução do Impacto Ambiental",
    "Arte e Cultura": "DE&I",
    "Energia e Recursos": "Redução do Impacto Ambiental",
    "Empreendedorismo e Inovação": "Produtividade e Competitividade",
    "Desenvolvimento Urbano e Infraestrutura": "Produtividade e Competitividade",
    "Engenharia": "Produtividade e Competitividade",
    "Desenvolvimento Econômico e Empresarial": "Produtividade e Competitividade",
    "Desenvolvimento Comunitário": "DE&I",
    "Agricultura e Alimentação": "Conservação do Planeta",
    "Economia e Finanças": "Produtividade e Competitividade",
    "Gestão e Recursos Humanos": "Produtividade e Competitividade",
    "Direito e Governança": "Integridade e Práticas Éticas",
    "Tecnologia e Dados": "Produtividade e Competitividade",
    "Transporte e Tecnologia": "Redução do Impacto Ambiental",
    "Educação e Meio Ambiente": "Conservação do Planeta",
    "Tecnologia e Educação": "Produtividade e Competitividade",
    "Tecnologia e Meio Ambiente": "Conservação do Planeta",
    "Tecnologia e Saúde": "Bem estar Saúde e Felicidade",
    "Estratégia e Gestão": "Produtividade e Competitividade",
    "Comunicação e Mídia": "Produtividade e Competitividade",
    "Tecnologia e Comunicação": "Produtividade e Competitividade",
    "Saúde e Infraestrutura": "Bem estar Saúde e Felicidade",
    "Saúde e Pesquisa": "Bem estar Saúde e Felicidade",
    "Geral e Diversificado": "DE&I",
    "Turismo e Lazer": "Bem estar Saúde e Felicidade",
    "Desporto e Lazer": "Bem estar Saúde e Felicidade",
    "Desenvolvimento Internacional": "DE&I",
    "Turismo e Tecnologia": "Bem estar Saúde e Felicidade",
    "Saúde e Indústria": "Bem estar Saúde e Felicidade",
    "Saúde e Tecnologia": "Bem estar Saúde e Felicidade",
    "Saúde e Inovação": "Bem estar Saúde e Felicidade",
    "Marketing e Comunicação": "Produtividade e Competitividade"
}

df_v2['macrotema'] = df_v2['projeto_macrossetor'].map(macrossetor_para_macrotema)

# Removendo a coluna de macrossetor
df_v3 = df_v2.drop(columns=['projeto_macrossetor'])


In [55]:
frequencia = df_v3['macrotema'].value_counts()

frequencia

macrotema
Produtividade e Competitividade    4813
Conservação do Planeta             1507
DE&I                               1346
Bem estar Saúde e Felicidade        835
Redução do Impacto Ambiental        504
Integridade e Práticas Éticas        86
Name: count, dtype: int64

In [56]:
# Mapeamento de setor para subtemas principais
setor_para_subtema = {
    # Educação e Desenvolvimento Pessoal
    "Educação": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento Pessoal": "Educação e Desenvolvimento Pessoal",
    "Educação Ambiental": "Educação e Desenvolvimento Pessoal",
    "Educação em STEM": "Educação e Desenvolvimento Pessoal",
    "Educação Inclusiva": "Educação e Desenvolvimento Pessoal",
    "Educação Financeira": "Educação e Desenvolvimento Pessoal",
    "Educação, Tecnologia": "Educação e Desenvolvimento Pessoal",
    "Educação, Sustentabilidade": "Educação e Desenvolvimento Pessoal",
    "Educação, Agricultura": "Educação e Desenvolvimento Pessoal",
    "Educação Científica": "Educação e Desenvolvimento Pessoal",
    "Educação Cultural": "Educação e Desenvolvimento Pessoal",
    "Educação Tecnológica": "Educação e Desenvolvimento Pessoal",
    "Educação Internacional": "Educação e Desenvolvimento Pessoal",
    "Educação Cívica": "Educação e Desenvolvimento Pessoal",
    "Educação, Energia": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento de Carreira": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento Juvenil": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento Profissional": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento de Liderança": "Educação e Desenvolvimento Pessoal",
    "Desenvolvimento de Produto Inclusivo": "Educação e Desenvolvimento Pessoal",
    "Empreendedorismo Juvenil": "Educação e Desenvolvimento Pessoal",
    "Motivação": "Educação e Desenvolvimento Pessoal",

    # Saúde e Bem-estar
    "Saúde": "Saúde e Bem-estar",
    "Saúde Mental": "Saúde e Bem-estar",
    "Psicologia": "Saúde e Bem-estar",
    "Inteligência Artificial na Medicina": "Saúde e Bem-estar",
    "Saúde Pública": "Saúde e Bem-estar",
    "Inovações em Saúde Digital": "Saúde e Bem-estar",
    "Tecnologia, Saúde": "Saúde e Bem-estar",
    "Saúde, Agricultura": "Saúde e Bem-estar",
    "Saúde, Educação": "Saúde e Bem-estar",
    "Saúde, Segurança do Trabalho": "Saúde e Bem-estar",
    "Saúde, Indústria": "Saúde e Bem-estar",
    "Saúde, Tecnologia": "Saúde e Bem-estar",
    "Saúde, Inovação": "Saúde e Bem-estar",
    "Saúde e Infraestrutura": "Saúde e Bem-estar",
    "Inovação em Saúde": "Saúde e Bem-estar",
    "Bem-estar": "Saúde e Bem-estar",
    "Tecnologia na Saúde": "Saúde e Bem-estar",
    "Nutrição": "Saúde e Bem-estar",
    "Alimentação": "Saúde e Bem-estar",
    "Desporto": "Saúde e Bem-estar",
    "Segurança": "Saúde e Bem-estar",

    # Tecnologia e Inovação
    "Tecnologia": "Tecnologia e Inovação",
    "TI": "Tecnologia e Inovação",
    "Inteligência Artificial": "Tecnologia e Inovação",
    "Análise de Dados": "Tecnologia e Inovação",
    "Tecnologia, Sustentabilidade": "Tecnologia e Inovação",
    "Tecnologia, Meio Ambiente": "Tecnologia e Inovação",
    "Tecnologia, Educação": "Tecnologia e Inovação",
    "Tecnologia, Saúde": "Tecnologia e Inovação",
    "Tecnologia, Social": "Tecnologia e Inovação",
    "Tecnologia em Transporte": "Tecnologia e Inovação",
    "Tecnologia Ambiental": "Tecnologia e Inovação",
    "Tecnologia, Energia": "Tecnologia e Inovação",
    "Tecnologia, Agricultura": "Tecnologia e Inovação",
    "Tecnologia e Comunicação": "Tecnologia e Inovação",
    "Tecnologia em Viagens": "Tecnologia e Inovação",
    "Tecnologia Assistiva": "Tecnologia e Inovação",
    "Tecnologia para Desenvolvimento": "Tecnologia e Inovação",
    "Tecnologia da Informação": "Tecnologia e Inovação",
    "Inovações em Tecnologia de Transporte": "Tecnologia e Inovação",
    "Inovações em Tecnologia Verde": "Tecnologia e Inovação",
    "Inovações em Tecnologia Ecológica": "Tecnologia e Inovação",
    "Análise de Dados com IA": "Tecnologia e Inovação",
    "Tecnologia, Transporte": "Tecnologia e Inovação",
    "Tecnologia Têxtil": "Tecnologia e Inovação",
    "Inovação Tecnológica": "Tecnologia e Inovação",
    "Inovações em Energia Limpa": "Tecnologia e Inovação",
    "Tecnologia de Energia Renovável": "Tecnologia e Inovação",
    "Inovação em Transporte Inteligente": "Tecnologia e Inovação",
    "Tecnologia Social": "Tecnologia e Inovação",
    "Tecnologia e Design": "Tecnologia e Inovação",
    "Tecnologia em Transportes": "Tecnologia e Inovação",
    "Inovação Social": "Tecnologia e Inovação",

    # Sustentabilidade e Meio Ambiente
    "Sustentabilidade": "Sustentabilidade e Meio Ambiente",
    "Ambiental": "Sustentabilidade e Meio Ambiente",
    "Energia Renovável": "Sustentabilidade e Meio Ambiente",
    "Construção Sustentável": "Sustentabilidade e Meio Ambiente",
    "Transporte Sustentável": "Sustentabilidade e Meio Ambiente",
    "Empreendedorismo Sustentável": "Sustentabilidade e Meio Ambiente",
    "Conservação Ambiental": "Sustentabilidade e Meio Ambiente",
    "Ecologia": "Sustentabilidade e Meio Ambiente",
    "Climatologia": "Sustentabilidade e Meio Ambiente",
    "Educação, Sustentabilidade": "Sustentabilidade e Meio Ambiente",
    "Desenvolvimento Sustentável": "Sustentabilidade e Meio Ambiente",
    "Transporte Ferroviário Sustentável": "Sustentabilidade e Meio Ambiente",
    "Alimentação Sustentável": "Sustentabilidade e Meio Ambiente",
    "Urbanismo Sustentável": "Sustentabilidade e Meio Ambiente",
    "Infraestrutura Sustentável": "Sustentabilidade e Meio Ambiente",
    "Viagens Sustentáveis": "Sustentabilidade e Meio Ambiente",
    "Agricultura Sustentável": "Sustentabilidade e Meio Ambiente",
    "Aviação Sustentável": "Sustentabilidade e Meio Ambiente",
    "Meio Ambiente": "Sustentabilidade e Meio Ambiente",
    "Conscientização Ambiental": "Sustentabilidade e Meio Ambiente",
    "Ciência Ambiental": "Sustentabilidade e Meio Ambiente",
    "Bioengenharia": "Sustentabilidade e Meio Ambiente",
    "Tecnologia Ambiental": "Sustentabilidade e Meio Ambiente",
    "Ecologia Marinha": "Sustentabilidade e Meio Ambiente",
    "Reciclagem": "Sustentabilidade e Meio Ambiente",
    "Ambientalismo": "Sustentabilidade e Meio Ambiente",
    "Biodiversidade": "Sustentabilidade e Meio Ambiente",
    "Arte e Meio Ambiente": "Sustentabilidade e Meio Ambiente",

    # Sociedade e Cultura
    "Social": "Sociedade e Cultura",
    "Cultura": "Sociedade e Cultura",
    "Arte e Cultura": "Sociedade e Cultura",
    "Desenvolvimento Comunitário": "Sociedade e Cultura",
    "Desenvolvimento Social": "Sociedade e Cultura",
    "Cultural": "Sociedade e Cultura",
    "Direitos Humanos": "Sociedade e Cultura",
    "Ativismo Social": "Sociedade e Cultura",
    "Diversidade e Inclusão": "Sociedade e Cultura",
    "Social, Cultural": "Sociedade e Cultura",
    "Empreendedorismo Social": "Sociedade e Cultura",
    "Arte": "Sociedade e Cultura",
    "Paz e Segurança": "Sociedade e Cultura",
    "Multiculturalismo": "Sociedade e Cultura",
    "Geral": "Sociedade e Cultura",
    "Mídia": "Sociedade e Cultura",
    "Jornalismo": "Sociedade e Cultura",
    "Comunicação": "Sociedade e Cultura",
    "Política": "Sociedade e Cultura",
    "Filantropia": "Sociedade e Cultura",
    "Sociologia": "Sociedade e Cultura",
    "Desenvolvimento Internacional": "Sociedade e Cultura",
    "Comunidade": "Sociedade e Cultura",
    "Assistência Social": "Sociedade e Cultura",

    # Economia e Negócios
    "Energia": "Economia e Negócios",
    "Agricultura": "Economia e Negócios",
    "Recursos Humanos": "Economia e Negócios",
    "Negócios": "Economia e Negócios",
    "Inovação": "Economia e Negócios",
    "Econômico": "Economia e Negócios",
    "Empreendedorismo": "Economia e Negócios",
    "Finanças": "Economia e Negócios",
    "Economia": "Economia e Negócios",
    "Desenvolvimento Econômico": "Economia e Negócios",
    "Gestão": "Economia e Negócios",
    "Marketing": "Economia e Negócios",
    "Negócios, Social": "Economia e Negócios",
    "Gestão de Frotas": "Economia e Negócios",
    "Desenvolvimento Empresarial": "Economia e Negócios",
    "Aceleração de Startups": "Economia e Negócios",
    "Empreendedorismo Tecnológico": "Economia e Negócios",
    "Fomento à Inovação": "Economia e Negócios",
    "Gestão e Análise de Dados": "Economia e Negócios",
    "Educação, Negócios": "Economia e Negócios",
    "Gestão da Qualidade": "Economia e Negócios",
    "Logística": "Economia e Negócios",
    "Estratégia": "Economia e Negócios",
    "Governança": "Economia e Negócios",

    # Ciência e Pesquisa
    "Científico": "Ciência e Pesquisa",
    "Biotecnologia": "Ciência e Pesquisa",
    "Genética": "Ciência e Pesquisa",
    "Astronomia": "Ciência e Pesquisa",
    "Física": "Ciência e Pesquisa",
    "Física Quântica": "Ciência e Pesquisa",
    "Biologia Celular": "Ciência e Pesquisa",
    "Biologia Evolutiva": "Ciência e Pesquisa",
    "Biologia Molecular": "Ciência e Pesquisa",
    "Biologia Sintética": "Ciência e Pesquisa",
    "Biologia Estrutural": "Ciência e Pesquisa",
    "Bioinformática": "Ciência e Pesquisa",
    "Astrofísica": "Ciência e Pesquisa",
    "Genômica": "Ciência e Pesquisa",
    "Química": "Ciência e Pesquisa",
    "Neurociência": "Ciência e Pesquisa",
    "Farmacêutica": "Ciência e Pesquisa",
    "Engenharia Biomédica": "Ciência e Pesquisa",
    "Engenharia de Materiais": "Ciência e Pesquisa",
    "Telecomunicações": "Ciência e Pesquisa",
    "Pesquisa Médica": "Ciência e Pesquisa",
    "Ciência, Educação": "Ciência e Pesquisa",
    "Pesquisa e Desenvolvimento Tecnológico": "Ciência e Pesquisa",
    "Nanotecnologia": "Ciência e Pesquisa",
    "Biologia": "Ciência e Pesquisa",
    "Botânica": "Ciência e Pesquisa",
    "Filosofia": "Ciência e Pesquisa",
    "Linguística": "Ciência e Pesquisa",
    "Geologia": "Ciência e Pesquisa",
    "Geologia Planetária": "Ciência e Pesquisa",
    "Hidrologia": "Ciência e Pesquisa",
    "Meteorologia": "Ciência e Pesquisa",
    "Realidade Virtual": "Ciência e Pesquisa",
    "Matemática": "Ciência e Pesquisa",
    "Bioquímica": "Ciência e Pesquisa",
    "Aviação": "Ciência e Pesquisa",
    "Marítimo": "Ciência e Pesquisa",

    # Engenharia e Infraestrutura
    "Transporte": "Engenharia e Infraestrutura",
    "Urbanismo": "Engenharia e Infraestrutura",
    "Transporte, Tecnologia": "Engenharia e Infraestrutura",
    "Desenvolvimento Urbano": "Engenharia e Infraestrutura",
    "Transporte Urbano": "Engenharia e Infraestrutura",
    "Urbanismo, Sustentabilidade": "Engenharia e Infraestrutura",
    "Urbanismo, Tecnologia": "Engenharia e Infraestrutura",
    "Arquitetura": "Engenharia e Infraestrutura",
    "Construção Sustentável": "Engenharia e Infraestrutura",
    "Transporte Ferroviário": "Engenharia e Infraestrutura",
    "Transporte Ferroviário Sustentável": "Engenharia e Infraestrutura",
    "Transporte Aquático": "Engenharia e Infraestrutura",
    "Transporte Marítimo": "Engenharia e Infraestrutura",
    "Transporte Marítimo, Tecnologia": "Engenharia e Infraestrutura",
    "Transporte Elétrico": "Engenharia e Infraestrutura",
    "Engenharia de Energia": "Engenharia e Infraestrutura",
    "Infraestrutura de Saúde": "Engenharia e Infraestrutura",
    "Infraestrutura Sustentável": "Engenharia e Infraestrutura",
    "Acessibilidade Urbana": "Engenharia e Infraestrutura",
    "Saneamento": "Engenharia e Infraestrutura",
    "Turismo": "Engenharia e Infraestrutura",
    "Viagens Sustentáveis": "Engenharia e Infraestrutura",
    "Desenvolvimento de Jogos": "Engenharia e Infraestrutura",
    "Direito": "Engenharia e Infraestrutura",
    "Jurídico": "Engenharia e Infraestrutura",
    "Transporte, Energia": "Engenharia e Infraestrutura",
    "Transporte, Social": "Engenharia e Infraestrutura",
}

df_v3['subtema'] = df_v3['projeto_setor'].map(setor_para_subtema)

# Removendo a coluna de setor
df_v4 = df_v3.drop(columns=['projeto_setor'])

df_v4['subtema'].value_counts()

subtema
Educação e Desenvolvimento Pessoal    2035
Tecnologia e Inovação                 1428
Sociedade e Cultura                   1420
Sustentabilidade e Meio Ambiente      1352
Economia e Negócios                    823
Saúde e Bem-estar                      809
Ciência e Pesquisa                     698
Engenharia e Infraestrutura            526
Name: count, dtype: int64

In [57]:
# mostra todas as colunas categóricas do df_v4
colunas_categoricas = df_v4.select_dtypes(include=['object']).columns
colunas_categoricas


Index(['projeto_nome', 'projeto_impacto', 'projeto_status',
       'projeto_alcance-geografico', 'projeto_publico-alvo', 'proponente_nome',
       'proponente_empresa', 'proponente_atuacao', 'proponente_cargo',
       'macrotema', 'subtema'],
      dtype='object')

In [58]:
# projeto_nome, proponente_nome, proponente_empresa, proponente_cargo e proponente_atuacao
# não possuem relevância média/alta para o modelo final de recomendação

df_v5 = df_v4.drop(columns=['projeto_nome', 'proponente_nome', 'proponente_empresa', 'proponente_cargo', 'proponente_atuacao'])

df_v5.head()

Unnamed: 0,projeto_id,projeto_impacto,projeto_status,projeto_alcance-geografico,projeto_publico-alvo,proponente_id,avaliador_id,avaliacao,macrotema,subtema
0,1,Social,Em planejamento,Local,Consumidores e Empresas,1,167,5,Bem estar Saúde e Felicidade,Saúde e Bem-estar
1,1,Social,Em planejamento,Local,Consumidores e Empresas,1,384,5,Bem estar Saúde e Felicidade,Saúde e Bem-estar
2,1,Social,Em planejamento,Local,Consumidores e Empresas,1,499,5,Bem estar Saúde e Felicidade,Saúde e Bem-estar
3,1,Social,Em planejamento,Local,Consumidores e Empresas,1,575,5,Bem estar Saúde e Felicidade,Saúde e Bem-estar
4,1,Social,Em planejamento,Local,Consumidores e Empresas,1,796,5,Bem estar Saúde e Felicidade,Saúde e Bem-estar


In [62]:
df_v5['avaliador_id'].isin(df_v5['proponente_id']).all()

True

### Dumming Encoding

In [68]:
colunas_categoricas = [
  "projeto_impacto", 
  "projeto_status", 
  "projeto_alcance-geografico", 
  "projeto_publico-alvo", 
  "macrotema", 
  "subtema"
]

In [70]:
df_v5_enconded = pd.get_dummies(df_v5, columns=colunas_categoricas)

df_v5_enconded.head()

Unnamed: 0,projeto_id,proponente_id,avaliador_id,avaliacao,projeto_impacto_Ambiental,"projeto_impacto_Ambiental, Científico","projeto_impacto_Ambiental, Econômico","projeto_impacto_Ambiental, Social",projeto_impacto_Científico,"projeto_impacto_Científico, Ambiental",...,macrotema_Produtividade e Competitividade,macrotema_Redução do Impacto Ambiental,subtema_Ciência e Pesquisa,subtema_Economia e Negócios,subtema_Educação e Desenvolvimento Pessoal,subtema_Engenharia e Infraestrutura,subtema_Saúde e Bem-estar,subtema_Sociedade e Cultura,subtema_Sustentabilidade e Meio Ambiente,subtema_Tecnologia e Inovação
0,1,1,167,5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
1,1,1,384,5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
2,1,1,499,5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
3,1,1,575,5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
4,1,1,796,5,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False


In [72]:
df_v5_enconded.shape

(9091, 60)

In [73]:
# gera o csv da base final

df_v5_enconded.to_csv('./data/processed/base-de-dados-final.csv', index=False)