# Instala bibliotecas

In [3]:
%pip install --upgrade pip --quiet
%pip install pandas openpyxl --quiet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


# Importa bibliotecas

In [4]:
import pandas as pd

# Processamento

## Criação dos dataframes

In [5]:
# Define o caminho do dataset
caminho_do_dataset = './data/raw/base-de-dados.xlsx'

# Separa as planilhas em três dataframes
df_ds_c_levels = pd.read_excel(caminho_do_dataset, sheet_name='ds-c-levels', header=0)
df_ds_projetos = pd.read_excel(caminho_do_dataset, sheet_name='ds-projetos', header=0)
df_ds_avaliacao = pd.read_excel(caminho_do_dataset, sheet_name='ds-avaliação', header=0)

## Merge

In [6]:
# Renomeia colunas dos dataframes originais
df_ds_projetos.rename(columns={
    'público-alvo': 'projeto_publico-alvo',
    'alcance geográfico': 'projeto_alcance-geografico',
    'id': 'projeto_id',
    'projeto': 'projeto_nome',
    'setor': 'projeto_setor',
    'macrosetor': 'projeto_macrossetor',
    'impacto-esperado': 'projeto_impacto',
    'status': 'projeto_status',
}, inplace=True)

df_ds_avaliacao.rename(columns={
    'id_proponente': 'avaliador_id',
    'avaliação': 'avaliacao'
}, inplace=True)

# Faz a junção das tabelas de projetos e avaliações
df_mesclado = pd.merge(df_ds_projetos, df_ds_avaliacao, left_on='projeto_id', right_on='id_projeto').drop('id_projeto', axis=1)

# Adiciona "proponente_" nas colunas do dataframe "df_proponente"
df_proponente = df_ds_c_levels.rename(columns={
    'proponente': 'proponente_nome',
    'nome da empresa': 'proponente_empresa',
    'indústria de atuação': 'proponente_atuacao',
    'cargo': 'proponente_cargo'
})

# Faz a junção das tabelas de projetos/avaliações e usuários (em relação ao proponente)
df_mesclado = pd.merge(df_mesclado, df_proponente, left_on='proponente_id', right_on='id').drop('id', axis=1)

# Adiciona "avaliador_" nas colunas do dataframe "df_avaliador"
df_avaliador = df_ds_c_levels.rename(columns={
    'proponente': 'avaliador_nome',
    'nome da empresa': 'avaliador_empresa',
    'indústria de atuação': 'avaliador_atuacao',
    'cargo': 'avaliador_cargo'
})

# Faz a junção das tabelas de projetos/avaliações e usuários (em relação ao proponente)
df_mesclado = pd.merge(df_mesclado, df_avaliador, left_on='avaliador_id', right_on='id').drop('id', axis=1)

# Reordena as colunas
df_mesclado = df_mesclado[['projeto_id', 'projeto_nome', 'projeto_setor', 'projeto_macrossetor', 'projeto_impacto', 'projeto_status', 'projeto_alcance-geografico', 'projeto_publico-alvo', 'proponente_id', 'proponente_nome', 'proponente_empresa', 'proponente_atuacao', 'proponente_cargo', 'avaliador_id', 'avaliador_nome', 'avaliador_empresa', 'avaliador_atuacao', 'avaliador_cargo', 'avaliacao']]

# Exporta para CSV
df_mesclado.to_csv('./data/processed/base-de-dados-mesclada.csv', index=False)

In [7]:
df_mesclado.head()

Unnamed: 0,projeto_id,projeto_nome,projeto_setor,projeto_macrossetor,projeto_impacto,projeto_status,projeto_alcance-geografico,projeto_publico-alvo,proponente_id,proponente_nome,proponente_empresa,proponente_atuacao,proponente_cargo,avaliador_id,avaliador_nome,avaliador_empresa,avaliador_atuacao,avaliador_cargo,avaliacao
0,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,167,Geci Quintais,Siemens,Tecnologia Energética,Embaixador,5
1,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,384,Nautilia Carneiro Nascimento Chousa,Uber,Transporte e Tecnologia,Embaixador,5
2,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,499,Cleomarcos Taveira Franco Bencatel,Apple,Tecnologia,CFO,5
3,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,575,Josenara Carrasqueira,Siemens,Tecnologia e Engenharia,CIO,5
4,1,Como Manter a Esperança?,Psicologia,Saúde e Bem-estar,Social,Em planejamento,Local,Consumidores e Empresas,1,Braian Goulart,Fundação Banco do Brasil,Terceiro Setor,COO,796,Cecil Severo,LinkedIn,Tecnologia e Networking,CFO,5


In [11]:
df_mesclado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9101 entries, 0 to 9100
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   projeto_id                  9101 non-null   int64 
 1   projeto_nome                9101 non-null   object
 2   projeto_setor               9101 non-null   object
 3   projeto_macrossetor         9101 non-null   object
 4   projeto_impacto             9101 non-null   object
 5   projeto_status              9101 non-null   object
 6   projeto_alcance-geografico  9101 non-null   object
 7   projeto_publico-alvo        9101 non-null   object
 8   proponente_id               9101 non-null   int64 
 9   proponente_nome             9101 non-null   object
 10  proponente_empresa          9101 non-null   object
 11  proponente_atuacao          9101 non-null   object
 12  proponente_cargo            9101 non-null   object
 13  avaliador_id                9101 non-null   int6

In [8]:
print(f'O dataset final possui {df_mesclado.shape[0]} linhas e {df_mesclado.shape[1]} colunas.')

O dataset final possui 9101 linhas e 19 colunas.
