In [37]:
import pandas as pd
import os

# Diretório onde os arquivos CSV estão localizados
data_dir = 'data'

# Nomes dos arquivos a serem carregados
files_to_load = {
    'proposal': 'Proposal_Data_proposal.csv',
    'project': 'Proposal_Data_proposal_project.csv',
    'company': 'Proposal_Data_proposal_project_company.csv',
    'address': 'Proposal_Data_proposal_address.csv',
    'benefit': 'Proposal_Data_proposal_benefit.csv',
    'contact': 'Proposal_Data_proposal_contact.csv',
    'multimedia': 'Proposal_Data_proposal_multimedia.csv',
    'benefit_address': 'Proposal_Data_proposal_benefit_address.csv'
}

# Carregar os dataframes
dataframes = {}
for key, filename in files_to_load.items():
    path = os.path.join(data_dir, filename)
    try:
        dataframes[key] = pd.read_csv(path)
        print(f"Arquivo {filename} carregado com sucesso.")
    except FileNotFoundError:
        print(f"Aviso: Arquivo {filename} não encontrado. Pulando.")
        dataframes[key] = pd.DataFrame()




Arquivo Proposal_Data_proposal.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_project.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_project_company.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_address.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_benefit.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_contact.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_multimedia.csv carregado com sucesso.
Arquivo Proposal_Data_proposal_benefit_address.csv carregado com sucesso.


In [38]:
# 1. Começar com 'project' como base
df_project = dataframes.get('project', pd.DataFrame())

df_proposal = dataframes.get('proposal', pd.DataFrame())

df_benefit = dataframes.get('benefit', pd.DataFrame())

df_company = dataframes.get('company', pd.DataFrame())

df_address = dataframes.get('address', pd.DataFrame())
df_benefit_address = dataframes.get('benefit_address', pd.DataFrame())
df_contact = dataframes.get('contact', pd.DataFrame())

In [39]:
def mesclar_datasets(df_principal: pd.DataFrame, 
                   df_auxiliar: pd.DataFrame, 
                   chaves: list, 
                   colunas: list,
                   tipo_join: str = 'left') -> pd.DataFrame:
   """
   Mescla dois DataFrames usando uma ou mais chaves comuns.
   
   Args:
       df_principal (pd.DataFrame): DataFrame base para a mesclagem
       df_auxiliar (pd.DataFrame): DataFrame com as informações a serem adicionadas
       chaves (list): Lista de colunas chave para fazer a junção
       colunas (list): Lista de colunas do df_auxiliar que devem ser incluídas
       tipo_join (str): Tipo de junção ('left', 'right', 'inner', 'outer'). Default: 'left'
   
   Returns:
       pd.DataFrame: DataFrame resultante da mesclagem
   
   Como usar:
   1. Prepare os DataFrames que deseja mesclar
   2. Defina as colunas chave comuns entre eles
   3. Liste as colunas que deseja incluir do DataFrame auxiliar
   Exemplo:
       # Mesclagem com uma chave
       df_vendas = mesclar_datasets(df_vendas, df_produtos, 
                                  ['CHAVE_PRODUTO'], ['LINHA'])
       
       # Mesclagem com múltiplas chaves
       df_vendas = mesclar_datasets(df_vendas, df_produtos,
                                  ['DATA', 'LINHA'], ['QUANTIDADE'])
   """
   try:
       # Selecionar apenas as colunas necessárias do DataFrame auxiliar
       df_auxiliar_reduzido = df_auxiliar[chaves + colunas]
       
       # Realizar a mesclagem
       df_resultado = pd.merge(
           df_principal,
           df_auxiliar_reduzido,
           on=chaves,
           how=tipo_join
       )
       
       print(f"Mesclagem realizada com sucesso!")
       print(f"Dimensões do resultado: {df_resultado.shape}")
       print(f"Chaves utilizadas: {chaves}")
       
       return df_resultado
       
   except Exception as e:
       print(f"Erro ao mesclar datasets: {str(e)}")
       print(f"Verifique se todas as chaves existem em ambos os DataFrames:")
       print(f"Colunas df_principal: {df_principal.columns.tolist()}")
       print(f"Colunas df_auxiliar: {df_auxiliar.columns.tolist()}")
       return df_principal

In [40]:
df_project.head(2)

Unnamed: 0,id,company_id,proposal_id,total,required_investment,description_project,updated_at,created_at,category
0,208,198,260.0,5100000.0,0.0,Expansão DIP FRANGOS S/A - Sem maiores detalhe...,2025-07-24 20:00:23,2021-10-06 02:07:54,implantation
1,209,199,261.0,65000000.0,0.0,Projeto de implantação de indústrias de bebida...,2023-02-26 20:02:52,2021-10-06 02:07:57,implantation


In [41]:
df_proposal.head(2)

Unnamed: 0,proposal_id,customer_id,location_id,responsible_id,project_id,status,type,visibility,name,completed_at,deleted_at,updated_at,created_at,user_id,city_id,address_id,latitude,longitude,lost_at
0,260,4,,6,208.0,open,company,restrict,Oportunidade DIP FRANGOS S/A,2024-03-26 17:40:01,,2025-08-04 14:00:04,2021-02-27 19:56:05,6,3977.0,,-24.556822,-54.087244,
1,261,4,,6,209.0,completed,company,restrict,Oportunidade MENDES E DOI LTDA,2023-05-08 15:51:25,,2025-08-04 14:00:04,2021-02-27 20:03:01,6,,,-20.468305,-54.717477,


In [42]:
colunas = ['total','required_investment','description_project','category']
chaves = ['proposal_id']

merged_df = mesclar_datasets(
    df_principal= df_proposal,
    df_auxiliar= df_project,
    chaves=chaves,
    colunas=colunas,
    tipo_join='left'
)

Mesclagem realizada com sucesso!
Dimensões do resultado: (665, 23)
Chaves utilizadas: ['proposal_id']


In [43]:
merged_df.head()

Unnamed: 0,proposal_id,customer_id,location_id,responsible_id,project_id,status,type,visibility,name,completed_at,...,user_id,city_id,address_id,latitude,longitude,lost_at,total,required_investment,description_project,category
0,260,4,,6,208.0,open,company,restrict,Oportunidade DIP FRANGOS S/A,2024-03-26 17:40:01,...,6,3977.0,,-24.556822,-54.087244,,5100000.0,0.0,Expansão DIP FRANGOS S/A - Sem maiores detalhe...,implantation
1,261,4,,6,209.0,completed,company,restrict,Oportunidade MENDES E DOI LTDA,2023-05-08 15:51:25,...,6,,,-20.468305,-54.717477,,65000000.0,0.0,Projeto de implantação de indústrias de bebida...,implantation
2,262,4,,6,210.0,completed,company,restrict,Oportunidade WAY BEER INDUSTRIA E COMERCIO DE ...,2023-05-08 15:51:29,...,6,4177.0,,-25.4429,-49.1927,,4000000.0,0.0,Projeto de Expansão de unidade produtora de be...,expansion
3,263,4,,6,211.0,completed,company,restrict,Oportunidade KLABIN S.A.,2024-10-09 20:06:58,...,6,4155.0,,-24.209546,-50.925395,,1700000000.0,0.0,Implanntação de unidade produtora de papel e c...,implantation
4,264,4,,6,212.0,completed,company,restrict,Oportunidade KAPAZI INDUSTRIA E COMERCIO DE CA...,2023-05-08 15:51:35,...,6,3916.0,,-25.3135,-49.2996,,12600000.0,0.0,Intensificação de produção na unidade atual co...,expansion


In [44]:
df_benefit.head(2)

Unnamed: 0,id,proposal_id,address_id,benefit_type,description_benefit,url_map,area,estimated_value,updated_at,created_at,restrictions,identification
0,90,420,,terreno,Terreno rural localizado no bairro Ribeirãozin...,https://goo.gl/maps/RA1kSTeJ9kVNAopA9,21.0,0.0,2021-10-06 02:14:40,2021-10-06 02:14:40,De acordo com a Lei 396/2007 - Lei de Uso e Oc...,Terreno rural
1,91,421,,terreno,Lote urbano nº 222 Quadra 50 - loteamento Cent...,https://goo.gl/maps/n1XmbTwtKkcYBtwL7,1000.0,0.0,2021-10-06 02:14:42,2021-10-06 02:14:42,O empreendimento é destinado para fins industr...,Lote urbano nº 222 Quadra 50 - loteamento Cent...


In [45]:
colunas = ['benefit_type','description_benefit','area','estimated_value','restrictions','identification']
chaves = ['proposal_id']

merged_df = mesclar_datasets(
    df_principal= merged_df,
    df_auxiliar= df_benefit,
    chaves=chaves,
    colunas=colunas,
    tipo_join='left'
)

Mesclagem realizada com sucesso!
Dimensões do resultado: (695, 29)
Chaves utilizadas: ['proposal_id']


In [46]:
merged_df.head()

Unnamed: 0,proposal_id,customer_id,location_id,responsible_id,project_id,status,type,visibility,name,completed_at,...,total,required_investment,description_project,category,benefit_type,description_benefit,area,estimated_value,restrictions,identification
0,260,4,,6,208.0,open,company,restrict,Oportunidade DIP FRANGOS S/A,2024-03-26 17:40:01,...,5100000.0,0.0,Expansão DIP FRANGOS S/A - Sem maiores detalhe...,implantation,,,,,,
1,261,4,,6,209.0,completed,company,restrict,Oportunidade MENDES E DOI LTDA,2023-05-08 15:51:25,...,65000000.0,0.0,Projeto de implantação de indústrias de bebida...,implantation,,,,,,
2,262,4,,6,210.0,completed,company,restrict,Oportunidade WAY BEER INDUSTRIA E COMERCIO DE ...,2023-05-08 15:51:29,...,4000000.0,0.0,Projeto de Expansão de unidade produtora de be...,expansion,,,,,,
3,263,4,,6,211.0,completed,company,restrict,Oportunidade KLABIN S.A.,2024-10-09 20:06:58,...,1700000000.0,0.0,Implanntação de unidade produtora de papel e c...,implantation,,,,,,
4,264,4,,6,212.0,completed,company,restrict,Oportunidade KAPAZI INDUSTRIA E COMERCIO DE CA...,2023-05-08 15:51:35,...,12600000.0,0.0,Intensificação de produção na unidade atual co...,expansion,,,,,,


In [47]:
df_company.head(2)

Unnamed: 0,id,city_id,state_id,project_id,federal_tax_id,share_capital,main_activity,zip,street,number,neighborhood,contact_name,contact_email,contact_phone,contact_cell_phone,site,updated_at,created_at,company_name
0,198,3977.0,22.0,208.0,21819180000000.0,48198752.0,,85760000.0,RODOVIA BR-167,KM 85,,Giancarlo Rocco,giancarlo@apdbrasil.org.br,,41996360000.0,,2024-07-17 23:37:44,2021-10-06 02:07:54,DIP FRANGOS S/A
1,199,5123.0,25.0,209.0,9544291000000.0,2900879.0,,79108670.0,ENGENHEIRO ANNES SALIM SAAD,59,,Giancarlo Rocco,giancarlo@apdbrasil.org.br,,41996360000.0,,2023-02-26 20:02:53,2021-10-06 02:07:57,MENDES E DOI LTDA


In [48]:
colunas = ['main_activity','zip','street','number','company_name','federal_tax_id']
chaves = ['project_id']

merged_df = mesclar_datasets(
    df_principal= merged_df,
    df_auxiliar= df_company,
    chaves=chaves,
    colunas=colunas,
    tipo_join='left'
)

Mesclagem realizada com sucesso!
Dimensões do resultado: (695, 35)
Chaves utilizadas: ['project_id']


In [49]:
merged_df.head()

Unnamed: 0,proposal_id,customer_id,location_id,responsible_id,project_id,status,type,visibility,name,completed_at,...,area,estimated_value,restrictions,identification,main_activity,zip,street,number,company_name,federal_tax_id
0,260,4,,6,208.0,open,company,restrict,Oportunidade DIP FRANGOS S/A,2024-03-26 17:40:01,...,,,,,,85760000.0,RODOVIA BR-167,KM 85,DIP FRANGOS S/A,21819180000000.0
1,261,4,,6,209.0,completed,company,restrict,Oportunidade MENDES E DOI LTDA,2023-05-08 15:51:25,...,,,,,,79108670.0,ENGENHEIRO ANNES SALIM SAAD,59,MENDES E DOI LTDA,9544291000000.0
2,262,4,,6,210.0,completed,company,restrict,Oportunidade WAY BEER INDUSTRIA E COMERCIO DE ...,2023-05-08 15:51:29,...,,,,,,,,,WAY BEER INDUSTRIA E COMERCIO DE BEBIDAS LTDA,12226690000000.0
3,263,4,,6,211.0,completed,company,restrict,Oportunidade KLABIN S.A.,2024-10-09 20:06:58,...,,,,,,,,,KLABIN S.A.,89637490000000.0
4,264,4,,6,212.0,completed,company,restrict,Oportunidade KAPAZI INDUSTRIA E COMERCIO DE CA...,2023-05-08 15:51:35,...,,,,,,,,,KAPAZI INDUSTRIA E COMERCIO DE CAPACHOS LTDA,80051820000000.0


In [50]:
merged_df.columns

Index(['proposal_id', 'customer_id', 'location_id', 'responsible_id',
       'project_id', 'status', 'type', 'visibility', 'name', 'completed_at',
       'deleted_at', 'updated_at', 'created_at', 'user_id', 'city_id',
       'address_id', 'latitude', 'longitude', 'lost_at', 'total',
       'required_investment', 'description_project', 'category',
       'benefit_type', 'description_benefit', 'area', 'estimated_value',
       'restrictions', 'identification', 'main_activity', 'zip', 'street',
       'number', 'company_name', 'federal_tax_id'],
      dtype='object')

In [51]:


# Salvar o resultado
output_path = os.path.join(data_dir, 'dados_consolidados.csv')
merged_df.to_csv(output_path, index=False)


In [52]:
print(f"\nMerge concluído! Os dados foram salvos em '{output_path}'")
print("\nVisualizando as 5 primeiras linhas do resultado:")
merged_df.head()


Merge concluído! Os dados foram salvos em 'data/dados_consolidados.csv'

Visualizando as 5 primeiras linhas do resultado:


Unnamed: 0,proposal_id,customer_id,location_id,responsible_id,project_id,status,type,visibility,name,completed_at,...,area,estimated_value,restrictions,identification,main_activity,zip,street,number,company_name,federal_tax_id
0,260,4,,6,208.0,open,company,restrict,Oportunidade DIP FRANGOS S/A,2024-03-26 17:40:01,...,,,,,,85760000.0,RODOVIA BR-167,KM 85,DIP FRANGOS S/A,21819180000000.0
1,261,4,,6,209.0,completed,company,restrict,Oportunidade MENDES E DOI LTDA,2023-05-08 15:51:25,...,,,,,,79108670.0,ENGENHEIRO ANNES SALIM SAAD,59,MENDES E DOI LTDA,9544291000000.0
2,262,4,,6,210.0,completed,company,restrict,Oportunidade WAY BEER INDUSTRIA E COMERCIO DE ...,2023-05-08 15:51:29,...,,,,,,,,,WAY BEER INDUSTRIA E COMERCIO DE BEBIDAS LTDA,12226690000000.0
3,263,4,,6,211.0,completed,company,restrict,Oportunidade KLABIN S.A.,2024-10-09 20:06:58,...,,,,,,,,,KLABIN S.A.,89637490000000.0
4,264,4,,6,212.0,completed,company,restrict,Oportunidade KAPAZI INDUSTRIA E COMERCIO DE CA...,2023-05-08 15:51:35,...,,,,,,,,,KAPAZI INDUSTRIA E COMERCIO DE CAPACHOS LTDA,80051820000000.0


In [53]:
merged_df.columns

Index(['proposal_id', 'customer_id', 'location_id', 'responsible_id',
       'project_id', 'status', 'type', 'visibility', 'name', 'completed_at',
       'deleted_at', 'updated_at', 'created_at', 'user_id', 'city_id',
       'address_id', 'latitude', 'longitude', 'lost_at', 'total',
       'required_investment', 'description_project', 'category',
       'benefit_type', 'description_benefit', 'area', 'estimated_value',
       'restrictions', 'identification', 'main_activity', 'zip', 'street',
       'number', 'company_name', 'federal_tax_id'],
      dtype='object')

In [54]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 695 entries, 0 to 694
Data columns (total 35 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   proposal_id          695 non-null    int64  
 1   customer_id          695 non-null    int64  
 2   location_id          0 non-null      float64
 3   responsible_id       695 non-null    int64  
 4   project_id           567 non-null    float64
 5   status               695 non-null    object 
 6   type                 695 non-null    object 
 7   visibility           695 non-null    object 
 8   name                 695 non-null    object 
 9   completed_at         248 non-null    object 
 10  deleted_at           66 non-null     object 
 11  updated_at           695 non-null    object 
 12  created_at           695 non-null    object 
 13  user_id              695 non-null    int64  
 14  city_id              684 non-null    float64
 15  address_id           107 non-null    flo