In [4]:
#IMPORTANDO BIBLIOTECAS
import numpy as np
import pandas as pd
import random

In [5]:
# INTERVALOS DE VALORES PARA OS CAMPOS
loa_min = 15
loa_max = 60

boca_min = 6
boca_max = 18

dwt_min = 30000
dwt_max = 200000

calado_entrada_min = 8
calado_entrada_max = 20

calado_saida_min = 8
calado_saida_max = 20

calado_aereo_min = 10
calado_aereo_max = 35

pontal_min = 5
pontal_max = 20

tamanho_lanca_min = 10
tamanho_lanca_max = 120

ano_construcao_min = 1998
ano_construcao_max = 2023

tipos_navio = ['GS', 'CG', 'GSM', 'GL', 'GLP', 'CNTR']


In [48]:
# NUMERO DE AMOSTRAS QUE SERÃO GERADAS
num_amostras = 4000

# GERAÇÃO DE VALORES ALEATÓRIOS VIA NUMPY
np.random.seed(0)
random.seed(0)

nomes = np.array(['Navio' + str(i) for i in range(1, num_amostras + 1)])

loa = np.random.randint(loa_min, loa_max, num_amostras)

boca = np.random.randint(boca_min, boca_max, num_amostras)

dwt = np.random.randint(dwt_min, dwt_max, num_amostras)

calado_entrada = np.random.randint(calado_entrada_min, calado_entrada_max, num_amostras)

calado_saida = np.random.randint(calado_saida_min, calado_saida_max, num_amostras)

calado_aereo = np.random.randint(calado_aereo_min, calado_aereo_max, num_amostras)

pontal = np.random.randint(pontal_min, pontal_max, num_amostras)

tamanho_lanca = np.random.randint(tamanho_lanca_min, tamanho_lanca_max, num_amostras)

ano_construcao = np.random.randint(ano_construcao_min, ano_construcao_max, num_amostras)

ultimo_porto = np.array(['Porto' + str(i) for i in np.random.randint(1, 200, num_amostras)])

proximo_porto = np.array(['Porto' + str(i) for i in np.random.randint(1, 200, num_amostras)])

tipo_navio = [random.choice(tipos_navio) for _ in range(num_amostras)]



In [49]:
#CRIAÇÃO DE DATAFRAME COM VALORES
data = {
    'Nome': nomes,
    'LOA (m)': loa,
    'Boca (m)': boca,
    'DWT (ton)': dwt,
    'Calado de Entrada (m)': calado_entrada,
    'Calado de Saída (m)': calado_saida,
    'Calado Aéreo (m)': calado_aereo,
    'Pontal (m)': pontal,
    'Tamanho de Lança (m)': tamanho_lanca,
    'Ano de Construção': ano_construcao,
    'Tipo do Navio': tipo_navio,
    'Último Porto': ultimo_porto,
    'Próximo Porto': proximo_porto
}

df = pd.DataFrame(data)

In [50]:
#CRIACAO DE CONDICOES PARA DETERMINAÇÃO DA CLASSE DE ACORDO COM PREVISORES
def determinar_classificacao(df):
    condicao_loa = df['LOA (m)'] <= 280
    condicao_boca = df['Boca (m)'] <= 50
    condicao_dwt = df['DWT (ton)'] <= 155000
    condicao_ce = df['Calado de Entrada (m)'] <= 18.5
    condicao_cs = df['Calado de Saída (m)'] <= 18.5
    condicao_idade = 2023 - df['Ano de Construção'] < 18

    combinacao = condicao_loa and condicao_boca and condicao_dwt and condicao_ce and condicao_cs and condicao_idade
    return 0 if combinacao else 1
# RECUSADOS TERÃO 1 E ACEITOS 0

In [51]:
#CRIACAO DA CLASSE 'SITUACAO' 1 - NEGADO, 0 - APROVADO
df['Situação'] = df.apply(determinar_classificacao, axis=1)
df

Unnamed: 0,Nome,LOA (m),Boca (m),DWT (ton),Calado de Entrada (m),Calado de Saída (m),Calado Aéreo (m),Pontal (m),Tamanho de Lança (m),Ano de Construção,Tipo do Navio,Último Porto,Próximo Porto,Situação
0,Navio1,59,11,197899,14,17,17,16,83,2020,GL,Porto102,Porto107,1
1,Navio2,15,12,41532,8,11,30,8,99,2015,GL,Porto27,Porto55,0
2,Navio3,18,7,153362,9,11,31,12,114,2005,GS,Porto83,Porto154,1
3,Navio4,18,6,65327,10,17,17,16,114,2000,GSM,Porto118,Porto37,1
4,Navio5,54,6,60690,18,15,31,16,103,2018,GLP,Porto27,Porto193,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,Navio3996,16,12,161215,8,12,32,16,108,2012,GL,Porto26,Porto84,1
3996,Navio3997,38,11,43739,15,11,12,11,110,2011,CNTR,Porto36,Porto164,0
3997,Navio3998,38,15,30055,9,14,28,12,21,2018,CNTR,Porto138,Porto156,0
3998,Navio3999,39,12,132342,17,11,28,7,69,2016,GSM,Porto33,Porto176,0


In [52]:
# VERIFICAÇÃO DO BALANCEAMENTO DA CLASSE
df['Situação'].value_counts() #Tendencia a criação de mais recusados do que aceitos, criando necessidade de balanceamento

Situação
1    2335
0    1665
Name: count, dtype: int64

In [58]:
# CRIAÇÃO DE INSTÂNCIAS SEPARADAS DE DUAS AMOSTRAS (TREINO / TESTAGEM)
df_aceitos_treino = df[df['Situação'] == 0].head(500).copy()
df_recusados_treino = df[df['Situação'] == 1].head(500).copy()
df_aceitos_testagem = df[df['Situação'] == 0].tail(800).copy()
df_recusados_testagem = df[df['Situação'] == 1].tail(200).copy()

In [64]:
# CRIAÇÃO DE DATAFRAMES BALANCEADOS E DESBALANCEADOS
df_balanceado = pd.concat([df_aceitos_treino, df_recusados_treino], ignore_index=True)#Juntando aceitos e recusados num DF para treino
df_balanceado = df_balanceado.sample(frac=1).reset_index(drop=True) #Embaralhando registros

df_desbalanceado = pd.concat([df_aceitos_testagem, df_recusados_testagem], ignore_index=True) #Juntando aceitos e recusados num DF para teste
df_desbalanceado = df_desbalanceado.sample(frac=1).reset_index(drop=True) #Embaralhando registros

#df_balanceado['Situação'].value_counts()
#df_desbalanceado['Situação'].value_counts()

Situação
0    800
1    200
Name: count, dtype: int64

In [66]:
df_balanceado.to_csv("dados_treino.csv")
df_desbalanceado.to_csv("dados_testagem.csv")