In [1]:
import pandas as pd
from imblearn.over_sampling import SMOTE

In [7]:
# Cargar el dataset
file_path = "final_static_data_basic.csv"
df = pd.read_csv(file_path)

# Verificar las categorías en 'shiptype'
print("Distribución original de shiptype:")
print(df['shiptype'].value_counts())

# Separar características (X) y variable objetivo (y)
X = df.drop(columns=['shiptype'])  # Eliminar la variable objetivo para aplicar SMOTE
y = df['shiptype']  # Variable objetivo

# Calcular el 50% más para la clase Passenger
num_passenger = df[df['shiptype'] == 'ShipType.Passenger'].shape[0]
num_passenger_augmented = int(num_passenger * 1.5)

# Aplicar SMOTE con incremento del 50% en Passenger
smote = SMOTE(sampling_strategy={'ShipType.Passenger': num_passenger_augmented}, random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# Crear un nuevo DataFrame con los datos aumentados
df_augmented = pd.concat([X_resampled, y_resampled], axis=1)

# Verificar la nueva distribución de shiptype
print("\nDistribución después de SMOTE:")
print(df_augmented['shiptype'].value_counts())

# Imprimir las cinco primeras filas del dataset generado
print("\nPrimeras 5 filas del dataset aumentado:")
print(df_augmented.head())

# Guardar el dataset aumentado
df_augmented.to_csv("final_static_basic_augmented.csv", index=False)
print("\nArchivo con SMOTE guardado correctamente como final_static_basic_augmented.csv")


Distribución original de shiptype:
shiptype
ShipType.Cargo        22097
ShipType.Tanker        8986
ShipType.Tug           5821
ShipType.Fishing       5551
ShipType.Passenger     2912
Name: count, dtype: int64

Distribución después de SMOTE:
shiptype
ShipType.Cargo        22097
ShipType.Tanker        8986
ShipType.Tug           5821
ShipType.Fishing       5551
ShipType.Passenger     4368
Name: count, dtype: int64

Primeras 5 filas del dataset aumentado:
   Unnamed: 0  MMSI  draught  to_bow  to_stern  to_port  to_starboard  \
0           0     5      3.4    10.0      27.0      5.0           5.0   
1           1     6      5.3     7.0      27.0      5.0           5.0   
2           2  1458      3.2     3.0      15.0      3.0           4.0   
3           3  2829      3.4     6.0      90.0      6.0           8.0   
4           4  3247      4.5    50.0      10.0      6.0           6.0   

             shiptype  
0        ShipType.Tug  
1        ShipType.Tug  
2    ShipType.Fishing  
3      