In [18]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("synthetic_static_basic_TVAE.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
            
             #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_TVAE_shiptype.csv",sep=';',index=False)

print("✅ KS-Test completado para TVAE")

✅ KS-Test completado para TVAE


In [19]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            '%_unique_TVAE_shiptype': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],
        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  %_unique_TVAE_shiptype  unique_values  \
0       ShipType.Cargo       draught                   99.91          24331   
1       ShipType.Cargo        to_bow                  100.00          24353   
2       ShipType.Cargo      to_stern                   99.96          24344   
3       ShipType.Cargo       to_port                   99.98          24349   
4       ShipType.Cargo  to_starboard                  100.00          24352   
5     ShipType.Fishing       draught                   99.97           6115   
6     ShipType.Fishing        to_bow                   99.97           6115   
7     ShipType.Fishing      to_stern                   99.84           6107   
8     ShipType.Fishing       to_port                  100.00           6117   
9     ShipType.Fishing  to_starboard                   99.93           6113   
10  ShipType.Passenger       draught                   99.94           3207   
11  ShipType.Passenger        to_bow                

In [20]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("synthetic_static_basic_GaussianCopula.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
            
             #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_GaussianCopula_shiptype.csv",sep=';', index=False)

print("✅ KS-Test completado para Gaussian Copula")

✅ KS-Test completado para Gaussian Copula


In [21]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            '%_unique_GaussianCopula_shiptype': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],
        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  %_unique_GaussianCopula_shiptype  \
0       ShipType.Cargo       draught                             99.53   
1       ShipType.Cargo        to_bow                            100.00   
2       ShipType.Cargo      to_stern                             99.94   
3       ShipType.Cargo       to_port                             99.92   
4       ShipType.Cargo  to_starboard                             99.95   
5     ShipType.Fishing       draught                             99.77   
6     ShipType.Fishing        to_bow                             99.92   
7     ShipType.Fishing      to_stern                             99.77   
8     ShipType.Fishing       to_port                            100.00   
9     ShipType.Fishing  to_starboard                            100.00   
10  ShipType.Passenger       draught                            100.00   
11  ShipType.Passenger        to_bow                            100.00   
12  ShipType.Passenger      to_stern  

In [22]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("synthetic_static_basic_CTGAN.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
            
             #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_CTGAN_shiptype.csv",sep=';', index=False)

print("✅ KS-Test completado para CTGAN")

✅ KS-Test completado para CTGAN


In [23]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            '%_unique_CTGAN_shiptype': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],
        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  %_unique_CTGAN_shiptype  unique_values  \
0       ShipType.Cargo       draught                    99.86          24319   
1       ShipType.Cargo        to_bow                    98.70          24037   
2       ShipType.Cargo      to_stern                    99.97          24346   
3       ShipType.Cargo       to_port                    98.94          24094   
4       ShipType.Cargo  to_starboard                    99.90          24329   
5     ShipType.Fishing       draught                    98.92           6051   
6     ShipType.Fishing        to_bow                    99.80           6105   
7     ShipType.Fishing      to_stern                    97.52           5965   
8     ShipType.Fishing       to_port                   100.00           6117   
9     ShipType.Fishing  to_starboard                   100.00           6117   
10  ShipType.Passenger       draught                    99.03           3178   
11  ShipType.Passenger        to_bow    