In [69]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("sinteticos_estaticos_TVAE_sin_distincion.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
            
             #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_TVAE_sin_distincion.csv", index=False)

print("✅ KS-Test completado para TVAE")


✅ KS-Test completado para TVAE


In [72]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            '%_unique_TVAE_sin_distincion': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],
        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  %_unique_TVAE_sin_distincion  \
0       ShipType.Cargo       draught                        100.00   
1       ShipType.Cargo        to_bow                        100.00   
2       ShipType.Cargo      to_stern                         99.85   
3       ShipType.Cargo       to_port                         99.98   
4       ShipType.Cargo  to_starboard                         99.99   
5     ShipType.Fishing       draught                        100.00   
6     ShipType.Fishing        to_bow                         99.80   
7     ShipType.Fishing      to_stern                         98.91   
8     ShipType.Fishing       to_port                         99.88   
9     ShipType.Fishing  to_starboard                         99.88   
10  ShipType.Passenger       draught                         99.89   
11  ShipType.Passenger        to_bow                         99.86   
12  ShipType.Passenger      to_stern                         99.78   
13  ShipType.Passeng

In [73]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("sinteticos_estaticos_GC_sin_distincion.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
        
         #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"
        
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        stat, p = ks_2samp(real_col, muestra_sintetica)

        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_GC_sin_distincion.csv", index=False)

print("✅ KS-Test completado para GC.")


✅ KS-Test completado para GC.


In [74]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            '%_unique_GC_sin_distincion': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],

        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  %_unique_GC_sin_distincion  \
0       ShipType.Cargo       draught                      100.00   
1       ShipType.Cargo        to_bow                      100.00   
2       ShipType.Cargo      to_stern                       99.91   
3       ShipType.Cargo       to_port                       99.94   
4       ShipType.Cargo  to_starboard                       99.96   
5     ShipType.Fishing       draught                      100.00   
6     ShipType.Fishing        to_bow                      100.00   
7     ShipType.Fishing      to_stern                       99.97   
8     ShipType.Fishing       to_port                       99.84   
9     ShipType.Fishing  to_starboard                       99.89   
10  ShipType.Passenger       draught                      100.00   
11  ShipType.Passenger        to_bow                      100.00   
12  ShipType.Passenger      to_stern                       99.97   
13  ShipType.Passenger       to_port            

In [75]:
import pandas as pd
import numpy as np
from scipy.stats import ks_2samp

# Cargar los datasets
real_data = pd.read_csv("final_static_data_basic.csv",index_col=0)
synthetic_data = pd.read_csv("sinteticos_estaticos_CTGAN_sin_distincion.csv")

# Tamaño de muestra de los datos sintéticos
tamano_muestra = 100  # Puedes modificar este valor

# Columnas numéricas comunes (descarta MMSI y shiptype)
variables_numericas = [
    col for col in real_data.select_dtypes(include=[np.number]).columns 
    if col not in ['MMSI', 'shiptype']
]

# Lista de resultados
resultados = []

# Shiptypes comunes
shiptypes = sorted(set(real_data['shiptype']).intersection(set(synthetic_data['shiptype'])))

for tipo in shiptypes:
    real_tipo = real_data[real_data['shiptype'] == tipo]
    synthetic_tipo = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        real_col = real_tipo[columna].dropna()
        synthetic_col = synthetic_tipo[columna].dropna()
        
        #Muestras aleatorias de tamaño igual
        muestra_real = real_col.sample(n=tamano_muestra, random_state=0)
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        
            # KS-Test con muestras de igual tamaño     
        stat, p = ks_2samp(real_col, muestra_sintetica)
        interpretacion = "Similares" if p > 0.05 else "Diferentes"
        
        muestra_sintetica = synthetic_col.sample(n=tamano_muestra, random_state=42)
        stat, p = ks_2samp(real_col, muestra_sintetica)

        interpretacion = "Similares" if p > 0.05 else "Diferentes"

        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'ks_statistic': stat,
            'p_value': p,
            'sample_size': tamano_muestra,
            'resultado': interpretacion
        })

# Guardar resultados
df_resultados = pd.DataFrame(resultados)
df_resultados.to_csv("ks_test_por_muestra_CTGAN_sin_distincion.csv", index=False)

print("✅ KS-Test completado para CTGAN'.")


✅ KS-Test completado para CTGAN'.


In [76]:
# Filtrar solo columnas numéricas (excluyendo 'MMSI')
variables_numericas = [
    col for col in synthetic_data.select_dtypes(include='number').columns
    if col not in ['MMSI']
]

# Lista para guardar resultados
resultados = []

# Iterar por cada tipo de barco
for tipo in sorted(synthetic_data['shiptype'].dropna().unique()):
    subset = synthetic_data[synthetic_data['shiptype'] == tipo]
    
    for columna in variables_numericas:
        n_unicos = subset[columna].dropna().nunique()
        resultados.append({
            'shiptype': tipo,
            'variable': columna,
            'unique_values': n_unicos,
            'total_values': subset[columna].dropna().shape[0],
            '%_unique_CTGAN_sin distincion': round((n_unicos / subset[columna].dropna().shape[0]) * 100, 2) if subset[columna].dropna().shape[0] > 0 else 0
        })

# Convertir a DataFrame
df_unicos = pd.DataFrame(resultados)

print(df_unicos)

              shiptype      variable  unique_values  total_values  \
0       ShipType.Cargo       draught          11162         11162   
1       ShipType.Cargo        to_bow          11162         11162   
2       ShipType.Cargo      to_stern          11161         11162   
3       ShipType.Cargo       to_port          11160         11162   
4       ShipType.Cargo  to_starboard          11160         11162   
5     ShipType.Fishing       draught           9742          9742   
6     ShipType.Fishing        to_bow           9709          9742   
7     ShipType.Fishing      to_stern           9725          9742   
8     ShipType.Fishing       to_port           9630          9742   
9     ShipType.Fishing  to_starboard           9732          9742   
10  ShipType.Passenger       draught           9020          9021   
11  ShipType.Passenger        to_bow           8999          9021   
12  ShipType.Passenger      to_stern           9021          9021   
13  ShipType.Passenger       to_po