In [59]:
import pandas as pd
import holoviews as hv
from holoviews import opts, dim
from itertools import combinations
from collections import Counter

In [60]:

hv.extension('bokeh')
hv.output(size=500)

# 1. Cargar el archivo
df = pd.read_excel('FRIAS_SpeciesList_MasterList.xlsx')

# Asegurar que sea lista (por si algunas filas son strings aún)
df['Source_Data'] = df['Source_Data'].apply(
    lambda x: x if isinstance(x, list) else [i.strip() for i in str(x).split(',') if pd.notna(x)]
)

# Eliminar listas vacías o NaNs
df = df[df['Source_Data'].map(len) > 0]

# Ahora sí, explotar en filas separadas
df_exploded = df.explode('Source_Data')


In [61]:
print(df_exploded)

           OriginalNameDB     AcceptedNameGBIF  ID_GBIF   Kingdom  \
0     Abbottina Rivularis  Abbottina Rivularis  5206304  Animalia   
0     Abbottina Rivularis  Abbottina Rivularis  5206304  Animalia   
0     Abbottina Rivularis  Abbottina Rivularis  5206304  Animalia   
0     Abbottina Rivularis  Abbottina Rivularis  5206304  Animalia   
0     Abbottina Rivularis  Abbottina Rivularis  5206304  Animalia   
...                   ...                  ...      ...       ...   
3422     Zostera Japonica     Zostera Japonica  2863943   Plantae   
3422     Zostera Japonica     Zostera Japonica  2863943   Plantae   
3422     Zostera Japonica     Zostera Japonica  2863943   Plantae   
3422     Zostera Japonica     Zostera Japonica  2863943   Plantae   
3422     Zostera Japonica     Zostera Japonica  2863943   Plantae   

           Phyllum        Class          Order                  Family  \
0         Chordata  Actinopteri  Cypriniformes  Cyprinidae, Gobionidae   
0         Chordata  Act

In [62]:
# 5. Calcular las 10 bases con más especies únicas
top_bases = (
    df_exploded.groupby('Source_Data')['AcceptedNameGBIF']
    .nunique()
    .sort_values(ascending=False)
    .head(5)
    .index
    .tolist()
)

In [63]:
print(top_bases)

['griis_2022', 'easin_2025', 'tedesco_et_al_2017', 'usriis_2022', 'artsdatabankennoruega_2025']


In [64]:
# 6. Filtrar el DataFrame original para quedarnos solo con esas bases
df['Source_Data'] = df['Source_Data'].apply(lambda lst: [s for s in lst if s in top_bases])
df = df[df['Source_Data'].map(len) >= 2]  # especies compartidas por al menos 2 de esas 10 bases

In [65]:
# 7. Contar cuántas especies se comparten entre cada par de bases
pair_counter = Counter()

for row in df.itertuples():
    bases = sorted(set(row.Source_Data))
    for pair in combinations(bases, 2):
        pair_counter[pair] += 1

In [66]:
print(pair_counter)

Counter({('griis_2022', 'tedesco_et_al_2017'): 430, ('easin_2025', 'griis_2022'): 364, ('artsdatabankennoruega_2025', 'griis_2022'): 245, ('artsdatabankennoruega_2025', 'easin_2025'): 238, ('griis_2022', 'usriis_2022'): 217, ('easin_2025', 'tedesco_et_al_2017'): 132, ('easin_2025', 'usriis_2022'): 132, ('artsdatabankennoruega_2025', 'usriis_2022'): 130, ('artsdatabankennoruega_2025', 'tedesco_et_al_2017'): 77, ('tedesco_et_al_2017', 'usriis_2022'): 72})


In [67]:
# 8. Preparar nodos (bases) y enlaces (pares que comparten especies)
all_bases = sorted(set(s for pair in pair_counter for s in pair))
nodes_df = pd.DataFrame({'index': range(len(all_bases)), 'name': all_bases})
name_to_index = dict(zip(nodes_df['name'], nodes_df['index']))

links_data = [
    {
        'source': name_to_index[src],
        'target': name_to_index[tgt],
        'value': value
    }
    for (src, tgt), value in pair_counter.items()
]

links_df = pd.DataFrame(links_data)


In [68]:
# 9. Crear Chord Diagram
nodes = hv.Dataset(nodes_df, 'index')
chord = hv.Chord((links_df, nodes), kdims=["source", "target"], vdims=["value"]).select(value=(1, None))

In [69]:

chord.opts(
    opts.Chord(
        cmap='Category20',
        edge_cmap='Category20',
        edge_color=dim('source').str(),
        labels='name',
        node_color=dim('index').str(),
        label_text_font_size='16pt',  # <-- aquí
        width=800,
        height=800
    )
)

# 10. Mostrar el chord diagram (si estás fuera de Jupyter)
from bokeh.plotting import show
show(hv.render(chord))

In [55]:
from bokeh.io import save

# Opcional: renderizamos el gráfico a un objeto Bokeh
bokeh_plot = hv.render(chord)

# Guardar en archivo HTML
save(bokeh_plot, filename="chord_diagram.html")


  save(bokeh_plot, filename="chord_diagram.html")
  save(bokeh_plot, filename="chord_diagram.html")


'C:\\Users\\ruben\\Desktop\\chord_diagram.html'