In [1]:
from collections import defaultdict

import networkx as nx

In [2]:
path_gexf = 'out/elbulli_nlg.gexf'
graph = nx.read_gexf(path_gexf)

In [3]:
graph.number_of_nodes()

9764

In [4]:
graph.number_of_edges()

33252

In [5]:
graph.node['1']

{'label': '1',
 'nodetype': 'Receta',
 'titulo': 'terrina de melón con gelée de oporto'}

In [6]:
graph['1']

{'1987': {'edgetype': 'publicado en', 'id': '949'},
 'Elaboracion19871997-523': {'edgetype': 'elaboracion', 'id': '944'},
 'Elaboracion19871997-542': {'edgetype': 'elaboracion', 'id': '947'},
 'Estilo19871997-25': {'edgetype': 'estilo', 'id': '946'},
 'FRÍA': {'edgetype': 'temperatura', 'id': '945'},
 'PLATOS': {'edgetype': 'se clasifica', 'id': '948'}}

In [7]:
node_types = set()
for n, data in graph.nodes(data=True):
    typ = data['nodetype']
    node_types.add(typ)

In [8]:
node_types

{'Año',
 'Elaboracion',
 'Estilo',
 'Familia Elaboracion',
 'Familia Estilo',
 'Familia Receta',
 'Familia Tecnica',
 'Mundo',
 'Producto',
 'Receta',
 'Tecnica',
 'Temperatura',
 'ingrediente',
 'sabor',
 'tecnica'}

In [9]:
all_edge_types = set()
for n1, n2, data in graph.edges(data=True):
    dom = graph.node[n1]['nodetype']
    ran = graph.node[n2]['nodetype']
    typ = data['edgetype']
    all_edge_types.add((typ, dom, ran))

In [10]:
all_edge_types

{('alcohol', 'Elaboracion', 'Producto'),
 ('bañado', 'Elaboracion', 'Producto'),
 ('chocolate', 'Elaboracion', 'Producto'),
 ('composicion', 'Elaboracion', 'ingrediente'),
 ('composicion', 'ingrediente', 'Elaboracion'),
 ('elaboracion', 'Receta', 'Elaboracion'),
 ('estilo', 'Receta', 'Estilo'),
 ('lacteo', 'Elaboracion', 'Producto'),
 ('mundo', 'Elaboracion', 'Mundo'),
 ('mundo', 'Mundo', 'Elaboracion'),
 ('nuevaPasta', 'Elaboracion', 'Producto'),
 ('producto', 'Elaboracion', 'Producto'),
 ('publicado en', 'Año', 'Receta'),
 ('publicado en', 'Receta', 'Año'),
 ('relleno', 'Elaboracion', 'Producto'),
 ('sabor', 'Elaboracion', 'sabor'),
 ('se clasifica', 'Elaboracion', 'Familia Elaboracion'),
 ('se clasifica', 'Estilo', 'Familia Estilo'),
 ('se clasifica', 'Familia Elaboracion', 'Elaboracion'),
 ('se clasifica', 'Familia Estilo', 'Estilo'),
 ('se clasifica', 'Familia Tecnica', 'Tecnica'),
 ('se clasifica', 'Receta', 'Familia Receta'),
 ('se clasifica', 'Tecnica', 'Familia Tecnica'),
 ('t

In [11]:
edge_types_dict = {
    ('alcohol', 'Elaboracion', 'Producto'): ('alcohol', 'Elaboracion', 'Producto'),
    ('bañado', 'Elaboracion', 'Producto'): ('bañado', 'Elaboracion', 'Producto'),
    ('chocolate', 'Elaboracion', 'Producto'): ('chocolate', 'Elaboracion', 'Producto'),
    ('composicion', 'Elaboracion', 'ingrediente'): ('composicion', 'Elaboracion', 'ingrediente'),
    ('composicion', 'ingrediente', 'Elaboracion'): ('composicion', 'Elaboracion', 'ingrediente'),
    ('elaboracion', 'Receta', 'Elaboracion'): ('elaboracion', 'Receta', 'Elaboracion'),
    ('estilo', 'Receta', 'Estilo'): ('estilo', 'Receta', 'Estilo'),
    ('lacteo', 'Elaboracion', 'Producto'): ('lacteo', 'Elaboracion', 'Producto'),
    ('mundo', 'Elaboracion', 'Mundo'): ('mundo', 'Elaboracion', 'Mundo'),
    ('mundo', 'Mundo', 'Elaboracion'): ('mundo', 'Elaboracion', 'Mundo'),
    ('nuevaPasta', 'Elaboracion', 'Producto'): ('nuevaPasta', 'Elaboracion', 'Producto'),
    ('producto', 'Elaboracion', 'Producto'): ('producto', 'Elaboracion', 'Producto'),
    ('publicado en', 'Año', 'Receta'): ('publicado en', 'Receta', 'Año'),
    ('publicado en', 'Receta', 'Año'): ('publicado en', 'Receta', 'Año'),
    ('relleno', 'Elaboracion', 'Producto'): ('relleno', 'Elaboracion', 'Producto'),
    ('sabor', 'Elaboracion', 'sabor'): ('sabor', 'Elaboracion', 'sabor'),
    ('se clasifica', 'Elaboracion', 'Familia Elaboracion'): ('se clasifica', 'Elaboracion', 'Familia Elaboracion'),
    ('se clasifica', 'Estilo', 'Familia Estilo'): ('se clasifica', 'Estilo', 'Familia Estilo'),
    ('se clasifica', 'Familia Elaboracion', 'Elaboracion'): ('se clasifica', 'Elaboracion', 'Familia Elaboracion'),
    ('se clasifica', 'Familia Estilo', 'Estilo'): ('se clasifica', 'Estilo', 'Familia Estilo'),
    ('se clasifica', 'Familia Tecnica', 'Tecnica'): ('se clasifica', 'Tecnica', 'Familia Tecnica'),
    ('se clasifica', 'Receta', 'Familia Receta'): ('se clasifica', 'Receta', 'Familia Receta'),
    ('se clasifica', 'Tecnica', 'Familia Tecnica'): ('se clasifica', 'Tecnica', 'Familia Tecnica'),
    ('tecnica', 'Elaboracion', 'tecnica'): ('tecnica', 'Elaboracion', 'tecnica'),
    ('tecnica', 'Receta', 'Tecnica'): ('tecnica', 'Receta', 'Tecnica'),
    ('temperatura', 'Receta', 'Temperatura'): ('temperatura', 'Receta', 'Temperatura'),
}

In [12]:
edge_types = set()
for k in edge_types_dict:
    edge_types.add(edge_types_dict[k])

In [13]:
edge_types

{('alcohol', 'Elaboracion', 'Producto'),
 ('bañado', 'Elaboracion', 'Producto'),
 ('chocolate', 'Elaboracion', 'Producto'),
 ('composicion', 'Elaboracion', 'ingrediente'),
 ('elaboracion', 'Receta', 'Elaboracion'),
 ('estilo', 'Receta', 'Estilo'),
 ('lacteo', 'Elaboracion', 'Producto'),
 ('mundo', 'Elaboracion', 'Mundo'),
 ('nuevaPasta', 'Elaboracion', 'Producto'),
 ('producto', 'Elaboracion', 'Producto'),
 ('publicado en', 'Receta', 'Año'),
 ('relleno', 'Elaboracion', 'Producto'),
 ('sabor', 'Elaboracion', 'sabor'),
 ('se clasifica', 'Elaboracion', 'Familia Elaboracion'),
 ('se clasifica', 'Estilo', 'Familia Estilo'),
 ('se clasifica', 'Receta', 'Familia Receta'),
 ('se clasifica', 'Tecnica', 'Familia Tecnica'),
 ('tecnica', 'Elaboracion', 'tecnica'),
 ('tecnica', 'Receta', 'Tecnica'),
 ('temperatura', 'Receta', 'Temperatura')}

In [14]:
for n1, n2, data in graph.edges(data=True):
    dom = graph.node[n1]['nodetype']
    ran = graph.node[n2]['nodetype']
    typ = data['edgetype']
    if (typ, dom, ran) not in edge_types:
        if (typ, ran, dom) in edge_types:
            graph.remove_edge(n1, n2)
            graph.add_edge(n2, n1, data)
        else:
            print((typ, dom, ran))

In [15]:
node_type_count = defaultdict(int)
for n, data in graph.nodes(data=True):
    typ = data['nodetype']
    node_type_count[typ] += 1
node_type_count = dict(node_type_count)

In [16]:
edge_type_count = defaultdict(int)
for n1, n2, data in graph.edges(data=True):
    dom = graph.node[n1]['nodetype']
    ran = graph.node[n2]['nodetype']
    typ = data['edgetype']
    edge_type_count[edge_types_dict[(typ, dom, ran)]] += 1
edge_type_count = dict(edge_type_count)

In [17]:
node_type_count

{'Año': 18,
 'Elaboracion': 4636,
 'Estilo': 900,
 'Familia Elaboracion': 202,
 'Familia Estilo': 22,
 'Familia Receta': 12,
 'Familia Tecnica': 7,
 'Mundo': 2,
 'Producto': 201,
 'Receta': 1214,
 'Tecnica': 139,
 'Temperatura': 27,
 'ingrediente': 1732,
 'sabor': 628,
 'tecnica': 24}

In [18]:
edge_type_count

{('alcohol', 'Elaboracion', 'Producto'): 13,
 ('bañado', 'Elaboracion', 'Producto'): 9,
 ('chocolate', 'Elaboracion', 'Producto'): 158,
 ('composicion', 'Elaboracion', 'ingrediente'): 9940,
 ('elaboracion', 'Receta', 'Elaboracion'): 4636,
 ('estilo', 'Receta', 'Estilo'): 900,
 ('lacteo', 'Elaboracion', 'Producto'): 37,
 ('mundo', 'Elaboracion', 'Mundo'): 4636,
 ('nuevaPasta', 'Elaboracion', 'Producto'): 33,
 ('producto', 'Elaboracion', 'Producto'): 225,
 ('publicado en', 'Receta', 'Año'): 1214,
 ('relleno', 'Elaboracion', 'Producto'): 36,
 ('sabor', 'Elaboracion', 'sabor'): 2967,
 ('se clasifica', 'Elaboracion', 'Familia Elaboracion'): 4636,
 ('se clasifica', 'Estilo', 'Familia Estilo'): 900,
 ('se clasifica', 'Receta', 'Familia Receta'): 1214,
 ('se clasifica', 'Tecnica', 'Familia Tecnica'): 139,
 ('tecnica', 'Elaboracion', 'tecnica'): 206,
 ('tecnica', 'Receta', 'Tecnica'): 139,
 ('temperatura', 'Receta', 'Temperatura'): 1214}

In [19]:
path_gexf = 'out/elbulli_nlg.gexf'
nx.write_gexf(graph, path_gexf)