Graphs

Los graphs son estructuras de datos no lineares que consisten de vertices (nodos) y edges.

Un vertex, tambien llamado nodo, es un punto o un objeto en el grpah y un edge es utilizado para conectar dos vertices.

Los graphs son usados para representar y resolver problemas cuando la data consiste de objetos y relaciones entre ellos como:

1. Social networks: Cada persona es un vertex y las relaciones (como una amistad) son las edges. Entonces los algoritmos podrian sugerir potenciales amistades.

2. Mapas y navegacion: Ubicaciones como una ciudad o parada de colectivo son almacenados como vertices y las rutas como edges. Los algoritmos buscan el camino mas corto.

3. Internet: Puede ser representada como graphs donde los vertices son las paginas web y los hyperlinks son edges.

4. Biologia: Los graphs pueden modelar sistemas como las neural networks (NN).

Propiedades de un graph:

1. Weighted: El weighted graph es un graph donde los edges tienen valor. El weight puede representar cosas como distancia, probabilidad, tiempo, etc.

2. Connected: Un graph es connected cuando todos sus certices estan conectados como edges de alguna manera. Un graph no conectado es isolated.

3. Directed: Tambien conocido como digraph es cuando los edges entre vertices pares tienen una direccion. La direccion del edge puede representar cosas como jerarquia. Esto puede ser directed cyclic o undirected cyclic

4. Loop: Es un edge que comienza y termina en el mismo vertice.

Representaciones de graphs:

## 1. Adjacency matrix
Es una array 2D (matriz) donde cada celda del indice (i,j) almacena información sobre los edges del vertice i al j. Basicamente seria una matriz i x j donde se representa con un 1 los links que hay entre los vertices (por ejemplo un edge entre vertice A y B daría una matriz [0, 1], [1, 0])

Esto tambien puede ser representado en weighted graphs (como por ejemplo la distancia entre vertices unidos por flechas)

## 1. Adjacency list graph

Funcionan de manera similar a las matrices mencionadas previamente pero en este caso no almacenan valores nulos al pasar unicamente los edges de cada vertice. Tambien se las puede utilizar para weighted graphs siendo para este caso necesario almacenar el vertice al que hay un edge (i) y el weight (w) como (i,w).

Ahora vamos a implementar un graph undirected. A programar:

In [1]:
vertexData = ['A', 'B', 'C', 'D']

adjacency_matrix = [
  #  A  B  C  D 
    [0, 1, 1, 1],  # Edges para A
    [1, 0, 1, 0],  # Edges para B
    [1, 1, 0, 0],  # Edges para C
    [1, 0, 0, 0]   # Edges para D
]

# D unido a A, 
# C unido a A y B,
# B unido a A y C,
# A unido a B, C y D

def print_adjacency_matrix(matrix):
    print("\nAdjacency Matrix:")
    for row in matrix:
        print(row)

print('Vertex data: ', vertexData)
print_adjacency_matrix(adjacency_matrix)


Vertex data:  ['A', 'B', 'C', 'D']

Adjacency Matrix:
[0, 1, 1, 1]
[1, 0, 1, 0]
[1, 1, 0, 0]
[1, 0, 0, 0]


In [4]:
#Print de conexiones 

def print_connections(matrix, vertices):
    print("\nConnections para cada vertice:")
    for i in range(len(vertices)):
        print(f"{vertices[i]}:", end="")
        for j in range(len(vertices)):
            if matrix[i][j]:
                print(vertices[j], end="")
        print()



print_connections(adjacency_matrix, vertexData)


Connections para cada vertice:
A:BCD
B:AC
C:AB
D:A


Como se puede mejorar esto? Abstraerlo y crear una clase

In [5]:
class Graph:
    def __init__(self, size) :
        self.adj_matrix = [[0] * size for _ in range(size)]
        self.size = size
        self.vertex_data = [''] * size
    
    def add_edge(self,u,v):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = 1
            self.adj_matrix[v][u] = 1

    def add_vertex_data(self,vertex,data):
        if 0 <= vertex < self.size:
            self.vertex_data[vertex] = data

    def print_graph(self):
        print("Adjacency Matrix:")
        for row in self.adj_matrix:
            print(' '.join(map(str, row)))
        print("\nVertex Data:")
        for vertex, data in enumerate(self.vertex_data):
            print(f"vertex {vertex}: {data}")

g = Graph(4)
g.add_vertex_data(0, 'A')
g.add_vertex_data(1, 'B')
g.add_vertex_data(2, 'C')
g.add_vertex_data(3, 'D')
g.add_edge(0, 1)  # A - B
g.add_edge(0, 2)  # A - C
g.add_edge(0, 3)  # A - D
g.add_edge(1, 2)  # B - C

g.print_graph()


Adjacency Matrix:
0 1 1 1
1 0 1 0
1 1 0 0
1 0 0 0

Vertex Data:
vertex 0: A
vertex 1: B
vertex 2: C
vertex 3: D


Por otro lado, si quisiese implementar un weighted graph solo hay que hacer unas modificaciones a la implementacion anterior

In [7]:
class Graph:
    def __init__(self, size):
        self.adj_matrix = [[None] * size for _ in range(size)]
        self.size = size
        self.vertex_data = [''] * size

    
    def add_edge(self, u, v, weight):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = weight

    def add_vertex_data(self, vertex, data):
        if 0 <= vertex < self.size:
            self.vertex_data[vertex] = data

    def print_graph(self):
        print("Adjacency Matrix:")
        for row in self.adj_matrix:
            print(' '.join(map(lambda x: str(x) if x is not None else '0', row)))
        print("\nVertex Data:")
        for vertex, data in enumerate(self.vertex_data):
            print(f"Vertex {vertex}: {data}")

g = Graph(4)
g.add_vertex_data(0, 'A')
g.add_vertex_data(1, 'B')
g.add_vertex_data(2, 'C')
g.add_vertex_data(3, 'D')
# u = vertex, v = ->vertex, weight=distance
g.add_edge(0, 1, 3)  # A -> B with weight 3
g.add_edge(0, 2, 2)  # A -> C with weight 2
g.add_edge(3, 0, 4)  # D -> A with weight 4
g.add_edge(2, 1, 1)  # C -> B with weight 1

g.print_graph()

Adjacency Matrix:
0 3 2 0
0 0 0 0
0 1 0 0
4 0 0 0

Vertex Data:
Vertex 0: A
Vertex 1: B
Vertex 2: C
Vertex 3: D


Graphs traversasl.

Atravesar un graph significa empeza en un vertex y recorrer los edges hasta que todos o la mayoria hayan sido visitados.

Esto se puede realizar con:
1. Depth First Search
2. Breadth First Search

DFS se realiza generalmente con un stack es decir ( FunctionA calls FunctionB, FunctionB is placed on top of the call stack and starts running. Once FunctionB is finished, it is removed from the stack, and then FunctionA resumes its work.) Mientras que BFS se realiza mediante Queue

Implementacion DFS:

In [9]:
class Graph:
    def __init__(self, size):
        self.adj_matrix = [[0] * size for _ in range(size)]
        self.size = size
        self.vertex_data = [''] * size  

    def add_edge(self, u, v):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = 1
            self.adj_matrix[v][u] = 1

    def add_vertex_data(self, vertex, data):
        if 0 <= vertex < self.size:
            self.vertex_data[vertex] = data

    def print_graph(self):
        print("Adjacency Matrix:")
        for row in self.adj_matrix:
            print(' '.join(map(str, row)))
        print("\nVertex Data:")
        for vertex, data in enumerate(self.vertex_data):
            print(f"Vertex {vertex}: {data}")
            
    def dfs_util(self, v, visited):
        visited[v] = True
        print(self.vertex_data[v], end=' ')

        for i in range(self.size):
            if self.adj_matrix[v][i] == 1 and not visited[i]:
                self.dfs_util(i, visited)

    def dfs(self, start_vertex_data):
        visited = [False] * self.size
        start_vertex = self.vertex_data.index(start_vertex_data)
        self.dfs_util(start_vertex, visited)


g = Graph(7)

g.add_vertex_data(0, 'A')
g.add_vertex_data(1, 'B')
g.add_vertex_data(2, 'C')
g.add_vertex_data(3, 'D')
g.add_vertex_data(4, 'E')
g.add_vertex_data(5, 'F')
g.add_vertex_data(6, 'G')

g.add_edge(3, 0)  # D - A
g.add_edge(0, 2)  # A - C
g.add_edge(0, 3)  # A - D
g.add_edge(0, 4)  # A - E
g.add_edge(4, 2)  # E - C
g.add_edge(2, 5)  # C - F
g.add_edge(2, 1)  # C - B
g.add_edge(2, 6)  # C - G
g.add_edge(1, 5)  # B - F

g.print_graph()

print("\nDepth First Search starting from vertex D:")
g.dfs('D')
        

Adjacency Matrix:
0 0 1 1 1 0 0
0 0 1 0 0 1 0
1 1 0 0 1 1 1
1 0 0 0 0 0 0
1 0 1 0 0 0 0
0 1 1 0 0 0 0
0 0 1 0 0 0 0

Vertex Data:
Vertex 0: A
Vertex 1: B
Vertex 2: C
Vertex 3: D
Vertex 4: E
Vertex 5: F
Vertex 6: G

Depth First Search starting from vertex D:
D A C B F E G 

En cambio, para BFS solo deberiamos actualizar la funcion de busqueda y visitados


In [None]:
def bfs(self, start_vertex_data):
    queue = [self.vertex_data.index(start_vertex_data)]
    visited = False * self.size
    visited[queue[0]] = True

    while queue:
        current_vertex = queue.pop(0)
        print(self.vertex_data[current_vertex], end=" ")

        for i in range(self.size):
            if self.adj_matrix[current_vertex][i] == 1 and not visited[i]:
                queue.append(i)
                visited[i] = True

Y por ultimo, si se trata de un directed graph solo debemos ajustar la funcion add_edge:

In [None]:
def add_edge(self, u, v):
    if 0 <= u < self.size and 0 <= v < self.size:
        self.adj_matrix[u][v] = 1
        

In [10]:
class Graph:
    def __init__(self, size):
        self.adj_matrix = [[0] * size for _ in range(size)]
        self.size = size
        self.vertex_data = [''] * size  

    def add_edge(self, u, v):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = 1
            #self.adj_matrix[v][u] = 1

    def add_vertex_data(self, vertex, data):
        if 0 <= vertex < self.size:
            self.vertex_data[vertex] = data

    def print_graph(self):
        print("Adjacency Matrix:")
        for row in self.adj_matrix:
            print(' '.join(map(str, row)))
        print("\nVertex Data:")
        for vertex, data in enumerate(self.vertex_data):
            print(f"Vertex {vertex}: {data}")
            
    def dfs_util(self, v, visited):
        visited[v] = True
        print(self.vertex_data[v], end=' ')

        for i in range(self.size):
            if self.adj_matrix[v][i] == 1 and not visited[i]:
                self.dfs_util(i, visited)

    def dfs(self, start_vertex_data):
        visited = [False] * self.size

        start_vertex = self.vertex_data.index(start_vertex_data)
        self.dfs_util(start_vertex, visited)
        
    def bfs(self, start_vertex_data):
        queue = [self.vertex_data.index(start_vertex_data)]
        visited = [False] * self.size
        visited[queue[0]] = True
        
        while queue:
            current_vertex = queue.pop(0)
            print(self.vertex_data[current_vertex], end=' ')
            
            for i in range(self.size):
                if self.adj_matrix[current_vertex][i] == 1 and not visited[i]:
                    queue.append(i)
                    visited[i] = True

g = Graph(7)

g.add_vertex_data(0, 'A')
g.add_vertex_data(1, 'B')
g.add_vertex_data(2, 'C')
g.add_vertex_data(3, 'D')
g.add_vertex_data(4, 'E')
g.add_vertex_data(5, 'F')
g.add_vertex_data(6, 'G')

g.add_edge(3, 0)  # D -> A
g.add_edge(3, 4)  # D -> E
g.add_edge(4, 0)  # E -> A
g.add_edge(0, 2)  # A -> C
g.add_edge(2, 5)  # C -> F
g.add_edge(2, 6)  # C -> G
g.add_edge(5, 1)  # F -> B
g.add_edge(1, 2)  # B -> C

g.print_graph()

print("\nDepth First Search starting from vertex D:")
g.dfs('D')

print("\n\nBreadth First Search starting from vertex D:")
g.bfs('D')

Adjacency Matrix:
0 0 1 0 0 0 0
0 0 1 0 0 0 0
0 0 0 0 0 1 1
1 0 0 0 1 0 0
1 0 0 0 0 0 0
0 1 0 0 0 0 0
0 0 0 0 0 0 0

Vertex Data:
Vertex 0: A
Vertex 1: B
Vertex 2: C
Vertex 3: D
Vertex 4: E
Vertex 5: F
Vertex 6: G

Depth First Search starting from vertex D:
D A C F B G E 

Breadth First Search starting from vertex D:
D A E C F G B 

Cycles in graphs

Los ciclos son como entrar a un laberinto y sin importar a donde vaya termino en el mismo lugar.

Para detectar estos ciclos se puede utilizar depth first search o union find

In [None]:
#DFS approach para undirected graphs

def is_cyclic(self):
        visited = [False] * self.size
        for i in range(self.size):
            if not visited[i]:
                if self.dfs_util(i, visited, -1):
                    return True
        return False
            

Para graphs directed necesitamos cambiar un poco la logica para evitar considerar un vertex revisitado como un ciclo

In [None]:
class Graph:
    def add_edge(self, u, v):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = 1 

    
    def dfs_util(self,v,visited, recStack):
        visited[v] = True
        recStack[v] = True
        print("Current vertex:",self.vertex_data[v])

        for i in range(self.size):
            if self.adj_matrix[v][i] == 1:
                if not visited[i]:
                    if self.dfs_util(i, visited, recStack):
                        return True
                    elif recStack[i]:
                        return True
                    
        recStack[v] = False
        return False
    
    def is_cyclic(self):
        visited = [False] * self.size
        recStack = [False] * self.size
        for i in range(self.size):
            if not visited[i]:
                print() #new line
                if self.dfs_util(i, visited, recStack):
                    return True
        return False



Union-find cycle detection

Funciona de la siguiente manera: se pone a cada nodo e su propio subset. Despues, para cada edge, los subsets que pertenecen a cada vertex son mergeados. Para un edge, si los vertices ya pertenecen al mismo subset, se encontro un ciclo.

In [11]:
class Graph:
    def __init__(self, size):
        self.adj_matrix = [[0] * size for _ in range(size)]
        self.size = size
        self.vertex_data = [''] * size
        self.parent = [i for i in range(size)]  # Union-Find array

    def add_edge(self, u, v):
        if 0 <= u < self.size and 0 <= v < self.size:
            self.adj_matrix[u][v] = 1
            self.adj_matrix[v][u] = 1

    def add_vertex_data(self, vertex, data):
        if 0 <= vertex < self.size:
            self.vertex_data[vertex] = data

    def find(self, i):
        if self.parent[i] == i:
            return i
        return self.find(self.parent[i])

    def union(self, x, y):
        x_root = self.find(x)
        y_root = self.find(y)
        print('Union:',self.vertex_data[x],'+',self.vertex_data[y])
        self.parent[x_root] = y_root
        print(self.parent,'\n')

    def is_cyclic(self):
        for i in range(self.size):
            for j in range(i + 1, self.size):
                if self.adj_matrix[i][j]:
                    x = self.find(i)
                    y = self.find(j)
                    if x == y:
                        return True
                    self.union(x, y)
        return False

g = Graph(7)

g.add_vertex_data(0, 'A')
g.add_vertex_data(1, 'B')
g.add_vertex_data(2, 'C')
g.add_vertex_data(3, 'D')
g.add_vertex_data(4, 'E')
g.add_vertex_data(5, 'F')
g.add_vertex_data(6, 'G')

g.add_edge(1, 0)  # B - A
g.add_edge(0, 3)  # A - D
g.add_edge(0, 2)  # A - C
g.add_edge(2, 3)  # C - D
g.add_edge(3, 4)  # D - E
g.add_edge(3, 5)  # D - F
g.add_edge(3, 6)  # D - G
g.add_edge(4, 5)  # E - F

print("Graph has cycle:", g.is_cyclic())

Union: A + B
[1, 1, 2, 3, 4, 5, 6] 

Union: B + C
[1, 2, 2, 3, 4, 5, 6] 

Union: C + D
[1, 2, 3, 3, 4, 5, 6] 

Graph has cycle: True
