# Projeto 1 da Disciplina de Teoria e Aplica√ß√£o de Grafos

## Autor: Leandro Beloti Kornelius - 211020900

A Teoria dos Grafos √© uma das bases mais importantes da Ci√™ncia da Computa√ß√£o tendo in√∫meras aplica√ß√µes em problemas de otimiza√ß√£o, an√°lise de redes, redes sociais, redes de transporte e muito mais. Com foi visto na disciplina, um grafo √© composto por v√©rtices (ou n√≥s) e arestas (ou liga√ß√µes), representando, respectivamente, os elementos e as conex√µes entre eles.

No contexto das redes sociais, os grafos permitem compreender e quantificar o comportamento dos usu√°rios e suas conex√µes, possibilitando a an√°lise de influ√™ncia, centralidade, comunidades e padr√µes de intera√ß√£o. Atrav√©s de m√©tricas como grau, centralidade de intermedia√ß√£o, centralidade de proximidade e densidade da rede, √© poss√≠vel identificar usu√°rios mais influentes, grupos coesos e a estrutura geral da rede.

Assim, no contexto do projeto, oferece uma ferramenta anal√≠tica que pode auxiliar na tomada de decis√µes, detec√ß√£o de padr√µes e compreens√£o do impacto das intera√ß√µes entre os indiv√≠duos da rede.

Dessa forma, este projeto visa analisar estruturas de redes sociais, utilizando m√©tricas de grafos. Sendo poss√≠vel avaliar as influ√™ncias dos usu√°rios da rede social e potenciais de usu√°rios. Para a implementa√ß√£o deste projeto foi usado este jupyter notebook, o qual foi dividido em cinco sess√µes principais:

1. Coleta de Dados
2. Contru√ß√£o do Grafo
3. Extra√ß√£o das M√©tricas Relevantes do Grafo
4. Visualiza√ß√£o das Medidas Extra√≠das de Forma Expl√≠cita
5. Elabora√ß√£o de um Relat√≥rio de An√°lise do Grafo

## 1. Coleta de Dados:

Para realizar o projeto, fomos instru√≠dos a usar o dataset presente na url <https://snap.stanford.edu/data/egonets-Facebook.html>. Os dados deste site foram coletados de um formul√°rio atrav√©s de um aplicativo do facebook. O dataset foi anonimizado substituindo os ids dos usu√°rios do facebook para um novo valor para cada usu√°rio. Foram tamb√©m anonimizadas algumas informa√ß√µes como afilia√ß√µes pol√≠ticas. Portanto, podemos ver se dois indiv√≠duos tem a mesma orienta√ß√£o pol√≠tica, mas n√£o conseguimos determinar qual ela √©.

No arquivo facebook_combined.txt presente no diret√≥rio Data > facebook_combined.txt > facebook_combined.txt h√° os 4039 usu√°rios representados como n√≥s do grafo os quais est√£o conectados por arestas n√£o direcionadas. Ou seja, se em uma linha deste arquivo tiver que 1 est√° conectado a 2 isso significa que 2 tamb√©m est√° conectado a 1.

Nossa miss√£o √© elaborar uma fun√ß√£o que seleciona 2000 n√≥s aleatoriamente e todas suas respectivas arestas.

Com isso, devemos preservar todas as arestas entre os n√≥s selecionados. Ou seja, iremos extrair um subgrafo induzido com 2000 v√©rtices do nosso grafo inicial.

Nesse sentido, vamos iniciar com uma fun√ß√£o auxiliar que l√™ o arquivo e retorna um dicion√°rio em que a chave √© o identificador num√©rico de um v√©rtice e o valor correspondentes s√£o todos v√©rtices os quais a chave tem uma aresta que os conecta com direcionamento.

In [80]:
def load_graph_data(file_path: str):
    graph_data = {}
    with open(file_path) as f:
        for line in f:
            origen_v_id, destine_v_id = map(int, line.split())
            if origen_v_id in graph_data:
                graph_data[int(origen_v_id)].append(int(destine_v_id))
            else:
                graph_data[int(origen_v_id)] = [int(destine_v_id)]
            if destine_v_id in graph_data:
                graph_data[int(destine_v_id)].append(int(origen_v_id))
            else:
                graph_data[int(destine_v_id)] = [int(origen_v_id)]
    return graph_data

Essa fun√ß√£o recebe o caminho do arquivo que ter√° os dados acerca das arestas do Grafo. Para cada linha no arquivo, √© verificado se o v√©rtice de origem est√° no dicion√°rio. Caso esteja, √© necess√°rio acrescentar o v√©rtice de destino √†s adjac√™ncias do v√©rtice de origem. Caso contr√°rio, tivemos a primeira ocorr√™ncia do v√©rtice de origem e criamos uma lista com o primeiro v√©rtice adjacente.

Diante disso, agora precisamos selecionar o subgrafo induzido em que selecionaremos 2000 v√©rtices aleatoriamente deste Grafo. Para isso, usaremos a biblioteca numpy em que vamos gerar um array de 1D contendo 2000 ids entre 0 e 4038.

Com este objetivo em mente a seguinte fun√ß√£o auxiliar foi elaborada:

In [81]:
import numpy as np

def generate_2000_random_vs(total_nodes=4039, seed=42):
    rng = np.random.default_rng(seed)
    return rng.choice(total_nodes, size=2000, replace=False)

Para obten√ß√£o do subgrafo induzido com os 2000 v√©rtices randomicamente selecionados, n√≥s devemos tratar os dados do Grafo original. Assim, devemos:
* Remover ids e v√©rtices adjacentes n√£o selecionados do dicion√°rio
* Remover v√©rtices adjacentes removidos dos v√©rtices que foram selecionados rand√¥micamente

Contudo, caso j√° exista o subgrafo induzido gerado, n√£o √© necess√°rio gerar um novo, podendo apenas usar o existente.

Sob essa √≥tica, a fun√ß√£o abaixo faz esta implementa√ß√£o com a chamadas das fun√ß√µes para conclus√£o da primeira etapa. Foram inseridos prints para visualiza√ß√£o dos resultados, mas foram comentados para n√£o poluir a sa√≠da:

In [82]:
from pathlib import Path

sub_graph_file_path = Path("subgraph.txt")

def generate_sub_graph(graph_data, random_vs):
    if not sub_graph_file_path.exists():
        random_vs = set(random_vs)

        # Creates subgraph
        sub_graph = {
            v: [x for x in adj if x in random_vs]
            for v, adj in graph_data.items() if v in random_vs
        }

        # Saves subgraph
        with open(sub_graph_file_path, "x") as f:
            for v_id, adjs in sub_graph.items():
                for adjacent in adjs:
                    f.write(f"{v_id} {adjacent}\n")

        print("‚úÖ Subgrafo induzido gerado e salvo em 'subgraph.txt'.")
    else:
        print("‚ö†Ô∏è Arquivo com subgrafo induzido j√° existe. Nenhuma a√ß√£o foi realizada.")

# Testing the functions implemented:
graph_full_data = load_graph_data("./Data/facebook_combined.txt/facebook_combined.txt")
# print(f"Full graph data dictionary: {graph_full_data}")
random_2000_vs = generate_2000_random_vs()
print("Total gerados:", len(random_2000_vs))
print("√önicos:", len(set(random_2000_vs)))
# print(f"Random vs selected: {random_2000_vs}")
generate_sub_graph(graph_full_data, random_2000_vs)

Total gerados: 2000
√önicos: 2000
‚ö†Ô∏è Arquivo com subgrafo induzido j√° existe. Nenhuma a√ß√£o foi realizada.


## 2. Constru√ß√£o do Grafo

Para constru√ß√£o da rede foi instru√≠do o uso do pacote NetworkX o qual a documenta√ß√£o pode ser consultada ao lado <https://networkx.org/documentation/stable/install.html>.

Esta biblioteca permite que n√≥s, a partir de um arquivo, fa√ßamos a constru√ß√£o de um grafo, garanta sua conectividade, fa√ßa limpezas de arestas, consulte m√©tricas e muito mais.

Assim, a fun√ß√£o abaixo constr√≥i o grafo a partir dos 2000 v√©rtices aleat√≥rios gerados na "Etapa 1". Para os v√©rtices isolados, sem arestas incidentes, √© feito uma adi√ß√£o explicita destes n√≥s.

In [83]:
import networkx as nx

def build_graph(file_path, nodes):
    G = nx.read_edgelist(file_path, nodetype=int, create_using=nx.Graph())
    # Adds isolated nodes explicitely
    G.add_nodes_from(nodes)
    print(f"ü™© Grafo carregado com {G.number_of_nodes()} n√≥s e {G.number_of_edges()} arestas.")
    print(f"üîπ N√≥s com grau maior do que 0: {len([n for n, d in G.degree() if d != 0])}")
    print(f"üîπ N√≥s isolados (sem arestas): {len([n for n, d in G.degree() if d == 0])}")
    return G

# Defining the graph from the random 2000 sample
G = build_graph("subgraph.txt", random_2000_vs)

ü™© Grafo carregado com 2000 n√≥s e 20971 arestas.
üîπ N√≥s com grau maior do que 0: 1938
üîπ N√≥s isolados (sem arestas): 62
