# Projeto 1 da Disciplina de Teoria e Aplicação de Grafos

## Autor: Leandro Beloti Kornelius - 211020900

A Teoria dos Grafos é uma das bases mais importantes da Ciência da Computação tendo inúmeras aplicações em problemas de otimização, análise de redes, redes sociais, redes de transporte e muito mais. Com foi visto na disciplina, um grafo é composto por vértices (ou nós) e arestas (ou ligações), representando, respectivamente, os elementos e as conexões entre eles.

No contexto das redes sociais, os grafos permitem compreender e quantificar o comportamento dos usuários e suas conexões, possibilitando a análise de influência, centralidade, comunidades e padrões de interação. Através de métricas como grau, centralidade de intermediação, centralidade de proximidade e densidade da rede, é possível identificar usuários mais influentes, grupos coesos e a estrutura geral da rede.

Assim, no contexto do projeto, oferece uma ferramenta analítica que pode auxiliar na tomada de decisões, detecção de padrões e compreensão do impacto das interações entre os indivíduos da rede.

Dessa forma, este projeto visa analisar estruturas de redes sociais, utilizando métricas de grafos. Sendo possível avaliar as influências dos usuários da rede social e potenciais de usuários. Para a implementação deste projeto foi usado este jupyter notebook, o qual foi dividido em cinco sessões principais:

* Coleta de Dados
* Contrução do Grafo
* Extração das Métricas Relevantes do Grafo
* Visualização das Medidas Extraídas de Forma Explícita
* Elaboração de um Relatório de Análise do Grafo

## Coleta de Dados:

Para realizar o projeto, fomos instruídos a usar o dataset presente na url <https://snap.stanford.edu/data/egonets-Facebook.html>. Os dados deste site foram coletados de um formulário através de um aplicativo do facebook. O dataset foi anonimizado substituindo os ids dos usuários do facebook para um novo valor para cada usuário. Foram também anonimizadas algumas informações como afiliações políticas. Portanto, podemos ver se dois indivíduos tem a mesma orientação política, mas não conseguimos determinar qual ela é.

### Lembrar de olhar se colocar algo da tabela aqui é relevante

No arquivo facebook_combined.txt presente no diretório Data > facebook_combined.txt > facebook_combined.txt há os 4039 usuários representados como nós do grafo os quais estão conectados por arestas direcionadas. Nossa missão é elaborar uma função que seleciona 2000 nós aleatoriamente e todas suas respectivas arestas.

Com isso, devemos preservar todas as arestas entre os nós selecionados. Ou seja, iremos extrair um subgrafo induzido com 2000 vértices do nosso grafo inicial.

Nesse sentido, vamos iniciar com uma função auxiliar que lê o arquivo e retorna um dicionário em que a chave é o identificador numérico de um vértice e o valor correspondentes são todos vértices os quais a chave tem uma aresta que os conecta com direcionamento.

In [53]:
def load_graph_data(file_path: str):
    graph_data = {}
    with open(file_path) as f:
        for line in f:
            origen_v_id, destine_v_id = map(int, line.split())
            if origen_v_id in graph_data:
                graph_data[int(origen_v_id)].append(int(destine_v_id))
            else:
                graph_data[int(origen_v_id)] = [int(destine_v_id)]
    return graph_data

Essa função recebe o caminho do arquivo que terá os dados acerca das arestas do Grafo. Para cada linha no arquivo, é verificado se o vértice de origem está no dicionário. Caso esteja, é necessário acrescentar o vértice de destino às adjacências do vértice de origem. Caso contrário, tivemos a primeira ocorrência do vértice de origem e criamos uma lista com o primeiro vértice adjacente.

Diante disso, agora precisamos selecionar o subgrafo induzido em que selecionaremos 2000 vértices aleatoriamente deste Grafo. Para isso, usaremos a biblioteca numpy em que vamos gerar um array de 1D contendo 2000 ids entre 0 e 4038. Com este objetivo em mente a seguinte função auxiliar foi elaborada:

In [54]:
def generate_2000_random_vs():
    from numpy import random
    return random.randint(0, 4039, size=2000) # Does not include high number

Para obtenção do subgrafo induzido com os 2000 vértices randomicamente selecionados, nós devemos tratar os dados do Grafo original. Assim, devemos:
* Remover ids e vértices adjacentes não selecionados do dicionário
* Remover vértices adjacentes removidos dos vértices que foram selecionados randômicamente

Sob essa ótica, a função abaixo faz esta implementação com um pequeno teste comentado:

In [None]:
def generate_sub_graph(graph_data, random_vs):
    for v_id in list(graph_data.keys()):
        # Removing v_id and its adjacent vs if not in random set
        if v_id not in random_vs:
            graph_data.pop(v_id)
        else:
            graph_data[v_id] = [x for x in graph_data[v_id] if x in random_vs] # Updates list to remove vs not in random_vs set
    return graph_data

# Testing the functions implemented:
# graph_full_data = load_graph_data("./Data/facebook_combined.txt/facebook_combined.txt")
# print(f"Full graph data dictionary: {graph_full_data}")
# random_2000_vs = generate_2000_random_vs()
# print(f"Random vs selected: {random_2000_vs}")
# print(generate_sub_graph(graph_full_data, random_2000_vs))