In [1]:
import networkx as nx
import matplotlib.pyplot as plt
import pickle
import numpy as np
import pandas as pd
from collections import Counter

# Caricare un grafo da file

esempio con un edge list scaricata da network repository
* scaricare lo zip da https://networkrepository.com/fb-pages-tvshow.php: una rete dove i nodi sono le pagine facebook di serie tv e c'è un edge tra due pagine se hanno almeno un like in comune
* unzip i file
* upload files in jupyter

#### 1. carico l'edgelist

In [2]:
edges = list(open('./data/fb-pages-tvshow.edges'))

#### 2. stampo un subset dell'edges list 
Intuitivamente, ogni riga è strutturata: ```'source, destination\n'```

In [3]:
edges[:10]

['0,1838\n',
 '0,1744\n',
 '0,14\n',
 '0,2543\n',
 '1,1009\n',
 '1,1171\n',
 '1,1465\n',
 '1,2069\n',
 '1,2080\n',
 '1,1856\n']

#### 3. creo edgelist

In [4]:
#step 1: list di archi dove gli id dei nodi sono stringhe 
edge_list = [edge.strip().split(',') for edge in edges]
edge_list[:2]


[['0', '1838'], ['0', '1744']]

In [5]:
#step 2: lista di archi dove gli id dei nodi sono interi (occupano meno spazio, più agevoli)
edge_list = [(int(e[0]), int(e[1])) for e in edge_list]
edge_list[:2]

[(0, 1838), (0, 1744)]

#### 4. creo dictionary con gli attributi sui nodi

In [6]:
nodes = list(open('./data/fb-pages-tvshow.nodes'))

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 3764: character maps to <undefined>

In [None]:
nodes[:10]

* Ogni linea è composta da:__ ```'longid, label-of-tvseries,graphid\n'``` 
* Quello che fa match con gli id della edge list è il campo ```new_id```, quindi il campo ```id``` è inutile
* Quindi, possiamo creare un dictionary con  ```{id:name}```, iniziamo creando la lista di elementi separati

In [None]:
nodes_list = [node.split(',') for node in nodes]

ora dovremmo creare un dictionary dove le chiavi sono gli id dei nodi e i valori sono i nomi delle pagine...

In [None]:
{int(node[2]):node[1] for node in nodes_list[1:]}

⚠️⚠️⚠️ __in un qualche punto, in posizione 2, invece di avere id ho una stringa!__ ⚠️⚠️⚠️

In [None]:
for i,node in enumerate(nodes_list):
    if len(node)>3:
        print(node, nodes[i])
        break

__il problema è la virgola all'interno del nome, che viene confuso per il separatore di elementi!__
### le stringhe spesso nascondono inganni!
__dobbiamo scrivere una funzione che riesca a catturare la stringa tra i simboli " "__

In [None]:
#this detects the string in ```text``` between ```char``` and ```char```
def get_text_between_chars(text, char, replace = True):
    import re
    m = re.search(f'{char}(.+?){char}', text)
    if m: found = m.group(1)
    if replace: found = found.replace(',','')
    return found

#example: get the string between the two ```!``` 
get_text_between_chars('text outside left !*,text inside! text outside right','!')

In [None]:
nodes_attr = {}
for line in nodes[1:]:
    splitting = line.split(',')
    if len(splitting) == 3: 
        #in this case everything is normal, we can just take the argument in pos 2 as key and the one is pos 1 as value
        nodes_attr[int(splitting[2])] = splitting[1]
    else:
        #in this case we need to extract the name and then assign it to the id 
        # the id is still the last element of the splitting list
        name = get_text_between_chars(line, '"')
        nodes_attr[int(splitting[-1])] = name

In [None]:
nodes_attr[814]

In [None]:
G = nx.DiGraph(edge_list)
print(G)
nx.set_node_attributes(G, nodes_attr, "name")

## input csv pulito

In [None]:
df = pd.read_csv('./data/fb-pages-tvshow-edges2.csv', delimiter=',')


In [None]:
df.columns

In [None]:
G = nx.from_pandas_edgelist(df, source = 'source', target=' target',
                            edge_attr=None, create_using= nx.DiGraph())

In [None]:
df_nodes = pd.read_csv('./data/fb-pages-tvshow-nodes.csv', delimiter=',')

In [None]:
for index, row in df_nodes.iterrows():
    G.nodes[row['id']]['name'] = row[' name']
    

# Scrivere un file grafo

Ci sono varie situazioni in cui serve salvare il grafo che abbiamo creato, che sia per esportarlo in un tool di visualizzazione come gephi, oppure semplicemente per salvare l'oggetto una volta creato (perchè quando è grande ci può voler tanto, quindi meglio salvarlo che ricrearlo ogni volta che serve lavorarci) <br>
__Se devo visualizzare il grafo su gephi:__
* opzione 1: salvo l'edge list e il node file come csv e li carico separatamente in gephi
* opzione 2: salvo il grafo nel formato ```.graphml``` o ```.gexf```, carico quello e il file degli attributi separatamente in gephi
* opzione 3: salvo il grafo con gli attributi in ```.graphml``` o ```.gexf``` e carico solo quello in gephi


In [None]:
# opzione 1

with open('./data/fb-pages-tvshow-cleaned-edges.csv','w') as f:
    f.writelines(['source,target\n'])
    for (s,d) in edge_list:
        f.writelines([f"{s}, {d}\n"])
        
with open('./data/fb-pages-tvshow-cleaned-nodes.csv','w') as f:
    f.writelines(['id, name\n'])
    for k,v in nodes_attr.items():
        f.writelines([f"{k}, {v}\n"])

In [None]:
# opzione 2/3

nx.write_graphml(G,path="./data/fb-pages-tvshows.graphml")
nx.write_gexf(G,path = './data/fb-pages-tvshows.gexf')

__Se devo salvare l'oggetto grafo__, posso usare il metodo `dump` di pickle

In [None]:
pickle.dump(G, open('./data/fb-pages-tvshows.gpickle','wb') )


# leggere un oggetto grafo

uso i corrispettivi read dei metodi che ho usato per fare write.


In [None]:
G = pickle.load(open('./data/fb-pages-tvshows.gpickle','rb') )
G = nx.read_graphml('./data/fb-pages-tvshows.graphml' )
G = nx.read_gexf('./data/fb-pages-tvshows.gexf' )

# Esercizio

1. scaricare i dati sugli edge da http://www.konect.cc/networks/dolphins/ 
2. creare un grafo (capite voi se diretto o no) con gli edge dati
3. stampare numero di edge e di nodi
4. aggiungere l'attributo ```age``` ai nodi con i dati presi dal file ```./data/dolphins-nodes-age.csv```
5. salvare il file in formato ```.gexf```
6. fare il plot della distribuzione del grado della rete di delfini


In [None]:
# risolvi qui


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=29426a90-102c-4488-a161-9bc77a0f11df' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>