# Cap 1: Wikipedia

## 1.6 Uma rede complexa real: Wikipédia

In [None]:
import networkx as nx
import wikipedia # a instalar
import pickle
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# A linguagem de Wikipedia : português
wikipedia.set_lang("pt")

In [None]:
# no raiz
RAIZ = "Fortaleza".title()

In [None]:
# páginas excluidas
EXCL = ("International Standard Serial Number",
"International Standard Book Number",
"National Diet Library",
"International Standard Name Identifier",
"International Standard Book Number (Identifier)",
"Pubmed Identifier", 
"Pubmed Central",
"Digital Object Identifier", 
"Arxiv",
"Proc Natl Acad Sci Usa", 
"Bibcode",
"Library Of Congress Control Number", 
"Jstor",
"OpenStreetMap",
"Wikimapia",
"Instituto Nacional de Meteorologia",
"Instituto Brasileiro de Geografia e Estatística",
"Coeficiente de Gini"
)

In [None]:
# lista de nos por explorar
pend_lst = [(0, RAIZ)] # O vértice RAIZ está na camada 0

In [None]:
# conjunto de nos que ainda devem ser explorados
pend_cnj = set(RAIZ) # Só RAIZ

In [None]:
# conjunto de nos que ja foram explorados
feito_cnj = set() # Nehum nó explorado

In [None]:
F = nx.DiGraph()

In [None]:
camada, pag = pend_lst[0]

In [None]:
while camada < 2:
    del pend_lst[0]
    feito_cnj.add(pag)
    print(camada, pag)
    try:
        wiki = wikipedia.page(pag) 
        # pode ser carregada a pagina?
        wiki.links 
        # bug não dá certo se a página não tem links
    except:
        camada, pag = pend_lst[0]
        print('Nao pude carregar', pag)
        continue
    for link in wiki.links:
        link = link.title()
        if link not in EXCL and not link.startswith("Lista de"):
            if link not in pend_cnj and link not in feito_cnj:
                pend_lst.append((camada + 1, link))
                pend_cnj.add(link)
            F.add_edge(pag, link)
    camada, pag = pend_lst[0]

In [None]:
print("{} nos, {} arestas".format(F.order(), nx.number_of_edges(F)))

In [None]:
# Salva a rede
with open('wikifortaleza.p', 'wb') as f:
    pickle.dump(F, f)

In [None]:
# Apagamos laços
F.remove_edges_from(nx.selfloop_edges(F))
print("{} nós , {} arestas".format(F.order(), nx.number_of_edges(F)))

In [None]:
# Eliminamos duplicados - Plurais
duplicados = [(vert, vert + "s") for vert in F if vert + "s" in F]
for dup in duplicados:
    F = nx.contracted_nodes(F, *dup, self_loops = False)
    
print("{} nós, {} arestas".format(F.order(), nx.number_of_edges(F)))

In [None]:
# Eliminamos duplicados - " - "
duplicados = [(x,y) for x , y in [(vert, vert.replace("-", " ")) for vert in F] if x!=y and y in F]
for dup in duplicados:
    F = nx.contracted_nodes(F, *dup, self_loops=False)
    
print("{} nós, {} arestas".format(F.order(), nx.number_of_edges(F)))

In [None]:
# Salva a rede
with open("wikifortaleza - semdup.p", 'wb') as f:
    pickle.dump (F , f )

In [None]:
nx.draw(F, with_labels = "True")

In [None]:
print("Densidade : ", nx.density(F))
print("Coeficiente de agrupamento : ", nx.transitivity(F))
print("Reciprocidade :" , nx.reciprocity(F))
hgrauF = nx.degree_histogram(F)
grausF = np.linspace(0 , len(hgrauF), len(hgrauF))

In [None]:
# Networkx ainda não tem uma função como degree_histogram () para arestas
# saintes ou entrantes .
hgrauinF = [0]*len(hgrauF)
for ver, grau in F.in_degree():
    hgrauinF[grau] = hgrauinF[grau] + 1
    hgrauouF = [0]*len(hgrauF)
for ver, grau in F.out_degree():
    hgrauouF[grau] = hgrauouF[grau] + 1

In [None]:
plt.figure()
plt.loglog(grausF,hgrauF,'b*',label='Grau')
plt.loglog(grausF,hgrauinF,'r^',label='Grau entrante')
plt.loglog(grausF,hgrauouF,'k+',label='Grau sainte')
plt.xlabel('grau')
plt.ylabel('frequência')
plt.legend()
plt.grid()

In [None]:
nucleo = [vert for vert, grau in F.degree() if grau >= 10]
N = nx.subgraph(F, nucleo)

In [None]:
# Elimina o atributo "contraction" dos nos
for (n,d) in N.nodes(data=True):
    try:
        del d["contraction"]
    except:
        continue

In [None]:
# Elimina todos os atributos das arestas
for n1, n2, d in N.edges(data=True):
    d.clear()

In [None]:
print("{} nos, {} arestas".format(len(N), nx.number_of_edges(N)))
nx.write_graphml(N, "wiki-fortaleza.graphml")