# 1. Fasea: Problema formalizatzen

### Soluzio bideragarrien espazioa

Proiektuan, aipatu dugun bezela, elkarlan komunitate desberdinak detektatu nahi ditugu. Horretarako, lehenenik eta behin erantzun beharreko galdera hurrengoa da: <i> Zer da komunitate bat?</i> Sarreran sortu dugun grafoan pentsatuz gero, <i> Nola adieraziko genituzte komunitateak grafoan?</i>
Optimizazio konbinatorioko bibliografia begiratzea proposatzen dizuet (Google Scholar, Scopus, Web of Science...). Problema honek, berria ematen duen arren, hamarkada asko atzera aztertu zen lehenengo aldiz.


$\newline$

$\textbf{Zer da komunitate bat eta nola adieraziko genituzte komunitateak grafoan?}$

Grafoei dagokienez, komunitateak elkarri trinkoki loturik dauden nodoen azpimultzo bezala definitu daitezke, grafo berdineko beste komunitateetako nodoekin lotura gutxi izanik. Nodoen arteko lotura hauek ertzen bidez errepsesentatzen dira. Beraz, komunitate berdineko nodoen artean ertz/lotura asko egongo dira. Bestalde, komunitate desberdineko nodoen artean ertz gutxiago egongo dira. Grafikoki errazago ulertzeko ondorengo irudia ikusi, non komunitate bakoitza kolore desberdinetan irudikatzen diren:

$\newline$
<img src="attachment:1_skhjgApyDIPbJNolIZCF5w.png" width="400"/> </td>
<center> Figure 1: Komunitate banaketa eredua.


Gure helburua horrelako partizio egoki bat lortzea da aurretik sortu dugun grafoan:

<img src="attachment:descarga.png" width="400"/> </td>
<center> Figure 2: NIPS problemaren grafoa.


$\textbf{Community detection problema:}$

Baina, zergatik komunitateak detektatu? Gaur egungo sare berriak esponentzialki hazten ari dira tamainari, aniztasunari eta konplexutasunari dagokienez. Sare berri hauek hainbat esparru desberdinetan sortzen dira; hala nola: Gauzen Interneta, ad-hoc sentsoreak, haririk gabeko sentsoreak, hodeian oinarrituak eta sare sozialetan oinarrituak. 

Komunitate-detekzioa ezaugarri garrantzitsua da sareetatik informazio erabilgarria ateratzeko erabil daitezke eta. Adibidez, sare sozialetako grafoetan komunitatea detektatzeko teknikak baliagarriak dira interes komunak dituzten pertsonak aurkitzeko. Honek gure problemarekin erlazio handia du, guk autoreen artean egon diren elkarlanak ditugu eta.

Aurretik azaldu den bezela, proiektu honen helburua (NIPS) kongresuan publikatzen duten autoreen komunitateak aztertzea da. Beraz, autoreak nodo bezela adieraziko dira eta hauen arteko elkarlana bi nodoen arteko ertz baten bidez adieraziko da (grafo ponderatua, bi nodoen arteko elkarlan kopurua adierazizten duena). Hortaz, gure probleman komunitateak elkarlana egin duten autoreek osatuko dituzte. 

Baina, nodo bakoitza ze komunitate barruan dagoen adierazteko modu bat zehaztu beharra da, hau da, bilaketa espazioa definitu. Problemaren grafoak dituen nodoen tamainako array batean definitu daiteke, non posizio bakoitzak autorea ze komunitatekoa den adierazten duen. Beraz, bilaketa espazio ondorengoa da: {1,...,k}$^n$, non n nodo kopurua eta k komunitate kopurua diren.  

Problema honetan erabiliko den grafoak 1843 nodo eta elkarlan kopurua 3215 ditu, beraz komunitateak sortzeko problema handi baten aurrean gaude. Ondorioz, nola arkitu daiteke komunitate partizio egoki bat? Komunitate detekzioaren erronka handienetako bat hau da: ez dago komunitateen egituren definizio unibertsalik. Beraz, eskala handiko sareetako komunitate-detekzioa konputazionalki trataezina da. Metodo asko planteatu dira zentzuzko denbura batean inplementatzeko, hala nola, clustering hierarkikoak, metodo aglomeratiboak, metodo zatikariak etab. Baina, tradizionalki erabili diren algoritmo hauek konputazionalki baliabide handia eskatzen dute, konplexutasuna $O$(m$^2$n) inguruak izanik. Problema handi batean komunitateak detektatzea trataezina izango zen.

Proiektu honen helburua metaheuristikoak erabiltzea denez, aurrerago azalduko den algoritmo desberdin bat erabili da: modularitatea, $O$((m + n)n) konplexutasuna izanik. 

$\newline$

$\textbf{Erreferentziak}$

-- Clauset, A.; Newman, M. E. J. & Moore, C. Finding community structure in very large networks, Physical Review E 2004, 70, 066111
   https://arxiv.org/pdf/cond-mat/0408187.pdf
   
-- Bisma S. Khan, Muaz A. Niazi. Network Community Detection: A Review and Visual Survey https://arxiv.org/ftp/arxiv/papers/1708/1708.00977.pdf

-- Santo Fortunato, Community detection in graphs, Physics Reports, Volume 486, Issues 3–5, 2010, Pages 75-174. https://www.sciencedirect.com/science/article/abs/pii/S0370157309002841
$\newline$


### Soluzioen errepresentazioa

Behin aurreko galderak erantzun ditugula, eta badakigula nola adierazi komunitate bat, soluzioak errepresentatzeko kodeketa bat aukeratu behar dugu. Klasean hainbat kodeketa ikusi ditugu, horietako bat aproposa izan daiteke komunitateak identifikatzeko. Jarraian, proposatu soluzio batzuk esku artean dugun problemarentzako. <i>Nola kodetuko dugu komunitateen identifikazio bat?</i> Pentsatu...

Aurretik azaldu da nola kodeatuko den problemaren soluzio bat: grafoko nodo bakoitza errepresentatzen duen n tamaineko lista bat non nodo bakoitza ze komunitatekoa den erakusten duen. Kasu honetan, soluzio espazioa eta bilaketa espazioaren berdinak dira: {1,...,k}$^n$. 

Ondoren, adibide bezela 2 soluzio desberdin kodeatu dira (biek komunitate kopuru desberdina izanik).

In [11]:
import numpy as np
### Eman soluzioen adibide batzuk
soluzioa_1 = np.random.randint(10, size=1843)  
soluzioa_2 = np.random.randint(50, size=1843)

print("soluzioa_1:", soluzioa_1, " -> tamaina:", len(soluzioa_1), "\n")
print("soluzioa_2:", list(soluzioa_2)) # list(soluzioa_2) soluzio osoa imprimitzeko

soluzioa_1: [9 3 9 ... 7 8 4]  -> tamaina: 1843 

soluzioa_2: [1, 12, 17, 48, 9, 47, 22, 7, 48, 47, 8, 11, 22, 26, 33, 0, 28, 10, 27, 11, 17, 45, 27, 4, 47, 44, 24, 18, 15, 26, 4, 16, 23, 24, 21, 38, 5, 14, 6, 1, 42, 4, 3, 21, 29, 34, 39, 44, 41, 47, 41, 39, 32, 17, 8, 30, 17, 5, 43, 48, 19, 40, 21, 35, 4, 43, 33, 18, 28, 0, 26, 49, 4, 34, 17, 22, 18, 16, 48, 22, 30, 23, 42, 49, 3, 38, 28, 3, 38, 24, 5, 31, 39, 49, 47, 13, 30, 42, 30, 47, 28, 49, 36, 33, 14, 49, 14, 49, 37, 1, 32, 31, 20, 47, 33, 16, 21, 3, 14, 47, 44, 12, 1, 2, 38, 7, 34, 13, 45, 49, 49, 7, 6, 37, 9, 44, 31, 14, 18, 23, 27, 42, 31, 34, 18, 44, 48, 25, 26, 27, 17, 27, 14, 30, 29, 20, 40, 23, 33, 13, 40, 34, 28, 34, 3, 9, 39, 17, 28, 13, 13, 7, 6, 30, 13, 13, 3, 2, 24, 5, 21, 32, 38, 45, 39, 45, 29, 41, 12, 48, 46, 46, 6, 47, 6, 32, 29, 44, 5, 44, 6, 17, 43, 0, 44, 5, 28, 32, 32, 27, 25, 3, 36, 13, 30, 23, 49, 24, 33, 4, 28, 6, 6, 38, 7, 11, 15, 20, 41, 22, 20, 30, 18, 47, 12, 46, 10, 22, 39, 28, 36, 36, 27, 21, 24, 30,

### Helburu-funtzioa

Dagoeneko badakigu zer den komunitate bat, eta nola adierazi ere. Esan dugu, elkarlanen bitartez identifikatuko ditugula komunitateak. Baina, zerk eragiten du autore bat komunitate baten parte izateak? Adibidez, nahiko al da behin artikulu bat idaztea beste autore batzuekin, komunitatearen parte izateko? Erantzuna, argi dago, ezezkoa dela.

Jarraian dagoen erreferentzian oinarrituko gara, helburu-funtzio egoki bat aukeratzeko. Zein aukeratuko zenuke? Pentsatu ondo! Badago bat oso egokia!

   <i> Clauset, A.; Newman, M. E. J. \& Moore, C. Finding community structure in very large networks, Physical Review E 2004, 70, 066111</i>
   
Jarraian eman 200 hitzetako azalpen bat aukeratu duzun helburu-funtzioaren inguruan. Horrez gain, adierazi ekuazio matematiko bidez, helburu-funtzioa (LaTeX notazioa onartzen du konpiladoreak). Ondoren, inplementatu helburu-funtzioa ere (funtzioaren egitura orokorra planteatzen dizuet). Azkenik helburu-funtzioaren pseudokode orokor bat ere idatzi beharko duzu.

$\textbf{Azalpena}$

Aipatutako erreferentziak helburu-funtzio egoki bat adierazten du gure problemarentzako: modularitatea. Grafoen propietate honek komunitate banaketa bat zein ona den adierazten du komunitate horren barruko konexioen dentsitatea neurtuz. Modularitate puntuazio altua duten grafoek lotura asko izango dute komunitate berdineko erpin-en artean eta gutxi gainontzekoekin. Beraz, soluzio hoberena lortzeko maximizatzea da helburua. 

Modularitatearen funtzionamendua ulertzeko hurrengo kontzeptuen esanahia jakin beharra dira:
- $\textbf{v, w:}$ nodoak
- $\textbf{A$_{\text{vw}}$:}$ Auzokidetasun matrizea, zeinek u eta w nodoen arteko ertzaren pisua adierazten duen (A$_{\text{vw}}$ = 0 bada, bi nodoak ez daude lotuta)
- $\textbf{c$_{\text{v}}$:}$ u nodoa dagoen komunitatea 
- $\textbf{c$_{\text{w}}$:}$ w nodoa dagoen komunitatea 
- $\textbf{δ(c$_{\text{v}}$, c$_{\text{w}}$):}$ u eta w komunitate berdinekoak direnean (c$_{\text{v}}$ = c$_{\text{w}}$) 1 balio itzultzen du eta 0 bestela.
- $\textbf{m:}$ ertz kopurua. 

Honela, komunitate berdinean erortzen diren ertzen frakzioa hurrengoa da:

$$ \begin{equation} 
     \frac{\sum _{vw} A_{vw} \delta(c_{v}, c_{w})}{\sum _{vw} A_{vw}} = \frac{1}{2m}\sum_{vw}A_{vw} \delta(c_{v}, c_{w}).
     \tag{1}
  \end{equation} $$


Esan bezala, sareen banaketa ona bada balio hau handia izango da. Baina, hau bakarrik erabiltzea ez da metodo egokia banaketa ona den zehazteko. Modularitateak beti bere balio maximoa hartuko du nodo guztiak komunitate berdinekoak diren kasu tribialan. Kasu hauek saihesteko kantitate berdineko ausazko sare batengandik espero den balioa kentzea da.

Honetarako, nodo baten gradua erabiltzen da, zeinek nodo bakoitzak zenbat ertz dituen adierazten duen. Honela kalkulatzen da: 

$$ \begin{equation} 
     k_{v} = \sum _{vw} A_{vw}. \tag{2}
  \end{equation}  $$

Bi nodoen artean ertz bat existitzeko probabilitatea konexioak ausaz egin badira (bien gradua errespetatuz) hurrengoa da: $\frac{k_{v}k_{w}}{2m}$. Honela, modularitatea berriro definitzen da:

$$ \begin{equation} 
   Q = \frac{1}{2m}\sum _{vw}\left [ A_{vw} - \frac{k_{v}k_{w}}{2m} \right ]\delta(c_{v}, c_{w}).  \tag{3}
  \end{equation}  $$

Formula hau simplifikatu egin daiteke ondorengo bi aldagaiak definituz:
- $\textbf{$e_{ij}$:}$ i komunitateko eta j komunitateko erpinak lotzen dituzten ertzen frakzioa.

    $$ \begin{equation} 
      e_{ij} = \frac{1}{2m}\sum _{vw}A_{vw}\delta(c_{v}, i)\delta(c_{w}, j).  \tag{4}
    \end{equation}  $$
    
- $\textbf{$a_{i}$:}$  i komunitatearekin loturiko ertzen frakzioa

    $$ \begin{equation} 
      a_{i} = \frac{1}{2m}\sum _{v}k_{v}\delta(c_{v}, i).  \tag{5}
    \end{equation}  $$
   
Azkenik, $ \delta(c_{v}, c_{w}) = \sum _{i} \delta(c_{v}, i)\delta(c_{w}, j)$ dela kontuan hartuz, (3)-tik modularitatea honela simplifikatzen da:

$$ \begin{equation} 
   Q = \sum _{i}\left [ \frac{1}{2m}\sum_{vw} A_{vw}\delta(c_{v}, i)\delta(c_{w}, j) - \frac{1}{2m}\sum _{v}k_{v}\delta(c_{v}, i) \frac{1}{2m}\sum _{w}k_{w}\delta(c_{w}, i) \right ] = \sum _{i}\left ( e_{ii} - a _{i} \right )^{2}.  
  \end{equation}  \tag{6} $$
  
$\newline$
$\textbf{Erreferentziak}$

-- Clauset, A.; Newman, M. E. J. & Moore, C. Finding community structure in very large networks, Physical Review E 2004, 70, 066111
   https://arxiv.org/pdf/cond-mat/0408187.pdf


In [12]:
# Probak egiteko 
# SQL
import sqlite3

# Pandas
import pandas as pd

# Graph
import community
import networkx as nx

# Plot
import matplotlib.pyplot as plt
import seaborn as sns

# Combinations
import itertools

def sortu_grafoa():

    # Datuak irakurri
    # BETE HEMEN 8 lerro
    connect = sqlite3.connect('./data/database.sqlite')
    query = """
    SELECT pa.paper_id, pa.author_id, a.name
    FROM paper_authors AS pa JOIN papers AS p ON pa.paper_id = p.id
    JOIN authors as a ON pa.author_id = a.id
    WHERE p.Year BETWEEN '2014' AND '2015'
    """
    df = pd.read_sql(query, connect)
    
    # Sortu grafoa
    # BETE HEMEN 7-10 lerro
    
    # Initialize graph
    G = nx.Graph()

    # Transform
    # Autorearen IDa erabili beharrean erabili izena.
    for p, a in df.groupby('paper_id')['name']: 
        for u, v in itertools.combinations(a, 2):
            if G.has_edge(u, v):
                G[u][v]['weight'] +=1
            else:
                G.add_edge(u, v, weight=1)
            
    # Print graph size 
    print('\nAutore kopurua grafoan:', G.number_of_nodes())
    print('\nElkarlan kopurua grafoan:', G.number_of_edges())
    
    return G

In [13]:
# pip install ipynb exekutatu liburutegi hau erabili ahal izateko.
from itertools import product
#from ipynb.fs.full.CDP_Sarrera_Ikasle import sortu_grafoa 
import community
import networkx as nx
import numpy as np

### Helburu-funtzioa
def modularitatea(G, partizioa, weight='weight'):
    
    ### Bete hemen 15-20 lerro
    e = dict([]) # eii
    a = dict([]) # aii
    m = G.size()
    modul = 0
    
    for v in G:
        com = partizioa[v] # u ze komunitatean dagoen
        a[com] = a.get(com,0) + G.degree(v, weight=weight) # u dagoen komunitatearen nodo bakoitzaren degree gehitzen joan
        
        for w, datas in G[v].items(): # u nodoaren auzokidea
            if partizioa[w] == com: # u eta w partizio berekoak
                if v == w:
                    e[com] = e.get(com, 0) + datas[weight] * 2
                else:
                    e[com] = e.get(com, 0) + datas[weight]     
    
    for com in set(partizioa.values()):
        modul += (e.get(com, 0) / (2*m)) - (a.get(com, 0) / (2*m)) ** 2

    return modul

### Dei orokorrak
G=sortu_grafoa()

## Gure inplementazioa
partition1= dict(zip(G.nodes, soluzioa_1))
partition2= dict(zip(G.nodes, soluzioa_2))

print("\n1. soluzioaren modularitatea: ", modularitatea(G, partition1))
print("2. soluzioaren modularitatea: ", modularitatea(G, partition2))


Autore kopurua grafoan: 1843

Elkarlan kopurua grafoan: 3215

1. soluzioaren modularitatea:  -0.010329254636001059
2. soluzioaren modularitatea:  0.0024905127355490044
