# Clustering y transitividad


### Introducción 

* Estrada et al (2015) indica que muchas redes del mundo real se caracterízan por tener una cantidad relativamente grande de triángulos. 
* Esta característica es producto de la presencia de alta transitividad.
* Las medidas que presentan los autores  están relacionadas con la proporción de triángulos que existen en una red y el número potencial de triángulos que se pueden presentar dados los grados de sus nodos.
* Esta propiedad es conocida como el **coeficiente de clustering**.

Los autores presentan dos métodos para calcular el coeficiente de clustering:

* El coeficiente de clustering de Watts-Strogatz (medida local).
* El coeficiente de clustering de Newman (medida global).

### Coeficiente de clustering de Watts-Strogatz


Fue propuesto por Watts-Strogatz en 1998. Suponiendo que el clustering de un nodo es proporcional a:

$$
    C_i = \dfrac{\text{# de relaciones transitivas de un nodo}\; i}{\text{# total de posibles relaciones transitivas de un nodo}\; i}
$$

si $t_i$ designa el número de triángulos unidos al nodo $i$ con grado $k_i$, entonces:

$$
C_i= \dfrac{t_i}{\frac{k_i(k_i-1)}{2}}= \dfrac{2t_i}{k_i(k_i-1)}
$$

El coeficiente de clustering promedio de la red es:
$$
\overline{C}= \dfrac{1}{n} \sum_i^n C_i
$$


### ¿Cómo obtenemos $t_i$?

Latora et al (2017) proponen la siguiente expresión : 
 
 
\begin{equation}
C_i =
  \begin{cases}
   \dfrac{K[G_i]}{k_i(k_i-1)/2} & \quad \text{para }  k_i \geq 2\\
    0  & \quad \text{para } k_i= 0,1
  \end{cases}
\end{equation}



donde $K[G_i]$ es el número de conexiones en $G_i$, la subgráfica inducida por la vecindad de $i$.


El número de aristas $K[G_i]$ en la gráfica $G_i$ puede ser obtenida en términos de la matriz de adyacencia de la gráfica. 

Latora et al (2017) indican que podemos obtener el coeficiente de clustering a partir de la matriz de adyacencia de la siguiente manera:
\begin{equation}
 c_i =
  \begin{cases}
   \dfrac{\sum_{l,m} a_{il}a_{lm}a_{mi}}{k_i(k_i-1)}=\dfrac{\big( A\big)^3_{ij}}{k_i(k_i-1)} & \quad \text{para }  k_i \geq 2\\
    0  & \quad \text{para } k_i= 0,1
  \end{cases}
\end{equation}

* De acuerdo a los autores, $\big( A\big)^3_{ij}=\sum_{l,m} a_{il}a_{lm}a_{mj}$ es igual al número de recorridos de 3 pasos que conectan al nodo $i$ con el nodo $j$.
* En particular, para $i=j$, la cantidad $\big( A\big)^3_{ii}=\sum_{l,m} a_{il}a_{lm}a_{mi}$ denota el número de trayectorias de 3 pasos que llevan del nodo $i$ a si mismo.
* Esto es dos veces la cantidad de triángulos generados en la vecindad del nodo $i$.

El triángulo que contiene al nodo $i$ y a los dos nodos $l$ y $m$ está compuesto por dos aristas conectadas al nodo $i$, llámese $(i,l)$ y $(m,i)$, y por la arista $(l,m)$ que pertenece a la gráfica $G_i$ inducida por los primeros vecinos de $i$.  Dado que la arista $(l,m)$ aparece dos veces (en las trayectorias $(i,l,m,i)$ y $(i,m,l,i)$), el número de aristas $K[G_i]$ está dado por:

\begin{equation}
K[G_i]=\frac{1}{2}\big( A\big)^3_{ii}=\frac{1}{2}\sum_{l,m} a_{il}a_{lm}a_{mi}
\end{equation}


De manera que sustituyento (3) en (1) obtenemos la siguiente expresión (2).

Así, para el cálculo del coeficiente de clustering tenemos que calcular el cuadrado de la matriz de adyacencia($A^2$). No es necesario calcular por completo el cubo de la matriz de adyacencia, pues los valores que necesitamos de esta son los de la diagonal principal, los cuales lo obtenemos de realizar la multiplicación de las $i$ filas de $A^2$ por las de la matriz de adyacencia.



<center><img src="images/network_estrada.png "/></center>

$$
A=\begin{bmatrix} 0  &  1  &  1  &  1   & 1 & 0 & 0 & 0 \\ 
					1  &  0  &  1   & 0  &  0 & 1 & 0 & 0 \\
					1  &  1  &  0   & 1  &  0 & 0 & 1 & 0 \\
					1  &  0  &  1   & 0  &  0 & 0 & 0 & 1 \\
					1  &  0  &  0   & 0  &  0 & 0 & 0 & 0 \\
					0  &  1  &  0   & 0  &  0 & 0 & 0 & 0 \\
					0  &  0  &  1   & 0  &  0 & 0 & 0 & 0 \\                    
					0  &  0  &  0   & 1  &  0 & 0 & 0 & 0 
 \end{bmatrix}
$$

<center><img src="network_estrada.png "/></center>


In [1]:
import numpy as np
A=np.array([[0,1,1,1,1,0,0,0], 
[1,0,1,0,0,1,0,0],
[1,1,0,1,0,0,1,0],
[1,0,1,0,0,0,0,1],
[1,0,0,0,0,0,0,0],
[0,1,0,0,0,0,0,0],
[0,0,1,0,0,0,0,0],                    
[0,0,0,1,0,0,0,0]])
A2=np.matmul(A, A)
A3=np.matmul(A2, A)
A3.diagonal()

array([4, 2, 4, 2, 0, 0, 0, 0])

In [2]:
def division(triangulos,ki):
    if triangulos==0:
        return "0.0000"
    else:
        return round(triangulos/(ki*(ki-1)),4)
        

In [6]:
n=8
suma=0
ki_lista=[]
print("| i | k_i |  Aii^3 |    Ci    |")
print("-------------------------------")
for i in range(n):
    ki=sum(A[i])
    ki_lista.append(ki)
    triangulos= int(A3[i][i])
    ci = division(triangulos,ki)
    if isinstance(ci, float):
        suma+=ci
    print("| {} |  {}  |    {}   |  {}  |".format(i+1,ki,triangulos,ci))

print("El coefiente de clustering promedio es {}".format(suma/n))

| i | k_i |  Aii^3 |    Ci    |
-------------------------------
| 1 |  4  |    4   |  0.3333  |
| 2 |  3  |    2   |  0.3333  |
| 3 |  4  |    4   |  0.3333  |
| 4 |  3  |    2   |  0.3333  |
| 5 |  1  |    0   |  0.0000  |
| 6 |  1  |    0   |  0.0000  |
| 7 |  1  |    0   |  0.0000  |
| 8 |  1  |    0   |  0.0000  |
El coefiente de clustering promedio es 0.16665


## Coeficiente de clustering de Newman.

El coeficiente de clustering, también conocido como $\textit{índice de transitividad}$, ofrece una medida global de clustering de la red.

Sea $t=|C_3|$ el número total de triángulos y sea $|P_2|$ el número de trayectorias de tamaño dos en la red (qué representa las potenciales relaciones de tres vías). Entonces:

\begin{equation}
C=\dfrac{3t}{|P_2|}= \dfrac{3|C_3|}{|P_2|}
\end{equation}

El número de triángulos es igual a:

\begin{equation}
t=\dfrac{1}{6}\text{tr}(A^3)
\end{equation}

El número de trayectorias de tamaño dos en la red puede ser obtenidas con la siguiente fórmula:

\begin{equation}
|P_2|=\sum_{i=1}^n {k_1 \choose 2}= \sum_{i=1}^n \dfrac{k_i(k_i-1)}{2}
\end{equation}

Para la gráfica que hemos usado, el coeficiente de clustering de Newman sería:

In [13]:
t= (1/6) * A3.trace()
P2=0

for ki in ki_lista:
    P2+=(ki*(ki-1))/2

coef_newman = (3*t)/P2
print("t= {}.\nP2 = {}.\nEl Coeficiente de clustering de Newman es {}".format(t,P2,coef_newman))

t= 2.0.
P2 = 18.0.
El Coeficiente de clustering de Newman es 0.3333333333333333
