# Redes Sociales

Una <b>red social</b> es un grafo, donde los <b>nodos</b> son los <b>usuarios</b> y las <b>aristas</b> son las relaciones entre ellos. Estas pueden ser <b>direccionales</b> como en el caso de <b>Twitter</b> donde un usuario puede seguir a otro pero este no lo sigue. En cambio en <b>Facebook</b> las relaciones no tienen direccion.

<hr>

## Propiedades de los Grafos

### Propiedades Basicas

- Se llama <b>N</b> a la cantidad de <b>nodos</b> del grafo.
- Se llama <b>E</b> a la cantidad de <b>aristas</b> del grafo.
- Se llama $\bf k_i$ al <b>grado</b> de cada nodo.
- Se llama <b>k</b> al <b>grado</b> promedio de cada nodo.

Si el grafo es no dirigido entonces $k = \frac{2E}{N}$

Un grafo <b>completo</b> es aquel que tiene todas sus aristas, en un grafo no dirigido esto quiere decir <b>k = N - 1</b>

### Almacenamiento de un Grafo

La forma optima de almacenar un grafo es guardando por cada nodo la lista de <b>adyacencias</b>. 

### Componentes Conexos

Generalmente el grafo de una red social es conexo. El porque de esto es porque en un grafo con muchos nodos, supogamos que existen dos componentes conexas. En el momento de una nueva arista es muy probable que conecte estos dos componentes conexos.

### Diametro

En un grafo, la <b>distancia</b> entre dos vértices es el menor número de aristas de un recorrido entre ellos. El <b>diámetro</b> es la mayor distancia entre todos los pares de nodos. Las Redes Sociales tienen un diametro muy bajo, lo cual da origen al fenomeno del <b>mundo pequenio</b>: los famosos 6 grados de separacion.

### Coeficiente de Clustering

El <b>coeficiente de clustering</b> mide que tan conectados estan los <b>vecinos</b> de un nodo.

\begin{equation}
\large C_i = \frac{2 e_i}{k_i (k_i - 1)}
\end{equation}

Donde $e_i$ es la cantidad de aristas entre los vecinos del nodo <b>i</b>.

<b>Observacion: </b>En una red social el coeficiente de clustering es en general un numero alto. Ya que los vecinos de un nodo tienden a estar conectados entre si precisamente por tener en comun su relacion con ese nodo.

#### Coeficiente de Clustering promedio de la red

\begin{equation}
\large C = \frac{\sum_i c_i}{N} 
\end{equation}

<hr>

## Modelos de Grafos

Caracteristicas de un grafo en una red social:
- Diametro: Muy pequenio
- Coeficiente de Clustering: Muy alto
- Componentes Conexos: 1
- Distribucion del Grado: Power Law
- Camino minimo promedio: Bajo

### Modelo de Erdos-Renyi

El modelo de <b>Erdos-Renyi</b> es un <b>grafo aleatorio</b> con <b>N</b> nodos y probabilidad <b>p</b> para cada arista. A estos grafos se los llamara $\bf G_{np}$. Una forma eficiente de armar un grafo que siga este modelo es, siendo N la cantidad de nodos, es calcular la cantidad de aristas como $p\frac{N(N-1)}{2}$ y luego formar cada una de estas aristas tomando dos nodos al azar.

#### Diametro

Esta en el orden de <b>O(log(N))</b>. Igual que el grafo de Facebook, asi que podriamos decir que el Diametro del grafo de una red social es una propiedad que se da de igual manera en un grafo aleatorio. 

#### Distribucion del grado

El grado promedio de los nodos es $\bf p(n-1)$ lo cual es logico porque la cantidad maxima de aristas que puede tener un grafo es <b>(n-1)</b> y la probabilidad de que exista cada una es <b>p</b>. Asi que la distribucion de grado tiene forma <b>normal</b> y por lo tanto difiere de la de un grafo de una red social que tiene <b>ley de potencias</b>.

#### Coeficiente de Clustering

Sabemos que el <b>coeficiente de clustering</b> en cualquier grafo es:

\begin{equation}
\large c_i = \frac{2e_i}{k_i(k_i - 1)}
\end{equation}

Y para un grafo que sigue este modelo la cantidad de aristas entre los vecinos del nodo ($e_i$) es:

\begin{equation}
\large e_i = p \frac{k_i (k_i - 1)}{2}
\end{equation}

Por lo tanto:

\begin{equation}
\large C_i = p = \frac{k_i}{n - 1} \approx \frac{k_i}{N}
\end{equation}

Lo cual es un <b>coeficiente</b> resulta ultra bajo, nada que ver con el de una red social.

### Modelo de Barabasi-Albert

En este modelo a diferencia del anterior, las aristas no son aleatorias, sino que utiliza el modelo llamado <b>preferential attachment</b> donde la probabilidad de agregar una arista entre dos nodos depende del grado de cada nodo, mientras de mayor grado sean estos, mas probable es que se agrege la arista entre ellos. Es el fenomeno <b>los ricos son cada ves mas ricos</b>.

#### Diametro

Es <b>O(log(log(N)))</b> que es compatible con el de una red social.

#### Distribucion de Grado

Es una <b>ley de potencias</b> como en una red social.

### Modelo de Jackson-Rodgers

Este modelo es una combinacion de los dos anteriores. Ya que se crea una nueva arista siguiendo lo siguiente:
- Probabilidad $\alpha$ de que se cree al azar la arista.
- Probabilidad $1 - \alpha$ de que se cree la arista usando el modelo de <b>preferential attachment<b/>

Por lo tanto si $\alpha$ es 1 el modelo se tranforma en el de <b>Erdos-Renyi</b> y si $\alpha$ es 0 el modelo es el de <b>Jackson-Rodgers</b>.

<b>Empiricamente se puede mostrar que este modelo representa muy bien la creacion de aristas que tienen las redes sociales, cada una con un $\alpha$ diferente.</b>

<hr>

## La Clausura Triangular

Este es el <b>fenomeno</b> que origina que las redes sociales tengan un alto <b>coeficiente de clustering</b>. Lo que dice este fenomeno es muy simple, "si A conoce a B y C, tarde o temprano B y C se conocen". Esto hace que forme una cantidad inusual de <b>triangulos</b> que genera un alto coeficiente de clustering.

De esto, se desprende una forma facil de darnos cuenta si un grafo corresponde al de una red social, la forma es contando triangulos.

### Contando triangulos en un grafo

La forma de contar triangulos en un grafo es con la matriz de adyansencias, que es la tiene un 1 si existe una arista entre el elemento <b>i</b>, <b>j</b> de la matriz. Que exista una arista es lo mismo que decir que exista un camino de longitud 1. Las matrices de adyacencias tienen la increible propiedad de cuando las elevamos a la <b>n</b>, nos dan la informacion de la cantidad de caminos de longitud <b>n</b> que van de <b>i</b> a <b>j</b>. A nosotros nos interesa contar triangulos, osea caminos de longitud 3 que nos llevan del elemento <b>i</b> al elemento <b>i</b>. Por lo tanto necesitamos la matriz de adyacencias elevada al cubo, y sumar todos los elementos de la diagonal que son los que salen de un nodo y vuelven al mismo nodo. Luego, para evitar contar el camino dos veces por las dos orientaciones del recorrido divimos por 2 y luego dividimos por 3 para evitar contar 3 veces el mismo triangulo partiendo de cada uno de los tres nodos.

<hr>

## Centralidad

El concepto de <b>centralidad</b> es una <b>medida</b> que se le asigna a un <b>nodo</b> que habla de la importancia que tiene este nodo para el grafo. Veremos varias <b>metricas</b> que calculan la centralidad, cada una con un significado diferente.

## Grado

La <b>metrica</b>: <b>grado</b> de un nodo es la medida mas simple de centralidad. A mayor grado, mayor cantidad de conexiones con otros nodos, mayor centralidad.

## Betweenness

La <b>metrica</b>: Betweenness no le interesa el grado del nodo, sino la importancia que tiene este uniendo partes conexas. Imaginemos un nodo que por medio de una arista mantiene unida dos componentes que sino fuera por el serian disconexas, este entonces cumple un rol importante, el de mantener las piesas unidas. Esta metrica se puede aplicar tanto a nodos como a aristas.

<b>Definicion</b> de centralidad del nodo i:

\begin{equation}
\large C_B(i) = \sum_{j < k} \frac{g_{jk}(i)}{g_{jk}}
\end{equation}

Donde:
- $g_{jk}$: Es la cantidad de caminos de longitud minima de <b>j</b> a <b>k</b>.
- $g_{jk}(i)$: Es la cantidad de caminos de longitud minima que pasan por <b>i</b> de <b>j</b> a <b>k</b>.

## Closeness

La <b>metrica</b>: Closeness establece la centralidad fijandose la distancia que tiene el nodo con todos los demas nodos, mientra menor sean estas mayor sera la centralidad. Esto matematicamente es sumar las distancias del nodo i con cada uno de los demas nodos. Y calcular la inversa. A mayor suma de distancias menor centridad, y a menor suma de distancias mayor centralidad.

\begin{equation}
\large C_c(i) = \frac{1}{\sum^N_{j=1} d(i,j)}
\end{equation}

## Eigenvector Centrality y PageRank

Este <b>concepto</b> habla de que la centralidad de un nodo depende de la centralidad de los vecinos a este nodo. Es analogo al concepto de page rank.

## Centralidad de la Red

Esta a diferencia de las anteriores, que eran medidas de la centralidad de un nodo, es la centralidad del grafo en su totalidad.

<b>Definicion</b>:

\begin{equation}
\large C_D = \frac{\sum^N_{i=1} [C_D(n^*)-C_D(i)]}{(N - 1)(N - 2)}
\end{equation}

Donde:
- N es la cantidad de nodos.
- $C_D(i)$ es la centralidad del nodo <b>i</b> usando la metrica que querramos.
- $C_D(n^*)$ es la centralidad maxima. 

<hr>

## Deteccion de Comunidades 

### Uniones Fuertes y Debiles

Las <b>uniones</b> entre nodos que se dan por medio de aristas pueden ser fuertes o debiles. Una union debil es cuando al borrar una de las aristas que une los nodos, el camino minimo entre ellos disminuye.

Las <b>uniones debiles</b> son muy importantes en las redes ya que son a partir de estas que se <b>descubren</b> cosas. 

### Modularidad

La <b>funcion de modularidad</b> permite evaluar que tan modular, es decir que tan separado en modulos, osea comunidades, esta separado un grafo. Es un numero que va de 0 a 1. Asi que 1 significa que todos los nodos pertenecen a una misma comunidad, y 0 que todos pertenecen a distinta comunidad.

<b>Definicion:</b>

\begin{equation}
\large Q = \frac{1}{2m} \sum_{vw}[A_{vw} - \frac{K_v K_w}{wm}] \delta(c_v, c_w)
\end{equation}

Donde:
- $\bf \delta(v_1, v_2)$ es una funcion que vale 1 si los vertices $v_1$ y $v_2$ estan en la misma comunidad.  Y 0 en caso contrario.
- $\bf A_{vw}$ es la matriz de adyacencias.
- $\bf K_v$ y $\bf K_w$ son los grados de los vertices.
- <b>m</b> es la cantidad total de aristas.

### Algoritmo de Girwan-Newman

Es un algoritmo para a partir de un grafo detectar comunidades. Utiliza el concepto de <b>betwenness</b> para ver donde realizar los cortes de aristas. Corta aristas en las aristas con mayor <b>betwennes</b> que aqui es donde existen las uniones mas debiles. El algoritmo corta aristas hasta que llegue a la cantidad de comunidades que nosotros le especificamos.

### Analisis de comunidades en Redes Sociales

Este analisis se basa en ver que tan bien quedo separada una comunidad S. Muestra que tan aislada quedo, si es una nube de nodos con una sola conexion hacia fuera, o con ninguna conexion hacie afuera, o si quedaron con muchas conexiones hacia fuera. 

La siguiente expresion, expresa justamente esto que dijimos. Y se la denomina <b>conductancia</b>:

\begin{equation}
\large \phi(s) = \frac{|(i,j) \in E; i \in S, j \notin S|}{\sum_{s \in S} k_s}
\end{equation}

Donde:
- El numerador cuenta la cantidad de aristas que salen de un nodo <b>i</b> que pertenece al cluster S y van hacia un nodo <b>j</b> fuera del cluster S.
- Y el denominador suma los grados de todos los nodos pertenecientes al cluster S. Esto da la pauta de que tan grande es el cluster.

<b>Observacion</b>: Mientras mas bajo el valor de <b>conductancia</b> de un cluster mejor estructura tiene, mas bueno es.

<hr>

## Cascadas en Redes Sociales 

El fenomeno <b>cascada</b> estudia como a partir de una una informacion, nueva publicacion, de cualquier tipo, esta se <b>difunde</b> por la red. Vamos a estudiar los modelos que muestran de que manera se difunde, hasta donde llega, cuando para, en cuanto tiempo.

### Modelo de Difusion

Si al menos <b>q%</b> de mis vecinos difunden algo yo tambien lo hago. Esto definira una cascada <b>q</b>.

### Maximizacion de Influencia

Esto implica que difusion llegue a la mayor cantidad de nodos posibles en la red mediante el uso de la menor cantidad de nodos. Por lo tanto lo se esta buscando, es que llegue a los nodos que mas influencia produciran. Esto tiene aplicaciones en campanias de marketing.

El problema formal se llama <b>Set-Cover</b> que lo que busca es el conjunto minimo de nodos para poder llegar a todos los nodos.

La solucion de este problema es <b>NP-Completo</b>. Y se basa en usar una funcion <b>f</b> que va indicando cuanta influencia ganamos agregando cierto nodo. Entonces en cada paso del algoritmo lo que hacemos es probar con todos los nodos y nos quedamos en el que mas influencia nos haga ganar, es decir es un algoritmo de tipo <b>greedy</b>, pero ademas las funcion <b>f</b> que nos dice cuanta influencia nos da agregar un nodo no existe, pero por suerte se puede simular.

<hr>

## Redes Sociales con Signo

La idea es poder predecir antes de que exista la relacion que <b>signo</b> tendra, osea <b>positivo</b> o <b>negativo</b>. Poniendo ejemplos seria predecir si dos personas seran amigas o enemigas.

La forma de analizar esto es basandonos en conceptos muy simples:
- <b>Relaciones Balanceados</b>
 - Los amigos de mis amigos son mis amigos.
 - Los enemigos de mis enemigos son mis amigos.
- <b>Relaciones No Balanceadas</b>
 - A amigo de B y A amigo de C pero B y C no son amigos.
 - A enemigo de B y A enemigo de C y B enemigo de C.

Entonces es muy simple, cuando vemos que A es amigo de B y A es amigo de C. Entonces lo mas probable es que el B termine siendo amigo de C, esto cerraria el triangulo. Y la otra es A es enemigo de B y A es enemigo de C entonces  es muy probable que B y C sean amigos.

<hr>

## El lenguaje en las Redes Sociales 

Las redes sociales, en el conjunto de sus textos, publicaciones, tweets, comentarios, se presenta un lenguaje de cierto tipo. El usuario apenas entra a la red social no posee este lenguaje, pero a medida que persiste en la red, se ve como generalmente su lenguaje empieza a cambiar tendiendo a ser el lenguaje general de la red. Esto se ve en sus publicaciones por ejemplo, la cuestion es que llega un momento donde puede ocurrir que el usuario se empieze a alejar el lenguaje de la red, y esto hara que este usuario tenga los dias contados dentro de la misma, osea que probablemente no falte mucho para que la deje de usar.

<hr>

## Evolucion de una Red Social

### Cantidad de Nodos y Aristas

A medida que aumenta la cantidad de nodos, aumenta la cantidad de aristas de forma superior. Esto seria:

\begin{equation}
\large E(t) \approx N(t)^a
\end{equation}

### Diametro

A medida que aumenta la cantidad nodos uno pensaria que el diametro deberia aumentar, pero todo lo contrario, disminuye. Esto quiere decir a medida que una red crece la distancia entre nodos disminuye.