# **Entendiendo el problema**

Nuestra meta es identificar los circulos sociales de una persona y sus circulos sociales. Cada circulo es un subconjunto de sus amigos. Esto significa que podemos formular el problema de detección de circulos como un problema de agrupamiento de su ego-network.

En la siguiente figura se muestra un único usuario *u* y formamos una red con sus amigos *vi*. Nos referiremos al usuario *u* como *ego* y a sus nodos *vi* como *alters*. La tarea es identificar los circulos a que cada *vi* pertenece. 

<img src="https://i.imgur.com/Ist45yG.png" style="width:700px;">

# **Instalar librerías**

In [1]:
!pip install numpy
!pip install pandas
!pip install scikit-learn
!pip install matplotlib
!pip install python-igraph
!pip install cairocffi
!pip install networkx

[33mDEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 won't be maintained after that date. A future version of pip will drop support for Python 2.7.[0m
[33mDEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 won't be maintained after that date. A future version of pip will drop support for Python 2.7.[0m
[33mDEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 won't be maintained after that date. A future version of pip will drop support for Python 2.7.[0m


# **Importar librerías**

In [1]:
import numpy as np
from utils_notebook import *
%matplotlib inline
import pandas as pd
from sklearn.datasets import *
import matplotlib.pyplot as plt

## Leer el *path* al dataset

Leemos el dataset como un Pandas Dataframe para analizar los datos.

In [2]:
path = './dataset/com-youtube.ungraph.txt'
data = pd.read_csv(path, sep='\t', skiprows=3)
data.head()

Unnamed: 0,# FromNodeId,ToNodeId
0,1,2
1,1,3
2,1,4
3,1,5
4,1,6


Observamos que el dataset consta de dos columnas que nos indica las conexiones entre nodos.

In [3]:
data.columns

Index([u'# FromNodeId', u'ToNodeId'], dtype='object')

Además nos damos cuenta que hay 2987624 conexiones.

In [4]:
print("Hay", data.to_numpy().shape[0], "conexiones en el dataset de youtube")

('Hay', 2987624, 'conexiones en el dataset de youtube')


Es preciso aclarar, luego de ver las dimensiones de este dataset que, debido a la cantidad de datos para entrenar los algoritmos, estos pueden presentar demoras.

In [5]:
data.describe()

Unnamed: 0,# FromNodeId,ToNodeId
count,2987624.0,2987624.0
mean,187548.8,412876.5
std,260820.0,339283.7
min,1.0,2.0
25%,11815.0,109308.0
50%,76800.0,307059.5
75%,234297.0,686402.0
max,1157804.0,1157827.0


Más información acerca de cada columna. El valor máximo, menor, la media, la desviación estandar y la cantidad de datos

# Tratamiento de datos

Convertimos el dataframe a un Ndarray de numpy para pasar estos datos a los algoritmos.

In [6]:
np_data = data.to_numpy()

## Centralidad por intermediación

La centralidad por intermedicación es una medidad de centralidad en un grafo que se baja en los caminos más cortos. Por cada par de vertices en un grafo conectado, existe al menos un camino corto entre dos vertices, de manera que el numero de aristas que se atraviesa en un camino (para grafos no ponderados)o la suma de los pesos de las aristas (para grafos con pesos) es minimizada. La centralidad por intermediación para cada vertice es el numero de estos caminos cortos que pasan a traves de este vertice.

$$g(v) = \sum_{s\neq v \neq t} \frac{\sigma_{st}(v)}{\sigma_{st}}$$

Donde $\sigma_{st}$ es el numero total de caminos más cortos desde el nodo $s$ y $\sigma_{st}(v)$ es el número de caminos que pasan a través de $v$

<img src="https://toreopsahl.wordpress.com/files/2009/01/fig1_betweenness3.gif" style="width:300px;">


In [7]:
most_important(np_data[:1000], 'CGC') # trimming

('Los nodos mas representatios son:', array([1, 2, 3, 4]))
