In [13]:
import networkx as nx  # es necesario que instales la versión 1.11
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from networkx.classes.function import common_neighbors
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.metrics import roc_auc_score
from sklearn.linear_model import LogisticRegression
from sklearn import datasets, metrics


# Primera parte

En la primera parte de esta tarea trabajarás con la red que se forma a partir de las comunicaciones por correo electrónico en una compañía. Cada nodo corresponde a una persona y cada enlace indica que por lo menos se ha enviado un correo entre las personas.

La red también contiene los atributos `Department` y `ManagementSalary`. El atributo `Department` registra el departamento al cual pertenece cada persona y `ManagementSalary` indica si recibe un salario asociado con una posición directiva.


In [14]:
G = nx.read_gpickle('email_prediction.txt')
len(G.nodes())


1005

In [15]:
G.nodes(data=True)[0:10]


[(0, {'Department': 1, 'ManagementSalary': 0.0}),
 (1, {'Department': 1, 'ManagementSalary': nan}),
 (2, {'Department': 21, 'ManagementSalary': nan}),
 (3, {'Department': 21, 'ManagementSalary': 1.0}),
 (4, {'Department': 21, 'ManagementSalary': 1.0}),
 (5, {'Department': 25, 'ManagementSalary': nan}),
 (6, {'Department': 25, 'ManagementSalary': 1.0}),
 (7, {'Department': 14, 'ManagementSalary': 0.0}),
 (8, {'Department': 14, 'ManagementSalary': nan}),
 (9, {'Department': 14, 'ManagementSalary': 0.0})]

## Instrucciones [primera parte]

El objetivo de esta primera práctica es que construyas un modelo que prediga el valor de la variable `ManagementSalary`.

1. Ignora los casos en los que no se tiene registrada la etiqueta.
2. Separa el conjunto de datos en subconjuntos de entrenamiento y prueba.
3. Ajusta un modelo a los datos usando alguna técnica de aprendizaje adecuada. Puedes utilizar como predictores métricas que caractericen a los nodos (de centralidad, distancia, conexión, ...).
4. Evalúa la calidad del modelo sobre el conjunto de prueba usando el área bajo la curva (tu modelo debe tener por lo menos un AUC de $0.82$ evaluada sobre el conjunto de prueba).


### Eliminamos los casos en los que no se tinee registrada la etiqueta


In [16]:
nodes_to_remove = [n for n in G.nodes() if pd.isnull(
    G.node[n]['ManagementSalary'])]
G.remove_nodes_from(nodes_to_remove)


In [17]:
G.nodes(data=True)[0:10]


[(0, {'Department': 1, 'ManagementSalary': 0.0}),
 (3, {'Department': 21, 'ManagementSalary': 1.0}),
 (4, {'Department': 21, 'ManagementSalary': 1.0}),
 (6, {'Department': 25, 'ManagementSalary': 1.0}),
 (7, {'Department': 14, 'ManagementSalary': 0.0}),
 (9, {'Department': 14, 'ManagementSalary': 0.0}),
 (10, {'Department': 9, 'ManagementSalary': 0.0}),
 (11, {'Department': 14, 'ManagementSalary': 0.0}),
 (12, {'Department': 14, 'ManagementSalary': 1.0}),
 (13, {'Department': 26, 'ManagementSalary': 1.0})]

### Ajusta un modelo a los datos usando alguna técnica de aprendizaje adecuada. Puedes utilizar como predictores métricas que caractericen a los nodos (de centralidad, distancia, conexión, ...).


In [18]:
df = pd.DataFrame(index=G.nodes())
df['Department'] = pd.Series(nx.get_node_attributes(G, 'Department'))
df['ManagementSalary'] = pd.Series(
    nx.get_node_attributes(G, 'ManagementSalary'))

# Métricas de centralidad
df['degree centrality'] = pd.Series(nx.degree_centrality(G))
df['closeness'] = pd.Series(nx.closeness_centrality(G, normalized=True))
df['betweenness'] = pd.Series(nx.betweenness_centrality(G, normalized=True))

# metricas de distancia
df['degree'] = pd.Series(nx.degree(G))

# metrica de conexion
df['clustering'] = pd.Series(nx.clustering(G))


In [19]:
df.head()


Unnamed: 0,Department,ManagementSalary,degree centrality,closeness,betweenness,degree,clustering
0,1,0.0,0.043883,0.396767,0.001392,33,0.290323
3,21,1.0,0.066489,0.423038,0.001491,50,0.414007
4,21,1.0,0.095745,0.447401,0.008065,72,0.31677
6,25,1.0,0.115691,0.454843,0.011524,87,0.148739
7,14,0.0,0.070479,0.390868,0.00279,53,0.283137


In [20]:
len(df)


753

### Separa el conjunto de datos en subconjuntos de entrenamiento y prueba.


In [21]:
X_train, X_test, y_train, y_test = train_test_split(df.drop(
    'ManagementSalary', axis=1), df['ManagementSalary'], test_size=0.2, random_state=42)


### Evalúa la calidad del modelo sobre el conjunto de prueba usando el área bajo la curva (tu modelo debe tener por lo menos un AUC de $0.82$ evaluada sobre el conjunto de prueba).


In [22]:
lr = LogisticRegression()
lr.fit(X_train, y_train)


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [23]:
y_pred_proba = lr.predict_proba(X_test)[:, 1]
auc = roc_auc_score(y_test, y_pred_proba)
print('AUC: %.3f' % auc)


AUC: 0.891


# Segunda parte

En la última parte de esta práctica vas a predecir las futuras conexiones enyte los empleados de la red. La información de la formación de tales conexiones se encuentra en el archivo `future_connections`, cuyo índice es una dupla de nodos que no están conectados actualmente. La columna `Future Connection` indica si en el futuro se establecerá una arista entre ambos nodos (el valor de 1.0 indica una futura conexión).


In [24]:
df = pd.read_csv('Future_Connections.csv', index_col=0, converters={0: eval})
df.head(10)


Unnamed: 0,Future Connection
"(6, 840)",0.0
"(4, 197)",0.0
"(620, 979)",0.0
"(519, 872)",0.0
"(382, 423)",0.0
"(97, 226)",1.0
"(349, 905)",0.0
"(429, 860)",0.0
"(309, 989)",0.0
"(468, 880)",0.0


## Instrucciones [segunda parte]

Utiliza la reg `G` (de la primera parte) y `future_connections` para que construyas un modelo que identifique cuáles parejas de nodos en `future_connections` estarán conectados en el futuro.

Para lograrlo, deberás crear una matriz con métricas que caractericen a las aristas de `future_connections` utilizando networkx.

1. Elimina los casos en que la variable de respuesta no se encuentre registrada.
2. Evalúa las características de las parejas de nodos del archivo `future_connections`.
3. Separa los datos en subconjuntos de entrenamiento y prueba.
4. Ajusta un modelo adecuado para predecir la formación de enlaces.
5. Evalúa la calidad del modelo sobre el conjunto de prueba usando el área bajo la curva (tu modelo debe tener por lo menos un AUC de $0.82$ evaluada sobre el conjunto de prueba).


### Elimina los casos en que la variable de respuesta no se encuentre registrada.


In [25]:
df = df.dropna(subset=['Future Connection'])


In [26]:
deg_values = list(nx.degree_centrality(G).values())
min_deg = min(deg_values)
max_deg = max(deg_values)

clus_values = list(nx.clustering(G).values())
min_clus = min(clus_values)
max_clus = max(clus_values)

bet_values = list(nx.betweenness_centrality(G).values())
min_bet = min(bet_values)
max_bet = max(bet_values)
max_clos = max(nx.closeness_centrality(G).values())
min_clos = min(nx.closeness_centrality(G).values())


In [28]:
# añadimos las características a las aristas
for node in G.nodes():
    G.node[node]['degree'] = G.degree(node)
    G.node[node]['clustering'] = nx.clustering(G, node)
    G.node[node]['betweenness'] = nx.betweenness_centrality(G)[node]
    G.node[node]['closeness'] = nx.closeness_centrality(G, node)

    # normalizamos las características entre 0 y 1
    deg = G.node[node]['degree']
    clus = G.node[node]['clustering']
    bet = G.node[node]['betweenness']
    clos = G.node[node]['closeness']

    G.node[node]['degree_norm'] = (deg - min_deg) / (max_deg - min_deg)
    G.node[node]['clustering_norm'] = (clus - min_clus) / (max_clus - min_clus)
    G.node[node]['betweenness_norm'] = (bet - min_bet) / (max_bet - min_bet)
    G.node[node]['closeness_norm'] = (clos - min_clos) / (max_clos - min_clos)


In [29]:
# creamos la matriz de características de las aristas en el conjunto de datos
features = np.zeros((len(df), 8))
for i, (n1, n2) in enumerate(df.index):
    features[i, 0] = G.node[n1]['degree_norm']
    features[i, 1] = G.node[n1]['clustering_norm']
    features[i, 2] = G.node[n1]['betweenness_norm']
    features[i, 3] = G.node[n1]['closeness_norm']
    features[i, 4] = G.node[n2]['degree_norm']
    features[i, 5] = G.node[n2]['clustering_norm']
    features[i, 6] = G.node[n2]['betweenness_norm']
    features[i, 7] = G.node[n2]['closeness_norm']

# obtenemos la variable de respuesta
target = df['Future Connection'].values


KeyError: 382