# Grafazo: Con que alumnos puedo hacer TPs en un futuro?

Este grafo se encarga de analizar "camadas" de gente: grupos de alumnos que cursaron varias materias juntos. 

Una vez que podamos distinguir esas camadas, ya tenemos posibles compañeros de TPs. Después, dentro de mi propia camada, con quien más quiero hacer un TP es con los alumnos que se parezcan a mí académicamente. Entonces tenemos que pasar a tener en cuenta la nota de las materias. La idea final es que yo me haga compañero de alumnos que tiendan a cursar las mismas materias que yo, y que tengamos el mismo nivel académico.

Ojo, este grafo no apunta a responder *en que* materia hacer tps juntos: eso involucraría fijarse qué curso cada alumno y fijarse que personas todavía no cursaron lo mismo. Ya con solo ser de la misma camada sabemos que nos quedan materias en las que nos vamos a cruzar. La idea es un poco mas generalizada a encontrar compañeros de clase, no importa en que materia.

Por ejemplo: como juampi y yo cursamos las mismas materias por dos años, somos de la misma camada. Y encima, como siempre nos sacamos notas parecidas, debe ser un buen compañero de TP para mí.

## Cómo es el grafo?

El grafo analizado va a ser un multigrafo: entre cada par de alumnos puede haber varias aristas

- Nodos: alumnos
- Aristas: conectar dos alumnos que hayan cursado la misma materia el mismo cuatrimestre
- Peso de las aristas: la relacion entre las notas de esa cursada. Mientras más parecidos somos, más cercano estamos, y por ende menor peso hay en nuestra arista. Lo calculamos como la diferencia entre las notas.
    - Si me saque un 10 y vos un 10, nuestro peso es 0.
    - Si me saque un 4 y vos un 10, nuestro peso es 6.
    - En el caso de que yo estoy en final y vos aprobaste, hardcodeamos el peso a 7

In [None]:
import pandas as pd

df = pd.read_pickle('fiuba-map-data.pickle')
df.sample(3)

In [None]:
def corrnotas(row):
    if ((row['src_nota'] == -1 and row['dst_nota'] != -1) or
        (row['dst_nota'] == -1 and row['src_nota'] != -1)):
        return 7
    return abs(row['src_nota'] - row['dst_nota'])

df_nodes_metadata = df[df.columns & ["Padron", "Carrera", "aplazos", "optativas", "checkboxes"]]
df_nodes_metadata = df_nodes_metadata[df_nodes_metadata["aplazos"].notnull() | df_nodes_metadata["optativas"].notnull()]
df_nodes_metadata = df_nodes_metadata.groupby(["Padron", "Carrera"], as_index=False).first()

df_nodes = df[["Padron", "Carrera", "Orientacion", "Final de Carrera"]]
df_nodes = df_nodes.drop_duplicates()
df_nodes = df_nodes.merge(df_nodes_metadata, how="outer")
df_nodes.set_index("Padron", inplace=True)
display(df_nodes.dropna().sample(3))

from itertools import combinations
df_edges = (df[df['materia_cuatrimestre'].notnull()]
     .groupby(['materia_id', 'materia_cuatrimestre'])[['Padron', 'materia_nota']]
     .apply(lambda x : list(combinations(x.values,2)))
     .apply(pd.Series)
     .stack()
     .reset_index(level=0, name='Usuarios')
)

df_edges = df_edges.reset_index()
df_edges[['src', 'dst']] = df_edges['Usuarios'].tolist()
df_edges[['src_padron', 'src_nota']] = df_edges['src'].tolist()
df_edges[['dst_padron', 'dst_nota']] = df_edges['dst'].tolist()

# Nos quedamos solo con las materias aprobadas (nota > 0) o en final (-1)
df_edges = df_edges[(df_edges['src_nota'] != -2) & (df_edges['src_nota'] != 0)]
df_edges = df_edges[(df_edges['dst_nota'] != -2) & (df_edges['dst_nota'] != 0)]

# Calculamos la correlacion entre las notas
df_edges['corrnotas'] = df_edges.apply(corrnotas, axis=1)

df_edges = df_edges[['src_padron', 'dst_padron', 'materia_cuatrimestre', 'materia_id', 'src_nota', 'dst_nota', 'corrnotas']]
display(df_edges.dropna().sample(3))

In [None]:
import networkx as nx
import matplotlib.pyplot as plt

G = nx.from_pandas_edgelist(df_edges, 
                            source='src_padron', 
                            target='dst_padron', 
                            edge_attr=['materia_id','materia_cuatrimestre', 'corrnotas'], 
                            create_using=nx.MultiGraph())

nx.set_node_attributes(G, df_nodes.to_dict('index'))

print(G)
print(f"""
  El diámetro de la red: {nx.diameter(G)}
  El grado promedio de la red: {sum([n[1] for n in G.degree()]) / len(G):.2f}
  Puentes globales: {list(nx.bridges(G))}
""")

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(30,10))
ax = axes.flatten()

nx.draw_networkx(G, pos=nx.circular_layout(G), width=0.005, node_size=50, with_labels=False, ax=ax[0])
nx.draw_networkx(G, pos=nx.spiral_layout(G),   width=0.005, node_size=50, with_labels=False, ax=ax[1])

In [None]:
# ToDo: graficar un sample con esto!

# # Solo como demo para cuando tenemos pocos nodos: ahora veamos el grafo, pero dibujemos todas las aristas
# # Robadisimo de: https://stackoverflow.com/a/60638452
# pos = nx.random_layout(G)
# nx.draw_networkx_nodes(G, pos)
# ax = plt.gca()
# for e in G.edges:
#     ax.annotate("",
#                 xy=pos[e[0]], xycoords='data',
#                 xytext=pos[e[1]], textcoords='data',
#                 arrowprops=dict(arrowstyle="-", color="0.5",
#                                 connectionstyle="arc3,rad=rr".replace('rr',str(0.3*e[2]))),
#                 )
# plt.axis('off')
# plt.show()

## Comunidades

In [None]:
from networkx.algorithms import community
import matplotlib.colors as mcolors
import random

random.seed(42)
plt.figure(figsize=(30,10))

# La primera corrida solo calculamos camadas, sin darle peso a las notas. Pasamos `weight=None` a louvain
louvain = community.louvain_communities(G, weight=None)
draw_nodes = {}
colors = random.sample(list(mcolors.CSS4_COLORS), len(louvain))
for louvaincommunity, color in zip(louvain, colors):
    draw_nodes.update({n: color for n in louvaincommunity})
    
plt.title(f"{len(louvain)} Louvain Communities")
nx.draw_networkx(G, 
                 nodelist=draw_nodes.keys(), 
                 node_color=list(draw_nodes.values()), 
                 width=0.005, 
                 pos=nx.kamada_kawai_layout(G),
                 font_size=10)

### Evaluación de comunidades por "generación"

Ahora que ya calculamos nuestras comunidades tenemos que confirmar. Efectivamente se refieren a distintas camadas de alumnos? Alumnos que ingresaron a la facultad al mismo tiempo, por ejemplo?

¿Existe correlación entre la distribución de padrones y la comunidad? De tal forma que las comunidades sean por camadas o "generacionales"

In [None]:
import seaborn as sns
import numpy as np

louvain_padrones = []
for i, comunidad in enumerate(louvain):
    for padron in comunidad:
        louvain_padrones.append((padron, i))
df_comunidades = pd.DataFrame(louvain_padrones, columns=["padron", "comunidad"])

# len patch for overflow
df_temp = df_comunidades[(df_comunidades['padron'].str.isdigit()) & (df_comunidades["padron"].str.len() >= 5) & (df_comunidades["padron"].str.len() <= 6)].copy()
df_temp["padron"] = df_temp["padron"].astype(int)

# remove outliers by percentiles, stolen from https://stackoverflow.com/a/59366409
Q1 = df_temp["padron"].quantile(0.10)
Q3 = df_temp["padron"].quantile(0.90)
IQR = Q3 - Q1
df_comunidades = df_temp[~((df_temp["padron"] < (Q1 - 1.5 * IQR)) |(df_temp["padron"] > (Q3 + 1.5 * IQR)))]

display(df_comunidades.sample(3))
display(df_comunidades.groupby('comunidad').agg({'padron':[np.mean,np.std,'count']}))

# TODO: play with the "stat" parameter. another interesting one is the "density" parameter
g = sns.displot(
    df_comunidades,
    x="padron",
    col="comunidad",
    element="step",
    stat="count",
    common_norm=False,
)

Se puede observar una mínima correlación considerando el intervalo más frecuente de cada comunidad

### Materias y cuatrimestres en común

Se puede aproximar a una mejor noción de _camada_ que simplemente tomando el padrón, tomando el conjunto de materias/cuatrimestre más populares por comunidad.

- todo: explicar esto

In [None]:
df = df_comunidades.copy()
df['padron'] = df['padron'].astype(str)
df_src = pd.merge(df_edges, df, left_on='src_padron', right_on='padron')
df_dst = pd.merge(df_edges, df, left_on='dst_padron', right_on='padron')
(
    pd
        .concat([df_src, df_dst])
        .groupby(['comunidad', 'materia_cuatrimestre', 'materia_id'])
        .agg(count=('src_padron', 'count'))
        .sort_values('count', ascending=False)
        .reset_index()
        .groupby('comunidad')   # obtener top 3 materias/cuatrimestres por comunidad
        .head(3)
        .sort_values(['comunidad', 'count'])
)

## Alumnos similares dentro de la misma camada

Ahora que ya tenemos cada subgrafo de gente que cursó junta, queremos encontrar alumnos similares en sus notas. O sea, ya se que soy parte de una camada de 100 personas. De esas 100, con quien me conviene hacer un TP?

Entonces vamos a volver a calcular comunidades, pero esta vez teniendo en cuenta el peso de las aristas, que representan la similitud académica.

todo: deberiamos, de la misma forma que lo hacemos con las comunidades, confirmar que estas subcomunidades tambien se clasifican segun algo (por ejemplo, calcular el avg y std de corrnotas de cada subcomunidad y mostrar que son distintos)

In [None]:
from setup import PADRON

def nestedsearch(el, lst_of_sets):
    return list(filter(lambda lst: el in lst, lst_of_sets))[0]

def armar_grupo(padron):
    camada = nestedsearch(padron, louvain)       
    subnetwork = nx.subgraph(G, camada)
    min_alumnos, max_alumnos = 6, 14
    max_iteraciones = 25
    
    i = 0
    grupo = []
    for i in range(max_iteraciones):
        sublouvains = community.louvain_communities(subnetwork, weight='corrnotas', resolution=1+(i*0.01))
        comunidad = nestedsearch(padron, sublouvains)
        if min_alumnos <= len(comunidad) <= max_alumnos:
            grupo = comunidad
            break
        elif not grupo or (len(comunidad) >= max_alumnos and (len(comunidad) - max_alumnos <= len(grupo) - max_alumnos)):
            grupo = comunidad
        i+=1

    return grupo

grupo = armar_grupo(PADRON)

plt.figure(figsize=(30,10))
plt.title(f"Posibles compañeros de TP de {PADRON}")
nx.draw_networkx(nx.subgraph(G, grupo), 
                 width=0.01, 
                 font_size=10)

display(pd.DataFrame(list(grupo)))