In [1]:
import tqdm
import json
import pandas as pd

SHEET_ID = '1b6h2RApBs2xbN6-eGVvxH68EALKDklvS91fb7d_IVz4'
SHEET_TABS = {
    'REGISTROS': 2103959160,
    'USUARIOS': 102021014,
}
REGISTROS_URL = f'https://docs.google.com/spreadsheets/d/{SHEET_ID}/export?format=csv&gid={SHEET_TABS["REGISTROS"]}'
USUARIOS_URL = f'https://docs.google.com/spreadsheets/d/{SHEET_ID}/export?format=csv&gid={SHEET_TABS["USUARIOS"]}'

# Vamos a hacer un grafo por carrera... hay que setupearla aca!
# sistemas informatica agrimensura alimentos civil electricista electronica 
# industrial mecanica naval petroleo quimica sistemasviejo
CARRERA = 'informatica'

In [2]:
# Empezamos cargando todos los datos (los usuarios y los mapas estan en dos tablas distintas)
df_registros = pd.read_csv(REGISTROS_URL)
df_registros.drop("Timestamp", axis=1, inplace=True)
df_registros.dropna(inplace=True, how="any")
df_registros = df_registros[df_registros['Carrera'] == CARRERA]
display(df_registros.sample(3))

df_usuarios = pd.read_csv(USUARIOS_URL)
df_usuarios.drop("Timestamp", axis=1, inplace=True)
df_usuarios.dropna(inplace=True, how="all")
df_usuarios = df_usuarios[df_usuarios['Carrera'] == CARRERA]
display(df_usuarios.sample(3))

Unnamed: 0,Padron,Carrera,Mapa
3861,41074612,informatica,"{""materias"":[{""id"":""CBC"",""nota"":0,""cuatri"":-1}..."
996,108127,informatica,"{""materias"":[{""id"":""CBC24"",""nota"":6},{""id"":""CB..."
2626,104031,informatica,"{""materias"":[{""id"":""CBC28"",""nota"":7},{""id"":""CB..."


Unnamed: 0,Padron,Carrera,Orientacion,Final de Carrera
400,109760,informatica,,tpp
3651,108615,informatica,,tesis
1468,100,informatica,Gestión Industrial de Sistemas,tesis


In [3]:
### Testing purposes: en vez de laburar con toooodos los datos, laburemos solo con los integrantes del grupo
# df_usuarios = df_usuarios[df_usuarios['Padron'].isin(["100029", "101696", "101109", "0000"])]

In [4]:
# Mergeamos!
df_mergeado = df_usuarios.merge(df_registros)
df_mergeado.sample(3)

Unnamed: 0,Padron,Carrera,Orientacion,Final de Carrera,Mapa
866,1,informatica,Sistemas Distribuidos,tpp,"{""materias"":[{""id"":""CBC"",""nota"":0,""cuatri"":-1}..."
589,105567,informatica,Sistemas Distribuidos,tpp,"{""materias"":[{""id"":""CBC"",""nota"":0},{""id"":""61.0..."
773,102674,informatica,Gestión Industrial de Sistemas,tpp,"{""materias"":[{""id"":""CBC28"",""nota"":7},{""id"":""CB..."


In [5]:
df_mergeado.describe()

Unnamed: 0,Padron,Carrera,Orientacion,Final de Carrera,Mapa
count,985,985,573,592,985
unique,985,1,3,2,881
top,104927,informatica,Sistemas Distribuidos,tpp,"{""materias"":[{""id"":""CBC"",""nota"":0,""cuatri"":-1}..."
freq,1,985,293,462,39


In [6]:
# Ahora, desempaquetamos la columna "Mapa" (un JSON que contiene notas, metadata, de todo...) 
#   y finalmente lleguemos al df que vamos a usar durante todo el tp

df = df_mergeado
new_df = pd.DataFrame()
for idx in tqdm.tqdm(df.index):
    json_mapa = json.loads(df.loc[idx]['Mapa'])
    
    for k in json_mapa.keys():
        if not json_mapa[k]: 
            continue
        if k == "materias":
            df_json = pd.json_normalize(json_mapa, k, record_prefix="materia_")
        else:
            df_json = pd.DataFrame({k: [json_mapa[k]]})
        df_json["Padron"] = df.loc[idx]['Padron']
        new_df = pd.concat([new_df, df_json])

df = df.merge(new_df, how="outer")
df.drop('Mapa', axis=1, inplace=True)
# Hace mucho tiempo, el fiuba map tenia un feature que se llamaba "materia_cuatri" (en vez del nuevo "materia_cuatrimestre")
# En donde el usuario seteaba en cuantos N cuatris iba a cursar X materia, en vez de setear el cuatri exacto
# Como ya no se usa en el upstream, no es lo correcto que lo utilicemos en el analisis de datos
if 'materia_cuatri' in df.columns: df.drop('materia_cuatri', axis=1, inplace=True)
df.sample(3)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 985/985 [00:01<00:00, 731.02it/s]


Unnamed: 0,Padron,Carrera,Orientacion,Final de Carrera,materia_id,materia_nota,optativas,materia_cuatrimestre,aplazos
19458,loading,informatica,Sistemas Distribuidos,tpp,75.4,8.0,,,
2466,107677,informatica,Sistemas Distribuidos,tesis,75.15,-2.0,,2023.0,
5174,102324,informatica,Gestión Industrial de Sistemas,tpp,75.67,7.0,,,


In [7]:
# Exportamos todo a un hermoso pickle
df.to_pickle('fiuba-map-data.pickle')