# Recomendação por filtragem colaborativa de Usuário

## Setup

In [1]:
import pandas as pd

dados_formados_path = 'input/dados_formados.csv'
dados_regulares_path = 'input/dados_regulares.csv'
dados_trancados_path = 'input/dados_trancados.csv'
dados_desistentes_path = 'input/dados_desistentes.csv'

dados = {
    "formados": pd.read_csv(dados_formados_path, delimiter=';'),
    "regulares": pd.read_csv(dados_regulares_path, delimiter=';'),
    "desistentes": pd.read_csv(dados_desistentes_path, delimiter=';'),
    "trancados": pd.read_csv(dados_trancados_path, delimiter=';')
}

dados.update(todos = pd.concat([dados["desistentes"], dados["regulares"], dados["formados"], dados["trancados"]]))


## Funções auxiliares
### select_random_student(data : pd.DataFrame, max_tries : int, minimum_entry_year : int) -> int
Seleciona um ID de estudante aleatório.

### get_all_data_from_student(student_id : int, data : pd.DataFrame) -> pd.DataFrame
Retorna apenas os dados do estudante presentes no dataframe data.

### get_user_array(student_id : int, data : pd.DataFrame) -> defaultdict
Retorna um defaultdict com as disciplinas e menor nota obtida que o aluno cursou.

### sugestoes_populares(student_id : int, max_sugestoes : int, data : pd.DataFrame) -> List
Sugere disciplinas para o estudante com base nas disciplinas entre os alunos formados até 2023

### todas_disciplinas: np.array
Array com o codigo de todas as disciplinas dentro dos dados

In [2]:
def select_random_student(data : pd.DataFrame, max_tries : int, minimum_entry_year : int) -> int:
    id = 0
    tries = 0

    minimium_entry_year -= 2000
    
    while id == 0 and tries < max_tries:
        try:
            id = data[[int(x[3].split('/')[2].split(' ')[0]) >= minimum_entry_year for x in data.values]].sample()
            return int(id.ID_ANONIMO.iloc[0])
        except:
            id = 0
            tries += 1
    return 0

In [3]:
def get_all_data_from_student(student_id : int, data : pd.DataFrame):
    return data[[x == student_id for x in data.ID_ANONIMO]]
    pass

In [4]:
from typing import List
from collections import defaultdict

def centralized_cosine(user_array):
    vec_med = sum(user_array.values())/len(user_array.values())
    for key in user_array:
        user_array[key] -= vec_med
    return user_array

def get_user_array(student_id : int, data : pd.DataFrame, centralize_cosine = True):
    student_data = get_all_data_from_student(student_id, data)

    student_array : Dict[str, float] = defaultdict(lambda : 0)
    
    for course in student_data.values:
        if student_array[course[4]] == 0:
            #print([course[4], float(str(course[7]).replace(',','.')),(course[5] - 2000)*2 + course[6]])
            student_array[course[4]] = float(str(course[7]).replace(',','.'))
            if student_array[course[4]] != student_array[course[4]]:
                student_array[course[4]] = 0
        else:
            nota = float(str(course[7]).replace(',','.'))
            student_array[course[4]] = nota if nota < student_array[course[4]] else student_array[course[4]]
    
    if centralize_cosine and len(student_array) != 0:
        student_array = centralized_cosine(student_array)
    
    return student_array

In [5]:
import numpy as np

disciplinas = []
with open('input/dependencias.txt') as f:
    for line in f:
        curr = line.split(';')
        if 'P8' in curr:
            curr = curr[1].split('\n')[0]
            disciplinas.append(curr)

disciplinas_obrigatorias = ['GE70D', 'EEC31', 'CSS30','EEX23']
optativas = np.array(disciplinas)
optativas = optativas[[disc not in disciplinas_obrigatorias for disc in optativas]]

In [6]:
# Dados dos formados contendo apenas optativas, do melhor jeito que conseguimos (sem certeza de completude ou corretude)

dados_formados_optativas = dados["formados"][[int(x[3].split('/')[2].split(' ')[0]) >= 14 for x in dados["formados"].values]]
dados_formados_optativas = dados_formados_optativas[[float(str(x[7]).replace(',','.')) >= 6 for x in dados_formados_optativas.values]]
dados_formados_optativas = dados_formados_optativas[[x[4] != 'ES70N' or x[5] > 2017 for x in dados_formados_optativas.values]]
dados_formados_optativas = dados_formados_optativas[[x[4] != 'FI70D' or x[5] > 2017 for x in dados_formados_optativas.values]]
dados_formados_optativas = dados_formados_optativas[[x[4] != 'FI70A' or x[5] > 2017 for x in dados_formados_optativas.values]]
dados_formados_optativas = dados_formados_optativas[[x[4] != 'GE70F' or x[5] > 2017 for x in dados_formados_optativas.values]]
dados_formados_optativas = dados_formados_optativas[dados_formados_optativas.CODIGO.isin(disciplinas)]

In [7]:
from collections import Counter

popular_courses = Counter([materia for materia in dados_formados_optativas["CODIGO"]])

In [8]:
# Recomendação de disciplinas populares
from typing import List

# Recebe um estudante e sugere as disciplinas mais populares que ele não fez ainda
def sugestoes_populares(student_id : int, max_sugestoes : int, data : pd.DataFrame) -> List:
    suggestions = [interest for interest, _ in popular_courses.most_common() if interest not in get_all_data_from_student(student_id, data)["CODIGO"].unique()]
    return suggestions[:max_sugestoes]

In [9]:
todas_disciplinas = []

for frame in dados:
    todas_disciplinas.extend(dados[frame]["CODIGO"].unique())

todas_disciplinas = np.unique(np.array(todas_disciplinas))

## Recomendação por Filtragem Colaborativa de Usuários

In [85]:
from numpy import dot
from numpy.linalg import norm
import math

def cos_sim(a : List[int], b : List[int]) -> int:
    return dot(a, np.transpose(b))/(norm(a)*norm(b))

# O cache deve ser criado com os mesmos dados utilizados nas funções
def create_cache_user_arrays(data, centralize_cosine = True):
    return {int(identifier): get_user_array(identifier, data, centralize_cosine = centralize_cosine) for identifier in data["ID_ANONIMO"].unique() if identifier == identifier}
        
def most_similar_students_to(user_id : int, student_ids : List[int], centralize_cosine = True, include_self = False,
                            cache = None):
    pairs = []

    user_array = get_user_array(user_id, dados["todos"], centralize_cosine = centralize_cosine)
    user_list = []
    for course in user_array:
        user_list.append(user_array[course] if user_array[course] > 0 else 0)

    for id in student_ids:
        if include_self or id != user_id:
            if cache != None:
                student_array = cache[id]
            else:
                student_array = get_user_array(id, dados["todos"], centralize_cosine = centralize_cosine)
            
            student_list = []

            for course in user_array:
                #print(student_array[course] if student_array[course] > 0 else 1)
                student_list.append(student_array[course] if student_array[course] > 0 else 0)


            if norm(user_list)*norm(student_list) != 0 and cos_sim(user_list, student_list) == cos_sim(user_list, student_list):
                pairs.append((int(id), cos_sim(user_list, student_list)))
    
    return sorted(pairs, key = lambda pair: pair[-1], reverse = True)

In [63]:
def user_based_suggestions(user_id: int, include_user_interests: bool = False, 
                           only_optionals = True, data_rec = dados["formados"], data_user = dados["todos"],
                           disciplinas_optativas = optativas, centralize_cosine = True, reduce_popularity_weight = True, cache = None):
    # Some as semelhanças
    suggestions : Dict[str, float] = defaultdict(float)
    times_coursed : Dict[str, float] = defaultdict(int)
        
    if cache != None:
        for other_user_id, similarity in most_similar_students_to(user_id, data_rec["ID_ANONIMO"].unique(), centralize_cosine = centralize_cosine, cache = cache):
            for interest in get_all_data_from_student(other_user_id, data_rec)["CODIGO"].values:
                suggestions[interest] += similarity
                times_coursed[interest] += 1
    else:
        for other_user_id, similarity in most_similar_students_to(user_id, data_rec["ID_ANONIMO"].unique(), centralize_cosine = centralize_cosine):
            for interest in get_all_data_from_student(other_user_id, data_rec)["CODIGO"].values:
                suggestions[interest] += similarity
                times_coursed[interest] += 1
    
    if reduce_popularity_weight:
        for codigo in suggestions:
            suggestions[codigo] = suggestions[codigo]/times_coursed[codigo]
    
    # Converta em uma lista classificada 
    suggestions = sorted(suggestions.items(),
                        key = lambda pair: pair[-1],
                        reverse = True)

    # Exclua nao optativas
    if only_optionals:
        suggestions = [(suggestion, weight)
                for suggestion, weight in suggestions
                if suggestion in disciplinas_optativas]
    
    # Exclua interesses existentes
    if include_user_interests:
        return suggestions
    else:
        return [(suggestion, weight)
                for suggestion, weight in suggestions
                if suggestion not in get_all_data_from_student(user_id, data_user)["CODIGO"].values]

In [81]:
cache = create_cache_user_arrays(dados["todos"], centralize_cosine = True)

In [90]:
i = 1
for item in user_based_suggestions(202266, data_user = dados["regulares"], data_rec = dados["train"], include_user_interests = True, cache= cache):
    print('Sugestao ' + str(i) + ': ' + item[0] + ', peso: ' + format(item[1], '.2f'))
    i += 1

Sugestao 1: CSM44, peso: 0.61
Sugestao 2: QB7AH, peso: 0.61
Sugestao 3: CSM40, peso: 0.60
Sugestao 4: CSW45, peso: 0.60
Sugestao 5: DI84D, peso: 0.59
Sugestao 6: CSW48, peso: 0.59
Sugestao 7: CSH44, peso: 0.59
Sugestao 8: CSH45, peso: 0.59
Sugestao 9: EEY43, peso: 0.59
Sugestao 10: CSM43, peso: 0.58
Sugestao 11: CSD41, peso: 0.57
Sugestao 12: ED70U, peso: 0.57
Sugestao 13: CSI31, peso: 0.57
Sugestao 14: CSH41, peso: 0.57
Sugestao 15: CSB54, peso: 0.56
Sugestao 16: CSB41, peso: 0.56
Sugestao 17: EL75H, peso: 0.56
Sugestao 18: CSR41, peso: 0.56
Sugestao 19: CSI52, peso: 0.56
Sugestao 20: CSD52, peso: 0.56
Sugestao 21: FCH7HB, peso: 0.56
Sugestao 22: CSR47, peso: 0.56
Sugestao 23: CSR44, peso: 0.56
Sugestao 24: CSA42, peso: 0.56
Sugestao 25: CSE43, peso: 0.56
Sugestao 26: CSR48, peso: 0.56
Sugestao 27: FI70E, peso: 0.55
Sugestao 28: CSH30, peso: 0.55
Sugestao 29: CSB51, peso: 0.55
Sugestao 30: FI70A, peso: 0.55
Sugestao 31: CSI55, peso: 0.55
Sugestao 32: CSI51, peso: 0.55
Sugestao 33: CSV

# Testes

In [59]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(dados["formados"]["ID_ANONIMO"].unique(), test_size=0.2)

dados.update(train = dados["todos"].loc[dados["todos"]['ID_ANONIMO'].isin(train)], 
             test = dados["todos"].loc[dados["todos"]['ID_ANONIMO'].isin(test)])

In [91]:
# Para cada usuario em test, vemos quantas disciplinas que ele cursou estão entre as 10 mais sugeridas. 
# No fim, tiramos a média por usuário.

def teste_sugestao(dados_train = dados["train"], dados_test = dados["test"], cache = None):
    cache = create_cache_user_arrays(pd.concat([dados["train"], dados["test"]]), centralize_cosine = True)
    
    media = 0
    maximo = 0
    minimo = 0
    
    for user in dados_test["ID_ANONIMO"].unique():
        sugestoes = user_based_suggestions(202266, data_rec = dados_train, include_user_interests = True, cache=cache)
    pass

In [94]:
cache_test = create_cache_user_arrays(pd.concat([dados["train"], dados["test"]]), centralize_cosine = True)

In [92]:
teste_sugestao(cache = cache_test)

KeyboardInterrupt: 

In [93]:
pd.concat([dados["train"], dados["test"]])

Unnamed: 0,ID_ANONIMO,CR,PERIODO,INGRESSO,CODIGO,ANO,PERIODO.1,NOTA,CH,SITUACAOALUNO
98,13976.0,06846,10,16/07/09,GE70H,2012.0,2.0,9,30.0,Formado
99,13976.0,06846,10,16/07/09,CSX53,2018.0,1.0,0,180.0,Formado
100,13976.0,06846,10,16/07/09,EL68E,2013.0,1.0,21,60.0,Formado
101,13976.0,06846,10,16/07/09,EL68G,2014.0,1.0,68,60.0,Formado
102,13976.0,06846,10,16/07/09,IF60B,2017.0,1.0,9,60.0,Formado
...,...,...,...,...,...,...,...,...,...,...
29974,198372.0,08519,10,07/08/17,CSF30,2018.0,2.0,91,45.0,Formado
29975,198372.0,08519,10,07/08/17,CSB30,2019.0,2.0,76,60.0,Formado
29976,198372.0,08519,10,07/08/17,CSA30,2019.0,2.0,66,45.0,Formado
29977,198372.0,08519,10,07/08/17,CSO30,2020.0,1.0,93,60.0,Formado
