# Sistema de Recomendação de Cursos
---

O projeto consistiu na utilização de uma base de dados de usuários de diferentes tipos de cursos, os quais abordam diferentes linguagens de programação, para criar um simples sistema de recomendação baseando-se nas linguagens mais utilizadas pelos usuários, bem como nos cursos ainda não realizados e média de avaliação por curso aplicando um threshold arbitrário de avaliação (regras de negócio). O banco de dados pode ser encontrado em [[1]](https://raw.githubusercontent.com/qodatecnologia/postgresql-db-reviews/main/db.sql).

A base de dados foi inserida no SGBD PostgreSQL, e posteriormente chamada no notebook através da conexão uri, utilizando as bibliotecas `sqlachemy`, `psycopg2`, e `pandas`, com queries SQL. Após a realização da recomendação, ao final, o df é enviado novamente ao PostgreSQL em uma nova base de dados (DW).

- Importar as bibliotecas:

In [1]:
import pandas as pd
import numpy as np
import warnings as wn
import sqlalchemy
import psycopg2

wn.filterwarnings('ignore')

In [2]:
# postgres+psycopg2://username:password@ip_address:port/database
connection_uri = 'postgres+psycopg2://renan:password@localhost:5432/db_test'

In [3]:
db_engine = sqlalchemy.create_engine(connection_uri)

- Criar df a partir do banco de dados sql:

In [4]:
rating_data = pd.read_sql('SELECT * FROM rating', db_engine)

In [5]:
rating_data.head()

Unnamed: 0,user_id,course_id,rating
0,1,6,4
1,1,36,5
2,1,37,5
3,1,45,5
4,1,50,5


In [6]:
rating_data.shape

(59172, 3)

In [7]:
rating_data.isnull().sum()/rating_data.shape[0]

user_id      0.0
course_id    0.0
rating       0.0
dtype: float64

- Criar df da média de avaliação dos cursos pelos usuários:

In [8]:
def calculate_avg_rating(rating_data):
    
    """Agrupa por id dos cursos e retorna a média de avaliação dos usuários."""
    
    avg_rating = rating_data.groupby('course_id')['rating'].mean()\
                                                .sort_values(ascending=False)\
                                                .reset_index()
    
    return avg_rating

In [52]:
avg_rating = calculate_avg_rating(rating_data)

In [60]:
avg_rating.columns = ['course_id','avg_rating']

In [61]:
avg_rating.head()

Unnamed: 0,course_id,avg_rating
0,46,4.8
1,23,4.8
2,96,4.692765
3,56,4.661765
4,24,4.653061


In [62]:
avg_rating.shape

(99, 2)

- Criar df com os cursos:

In [12]:
course_data = pd.read_sql('SELECT * FROM courses', db_engine)

In [13]:
course_data.head()

Unnamed: 0,course_id,title,description,programming_language
0,1,Machine Learning with Apache Spark,"Spark is a powerful, general purpose tool for ...",python
1,2,Financial Analytics in Spreadsheets,Monitoring the evolution of traded assets is k...,spreadsheets
2,3,Intermediate R,The intermediate R course is the logical next ...,r
3,4,Data Visualization with ggplot2 (Part 2),This ggplot2 tutorial builds on your knowledge...,r
4,5,Fraud Detection in R,The Association of Certified Fraud Examiners e...,r


In [14]:
course_data.shape

(100, 4)

In [15]:
course_data.isnull().sum()/course_data.shape[0]

course_id               0.00
title                   0.00
description             0.00
programming_language    0.03
dtype: float64

In [16]:
def imput_nan(df, col):
    
    """Preencher vaores nulos com o valor da moda da coluna."""
    
    df[col] = df[col].fillna(df[col].mode()[0])
    
    return df

In [17]:
course_data = imput_nan(course_data, 'programming_language')

## Regreas de negócio para recomendação
---

1. Excluir cursos que aluno já fez i.e. já classificou
2. excluir cursos com linguagem que aluno não utilizou
3. Encontrar os três cursos mais bem avaliados dos cursos qualificados
4. Para produzir as recomendações finais, utilizar as médias dos cursos e a lista de recomendações elegíveis i.e. não foram avaliadas por usuário e com suas linguagens de programação mais utilizadas

- Criar um df com linguagem mais utilizada pelo usuário:

In [200]:
df_language = rating_data.merge(course_data)
df_language = df_language.groupby(['user_id','programming_language'], as_index=False)['course_id'].count()\
                                        .sort_values(['user_id','course_id'], ascending=[True, False])
df_language = df_language[['user_id','programming_language']]
df_language = df_language.groupby(['user_id'])['programming_language']\
                            .apply(list)\
                            .reset_index(name='programming_language')

Unnamed: 0,user_id,programming_language
0,1,"[r, python, sql]"
1,2,[r]
2,3,[r]
3,4,[sql]
4,5,"[r, sql]"


In [173]:
users_language = list(df_language['programming_language'])

- Criar um df com cursos que usuários não fizeram ainda:

In [46]:
df_courses_users = rating_data.merge(course_data)
df_courses_users = df_courses_users[['user_id','course_id']]
df_courses_users = df_courses_users.groupby(['user_id'])['course_id']\
                                    .apply(list)\
                                    .reset_index(name='course_id')

Unnamed: 0,user_id,course_id
0,1,"[6, 36, 37, 45, 50, 81]"
1,2,"[50, 81]"
2,3,"[37, 11, 16, 31, 35, 38, 47, 49, 53, 55, 57, 5..."
3,4,[96]
4,5,"[31, 96, 3, 9]"


In [47]:
# lista de lista de cursos que o usuário fez
users_courses = list(df_courses_users['course_id'])

# lista com todos os cursos
all_courses = list(course_data['course_id'])

# lista com cursos que o usuário ainda não fez
users_not_courses = []

for el in users_courses:
    aux = list(set(all_courses) - set(el))
    users_not_courses.append(aux)

In [129]:
df_to_do = df_courses_users.copy()
df_to_do = df_to_do.drop('course_id', axis=1)
df_to_do['id_courses_to_do'] = users_not_courses

Unnamed: 0,user_id,id_courses_to_do
0,1,"[1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 1..."
1,2,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14..."
2,3,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15..."
3,4,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14..."
4,5,"[1, 2, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, ..."


In [130]:
df_to_do = pd.DataFrame({
                    'user_id': np.repeat(df_to_do['user_id'].values, 
                                         df_to_do['id_courses_to_do'].str.len()),
                    'id_courses_to_do': np.concatenate(df_to_do['id_courses_to_do'].values)
})

Unnamed: 0,user_id,id_courses_to_do
0,1,1
1,1,2
2,1,3
3,1,4
4,1,5


- Mapear cursos que o usuário não fez e que possuem avaliação acima do threshold i.e. `avg_rating` $\ge$ 4.5:

In [131]:
dict_rating = pd.Series(avg_rating['avg_rating'].values,
                       index=avg_rating['course_id']).to_dict()

In [132]:
df_to_do['avg_rating'] = df_to_do['id_courses_to_do'].map(dict_rating)

In [133]:
df_to_do = df_to_do.query('avg_rating >= 4.5')

- Mapear linguagem dos cursos que o usuário não fez:

In [134]:
dict_lang = pd.Series(course_data['programming_language'].values,
                      index=course_data['course_id']).to_dict()

In [135]:
df_to_do['programming_language'] = df_to_do['id_courses_to_do'].map(dict_lang)

- Mapear título dos cursos que o usuário não fez:

In [136]:
dict_title = pd.Series(course_data['title'].values,
                      index=course_data['course_id']).to_dict()

In [137]:
df_to_do['title'] = df_to_do['id_courses_to_do'].map(dict_title)

- Ordenar por `user_id` e `avg_rating`:

In [138]:
df_to_do = df_to_do.sort_values(by=['user_id','avg_rating'], ascending=[True,False])

In [139]:
df_to_do = df_to_do.reset_index().drop('index', axis=1)

- Drop em colunas desnecessárias e tradução das colunas:

In [203]:
df_to_do = df_to_do.drop('id_courses_to_do', axis=1)

In [204]:
df_to_do.columns = ['user_id','Média das Avaliações','Linguagem de Programação','Curso']

In [205]:
df_to_do.head()

Unnamed: 0,user_id,Média das Avaliações,Linguagem de Programação,Curso
0,1,4.8,r,GARCH Models in R
1,1,4.8,r,Designing and Analyzing Clinical Trials in R
2,1,4.692765,sql,Intro to SQL for Data Science
3,1,4.661765,python,Extreme Gradient Boosting with XGBoost
4,1,4.653061,r,Nonlinear Modeling in R with GAMs


## Recomendação
---

Realizar a recomendação baseando-se na linguagem de programação mais utilizada pelo usuário, e a média de avaliação do curso (acima do treshold exposto anteriormente).

- Recomendação individual:

In [208]:
def set_recommendation(user_id, users_language, df_to_do):
    
    """Calcula a recomendação do curso baseando-se na linguagem mais utilizada e média de avaliação"""
    
    user_lang = users_language[user_id-1]
    
    print('\nLinguages de mais utilizadas: \n',user_lang)

    recommendation = df_to_do.query('user_id == %s'%user_id)
    return recommendation[recommendation['Linguagem de Programação'].isin(user_lang)] \
                                                        .head(3)[['Curso',
                                                                  'Média das Avaliações']]


In [210]:
user_id = int(input('Digite o id do usuário: '))


set_recommendation(user_id, users_language, df_to_do)

Digite o id do usuário: 9

Linguages de mais utilizadas: 
 ['python', 'sql']


Unnamed: 0,Curso,Média das Avaliações
311,Extreme Gradient Boosting with XGBoost,4.661765
313,Introduction to Seaborn,4.646259
319,Building Recommendation Engines with PySpark,4.608696


- Recomendação para cada usuário:

In [223]:
ids = range(1,rating_data['user_id'].unique().shape[0]+1)

courses = []

for i in ids:
    user_lang = users_language[i-1]

    recommendation = df_to_do.query('user_id == %s'%i)
    r = list(recommendation[recommendation['Linguagem de Programação'].isin(user_lang)] \
                                                        .head(3)['Curso'])
    courses.append([i,r])

In [224]:
recommend_final = pd.DataFrame(courses, columns=['user_id','course'])
recommend_final.head()

Unnamed: 0,user_id,course
0,1,"[GARCH Models in R, Designing and Analyzing Cl..."
1,2,"[GARCH Models in R, Designing and Analyzing Cl..."
2,3,"[GARCH Models in R, Designing and Analyzing Cl..."
3,4,[Analyzing Business Data in SQL]
4,5,"[GARCH Models in R, Designing and Analyzing Cl..."


- Após criar também a base de dados `dw_test`, criamos uma nova engine para inserir o sistema de recomendação na base de dados criada:

In [225]:
connection_uri = 'postgres+psycopg2://renan:password@localhost:5432/dw_test'

In [226]:
db_engine = sqlalchemy.create_engine(connection_uri)

In [231]:
def load_to_DW(recommendations):
    
    """Salva a base de dados no DW."""
    
    print('Salvando dados...')
    
    recommendations.to_sql('recommendations', db_engine, index=False, if_exists='replace')
    
    return 'Finalizado.'

In [232]:
load_to_DW(recommend_final)

Salvando dados...


'Finalizado.'

- Para verificar se de fato ocorreu tudo bem, vamos novamente carregar a base de dados do `dw_test` e mostrar as 5 primeiras linhas:

In [233]:
pd.read_sql('SELECT * FROM recommendations', db_engine).head()

Unnamed: 0,user_id,course
0,1,"{""GARCH Models in R"",""Designing and Analyzing ..."
1,2,"{""GARCH Models in R"",""Designing and Analyzing ..."
2,3,"{""GARCH Models in R"",""Designing and Analyzing ..."
3,4,"{""Analyzing Business Data in SQL""}"
4,5,"{""GARCH Models in R"",""Designing and Analyzing ..."
