## <div align="center"><b><h3> Content Based Recommender System </h3></b></div>
<img src="recommendation_system_1.jpg" width="350">
Sistemas de recomendação são aplicações de data science bastante populares atualmente. De modo geral, com base em alguma preferência do usuário, são sugeridos produtos/serviços semelhantes ou produtos/serviços que usuários semelhantes escolheram anteriormente. Os tipos mais comuns de motores de recomendação:

* **Filtros colaborativos:** são baseados no comportamento de usuários semelhantes, e recomendam produtos/serviços a um determinado usuário conforme os gostos de outros usuários semelhantes a ele;
* **Filtros baseados em conteúdo:** são baseados em informações das preferências do perfil do usuário, ou seja, sugerem outros itens conforme itens similares já adquiridos anteriormente;
* **Sistemas híbridos:** é uma combinação dos dois sistemas citados acima.

Neste notebook, será apresentada a construção de um sistema de recomendação básico, baseado em conteúdo, a partir de artigos divulgados no Medium, onde o usuário pode informar o título de um artigo e com base no título, autor e publicação serão sugeridos artigos semelhantes.

### Coleta dos dados
Os dados foram coletados no dia 03/02/2021 a partir de 7 tags que mais se relacionam com o tema inteligência artificial, são elas: 'AI', 'artificial-intelligence', 'data', 'data-science', 'deep-learning', 'machine-learning', 'neural-networks'
Foram extraídas as publicações diárias no período de 01/01/2020 a 31/12/2020, estes dados foram tratados (link) e o dataset final apresenta a seguinte estrutura.

### Estrutura dos dados
* Title - título do artigo no card de extração
* Subtitle - subtítulo do artigo no card de extração
* Image (yes/no)- indica se o artigo possui uma imagem de preview no card de extração
* Author - autor do artigo
* Publication - título da publicação à qual o artigo está vinculada, para o caso de artigos independentes está marcado como "No * * publication"
* Year - Month - Day - data em que o artigo foi publicado
* Tag - Tag à qual o artigo foi vinculado, lembrando que um artigo pode ser vinculado à até 5 tags
* Reading Time- tempo de leitura do artigo
* Claps - número de aplausos que o artigo recebeu até a data de coleta dos dados
* Comment (yes/no) - indica se a entrda é um comentário em um outro artigo
* Story Url - link para o artigo
* Author URL - link para a homepage do autor

### Carregando a libraries necessárias

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import os
pd.set_option('display.max_colwidth', None)

In [2]:
%%time
articles = pd.read_csv('D:/Documentos/Projetos/Sistemas_de_recomendacao/Scrap_medium/by_tag/recommender_csv/medium_articles_clean.csv')

Wall time: 989 ms


In [3]:
articles.head(10)

Unnamed: 0,Title,Subtitle,Image,Author,Publication,Year,Month,Day,Tag,Reading_Time,Claps,Comment,url,Author_url
0,How to go from BayesTheorem to Bayesian Inference,No subtitle,1,JimSpark,Towards Data Science,2020,10,1,AI,10,68.0,0,https://towardsdatascience.com/how-to-go-from-bayestheorem-to-bayesian-inference-2a75ac64ec07,https://towardsdatascience.com/@jimip6c12
1,Autoencoders: Overview of Research and Applications,No subtitle,1,Branislav Holl nder,Towards Data Science,2020,10,1,AI,10,129.0,0,https://towardsdatascience.com/autoencoders-overview-of-research-and-applications-86135f7c0d35,https://towardsdatascience.com/@branislav.hollander
2,Regarding SingularityNET and the Recent KuCoin Hack,No subtitle,1,Ben Goertzel,SingularityNET,2020,10,1,AI,8,320.0,0,https://blog.singularitynet.io/regarding-singularitynet-and-the-recent-kucoin-hack-fee601b8ad8c,https://blog.singularitynet.io/@ben_90344
3,Understand Machine Learning with One Article,Lets dive into one of the most mind-blowing and demanded,1,Julian Herrera,Towards Data Science,2020,10,1,AI,11,67.0,0,https://towardsdatascience.com/understand-machine-learning-with-one-article-7399f6b9c5ad,https://towardsdatascience.com/@julianh
4,The End of the World,Below is a conversation I had with OpenAIs GPT-3s language model. I gave GPT-3 the role of Wise Being. All of the,1,Kirk Ouimet,No publication,2020,10,1,AI,5,60.0,0,https://medium.com/@kirkouimet/the-end-of-the-world-5457c252523,https://medium.com/@kirkouimet
5,Differential PrivacyNoise adding Mechanisms,Differential Privacy Basics Series(Part5),1,shaistha fathima,Becoming Human: Artificial Intelligence Magazine,2020,10,1,AI,10,52.0,0,https://becominghuman.ai/differential-privacy-noise-adding-mechanisms-ede242dcbb2e,https://becominghuman.ai/@shaistha24
6,Whitewashing tech: Why the erasures of the past matter today,No subtitle,1,AI Now Institute,No publication,2020,10,1,AI,7,164.0,0,https://medium.com/@AINowInstitute/whitewashing-tech-why-the-erasures-of-the-past-matter-today-166d0d5e2789,https://medium.com/@AINowInstitute
7,Is Strong Artificial Intelligence Possible? No,"We are analyzing the most hype topic of the modern days, whichto our mind",1,Denis Nushtaev,Cantor s Paradise,2020,10,1,AI,20,60.0,0,https://medium.com/cantors-paradise/why-strong-ai-is-not-possible-85e65a6c4f3e,https://medium.com/@nushtaev
8,YOLOV4 Partie 1: la pointe de la dtection dobjet.,No subtitle,1,Maxime Carrere,Scalian,2020,10,1,AI,8,7.0,0,https://medium.com/scalian/comment-fonctionne-yolov4-la-vitesse-et-la-pr%C3%A9cision-maximale-en-d%C3%A9tection-dobjet-43724ab8786,https://medium.com/@maxime.carrere
9,Testing TikToks Multi-Billion Dollar Algorithm,No subtitle,1,Alan Mendelevich,</dev> diaries,2020,10,1,AI,5,10.0,0,https://blog.ailon.org/testing-tiktoks-multi-billion-dollar-algorithm-af38fdd8225,https://blog.ailon.org/@ailon


<span style="color:red"> **ALERTA!!!** </span> **Infelizmente, devido a limitações de capacidade computacional, só irei trabalhar com os últimos 4 meses da base de dados. Entretanto, para fins acadêmicos já vale como treinamento**

In [4]:
articles_dec = articles[(articles.Month >= 9)]

In [5]:
articles_dec.shape

(51784, 14)

Como a base está na granularidade artigo-tag é necessário remover os artigos duplicados em mais de uma tag.

In [6]:
articles_dec = articles_dec.drop_duplicates(subset=['Title'])

In [7]:
articles_dec.shape

(33472, 14)

In [8]:
articles_dec = articles_dec.reset_index(drop=True)

### Computando a matriz TF-IDF
Instanciando um objeto TF-IDF Vectorizer. Também será definida a remoção de todas as stopwords em inglês, uma vez que a maioria dos artigos está nessa língua, de caracteres especiais e passando os textos para caixa baixa. Neste caso, a matriz esparsa será criada utilizando tanto unigram quanto bigram.

In [9]:
tfidf = TfidfVectorizer(stop_words='english', strip_accents='unicode', lowercase=True, ngram_range=(1, 2))

Substituindo NaN com uma string em branco e excluindo espaços em branco indesejados no início e final do título

In [10]:
articles_dec['Title'] = articles_dec['Title'].fillna('').str.strip()

Contruindo a matriz TF-IDF, através do treino e transformação do corpus

In [11]:
tfidf_matrix = tfidf.fit_transform(articles_dec['Title'])

Checando o shape da matriz

In [12]:
tfidf_matrix.shape

(33472, 122316)

### Computando a matriz de similaridades
Existem diversas formas de computar a similaridade entre elementos (distância de Manhattan, euclidiana, Jaccard, coseno, etc). Cada método funcionará em diferentes cenários, sendo assim é uma boa ideia experimentar diferentes métricas e observar os resultados.
Entretanto, neste caso vamos computar as similaridades via cosseno, uma vez que este método é independente da magnitude e é relativamente rápido de calcular. Basicamente, ele mede a similaridade entre dois vetores utilizando o cosseno do ângulo entre eles, com valores variando de 0 a 1, com 1 indicando que os dois vetores estão indo na mesma direção. Matematicamente, o cálculo da similaridade é definido como abaixo:

$$
   similaridade = cos(x,y) = \frac{x \cdot y}{||x|| ||y||} = \frac{\sum_{i=1}^{n} x_i \cdot y_i}{\sqrt{\sum_{i=1}^{n}x_i^2} \cdot \sqrt{\sum_{i=1}^{n}y_i^2}}
$$

Em nosso caso, vamos utilizar a função **cosine_similarity** da biblioteca **scikit-learn**.

In [13]:
# Computando a matriz de similaridades e verificando o shape
cosine_sim = cosine_similarity(tfidf_matrix)
cosine_sim.shape

(33472, 33472)

In [14]:
#Construindo um mapa reverso dos índices e títulos dos artigos
indices = pd.Series(articles_dec.index, index=articles_dec['Title']).drop_duplicates()

In [15]:
indices[:10]

Title
How to go from BayesTheorem to Bayesian Inference               0
Autoencoders: Overview of Research and Applications             1
Regarding SingularityNET and the Recent KuCoin Hack             2
Understand Machine Learning with One Article                    3
The End of the World                                            4
Differential PrivacyNoise adding Mechanisms                     5
Whitewashing tech: Why the erasures of the past matter today    6
Is Strong Artificial Intelligence Possible? No                  7
YOLOV4 Partie 1:  la pointe de la dtection dobjet.              8
Testing TikToks Multi-Billion Dollar Algorithm                  9
dtype: int64

In [16]:
# Esta função pega o título de um artigo e retorna os mais similares a ele, de acordo com a matriz de 
# similaridades calculada acima
def get_recommendations(title, sim_matrix):
    # Retornando o índice do artigo que corresponde ao título
    idx = indices[title]

    # Retornando os artigos mais similares
    sim_scores = list(enumerate(sim_matrix[idx]))

    # Ordenando os artigos com base nos scores de similaridade, em ordem decrescente
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Retornando os scores dos 10 artigos mais similares
    sim_scores = sim_scores[1:11]

    # Pegando os índices destes artigos
    movie_indices = [i[0] for i in sim_scores]
    
    # Pegando os metadados do artigo pesquisado, para exibir
    meta_list = articles_dec[articles_dec["Title"] == title][['Title', 'Author', 'Publication']].values.tolist()

    print('')
    print('\033[1m'+"Artigo pesquisado:"+"\033[0m", meta_list[0][0])
    print('\033[1m'+"Autor:"+"\033[0m", meta_list[0][1])
    print('\033[1m'+"Publicação:"+"\033[0m", meta_list[0][2])
    print('')
    print('\033[91m'+'\033[1m'+'Top 10 artigos recomendados:'+"\033[0m")
    return articles_dec[['Title', 'Author', 'Publication', 'Claps']].iloc[movie_indices]

In [17]:
# ordenando por popularidade (do mais popular)
# criando lista dos 10 mais populares do nosso conjunto
pop_articles = articles_dec.sort_values('Claps', ascending=False)[['Title', 'Author', 'Publication']].values.tolist()[1:11]
pop_articles

[['Data Quest Tool at Hike', 'Hike', 'Hike Blog'],
 ['Standing with Dr. Timnit Gebru#ISupportTimnit #BelieveBlackWomen',
  'Google Walkout For Real Change',
  'No publication'],
 ['Read the Email That Led to the Exit of Google A.I. Ethicist Timnit Gebru',
  'Dave Gershgorn',
  'OneZero'],
 ['Why You Shouldnt Use, Gramerly', 'JL Matthews', 'Slackjaw'],
 ['Research on information quality and reliability of sources in Wikipedia',
  'W odzimierz Lewoniewski',
  'Wikipedia quality'],
 ['Ser que estamos a ser vigiados por um Big Brother?',
  'Rita Luz',
  'No publication'],
 ['AI in Healthcare', 'Tejas Kachare', 'No publication'],
 ['The Roadmap of Mathematics for Deep Learning',
  'Tivadar Danka',
  'Towards Data Science'],
 ['Build a global decentralized multi-agent system: Join and participate in our testnet program',
  'Fetch.ai',
  'Fetch.ai'],
 ['Fetch.ai Community AMA Recap (9th October 2020)', 'Fetch.ai', 'Fetch.ai']]

In [18]:
get_recommendations('The Roadmap of Mathematics for Deep Learning', cosine_sim)


[1mArtigo pesquisado:[0m The Roadmap of Mathematics for Deep Learning
[1mAutor:[0m Tivadar Danka
[1mPublicação:[0m Towards Data Science

[91m[1mTop 10 artigos recomendados:[0m


Unnamed: 0,Title,Author,Publication,Claps
27102,The Mathematics Behind Deep Learning,Trist'n Joseph,Towards Data Science,311.0
9286,The Mathematics of Deep Learning Optimizations- part 2,Charlie Masters,Becoming Human: Artificial Intelligence Magazine,55.0
9288,The Mathematics of Deep-learning Optimisations- part 1,Charlie Masters,Becoming Human: Artificial Intelligence Magazine,60.0
2920,Deep Learning,Ilexa Yardley,The Circular Theory,0.0
12102,What is Deep Learning?,Dieter Jordens,Towards Data Science,42.0
16217,Deep Learning,Thanaphat Popathom,No publication,0.0
24600,The Deep Learning,Arun Addagatla,No publication,9.0
11857,Complete Deep Learning Roadmap,Akash kumar,Analytics Vidhya,10.0
19209,"Machine Learning, Deep Learning",Laura L pez,No publication,15.0
24895,#2 Machine Learning and Deep Learning,Prabhat,Analytics Vidhya,54.0


O recomendador realizou um trabalho razoável em encontrar artigos com títulos similares. Entretanto, talvez ainda possamos melhorar a qualidade. Pois, pessoas que leram determinado artigo podem também ficar interessadas em mais artigos do mesmo autor, por exemplo, o que não está sendo capturado por este recomendador.

### Gerando um novo recomendador que leva mais features em consideração
Vamos analisar como fica a qualidade do recomendador com inserção de outras features a fim de capturar mais detalhes. Neste caso, além do título dos artigos, iremos utilizar, também, o autor e a publicação através da qual o mesmo foi divulgado.
Para isso, precisaremos converter essas duas últimas features para minúsculas e remover espaços em branco para que o vetorizador não conte o "John" de John Perapras e John Kundycki como os mesmos.

In [19]:
# Apagando a mastriz de similaridades anterior, por motivo de limitação na capacidade computacional
del cosine_sim

In [20]:
# Função para converter todas as strings para minúsculas e remover espaços em branco
def clean_data(x):
    if isinstance(x, list):
        return [str.lower(i.replace(" ", "")) for i in x]
    else:
        #Check if director exists. If not, return empty string
        if isinstance(x, str):
            return str.lower(x.replace(" ", ""))
        else:
            return ''

In [21]:
# Aplicando a função às variáveis Author e Publication
features = ['Author', 'Publication']#'Title', 

for feature in features:
    articles_dec[feature+'_clean'] = articles_dec[feature].apply(clean_data)

In [22]:
articles_dec.head()

Unnamed: 0,Title,Subtitle,Image,Author,Publication,Year,Month,Day,Tag,Reading_Time,Claps,Comment,url,Author_url,Author_clean,Publication_clean
0,How to go from BayesTheorem to Bayesian Inference,No subtitle,1,JimSpark,Towards Data Science,2020,10,1,AI,10,68.0,0,https://towardsdatascience.com/how-to-go-from-bayestheorem-to-bayesian-inference-2a75ac64ec07,https://towardsdatascience.com/@jimip6c12,jimspark,towardsdatascience
1,Autoencoders: Overview of Research and Applications,No subtitle,1,Branislav Holl nder,Towards Data Science,2020,10,1,AI,10,129.0,0,https://towardsdatascience.com/autoencoders-overview-of-research-and-applications-86135f7c0d35,https://towardsdatascience.com/@branislav.hollander,branislavhollnder,towardsdatascience
2,Regarding SingularityNET and the Recent KuCoin Hack,No subtitle,1,Ben Goertzel,SingularityNET,2020,10,1,AI,8,320.0,0,https://blog.singularitynet.io/regarding-singularitynet-and-the-recent-kucoin-hack-fee601b8ad8c,https://blog.singularitynet.io/@ben_90344,bengoertzel,singularitynet
3,Understand Machine Learning with One Article,Lets dive into one of the most mind-blowing and demanded,1,Julian Herrera,Towards Data Science,2020,10,1,AI,11,67.0,0,https://towardsdatascience.com/understand-machine-learning-with-one-article-7399f6b9c5ad,https://towardsdatascience.com/@julianh,julianherrera,towardsdatascience
4,The End of the World,Below is a conversation I had with OpenAIs GPT-3s language model. I gave GPT-3 the role of Wise Being. All of the,1,Kirk Ouimet,No publication,2020,10,1,AI,5,60.0,0,https://medium.com/@kirkouimet/the-end-of-the-world-5457c252523,https://medium.com/@kirkouimet,kirkouimet,nopublication


### Criando campo com os metadados necessários para vetorização
Agora iremos criar um campo no dataframe contendo todos os metadados (autor, publicação e título) que serão utilizados na vetorização. A função **create_soup** irá juntar as variáveis necessárias, separadas por um espaço em branco.

In [23]:
def create_soup(x):
    return x['Title'] + ' ' + x['Author_clean'] + ' '+ x['Publication_clean']

In [24]:
# Criando a nova feature 'soup', para guardar os metadados para vetorização
articles_dec['soup'] = articles_dec.apply(create_soup, axis=1)

In [25]:
articles_dec[['soup']].head(5)

Unnamed: 0,soup
0,How to go from BayesTheorem to Bayesian Inference jimspark towardsdatascience
1,Autoencoders: Overview of Research and Applications branislavhollnder towardsdatascience
2,Regarding SingularityNET and the Recent KuCoin Hack bengoertzel singularitynet
3,Understand Machine Learning with One Article julianherrera towardsdatascience
4,The End of the World kirkouimet nopublication


Construindo a matriz TF-IDF, através do treino e transformação do corpus, e checando seu shape

In [26]:
tfidf_matrix_2 = tfidf.fit_transform(articles_dec['soup'])
tfidf_matrix_2.shape

(33472, 193702)

In [27]:
# Computando a matriz de similaridades e verificando o shape
cosine_sim2 = cosine_similarity(tfidf_matrix_2)
cosine_sim2.shape

(33472, 33472)

In [28]:
get_recommendations('The Roadmap of Mathematics for Deep Learning', cosine_sim2)


[1mArtigo pesquisado:[0m The Roadmap of Mathematics for Deep Learning
[1mAutor:[0m Tivadar Danka
[1mPublicação:[0m Towards Data Science

[91m[1mTop 10 artigos recomendados:[0m


Unnamed: 0,Title,Author,Publication,Claps
27102,The Mathematics Behind Deep Learning,Trist'n Joseph,Towards Data Science,311.0
31055,Education or Experience? Both.,Tivadar Danka,Towards Data Science,5.0
9286,The Mathematics of Deep Learning Optimizations- part 2,Charlie Masters,Becoming Human: Artificial Intelligence Magazine,55.0
9288,The Mathematics of Deep-learning Optimisations- part 1,Charlie Masters,Becoming Human: Artificial Intelligence Magazine,60.0
338,How to compress a neural network,Tivadar Danka,Towards Data Science,283.0
4315,Can a neural network train other networks?,Tivadar Danka,Towards Data Science,265.0
27715,Do Machine Learning Like an Experimental Scientist,Tivadar Danka,Towards Data Science,15.0
30149,The Way of Monetizing Your Code Is Changing,Tivadar Danka,Towards Data Science,51.0
30390,The 3 Best Free Online Resources to Learn MLOps,Tivadar Danka,Towards Data Science,136.0
11857,Complete Deep Learning Roadmap,Akash kumar,Analytics Vidhya,10.0


Com a inserção de autor e publicação o recomendador parece ter ficado mais tendencioso a trazer artigos do mesmo autor na mesma publicação. É uma outra visão que pode funcionar bem em casos que a pessoa opte dar preferência a ver mais artigos do mesmo autor e/ou publicação. O primeiro recomendador pode funcionar bem no caso em que a intenção seja variar nos casos dos autores e/ou publicações atrelados aos artigos sugeridos.
### Conclusão
Esta foi uma aplicação de como criar uma feramenta simples para recomendação de artigos divulgados no Medium. Foram criados dois recomendadores, um utilizando apenas os títulos dos artigos para calcular as similaridades e outro utilizando, também, autor e publicação. Observamos que cada um pode ter uma aplicação, dependendo de determinado objetivo de negócio. Neste caso, ficamos limitados aos dados obtidos através da raspagem no site do Medium, claro que novas informações podem ajudar a melhorar o recomendador e até utilizar uma abordagem de filtro colaborativo.