# Recomendação de Noticias

In [1]:
import numpy as np
import pandas as pd
from sklearn import model_selection as ms
from sklearn.metrics.pairwise import pairwise_distances
from sklearn.metrics import mean_squared_error
from math import sqrt
from __future__ import division
from json import loads

In [2]:
def recommend(preferences, similarity):
    '''
    preferences: UxI boolean matrix
    similarity: UxU Jaccard distances matrix
    '''
    recommendation = np.zeros(preferences.shape,dtype=bool)
    
    for i in range(similarity.shape[0]):
        # for every user
        for j in range(preferences.shape[0]):
            if i != j:
                # for every another different user
                # compute the dot product of a similarity between user i,j and the preferences of user j
                axis = np.argmax(np.dot(similarity[i][j], preferences[j]))
                # the max value of this dot product will be the product recommeded for user i
                recommendation[i][axis] = True
                
    return recommendation

def rmse(prediction, ground_truth):
    '''
    Root Mean Squared Error: http://statweb.stanford.edu/~susan/courses/s60/split/node60.html
    sqrt(1/n*sum((x-x')**2))
    '''
    prediction = prediction[ground_truth.nonzero()].flatten() 
    ground_truth = ground_truth[ground_truth.nonzero()].flatten()
    return sqrt(mean_squared_error(prediction, ground_truth))    
    
def get_recommend_user(user, users, items, k, recommendation):
    '''
    user: user whose recommended items shall be returned
    users: dict corresponding to users ids
    items: dict corresponding to items ids
    k: the length of the list of the items recommended
    recommendation: matrix corresponding to the recommended items
    '''
    if user in users:
        u_items = np.nonzero(recommendation[users[user]] == True)
        # return the k-len list of recommended items mongodb ids
        return [items[i] for i in u_items[0][:k]]
    
def get_news_details(list_ids):
    with open('news_data.json', 'r') as json_data:
        d = loads(json_data.read())
        return [news["title"] for news in d for _id in list_ids if news["id"] == _id]

### Lendo o csv e transformando em um pandas.DataFrame

In [3]:
df = pd.read_csv('viewed_news.csv', sep='|', names=['user_id','news_id'])

### Criando dicionarios para mapeamento de usuarios para id inteiro

In [4]:
users = {v:k for k, v in enumerate(df.user_id.unique())}
items_name = {v:k for k, v in enumerate(df.news_id.unique())}

### Separando os conjuntos em treino e teste com a especificação de 1/3 para cada usuário

In [5]:
n_users, n_items = len(users), len(items_name)

train_data = pd.DataFrame(columns=['user_id','news_id'])
test_data = pd.DataFrame(columns=['user_id','news_id'])

for u_id in df.user_id.unique():
    tr, tt = ms.train_test_split(df.loc[df['user_id'] == u_id], test_size=1./3.)
    
    train_data = pd.concat([train_data, tr])
    test_data = pd.concat([test_data, tt])


### Criando matrizes UxI de treino e teste

In [6]:
train_data_matrix = np.zeros((n_users, n_items), dtype=bool)
for line in train_data.itertuples():
    train_data_matrix[users[line[1]], items_name[line[2]]] = True  

test_data_matrix = np.zeros((n_users, n_items), dtype=bool)
for line in test_data.itertuples():
    test_data_matrix[users[line[1]], items_name[line[2]]] = True

### Calculando distância jaccard da matriz train_data_matrix

In [7]:
user_similarity = pairwise_distances(train_data_matrix, metric='jaccard')

### Criando matriz user_prediction de itens a serem recomendados

In [8]:
user_prediction = recommend(train_data_matrix, user_similarity)

### Testando a recomendação para um usuário

In [9]:
items_index = {k:v for k, v in enumerate(df.news_id.unique())}
k = 10
user = '556f426b1700003500aac7f5'
news_ids = get_recommend_user(user, users, items_index, k, user_prediction)

### Avaliando a predição com o RMSE

In [10]:
print ('User-based CF RMSE: ' + str(rmse(user_prediction, test_data_matrix)))

User-based CF RMSE: 0.8270223921027264


  output_errors = np.average((y_true - y_pred) ** 2, axis=0,


### Por curiosidade, verifico as informações dos ids de notícias que estão em news_ids

In [11]:
details = get_news_details(news_ids)

In [12]:
details

['Comissão aprova indicação de irmão de Evandro Leitão na Arce',
 'Dilma assume pessoalmente articulação para veto da "pauta-bomba" no Senado',
 'Não há intenção do governo em modificar propostas enviadas ao Congresso, diz Levy',
 'Deputados adiam votação de alterações no Desarmamento para próxima terça',
 'Projeto que eleva multa de táxi clandestino poderá ser colocado em pauta na Câmara',
 'Votação de projeto que altera Estatuto do Desarmamento fica para terça-feira',
 'Votação de projeto que altera Estatuto do Desarmamento fica para terça-feira',
 'Equipe chinesa vence o Crossfire Stars Invitational Brazil 2015',
 'Assembleia Legislativa aprova aumento do ICMS e IPVA, outros produtos terão alíquota reduzida',
 'É (quase) Natal!']