# Sistemas de Recomendação baseado em contexto

Neste trabalho será apresentado um exemplo de sistema de recomendação baseado em contexto, mais especificamente usando o contexto de localização.

As técnicas de sistemas de recomendação baseado em contexto são divididas em 3 categorias: Pré-filtro contextual, Pós-filtro contextual e modelagem contextual. Usaremos pra este sistema o Pré-filtro.

Vamos começar carregando o nosso dataset. O dataset utilizado é um disponibilizado pela prefeitura de fortaleza.

In [1]:
# Import Pandas
import pandas as pd

# Load Movies Metadata
metadata = pd.read_csv('./address_dataset/PRACAS_E_PARQUES_PMF.csv',encoding = "ISO-8859-1", low_memory=False)

# Print the first three rows
metadata.head(10)

Unnamed: 0,x,y,gid,Name,description
0,-385571388404,-37234340059,1,AÇUDE JOÃO LOPES - SER I,
1,-384734803598,-37504060328,2,CAMINHO DAS CAJARANAS - SER II,
2,-384734112098,-37501902415,3,CAMINHO DAS CAJARANAS - SER II,
3,-384735561747,-37506311664,4,CAMINHO DAS CAJARANAS - SER II,
4,-384736428836,-3749141127,5,CAMINHO DAS CAJAZEIRAS - SER II,
5,-384737024653,-37493694027,6,CAMINHO DAS CAJAZEIRAS - SER II,
6,-384737825807,-37495818118,7,CAMINHO DAS CAJAZEIRAS - SER II,
7,-384742469619,-3750888257,8,CAMINHO DAS CARAMBOLEIRAS - SER II,
8,-384743875521,-37513302915,9,CAMINHO DAS CARAMBOLEIRAS - SER II,
9,-384743158635,-37511041738,10,CAMINHO DAS CARAMBOLEIRAS - SER II,


No dataset podemos observar que tem nomes que se repetem, por isso vamos retirar essas duplicatas:

In [2]:
q_parks = metadata.copy()
q_parks = q_parks.drop_duplicates(['Name'], keep='last')
q_parks.head(10)

Unnamed: 0,x,y,gid,Name,description
0,-385571388404,-37234340059,1,AÇUDE JOÃO LOPES - SER I,
3,-384735561747,-37506311664,4,CAMINHO DAS CAJARANAS - SER II,
6,-384737825807,-37495818118,7,CAMINHO DAS CAJAZEIRAS - SER II,
9,-384743158635,-37511041738,10,CAMINHO DAS CARAMBOLEIRAS - SER II,
12,-384697663136,-37499202009,13,CAMINHO DAS TANGERINAS - SER II,
15,-38472954444,-37488792698,16,CAMINHO DOS ABACATEIROS - SER II,
18,-384707380424,-37529895791,19,CAMINHO DOS JAMBEIROS - SER II,
21,-384699835502,-37522678653,22,CAMINHO DOS LIMOEIROS - SER II,
23,-384695560943,-37509494568,24,CAMINHO DOS SAPOTIZEIROS - SER II,
24,-385026734815,-37306021469,25,CAMPO DO AMÉRICA - PRAÇA SOARES JUAREZ - SER II,


A idéia da recomendação é encontrar o parque/praça mais segura porém ainda não temos informações do grau de segurança do parque. por causa disso vamos colocar notas de segurança aleatórias que variam de 1-5, sendo 1-Perigoso e 5-Seguro.

In [3]:
import numpy as np
q_parks['Security'] = np.random.randint(1,6, size=len(q_parks))
q_parks.head(10)

Unnamed: 0,x,y,gid,Name,description,Security
0,-385571388404,-37234340059,1,AÇUDE JOÃO LOPES - SER I,,5
3,-384735561747,-37506311664,4,CAMINHO DAS CAJARANAS - SER II,,3
6,-384737825807,-37495818118,7,CAMINHO DAS CAJAZEIRAS - SER II,,4
9,-384743158635,-37511041738,10,CAMINHO DAS CARAMBOLEIRAS - SER II,,4
12,-384697663136,-37499202009,13,CAMINHO DAS TANGERINAS - SER II,,4
15,-38472954444,-37488792698,16,CAMINHO DOS ABACATEIROS - SER II,,2
18,-384707380424,-37529895791,19,CAMINHO DOS JAMBEIROS - SER II,,3
21,-384699835502,-37522678653,22,CAMINHO DOS LIMOEIROS - SER II,,2
23,-384695560943,-37509494568,24,CAMINHO DOS SAPOTIZEIROS - SER II,,3
24,-385026734815,-37306021469,25,CAMPO DO AMÉRICA - PRAÇA SOARES JUAREZ - SER II,,5


In [4]:
q_parks.shape

(167, 6)

Agora podemos ver que no nosso dataset temos no total de 167 parques/praças em Fortaleza.

O próximo passo será colocar no dataset as informações de latitude e longitude dos parques/praças.

In [5]:
q_parks["Lat"] = q_parks["y"]
q_parks["Long"] = q_parks["x"]
q_parks["Lat"] = q_parks["Lat"].replace(to_replace=',', value='.', regex=True)
q_parks["Long"] = q_parks["Long"].replace(to_replace=',', value='.', regex=True)
q_parks.head(10)

Unnamed: 0,x,y,gid,Name,description,Security,Lat,Long
0,-385571388404,-37234340059,1,AÇUDE JOÃO LOPES - SER I,,5,-3.7234340059,-38.5571388404
3,-384735561747,-37506311664,4,CAMINHO DAS CAJARANAS - SER II,,3,-3.7506311664,-38.4735561747
6,-384737825807,-37495818118,7,CAMINHO DAS CAJAZEIRAS - SER II,,4,-3.7495818118,-38.4737825807
9,-384743158635,-37511041738,10,CAMINHO DAS CARAMBOLEIRAS - SER II,,4,-3.7511041738,-38.4743158635
12,-384697663136,-37499202009,13,CAMINHO DAS TANGERINAS - SER II,,4,-3.7499202009,-38.4697663136
15,-38472954444,-37488792698,16,CAMINHO DOS ABACATEIROS - SER II,,2,-3.7488792698,-38.472954444
18,-384707380424,-37529895791,19,CAMINHO DOS JAMBEIROS - SER II,,3,-3.7529895791,-38.4707380424
21,-384699835502,-37522678653,22,CAMINHO DOS LIMOEIROS - SER II,,2,-3.7522678653,-38.4699835502
23,-384695560943,-37509494568,24,CAMINHO DOS SAPOTIZEIROS - SER II,,3,-3.7509494568,-38.4695560943
24,-385026734815,-37306021469,25,CAMPO DO AMÉRICA - PRAÇA SOARES JUAREZ - SER II,,5,-3.7306021469,-38.5026734815


Organizando os índices:

In [6]:
q_parks = q_parks.reset_index(drop=True)
q_parks.head(10)

Unnamed: 0,x,y,gid,Name,description,Security,Lat,Long
0,-385571388404,-37234340059,1,AÇUDE JOÃO LOPES - SER I,,5,-3.7234340059,-38.5571388404
1,-384735561747,-37506311664,4,CAMINHO DAS CAJARANAS - SER II,,3,-3.7506311664,-38.4735561747
2,-384737825807,-37495818118,7,CAMINHO DAS CAJAZEIRAS - SER II,,4,-3.7495818118,-38.4737825807
3,-384743158635,-37511041738,10,CAMINHO DAS CARAMBOLEIRAS - SER II,,4,-3.7511041738,-38.4743158635
4,-384697663136,-37499202009,13,CAMINHO DAS TANGERINAS - SER II,,4,-3.7499202009,-38.4697663136
5,-38472954444,-37488792698,16,CAMINHO DOS ABACATEIROS - SER II,,2,-3.7488792698,-38.472954444
6,-384707380424,-37529895791,19,CAMINHO DOS JAMBEIROS - SER II,,3,-3.7529895791,-38.4707380424
7,-384699835502,-37522678653,22,CAMINHO DOS LIMOEIROS - SER II,,2,-3.7522678653,-38.4699835502
8,-384695560943,-37509494568,24,CAMINHO DOS SAPOTIZEIROS - SER II,,3,-3.7509494568,-38.4695560943
9,-385026734815,-37306021469,25,CAMPO DO AMÉRICA - PRAÇA SOARES JUAREZ - SER II,,5,-3.7306021469,-38.5026734815


Agora temos o nosso dataset pronto para a recomendação sensível ao contexto.

Nesse exercício vamos utilizar apenas o contexto de localização. A idéia seria o sistema pegar a localização do usuário e a partir dela encontrar todos o parques/praças dentro de 2 km.

Para facilitar nossos testes vamos tentar usar uma localização aleatória que tem as coordenadas dentro desse limite: 
Latitude: -3,68 até -3,86
Longitude: -38,43 até -38,62

In [7]:
import random

coords = (round(random.uniform(-3.86,-3.68), 10),round(random.uniform(-38.62,-38.43), 10))
print(coords)

(-3.8099396272, -38.5510458083)


Sabendo a nossa localização, agora é possível fazer a filtragem do nosso dataset para apenas analisar os parques/praças perto do usuário.

In [8]:
from geopy.distance import vincenty
def distance(a,b):
    return vincenty(a,b).km

In [9]:
dist=[]
for index, row in q_parks.iterrows():
    dist.append(distance(coords,(row.Lat,row.Long)))

q_parks['Dist'] = dist

In [10]:
q_parks = q_parks.drop(q_parks[q_parks.Dist > 2].index)
q_parks.head(10)

Unnamed: 0,x,y,gid,Name,description,Security,Lat,Long,Dist
52,-385533274324,-38079441853,225,PRAÇA CLÓVIS BEVILÁQUA - SER VI,,2,-3.8079441853,-38.5533274324,0.33603
55,-385520274963,-38243211549,228,PRAÇA DA CISTERNA - SER V,,2,-3.8243211549,-38.5520274963,1.594032
146,-385498661058,-37970214518,324,PRAÇA PRIMEIRO DE MAIO - SER VI,,4,-3.7970214518,-38.5498661058,1.434479
149,-385565475574,-38145557417,327,PRAÇA SÃO JOSÉ - SER V,,3,-3.8145557417,-38.5565475574,0.796245


Com isso terminamos a recomendação sensível ao contexto, agora falta utilizar algum outro recomendador para encontrar a lista de parques seguros

### Recomendador Simples

Agora vamos ordenar pela segurança

In [11]:
q_parks = q_parks.sort_values('Security', ascending=False)

q_parks

Unnamed: 0,x,y,gid,Name,description,Security,Lat,Long,Dist
146,-385498661058,-37970214518,324,PRAÇA PRIMEIRO DE MAIO - SER VI,,4,-3.7970214518,-38.5498661058,1.434479
149,-385565475574,-38145557417,327,PRAÇA SÃO JOSÉ - SER V,,3,-3.8145557417,-38.5565475574,0.796245
52,-385533274324,-38079441853,225,PRAÇA CLÓVIS BEVILÁQUA - SER VI,,2,-3.8079441853,-38.5533274324,0.33603
55,-385520274963,-38243211549,228,PRAÇA DA CISTERNA - SER V,,2,-3.8243211549,-38.5520274963,1.594032
