![BTS](https://4d17d13o8yuu3wluzr4c2feo-wpengine.netdna-ssl.com/wp-content/uploads/2019/02/btslogo.png)

### Master in Big Data Solutions Final Project - Smart Tour

#### Pablo Dellacassa, Santiago Borgnino & Muhannad Shahada

In [None]:
#Loading of necessary libraries
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [320]:
#Loading necessart datasets for model implementation
pits_od=pd.read_excel('/Users/santiagoborgnino/Documents/Github/Smart-Tour/Datasets/pits_opendata.xls')
google_data=pd.read_csv('google_data.csv')

### Data preparation

In [322]:
#Dropping unnecessary columns
pits_od=pits_od.drop(['originalpost','categories','atencio_eq', 'phonenumber','type','tp','date','author','tags','language','pos', 'num', 'city', 'address', 'code_url', 'related_post', 'attachments', 'vignette', 'moreinfo', 'usergroup', 'post_modified', 'original_modified', 'wt', 'sigla', 'sectionname'], axis=1)

#Apply upper case for names
pits_od['name'] = pits_od['name'].str.upper()
pits_od['title']=pits_od['title'].str.upper()

#Remove white space at the beginning and end of the name
pits_od['name'] = pits_od['name'].str.lstrip()

#Dropping duplicate points of interest
pits_od=pits_od.drop_duplicates('id')

In [324]:
#Removing noise strings from exceprt
pits_od['excerpt'] = pits_od['excerpt'].str.replace('<p>', '')
pits_od['excerpt'] = pits_od['excerpt'].str.replace('</p', '')
pits_od['excerpt'] = pits_od['excerpt'].str.replace('.>', '')


#Removing noise strings from content
pits_od['content']=pits_od['content'].str.replace('<h3>', '' )
pits_od['content']=pits_od['content'].str.replace('</h3>', '' )
pits_od['content']=pits_od['content'].str.replace('\r\n', '' )
pits_od['content']=pits_od['content'].str.replace('<p>', '' )
pits_od['content']=pits_od['content'].str.replace('<strong>', '' )
pits_od['content']=pits_od['content'].str.replace('</strong>', '' )
pits_od['content']=pits_od['content'].str.replace('</p>', '' )
pits_od['content']=pits_od['content'].str.replace('<!-- .photo-galleria -->', '' )

#Replacing Nan for empty space
pits_od['excerpt'] = pits_od['excerpt'].fillna('')

El gran espai natural del parc de Montjuïc és el millor lloc per gaudir de la natura i la cultura alhora, perquè és ple de magnífics jardins i d’instal·lacions culturals
 
Un turó amb històriaAssentat sobre el turó que recorre el barri de Sants i mira cap al mar, Montjuïc ha estat testimoni i escenari de múltiples fets transcendentals en la història de Barcelona. Es va començar a urbanitzar a partir de l’Exposició Universal del 1929. Després dels successos dramàtics de la Guerra Civil, en què el castell va funcionar com a presó, l’indret va canviar i, amb els Jocs Olímpics de 1992, es va renovar completament i va tornar a adquirir un caràcter festiu i alegre per als barcelonins.El nom del turó, de 177 metres d’alçària, ha estat un tema de controvèrsia, ja que Montjuïc en català medieval podria traduir-se com a &#8216;Mont dels jueus&#8216;, la qual cosa està avalada per l’existència d’un cementiri jueu a la muntanya.Natura, cultura i esportEn aquest gran pulmó verd de la ciutat s’hi tr

In [327]:
#Reseting indexes of datasets to join them
google_data.set_index('name', inplace=True)
pits_od.set_index('title', inplace=True)

In [328]:
#Joining google data with open data barcelona data set
pits_od=pits_od.join(google_data, how='inner')
pits_od.reset_index(inplace=True)

In [330]:
#Size of resulting join
pits_od.shape

(52, 40)

In [331]:
pits_od.columns

Index(['index', 'district', 'gmapx', 'gmapy', 'id', 'name', 'excerpt',
       'content', 'categoryName', 'temporarilyClosed', 'permanentlyClosed',
       'totalScore', 'location', 'popularTimesHistogram', 'reviewsCount',
       'latitud', 'longitud', 'tipo', '1994', '2000', '2011', '2014', '2015',
       '2016', '2017', '2018', '2019', 'Average', '1', '2', '3', '4', '5', '6',
       '7', '8', '9', '10', '11', '12'],
      dtype='object')

In [332]:
#Filtering those poins of interest that contain excerpt for feature extraction
pits_od=pits_od[~pits_od['excerpt'].isna()]

### Data Modelling

In [334]:
#Creating a TfidVectorizer object for feature extraction
tfidf = TfidfVectorizer(max_df=0.95)

#Fitting TfidVectorizer object to each POI's excerpt
tfidf_matrix = tfidf.fit_transform(pits_od['excerpt'])

In [337]:
#Creating cosine similarity matrix for POI's recommendation
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [342]:
#Creating content_based_recommender function
def content_based_recommender(title, cosine_sim, dataframe):

    dataframe = dataframe[~dataframe["index"].isna()]
    indices = pd.Series(dataframe.index, index=dataframe['index'])
    indices = indices[~indices.index.duplicated(keep='last')]

    movie_index = indices[title]

    similarity_scores = pd.DataFrame(cosine_sim[movie_index], columns=["score"])

    movie_indices = similarity_scores.sort_values("score", ascending=False)[1:11].index
    return dataframe['index'].iloc[movie_indices]

In [349]:
#Testing contenst based recommender function
content_based_recommender("LA SAGRADA FAMILIA", cosine_sim, pits_od)

51                VIRREINA PALACE
5                       CASA MILÀ
33    MUSEU DEL MODERNISME CATALÀ
40      PARC DEL LABERINT D'HORTA
15       FUNDACIÓ FOTO COLECTANIA
18             GAUDÍ HOUSE MUSEUM
50            TORRE DE COLLSEROLA
26                MONTJUÏC CASTLE
24     MIES VAN DER ROHE PAVILION
41                     PARK GÜELL
Name: index, dtype: object