<img src="../idp.jpg">

<a id='1'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">üìö AULA 2 - Sistema de Recomenda√ß√£o de Restaurantes</span></p>

<img src="zomato.jpg">


## Objetivo do notebook
Criar um sistema de recomenda√ß√£o baseado em uma lista de restaurantes, tipos de cozinha e avalia√ß√µes.

Funcionamento do modelo:
- Escrever um nome de restaurante
- O sistema de recomenda√ß√£o analisar√° as avalia√ß√µes de outros restaurantes
- O sistema nos recomendar√° outros restaurantes com avalia√ß√µes semelhantes e os classificar√° a partir dos mais bem avaliados.

### O que √©
A Zomato √© um servi√ßo de busca de restaurantes para quem quer sair para jantar, buscar comida ou pedir em casa na √çndia, Brasil, Portugal, Turquia, Indon√©sia, Nova Zel√¢ndia, It√°lia, Filipinas, √Åfrica do Sul, Sri Lanka, Catar, Emirados √Årabes Unidos, Reino Unido, Estados Unidos, Austr√°lia e Canad√°. O site estava posicionado no ranking Alexa como 99 na √çndia e 595 no mundo em Outubro de 2015.

### Dados de interesse
Zomato √© principalmente um aplicativo de entrega de comida, tendo parceria com 350 mil restaurantes e caf√©s em 526 cidades indianas. Tamb√©m permite que os clientes reservem mesas para jantar, escrevam cr√≠ticas sobre comida e carreguem fotos. A app Zomato tem 41,5 milh√µes de clientes que usam seu servi√ßo todos os meses, e as encomendas na sua plataforma aumentaram para 403,1 milh√µes no ano 2019-2020.

### Dados que vamos trabalhar
O guia de restaurantes Zomato permite ao usu√°rio buscar informa√ß√µes relacionadas a restaurantes, bares, caf√©s, pubs e casa noturnas. As informa√ß√µes fornecidas geralmente incluem:
- nome do estabelecimento
- telefones de contato
- endere√ßo
- hor√°rio de funcionamento
- card√°pio
- fotografias
- avalia√ß√µes 
- mapas de localiza√ß√£o
- avalia√ß√µes e notas em uma escala de 1 a 5
- informa√ß√µes do tipo de cozinha (italiana, espanhola, mineira :) )
- custo aproximado de uma refei√ß√£o para 2
- se aceita cart√£o de cr√©dito
- se tem delivery
- etc.

----

## Conte√∫do do notebook:

#### Parte 1: An√°lise Explorat√≥ria dos Dados (EDA):
1) An√°lise das vari√°veis

#### Parte 2: Engenharia e Limpeza de Vari√°veis
1) Adicionando novas vari√°veis

2) Removendo vari√°veis duplicadas

3) Convertendo o formato das vari√°veis para a etapa de modelagem, escala, etc.

#### Parte 3: Sistema de recomenda√ß√£o
1) Preparando os dados

2) Matriz TF-IDF

3) Testando o sistema

In [None]:
# Importando as principais bibliotecas de manipula√ß√£o e visualiza√ß√£o de dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from warnings import filterwarnings
filterwarnings('ignore')

In [None]:
# Lendo os 2 datasets
nomes_restaurantes = pd.read_csv('restaurant_names.csv') # restaurantes e dados cadastrais
reviews_restaurantes = pd.read_csv('restaurant_reviews.csv') # reviews dos restaurantes, coment√°rios, etc.

<a id='1'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">Parte 1: An√°lise Explorat√≥ria dos Dados</span></p>


In [None]:
# Visualizando a estrutura dos nossos dados
nomes_restaurantes.head()

In [None]:
# Visualizando a estrutura dos nossos dados
reviews_restaurantes.head()

In [None]:
# vamos agora fazer nosso famoso EDA automatizado :)
from dataprep.eda import plot, plot_correlation, create_report, plot_missing

# Utilizando o m√©todo plot para constru√ß√£o do relat√≥rio EDA de forma autom√°tica dos nomes dos restaurantes
plot(nomes_restaurantes)

In [None]:
create_report(nomes_restaurantes)

In [None]:
# Vamos agora fazer o EDA para os reviews
plot(reviews_restaurantes)

In [None]:
create_report(reviews_restaurantes)

## Combinando os 2 datasets

Iremos fazer um merge dos 2 datasets para facilitar nossa manipula√ß√£o de dados e permitir que fa√ßamos an√°lises mais completas.

In [None]:
# Renomeando a coluna do nome do restaurante para ter o mesmo valor do outro conjunto de dados
reviews_restaurantes = reviews_restaurantes.rename(columns={'Restaurant': 'Name'})

# Unindo os 2 datasets:
df = pd.merge(reviews_restaurantes, nomes_restaurantes, how='left', on='Name')

# Eliminando as colunas que n√£o vamos usar
df.drop(['Reviewer', 'Time', 'Pictures', 'Links', 'Collections'], axis=1, inplace=True)
df.head()

In [None]:
df.info()

<a id='2'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">Parte 2: Engenharia e Limpeza de Dados</span></p>


## Preparando as colunas de Cost e Rating

In [None]:
# Alterando os tipos de dados das colunas de Cost e Rating
df['Cost'] = df['Cost'].str.replace(',', '').astype(int)
df['Rating'] = df['Rating'].str.replace('Like', '1').astype(float)
df.info()

## Manipulando os valores ausentes

In [None]:
print('N√∫mero de registros:', len(df))
print('\nN√∫mero nulos para cada coluna:\n')
print(df.isnull().sum())

A coluna Rating √© muito importante para o sistema de recomenda√ß√£o. Portanto, n√£o vamos descartar esses valores de 38 NaN.
Vamos preencher esses valores NaN com o valor m√©dio de classifica√ß√£o de cada restaurante.

In [None]:
# Examine missing Rating values:
df['Name'][df['Rating'].isnull() == True].value_counts()

Portanto, existem apenas dois restaurantes com um total de 38 valores de classifica√ß√£o NaN.
Vamos ver o valor m√©dio da classifica√ß√£o de cada restaurante.

In [None]:
print('M√©dia de avalia√ß√µes para American Wild Wings: ', df['Rating'][df['Name'] == 'American Wild Wings'].mean())
print('M√©dia de avalia√ß√µes para Arena Eleven: ', df['Rating'][df['Name'] == 'Arena Eleven'].mean())
print('M√©dia geral das avalia√ß√µes: ', df['Rating'].mean())

Podemos ver que o valor m√©dio para o valor de classifica√ß√£o ausente deve ser 4 (3,9 e 4,1 para cada restaurante).
Vamos preencher esses restaurantes com esses valores.

In [None]:
df['Rating'].fillna(4, inplace=True)

# Mudando os NaN para '-'
df['Review'] = df['Review'].fillna('-')
df.isnull().sum()

## Separando os metadados (Reviews and Followers)

Separamos os n√∫meros de Reviews e Followers em colunas diferentes para us√°-lo mais tarde.

In [None]:
# Preenchendo os valores nulos:
df['Metadata'].fillna('0 Review , 0 Follower', inplace=True)

# Padronizando as strings
df['Metadata'] = df['Metadata'].str.replace('Reviews', 'Review')
df['Metadata'] = df['Metadata'].str.replace('Followers', 'Follower')

df['Metadata'][df['Metadata'].str.endswith('w')] = df['Metadata'][df['Metadata'].str.endswith('w')] + ' , - Follower'

# Dividindo em duas colunas
df[['Reviews', 'Followers']] = df['Metadata'].str.split(' , ', expand=True)

# Removendo algumas strings dos reviews
df['Reviews'] = df['Reviews'].str.replace('Review', '')
df['Reviews'] = df['Reviews'].str.replace('Posts', '')
df['Reviews'] = df['Reviews'].str.replace('Post', '')

df['Followers'] = df['Followers'].str.replace('Follower', '')
df['Followers'] = df['Followers'].str.replace('-', '0')

# Mudando str para int
df[['Reviews', 'Followers']] = df[['Reviews', 'Followers']].astype(int)

# Removendo a coluna inicial
df.drop(['Metadata'], axis=1, inplace=True)

# Ordenando os restaurantes por custo
df = df.sort_values(['Name', 'Cost'], ascending=False).reset_index()
df.drop('index', axis=1, inplace=True)

In [None]:
# Visualizando uma amostra nosso dataset
df.sample(5)

## Criando novas vari√°veis (M√©dia de Ratings, Reviews e Followers)

As colunas Rating, Review e Followers representam as entradas de clientes individuais.
Vamos encontrar as m√©dias desses valores e atribu√≠-los aos restaurantes.

In [None]:
restaurants = list(df['Name'].unique())
df['Mean Rating'] = 0
df['Mean Reviews'] = 0
df['Mean Followers'] = 0

for i in range(len(restaurants)):
    df['Mean Rating'][df['Name'] == restaurants[i]] = df['Rating'][df['Name'] == restaurants[i]].mean()
    df['Mean Reviews'][df['Name'] == restaurants[i]] = df['Reviews'][df['Name'] == restaurants[i]].mean()
    df['Mean Followers'][df['Name'] == restaurants[i]] = df['Followers'][df['Name'] == restaurants[i]].mean()

In [None]:
df.sample(3)

## Feature Scaling das 3 vari√°veis de m√©dia

Iremos utilizar a escala de 1-5

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range = (1,5))

df[['Mean Rating', 'Mean Reviews', 'Mean Followers']] = scaler.fit_transform(df[['Mean Rating', 'Mean Reviews', 'Mean Followers']]).round(2)

df.sample(3)

## Processamento do texto e limpeza dos dados

Usaremos a vari√°vel 'Review' e 'Cuisines' para criar um sistema de recomenda√ß√£o.
Portanto, precisamos preparar e limpar o texto nessas colunas.

In [None]:
import re
from nltk.corpus import stopwords
from sklearn.metrics.pairwise import linear_kernel
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# 5 exemplos dessas colunas antes do processamento de texto:
df[['Review', 'Cuisines']].sample(5)

In [None]:
import nltk
nltk.download('stopwords')

# S√≠mbolos para ser substuidos pelos espa√ßos
replace_space = re.compile('[/(){}\[\]\|@,;]')

# S√≠mbolos a serem removidos
remove_symbols = re.compile('[^0-9a-z #+_]')

# Defini√ß√£o de stopwords
stopwords = set(stopwords.words('english'))

def text_preprocessing(text):
    # Converter para min√∫sculas
    text = text.lower()
    
    # Substituir os s√≠mbolos com espa√ßos
    text = replace_space.sub(' ', text)
    
    # Remover os s√≠mbolos
    text = remove_symbols.sub('', text)
    
    # Remover stopwords
    text = ' '.join(word for word in text.split() if word not in stopwords)
    
    return text

In [None]:
df['Review'] = df['Review'].apply(text_preprocessing)
df['Cuisines'] = df['Cuisines'].apply(text_preprocessing)

In [None]:
# Colunas ap√≥s o processamento
df[['Review','Cuisines']].sample(5)

## Analisando restaurantes e sua popularidade

In [None]:
# Verificando os dados
restaurant_names = list(df['Name'].unique())
restaurant_names

In [None]:
df_rating = df.drop_duplicates(subset='Name')
df_rating = df_rating.sort_values(by='Mean Rating', ascending=False).head(10)

plt.figure(figsize=(7,5))
sns.barplot(data=df_rating, x='Mean Rating', y='Name', palette='RdBu')
plt.title('Top 10 restaurantes com melhores notas');

In [None]:
df_reviews = df.drop_duplicates(subset='Name')
df_reviews = df_reviews.sort_values(by='Mean Reviews', ascending=False).head(10)

plt.figure(figsize=(7,5))
sns.barplot(data=df_reviews, x='Mean Reviews', y='Name', palette='RdBu')
plt.title('Top 10 Restaurantes mais avaliados');

In [None]:
df_followers = df.drop_duplicates(subset='Name')
df_followers = df_followers.sort_values(by='Mean Followers', ascending=False).head(10)

plt.figure(figsize=(7,5))
sns.barplot(data=df_followers, x='Mean Followers', y='Name', palette='RdBu')
plt.title('TOP 10 restaurantes com mais seguidores');

## Distribui√ß√£o de Frequ√™ncia das palavras:

In [None]:
def get_top_words(column, top_nu_of_words, nu_of_word):
    
    # CountVectorizer √© uma √≥tima ferramenta fornecida pela biblioteca scikit-learn em Python. 
    # Ele √© usado para transformar um determinado texto em um vetor com base na frequ√™ncia (contagem) 
    # de cada palavra que ocorre em todo o texto
    vec = CountVectorizer(ngram_range= nu_of_word, stop_words='english')
    
    bag_of_words = vec.fit_transform(column)
    
    sum_words = bag_of_words.sum(axis=0)
    
    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
    
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    
    return words_freq[:top_nu_of_words]

In [None]:
# Top 20 dupla de palavras por tipo de cozinha
list1 = get_top_words(df['Cuisines'], 20, (2,2))

df_words1 = pd.DataFrame(list1, columns=['Word', 'Count'])

plt.figure(figsize=(7,6))
sns.barplot(data=df_words1, x='Count', y='Word')
plt.title('Frequ√™ncia de pares de palavras para os tipos de cozinhas');

In [None]:
# Top 20 dupla de palavras por Reviews
list2 = get_top_words(df['Review'], 20, (2,2))

df_words2 = pd.DataFrame(list2, columns=['Word', 'Count'])

plt.figure(figsize=(7,6))
sns.barplot(data=df_words2, x='Count', y='Word')
plt.title('Frequ√™ncia de pares de palavras para avalia√ß√µes');

<a id='3'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">Parte 3: Sistema de Recomenda√ß√£o baseado em conte√∫do</span></p>



### TF-IDF Matrix (Term Frequency ‚Äî Inverse Document Frequency Matrix)

O valor TF-IDF (abrevia√ß√£o do ingl√™s term frequency‚Äìinverse document frequency, que significa frequ√™ncia do termo‚Äìinverso da frequ√™ncia nos documentos), √© uma medida estat√≠stica que tem o intuito de indicar a import√¢ncia de uma palavra de um documento em rela√ß√£o a uma cole√ß√£o de documentos ou em um corpus lingu√≠stico. Ela √© frequentemente utilizada como fator de pondera√ß√£o na recupera√ß√£o de informa√ß√µes e na minera√ß√£o de dados.

O valor TF-IDF de uma palavra aumenta proporcionalmente √† medida que aumenta o n√∫mero de ocorr√™ncias dela no documento, no entanto, esse valor √© equilibrado pela frequ√™ncia da palavra no corpus. Isso auxilia a distinguir o fato da ocorr√™ncia de algumas palavras serem geralmente mais comuns que outras.

Assim, o m√©todo TF-IDF √© usado para quantificar palavras e calcular pesos para elas.

Em outras palavras, representar cada palavra (ou pares de palavras etc.) com um n√∫mero para usar a matem√°tica no sistema de recomenda√ß√£o.

A similaridade de cosseno √© uma m√©trica usada para determinar qu√£o semelhantes os documentos s√£o, independentemente de seu tamanho.

In [None]:
# Alterando o √≠ndice do conjunto de dados por nome do restaurante
df.set_index('Name', inplace=True)

# Salvando os √≠ndices como series
indices = pd.Series(df.index)

# Criando uma matriz tf-idf
# Mais info: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
tfidf = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), min_df=0, stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['Review'])

# Calculando a similaridade de cosseno
# O linear_kernel √© usado quando os dados s√£o separ√°veis linearmente, ou seja, podem ser separados usando uma √∫nica Linha. 
# √â um dos kernels mais comuns a serem usados. √â usado principalmente quando h√° um grande n√∫mero de recursos em um determinado conjunto de dados
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)

## Criando o sistema de recomenda√ß√£o

In [None]:
def recommend(name, cosine_similarities = cosine_similarities):
    
    # Criar uma lista para por os 10 restaurantes recomendados
    recommend_restaurant = []
    
    # Fixar o √≠ndice do hotel inserido
    idx = indices[indices == name].index[0]
    
    # Encontrar os restaurantes com um valor de cosseno semelhante e orden√°-los-os do maior para o menor
    score_series = pd.Series(cosine_similarities[idx]).sort_values(ascending=False)
    
    # Extrair os 30 principais √≠ndices de restaurantes com um valor de cosseno semelhante
    top30_indexes = list(score_series.iloc[0:31].index)
    
    # Nomes dos top 30 restaurantes
    for each in top30_indexes:
        recommend_restaurant.append(list(df.index)[each])
    
    # Criar o novo conjunto de dados para mostrar os restaurantes semelhantes
    df_new = pd.DataFrame(columns=['Cuisines', 'Mean Rating', 'Cost', 'Timings'])
    
    # Criar um dataframe com 30 melhores restaurantes semelhantes com algumas de suas colunas
    for each in recommend_restaurant:
        df_new = df_new.append(pd.DataFrame(df[['Cuisines','Mean Rating', 'Cost', 'Timings']][df.index == each].sample()))
    
    # Eliminar os restaurantes com o mesmo nome e classificar apenas os 10 primeiros pela classifica√ß√£o mais alta
    df_new = df_new.drop_duplicates(subset=['Cuisines','Mean Rating', 'Cost'], keep=False)
    df_new = df_new.sort_values(by='Mean Rating', ascending=False).head(10)
    
    print('Top %s restaurantes como %s com avalia√ß√µes similares: ' % (str(len(df_new)), name))
    
    return df_new

## Testando nosso sistema de recomenda√ß√£o

## 1. Exemplo:

In [None]:
# AQUI EST√Å UM RESTAURANTE ALEAT√ìRIO. VAMOS VER OS DETALHES SOBRE ESSE RESTAURANTE:
df[df.index == 'Hyderabadi Daawat'].head(1)

In [None]:
# VAMOS VER O QUE O ALGORITMO NOS RECOMENDA
recommend('Hyderabadi Daawat')

## 2. Exemplo:

In [None]:
# AQUI VAMOS PROVAR UMA PADARIA. VAMOS VER OS DETALHES SOBRE ESSE ESTABELECIMENTO:
df[df.index == 'Labonel'].head(1)

In [None]:
# VAMOS VER O QUE O ALGORITMO NOS RECOMENDA
recommend('Labonel')

## 3. Exemplo:

In [None]:
# AQUI EST√Å UM RESTAURANTE MEDITERR√ÇNEO / NORTE DA √çNDIA / KEBAB / CHURRASCO. VAMOS VER OS DETALHES SOBRE ESSE RESTAURANTE:
df[df.index == 'Barbeque Nation'].sample(1)

In [None]:
# VAMOS VER O QUE O ALGORITMO NOS RECOMENDA
recommend('Barbeque Nation')

### Isso √© tudo. Espero que tenham gostado :)