# PROJETO: ANALISANDO DADOS COM PYTHON

## O projeto
     Como proposta de projeto para exercitar conceitos de progamação em Python e Análise de Dados foi proposto um projeto utilizando dados públicos do Marketplace Zomato, disponivel no Kaggle.

## O contexto:

     A empresa Zomato é uma marketplace de restaurantes. Ou seja, seu core business é facilitar o encontro e negociações de clientes e restaurantes. Os restaurantes fazem o cadastro dentro da plataforma da Zomato, que disponibiliza informações como endereço, tipo de culinária servida, se possui reservas, se faz entregas e também uma nota de avaliação dos serviços e produtos do restaurante, dentre outras informações.

## O desafio: 

     O CEO Guerra (fictício) foi recém contratado e precisa entender melhor o negócio para conseguir tomar as melhores decisões estratégicas e alavancar ainda mais a Zomato, e para isso, ele precisa que seja feita uma análise nos dados da empresa e que sejam gerados dashboards, a partir dessas análises, para responder às seguintes perguntas:

### Geral:
    1. Quantos restaurantes únicos estão registrados?

    2. Quantos países únicos estão registrados?

    3. Quantas cidades únicas estão registradas?

    4. Qual o total de avaliações feitas?

    5. Qual o total de tipos de culinária registrados?

### País: 
    1. Qual o nome do país que possui mais cidades registradas?

    2. Qual o nome do país que possui mais restaurantes registrados?

    3. Qual o nome do país que possui mais restaurantes com o nível de preço igual a 4 registrados?

    4. Qual o nome do país que possui a maior quantidade de tipos de culinária distintos?

    5. Qual o nome do país que possui a maior quantidade de avaliações feitas?

    6. Qual o nome do país que possui a maior quantidade de restaurantes que fazem entrega?

    7. Qual o nome do país que possui a maior quantidade de restaurantes que aceitam reservas?

    8. Qual o nome do país que possui, na média, a maior quantidade de avaliações registrada?

    9. Qual o nome do país que possui, na média, a maior nota média registrada?

    10. Qual o nome do país que possui, na média, a menor nota média registrada?

    11. Qual a média de preço de um prato para dois por país?

### Cidade:
    1. Qual o nome da cidade que possui mais restaurantes registrados?

    2. Qual o nome da cidade que possui mais restaurantes com nota média acima de

    4. Qual o nome da cidade que possui o maior valor médio de um prato para dois?

    3. Qual o nome da cidade que possui mais restaurantes com nota média abaixo de 2.5?

    4. Qual o nome da cidade que possui o maior valor médio de um prato para dois?

    5. Qual o nome da cidade que possui a maior quantidade de tipos de culinária distintas?

    6. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem reservas?

    7. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem entregas?

    8. Qual o nome da cidade que possui a maior quantidade de restaurantes que aceitam pedidos online?


### Restaurantes:
    1. Qual o nome do restaurante que possui a maior quantidade de avaliações?

    2. Qual o nome do restaurante com a maior nota média?

    3. Qual o nome do restaurante que possui o maior valor de uma prato para duas pessoas?

    4. Qual o nome do restaurante de tipo de culinária brasileira que possui a menor média de avaliação?

    5. Qual o nome do restaurante de tipo de culinária brasileira, e que é do Brasil, que possui a maior média de avaliação?

    6. Os restaurantes que aceitam pedido online são também, na média, os restaurantes que mais possuem avaliações registradas?

    7. Os restaurantes que fazem reservas são também, na média, os restaurantes que possuem o maior valor médio de um prato para duas pessoas?

    8. Os restaurantes do tipo de culinária japonesa dos Estados Unidos da América possuem um valor médio de prato para duas pessoas maior que as churrascarias americanas (BBQ)?


### Tipos de Culinária
    1. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a maior média de avaliação?

    2. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a menor média de avaliação?

    3. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a maior média de avaliação?

    4. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a menor média de avaliação?

    5. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a maior média de avaliação?

    6. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a menor média de avaliação?

    7. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a maior média de avaliação?

    8. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a menor média de avaliação?

    9. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a maior média de avaliação?

    10. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a menor média de avaliação?

    11. Qual o tipo de culinária que possui o maior valor médio de um prato para duas pessoas?

    12. Qual o tipo de culinária que possui a maior nota média?

    13. Qual o tipo de culinária que possui mais restaurantes que aceitam pedidos online e fazem entregas?


## O dashboard:
    Além das perguntas a serem respondidas também foi pedido a elaboração de um Dashboard que permita a visualização das principais informações das perguntas feitas. Essa dashboard foi criado em Python utilizando a biblioteca 'streamlit' e disponibilizado na nuvem através do Streamlit Cloud, é possível acessa-lo aqui : https://mr-zomato-restaurants.streamlit.app/

# 0.0 PREPARAÇÃO


## 0.1 Importando blibiotecas

In [4]:
import os
import pandas               as pd
import inflection 
import plotly.express       as px
import plotly.graph_objects as go

from datetime           import date
from itertools          import cycle
from plotly.subplots    import make_subplots
from currency_converter import CurrencyConverter

## 0.2 Leitura dos dados

In [5]:
BASE_DIR = os.path.abspath('')
DATA_DIR = os.path.join(BASE_DIR, 'data_set') 
dforiginal =  pd.read_csv(os.path.join(DATA_DIR,'zomato.csv'))

## 0.3 Funções auxiliares

In [6]:
#-----------------------------------------------Converte os códigos em paises-------------------------------------------------------
COUNTRIES = {
1: "India",
14: "Australia",
30: "Brazil",
37: "Canada",
94: "Indonesia",
148: "New Zeland",
162: "Philippines",
166: "Qatar",
184: "Singapure",
189: "South Africa",
191: "Sri Lanka",
208: "Turkey",
214: "United Arab Emirates",
215: "England",
216: "United States of America",
}

def country_name(country_id):
        
    country_id = [COUNTRIES[id] for id in country_id] 
 
    return country_id

#-----------------------------------------------Converte os códigos em cores-------------------------------------------------------

COLORS = {
"3F7E00": "darkgreen",
"5BA829": "green",
"9ACD32": "lightgreen",
"CDD614": "orange",
"FFBA00": "red",
"CBCBC8": "darkred",
"FF7800": "darkred",
}
def color_transform(color_code):
    
    color_name = [COLORS[color] for color in color_code]
    
    return color_name


#-----------------------------------------------Converte os códigos em categoria de preço-------------------------------------------------------

def create_price_type(price_range):
    return ["cheap" if price == 1 else "normal" if price == 2 else "expensive" if price == 3 else "gourmet" for price in price_range]


#-----------------------------------------------Renomeia as colunas do dataset no estilo sneak_case----------------------------------------------

def rename_columns(dataframe):
    df = dataframe.copy()
    title = lambda x: inflection.titleize(x)
    snakecase = lambda x: inflection.underscore(x)
    spaces = lambda x: x.replace(" ", "")
    cols_old = list(df.columns)
    cols_old = list(map(title, cols_old))
    cols_old = list(map(spaces, cols_old))
    cols_new = list(map(snakecase, cols_old))
    df.columns = cols_new
    return df

#-----------------------------------------------Conversão das moedas para dolar----------------------------------------------

currency_mapping = {
    'Botswana Pula(P)': 'BWP',
    'Brazilian Real(R$)': 'BRL',
    'Dollar($)': 'USD',
    'Emirati Diram(AED)': 'AED',
    'Indian Rupees(Rs.)': 'INR',
    'Indonesian Rupiah(IDR)': 'IDR',
    'NewZealand($)': 'NZD',
    'Pounds(£)': 'GBP',
    'Qatari Rial(QR)': 'QAR',
    'Rand(R)': 'ZAR',
    'Sri Lankan Rupee(LKR)': 'LKR',
    'Turkish Lira(TL)': 'TRY'
}

def currencies_with_codes(currency_name):
    return [currency_mapping[currency] for currency in currency_name]

    
def convert_to_dollar(amounts, from_currencies):
    c = CurrencyConverter()
    converted_amounts = []
    
    manual_conversions = {
        'BWP': 0.091,   # Valor de conversão manual para Botswana Pula
        'AED': 0.27,    # Valor de conversão manual para Emirati Diram
        'QAR': 0.27,    # Valor de conversão manual para Qatari Rial
        'LKR': 0.0051   # Valor de conversão manual para Sri Lankan Rupee
    }
    
    for amount, from_currency in zip(amounts, from_currencies):
        if from_currency in c.currencies:
            converted_amount = c.convert(amount, from_currency, 'USD', date=date(2019, 4,10))
            converted_amounts.append(converted_amount)
        elif from_currency in manual_conversions:
            manual_conversion = manual_conversions[from_currency]
            converted_amount = amount * manual_conversion
            converted_amounts.append(converted_amount)
        else:
            converted_amounts.append(None)  # Adiciona None para indicar que a conversão não é suportada
    
    return converted_amounts

    

## 0.4 Limpeza dos dados

In [7]:
df = dforiginal.drop_duplicates(keep='first', ignore_index=True).copy()
df['Currency'] = currencies_with_codes(df['Currency'].to_list())
df['Country'] = country_name(df['Country Code'].to_list()); df = df.drop('Country Code', axis=1)
df['Rating_Color'] = color_transform(df['Rating color'].to_list()); df = df.drop('Rating color', axis=1)
df['Price range'] = create_price_type(df['Price range'].to_list())
df['Average Cost for two'] = convert_to_dollar(df['Average Cost for two'].to_list(),df['Currency'].to_list()); df['Currency'] = ['USD' for i in df['Currency'].to_list()]
df = df[(df['Votes'] != 0) ]
df = df[(df['Average Cost for two'] != 0) ]
df = df[(df['Average Cost for two'] < 1000)]
df = rename_columns(df).reset_index()

# 1.0 ANÁLISE DOS DADOS

## 1.1 Análise geral

In [8]:
unic_rest, unic_paises, unic_cidades, num_ava, num_culinaria = (df['restaurant_id'].nunique(),
                                                                df['country'].nunique(), 
                                                                df['city'].nunique(), 
                                                                df['votes'].sum(), 
                                                                df['cuisines'].nunique())

Geral_info = pd.DataFrame({'Restaurantes cadastrados': [unic_rest], 'Quantidade de Países cadastrados': [unic_paises],
                           'Quantidade de cidades cadastradas': [unic_cidades], 'Quantidade de avaliações registradas': [num_ava],
                           'Culinarias distintas': [num_culinaria]}, index=['Valores'])
Geral_info

Unnamed: 0,Restaurantes cadastrados,Quantidade de Países cadastrados,Quantidade de cidades cadastradas,Quantidade de avaliações registradas,Culinarias distintas
Valores,6875,15,125,4189405,2804


## 1.2 Análise por país

### 1.2.1 País com mais cidades registradas

In [9]:
cidades_por_pais = (df.loc[:,['country','city']]
                      .copy()
                      .groupby('country')
                      .nunique()
                      .sort_values(by='city', ascending=False)
                      .reset_index())

fig = px.bar(cidades_por_pais, x='country', y='city', labels={'country': 'País', 'city': 'Quantidade de cidades cadastradas'})
fig.show()


### 1.2.2 País com mais restaurantes registrados

In [10]:
rest_por_pais = (df.loc[:,['country','restaurant_id']]
                      .copy()
                      .groupby('country')
                      .nunique()
                      .sort_values(by='restaurant_id', ascending=False)
                      .reset_index())

fig = px.bar(rest_por_pais, x='country', y='restaurant_id',labels={'country': 'País', 'restaurant_id': 'Quantidade de restaurantes cadastrados'})
fig.show()

### 1.2.3 Nome do país que possui mais restaurantes com o nível de preço igual a 4 registrados

In [11]:
df_aux = df[df['price_range'] == 'gourmet'].copy()

rest_price_nv4 = (df_aux.loc[:,['country', 'price_range']]
                        .groupby('country')
                        .count()
                        .sort_values(by='price_range', ascending= False)
                        .reset_index())

fig = px.bar(rest_price_nv4, x='country', y='price_range', labels={'country': 'País', 'price_range': 'Quantidade de restaurantes Gourmet'})
fig.show()

### 1.2.4 País com a maior quantidade de tipos de culinária distintos

In [12]:
culi_uni_por_pais = (df.loc[:,['country','cuisines']]
                      .copy()
                      .groupby('country')
                      .nunique()
                      .sort_values(by='cuisines', ascending=False)
                      .reset_index())

fig = px.bar(culi_uni_por_pais, x='country', y='cuisines', labels={'country': 'País', 'cuisines': 'Quantidade tipos culinarios distintos'})
fig.show()


### 1.2.5 Quantidade de tipos diferentes de culinaria por pais

In [13]:
aux = df.loc[:,['country', 'cuisines', 'restaurant_id']]
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)


num_cul_pais = (aux.groupby(['country', 'cuisines'])
                    .size()
                    .reset_index(name='count'))

num_cul_pais

Unnamed: 0,country,cuisines,count
0,Australia,Afghan,1
1,Australia,Asian,2
2,Australia,BBQ,2
3,Australia,Bakery,1
4,Australia,Bar Food,5
...,...,...,...
1272,United States of America,Tex-Mex,29
1273,United States of America,Thai,12
1274,United States of America,Ukrainian,1
1275,United States of America,Vegetarian,6


### 1.2.6 País com a maior quantidade de avaliações feitas

In [14]:
#País com a maior quantidade de avaliações feitas
num_ava_pais = (df.loc[:,['country', 'votes']]
                  .copy()
                  .groupby('country')
                  .sum()
                  .sort_values(by='votes', ascending=False)
                  .reset_index())

fig = px.bar(num_ava_pais, x='country', y='votes', labels={'country': 'País', 'votes': 'Quantidade avaliações'})
fig.show()

### 1.2.7 País com mais restaurantes que fazem entrega

In [15]:
df_aux2 = df[df['is_delivering_now'] == 0].copy()

num_res_entr = (df_aux2.loc[:,['country','is_delivering_now']]
                  .copy()
                  .groupby('country')
                  .count()
                  .sort_values(by='is_delivering_now',ascending=False)
                  .reset_index())

fig = px.bar(num_res_entr, x='country', y='is_delivering_now', labels={'country': 'País', 'is_delivering_now': 'Quantidade de restaurantes que entregam'})
fig.show()

### 1.2.8 País com mais restaurantes que fazem reserva

In [16]:
num_res_rese = (df_aux2.loc[:,['country','has_table_booking']]
                  .copy()
                  .groupby('country')
                  .count()
                  .sort_values(by='has_table_booking',ascending=False)
                  .reset_index())

fig = px.bar(num_res_rese, x='country', y='has_table_booking', labels={'country': 'País', 'has_table_booking': 'Quantidade de restaurantes que fazem reserva'})
fig.show()

### 1.2.9 País com maior quantidade de avaliações registradas, na média.

In [17]:
num_ava_mean_pp = (df.loc[:,['country','votes']]
                     .groupby('country')
                     .mean()
                     .sort_values(by='votes', ascending=False)
                     .reset_index())

fig = px.bar(num_ava_mean_pp, x='country', y='votes', labels={'country': 'País', 'votes': 'Quantidade média de avaliações'})
fig.show()

### 1.2.10 País com a maior e menor nota registrada, na média.

In [18]:
nota_mean_pp = (df.loc[:,['country','aggregate_rating']]
                  .groupby('country')
                  .mean()
                  .sort_values(by='aggregate_rating', ascending=False)
                  .reset_index())

fig = px.bar(nota_mean_pp, x='country', y='aggregate_rating', labels={'country': 'País', 'aggregate_rating': 'Média das avaliações'})
fig.show()

### 1.2.11 Média de um prato para dois por país

In [19]:
#Média de um prato para dois por país
prato2_mean =(df.loc[:,['country','average_cost_for_two']]
                .groupby('country')
                .mean()
                .sort_values(by='average_cost_for_two', ascending=False)
                .reset_index())

fig = px.bar(prato2_mean, x='country', y='average_cost_for_two', labels={'country': 'País', 'average_cost_for_two': 'Valor médio de um prato para dois (Dolar)'})
fig.show()


## 1.3 Analise por cidade

### 1.3.1 Cidade com mais restaurantes registrados

In [20]:
aux = df

#Seleção de um país especifico
#aux = df[df['country']=='India']

restau_por_cidades = (aux.loc[:,['city','restaurant_id']]
                      .copy()
                      .groupby('city')
                      .count()
                      .sort_values(by='restaurant_id', ascending=False)
                      .reset_index())

fig = px.bar(restau_por_cidades, x='city', y='restaurant_id', labels={'city': 'Cidade', 'restaurant_id': 'Quantidade de restaurantes registrados'})
fig.show()

### 1.3.2 Cidade com mais restaurantes com nota média acima de 4

In [21]:
df_aux3 = df[df['aggregate_rating']>=4]

#Seleção de um país especifico
#df_aux3 = df_aux3[df_aux3['country']=='India']

cidades_cn_m4 = (df_aux3.loc[:,['city', 'aggregate_rating']]
                        .copy()
                        .groupby('city')
                        .count()
                        .sort_values(by='aggregate_rating',ascending=False)
                        .reset_index())

fig = px.bar(cidades_cn_m4, x='city', y='aggregate_rating', labels={'city': 'Cidade', 'aggregate_rating': 'Quantidade de restaurantes com nota maior que 4'})
fig.show()

### 1.3.3 Cidade com mais restaurantes com nota média menor que 2.5

In [22]:
df_aux33 = df[df['aggregate_rating']<=2.5]

#Seleção de um país especifico
#df_aux33 = df_aux3[df_aux33['country']=='India']

cidades_cn_me25 = (df_aux33.loc[:,['city', 'aggregate_rating']]
                        .copy()
                        .groupby('city')
                        .count()
                        .sort_values(by='aggregate_rating',ascending=False)
                        .reset_index())

fig = px.bar(cidades_cn_me25, x='city', y='aggregate_rating', labels={'city': 'Cidade', 'aggregate_rating': 'Quantidade de restaurantes com nota menor que 2.5'})
fig.show()

### 1.3.4 Cidade com maior valor médio de um prato para dois

In [23]:
aux=df
#Seleção de um país especifico
#aux = df[df['country']=='India']

prato2_mean_city =(aux.loc[:,['city','average_cost_for_two']]
                     .groupby('city')
                     .mean()
                     .sort_values(by='average_cost_for_two', ascending=False)
                     .reset_index())

fig = px.bar(prato2_mean_city, x='city', y='average_cost_for_two', labels={'city': 'Cidade', 'average_cost_for_two': 'Valor médio de um prato para dois (Dolar)'})
fig.show()

### 1.3.5 Cidade com maior número de culinarias distintas

In [24]:
aux=df
#Seleção de um país especifico
#aux = df[df['country']=='India']


culi_cidade = (aux.loc[:,['city','cuisines']]
                 .groupby('city')
                 .nunique()
                 .sort_values(by='cuisines',ascending=False)
                 .reset_index())

fig = px.bar(culi_cidade, x='city', y='cuisines', labels={'city': 'Cidade', 'cuisines': 'Quantidade de culinarias distintas'})
fig.show()


### 1.3.6 Cidade com maior numero de restaurantes que fazem reserva

In [25]:
df_aux22 = df[df['has_table_booking'] == 0]
#Seleção de um país especifico
#df_aux22 = df_aux22[df_aux22['country']=='India']

num_res_rese_cidad = (df_aux22.loc[:,['city','has_table_booking']]
                             .copy()
                             .groupby('city')
                             .count()
                             .sort_values(by='has_table_booking',ascending=False)
                             .reset_index())

fig = px.bar(num_res_rese_cidad, x='city', y='has_table_booking', labels={'city': 'Cidade', 'has_table_booking': 'Quantidade de restaurantes que fazem reserva'})
fig.show()

### 1.3.7 Cidade com maior numero de restaurantes que fazem entrega

In [26]:
#Cidade com maior numero de restaurantes que fazem entrega
num_res_ent_cidad = (df_aux2.loc[:,['city','is_delivering_now']]
                             .copy()
                             .groupby('city')
                             .count()
                             .sort_values(by='is_delivering_now',ascending=False)
                             .reset_index())

fig = px.bar(num_res_ent_cidad, x='city', y='is_delivering_now', labels={'city': 'Cidade', 'is_delivering_now': 'Quantidade de restaurantes que entregam'})
fig.show()

### 1.3.8 Cidade com maior numero de restaurantes que aceitam pedidos online

In [27]:
num_res_on_cidad = (df_aux2.loc[:,['city','has_online_delivery']]
                             .copy()
                             .groupby('city')
                             .count()
                             .sort_values(by='has_online_delivery',ascending=False)
                             .reset_index())

fig = px.bar(num_res_on_cidad, x='city', y='has_online_delivery', labels={'city': 'Cidade', 'has_online_delivery': 'Quantidade de restaurantes que aceitam pedidos online'})
fig.show()

## 1.4 Análise por restaurantes

### 1.4.1 Restaurante com mais avaliações

In [28]:
rests_cm_ava = (df.loc[:,['restaurant_name', 'country', 'city', 'votes']]
                 .sort_values(by='votes',ascending=False)
                 .reset_index())

rests_cm_ava['country_city'] = rests_cm_ava['country']+', '+rests_cm_ava['city']

fig = px.bar(rests_cm_ava.loc[:10], x='restaurant_name', y='votes',
             labels={'restaurant_name': 'Restaurante', 'votes': 'Quantidade de avaliações'},
             text=rests_cm_ava.loc[:10,'country_city'])
fig.show()


### 1.4.2 Restaurante com maior nota média

In [29]:
rests_cm_nm = (df.loc[:,['restaurant_name', 'country', 'city', 'aggregate_rating']]
                 .sort_values(by='aggregate_rating',ascending=False)
                 .reset_index())

rests_cm_nm['country_city'] = rests_cm_nm['country']+', '+rests_cm_nm['city']

fig = px.bar(rests_cm_nm.loc[:10], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Nota média'},
             text=rests_cm_nm.loc[:10,'country_city'])
fig.show()

### 1.4.3 Restaurante que possui o maior valor de um prato para duas pessoas

In [30]:
#Restaurante que possui o maior valor de um prato para duas pessoas
rests_cmv_p2p = (df.loc[:,['restaurant_name', 'country', 'city', 'average_cost_for_two']]
                  .sort_values(by='average_cost_for_two', ascending=False)
                  .reset_index())

rests_cmv_p2p['country_city'] = rests_cmv_p2p['country']+', '+rests_cmv_p2p['city']

fig = px.bar(rests_cmv_p2p.loc[:10], x='restaurant_name', y='average_cost_for_two',
             labels={'restaurant_name': 'Restaurante', 'average_cost_for_two': 'Valor médio de um prato para dois (Dolar)'},
             text=rests_cmv_p2p.loc[:10,'country_city'])
fig.show()

### 1.4.4 Restaurante de culinaria brasileira com menor avaliação média

In [31]:
df_aux4 = df.copy()
df_aux4 = df_aux4[df_aux4['cuisines'].notnull()]
df_aux4['cuisines'] = [x.split(sep=',') for x in df_aux4['cuisines']]
df_aux4 = df_aux4.explode('cuisines',ignore_index=True)
df_aux4 = df_aux4[df_aux4['cuisines']=='Brazilian']
df_aux4 = df_aux4[df_aux4['aggregate_rating']!=0]


rests_bra_cme_ava = (df_aux4.loc[:,['restaurant_name','country','city','aggregate_rating']]
                      .sort_values(by='aggregate_rating', ascending=True)
                      .reset_index())

rests_bra_cme_ava['country_city'] = rests_bra_cme_ava['country']+', '+rests_bra_cme_ava['city']

fig = px.bar(rests_bra_cme_ava.loc[:10], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Nota média dos restaurantes de comida brasileira'},
             text=rests_bra_cme_ava.loc[:10,'country_city'])
fig.show()

### 1.4.5 Restaurante de culinaria brasileira, brasileiro com maior avaliação média

In [32]:
#Restaurante de culinaria brasileira, brasileiro com maior avaliação média
df_aux5 = df_aux4[df_aux4['country'] == 'Brazil']
rests_brabra_cme_ava = (df_aux5.loc[:,['restaurant_name','country','city','aggregate_rating']]
                               .sort_values(by='aggregate_rating', ascending=False)
                               .reset_index())

rests_brabra_cme_ava['country_city'] = rests_brabra_cme_ava['country']+', '+rests_brabra_cme_ava['city']

fig = px.bar(rests_brabra_cme_ava.loc[:10], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Nota média dos restaurantes de comida brasileira, no Brasil'},
             text=rests_brabra_cme_ava.loc[:10,'city'])
fig.show()

### 1.4.6 Os restaurantes que aceitam pedido online são também, na média, os restaurantes que mais possuem avaliações registradas?

In [33]:
df_aux6 = df[df['has_online_delivery'] == 0]; mean_ava_on = df_aux6['aggregate_rating'].agg(['mean', 'std']) 
df_aux7 = df[df['has_online_delivery'] == 1]; mean_ava_non = df_aux7['aggregate_rating'].agg(['mean', 'std']) 
(print(f'Restaurantes que aceitam pedidos online possuem uma avaliação média de {round(mean_ava_on[0],1)} +/- {round(mean_ava_on[1],1)} \nJá os que não entregam online possuem uma avaliação média de {round(mean_ava_non[0],1)} +/- {round(mean_ava_non[1],1)} \n '))

Restaurantes que aceitam pedidos online possuem uma avaliação média de 4.2 +/- 0.7 
Já os que não entregam online possuem uma avaliação média de 4.1 +/- 0.5 
 


### 1.4.7 Os restaurantes que fazem reservas são também, na média, os restaurantes que possuem o maior valor médio de um prato para duas pessoas?

In [34]:

df_aux8 = df[df['has_table_booking'] == 0]; mean_ava_rese = df_aux8['aggregate_rating'].agg(['mean', 'std']) 
df_aux9 = df[df['has_table_booking'] == 1]; mean_ava_nrese = df_aux9['aggregate_rating'].agg(['mean', 'std']) 


(print(f'Restaurantes que fazem reserva possuem uma avaliação média de {round(mean_ava_rese[0],1)} +/- {round(mean_ava_rese[1],1)} \nJá os que não fazem reserva possuem uma avaliação média de {round(mean_ava_nrese[0],1)} +/- {round(mean_ava_nrese[1],1)} \n '))

Restaurantes que fazem reserva possuem uma avaliação média de 4.1 +/- 0.6 
Já os que não fazem reserva possuem uma avaliação média de 4.4 +/- 0.3 
 


### 1.4.8 Os restaurantes do tipo de culinária japonesa dos Estados Unidos da América possuem um valor médio de prato para duas pessoas maior que as churrascarias americanas (BBQ)?

In [35]:
df_aux10 = df[(df['cuisines'] == 'Japanese')]
df_aux10 = df_aux10[df_aux10['country'] == 'United States of America']
df_aux10_vm_p2 = df_aux10['average_cost_for_two'].agg(['mean', 'std']) 

df_aux11 = df[(df['cuisines'] == 'BBQ')]
df_aux11 = df_aux11[df_aux11['country'] == 'United States of America']
df_aux11_vm_p2 = df_aux11['average_cost_for_two'].agg(['mean', 'std']) 

(print(f'Pratos de comida japonesa para duas pessoas nos EUA custam em média {round(df_aux10_vm_p2[0],2)} +/- {round(df_aux10_vm_p2[1],2)} \njá em churrascarias o prato para duas pessoas custa  {round(df_aux11_vm_p2[0],2)} +/- {round(df_aux11_vm_p2[1],2)}' ))

Pratos de comida japonesa para duas pessoas nos EUA custam em média 40.0 +/- 42.43 
já em churrascarias o prato para duas pessoas custa  39.71 +/- 18.75


## 1.5 Analise dos tipos de culinarias


### 1.5.1 Restaurante de culinaria italiana com maior e menor média de avaliação

In [36]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]

df_it = aux[aux['cuisines'] == 'Italian']
df_it = df_it.loc[:,['votes', 'city', 'country', 'restaurant_name', 'aggregate_rating']].sort_values(by='aggregate_rating', ascending=False)
df_it2 = df_it[df_it['aggregate_rating'] == df_it['aggregate_rating'].max()].sort_values(by='votes', ascending=False).reset_index()


df_it2['country_city'] = df_it2['country']+', '+df_it2['city']

fig = px.bar(df_it2.loc[:10], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria italiana'},
             text=df_it2.loc[:10,'country_city'])
fig.show()

fig2 = px.bar(df_it2.loc[len(df_it2)-10:], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria italiana'},
             text=df_it2.loc[len(df_it2)-10:,'country_city'])
fig2.show()


### 1.5.2 Restaurante de culinaria americana com maior e menor média de avaliação

In [37]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]

df_it = aux[aux['cuisines'] == 'American']
df_it = df_it.loc[:,['votes', 'city', 'country', 'restaurant_name', 'aggregate_rating']].sort_values(by='aggregate_rating', ascending=False)
df_it2 = df_it[df_it['aggregate_rating'] == df_it['aggregate_rating'].max()].sort_values(by='votes', ascending=False).reset_index()


df_it2['country_city'] = df_it2['country']+', '+df_it2['city']

fig = px.bar(df_it2.loc[:4], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria americana'},
             text=df_it2.loc[:4,'country_city'])
fig.show()

fig2 = px.bar(df_it2.loc[len(df_it2)-4:], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria americana'},
             text=df_it2.loc[len(df_it2)-4:,'country_city'])
fig2.show()

### 1.5.3 Restaurante de culinaria arabe com maior e menor média de avaliação

In [38]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]

df_it = aux[aux['cuisines'] == 'Arabian']
df_it = df_it.loc[:,['votes', 'city', 'country', 'restaurant_name', 'aggregate_rating']].sort_values(by='aggregate_rating', ascending=False)
df_it2 = df_it[df_it['aggregate_rating'] == df_it['aggregate_rating'].max()].sort_values(by='votes', ascending=False).reset_index()


df_it2['country_city'] = df_it2['country']+', '+df_it2['city']

fig = px.bar(df_it2.loc[:4], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria árabe'},
             text=df_it2.loc[:4,'country_city'])
fig.show()

fig2 = px.bar(df_it2.loc[len(df_it2)-4:], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria árabe'},
             text=df_it2.loc[len(df_it2)-4:,'country_city'])
fig2.show()

### 1.5.4 Restaurante de culinaria japonesa com maior e menor média de avaliação

In [39]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]


df_it = aux[aux['cuisines'] == 'Japanese']
df_it = df_it.loc[:,['votes', 'city', 'country', 'restaurant_name', 'aggregate_rating']].sort_values(by='aggregate_rating', ascending=False)
df_it2 = df_it[df_it['aggregate_rating'] == df_it['aggregate_rating'].max()].sort_values(by='votes', ascending=False).reset_index()


df_it2['country_city'] = df_it2['country']+', '+df_it2['city']

fig = px.bar(df_it2.loc[:5], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria japonesa'},
             text=df_it2.loc[:5,'country_city'])
fig.show()

fig2 = px.bar(df_it2.loc[len(df_it2)-5:], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria japonesa'},
             text=df_it2.loc[len(df_it2)-5:,'country_city'])
fig2.show()

### 1.5.5 Restaurante de culinaria caseira com maior e menor média de avaliação

In [40]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]


df_it = aux[aux['cuisines'] == 'Home-made']
df_it = df_it.loc[:,['votes', 'city', 'country', 'restaurant_name', 'aggregate_rating']].sort_values(by='aggregate_rating', ascending=False)
df_it2 = df_it[df_it['aggregate_rating'] == df_it['aggregate_rating'].max()].sort_values(by='votes', ascending=False).reset_index()


df_it2['country_city'] = df_it2['country']+', '+df_it2['city']

fig = px.bar(df_it2.loc[:5], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria caseira'},
             text=df_it2.loc[:5,'country_city'])
fig.show()

fig2 = px.bar(df_it2.loc[len(df_it2)-5:], x='restaurant_name', y='aggregate_rating',
             labels={'restaurant_name': 'Restaurante', 'aggregate_rating': 'Avaliação média dos restaurantes de culinaria caseira'},
             text=df_it2.loc[len(df_it2)-5:,'country_city'])
fig2.show()

### 1.5.6 Culinária que possui o maior valor médio de um prato para duas pessoas

In [41]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]

#Culinária que possui o maior valor médio de um prato para duas pessoas
df_cul = (aux.loc[:,['cuisines', 'average_cost_for_two']]
            .groupby('cuisines')
            .mean()
            .sort_values(by='average_cost_for_two',ascending=False)
            .reset_index())


fig = px.bar(df_cul.loc[:5], x='cuisines', y='average_cost_for_two',
             labels={'cuisines': 'Culinaria', 'average_cost_for_two': 'Custo médio (Dolar)'})
fig.show()


### 1.5.7 Tipo de culinaria com maior nota média

In [42]:
aux = df.copy()
aux = aux[aux['cuisines'].notnull()]
aux['cuisines'] = [x.split(sep=',') for x in aux['cuisines']]
aux = aux.explode('cuisines',ignore_index=True)
aux = aux[aux['votes']!=0]

#Culinária que possui o maior valor médio de um prato para duas pessoas
df_cul = (aux.loc[:,['cuisines', 'aggregate_rating']]
            .groupby('cuisines')
            .mean()
            .sort_values(by='aggregate_rating',ascending=False)
            .reset_index())


fig = px.bar(df_cul.loc[:5], x='cuisines', y='aggregate_rating',
             labels={'cuisines': 'Culinaria', 'aggregate_rating': 'Avaliação média'})
fig.show()


### 1.5.8 Tipo de culinaria com maior quantidade de restaurantes que aceitam pedidos online e fazem entregas

In [43]:
df_cul_on_ent = df[df['has_online_delivery'] == 0]

df_cul_on_ent = df_cul_on_ent[df_cul_on_ent['is_delivering_now'] == 0]

res_cul_on_ent = df_cul_on_ent.loc[:,['cuisines','restaurant_id']].groupby(by='cuisines').count().sort_values(by='restaurant_id', ascending=False).reset_index()

fig = px.bar(res_cul_on_ent.loc[:5], x='cuisines', y='restaurant_id',
             labels={'cuisines': 'Culinaria', 'restaurant_id': 'Quantidade de restaurantes que entregam'})
fig.show()

# 2.0 CRIANDO OUTROS GRÁFICOS E TABELAS PARA ELEBORAÇÃO DO DASHBOARD

## 2.1 Modelo de gráfico de barra empilhado na horizontal para os plots de culinarias

In [44]:
uiui = df.loc[:,['country', 'cuisines']]
uiui = uiui[uiui['cuisines'].notnull()]
uiui['cuisines'] = [x.split(sep=',') for x in uiui['cuisines']]
uiui = uiui.explode('cuisines',ignore_index=True)
uiui['cuisines'] = uiui['cuisines'].str.strip().copy()


df_count = uiui.groupby(['country', 'cuisines']).size().reset_index(name='count').copy() #Conta aquantidade de tipos de culinaria por país
dfauaux =  df_count.loc[:,['country', 'count']].groupby('country').sum().reset_index() #Tabela auxiliar para o calculo dos valores percentuais
df_top_x = df_count; df_top_x['count'] = [df_top_x.loc[i][2]/dfauaux['count'][dfauaux['country']==country] #df_top_x irá armazenar os top 'x' valores
                                                        .to_list()[0] for i, country in zip(range(len(df_top_x)), df_top_x['country'])]

df_top_x = df_top_x.sort_values(['country', 'count'], ascending=[True, False]) # Ordenar o dataframe por país e porcentagem

df_top_x['culinary_rank'] = df_top_x.groupby('country').cumcount() + 1         # Criar uma coluna numerando os tipos de culinária em cada país

passo = 4

df_filtered = df_top_x[df_top_x['culinary_rank'] <= passo-1].copy()
df_others = df_top_x[df_top_x['culinary_rank'] > passo-1].copy()

# Tendo o top 'x' as culinárias restantes são definidas como "outros"
df_others = df_others.groupby('country').sum().reset_index()
df_others['cuisines'] = 'Outros'
df_others['culinary_rank'] = passo

# Concatena os dataframes filtrados
df_final = pd.concat([df_filtered, df_others], ignore_index=True)

# Remove a coluna de ranking temporária
df_final.drop('culinary_rank', axis=1, inplace=True)

#Ordena o dataframe por país e quantidade de cada tipo de culinaria
df_final = df_final.sort_values(['country', 'count'],ascending=False).reset_index()

fig = go.Figure() #Cria a figura

nomes = ['Outros' if j==0 else f'{j}º Mais popular' for j in range(passo)] #Define a legenda "x mais popular"

#palette = cycle(px.colors.sequential.Plasma)
paleta_cores = [
    "#003f5c",
    "#2f4b7c",
    "#665191",
    "#a05195",
    "#d45087",
    "#f95d6a",
    "#ff7c43",
    "#ffa600"
]
palette = cycle(paleta_cores)

for i in range(passo): #Realiza o plot do gŕafico de barras empilhada
    fig.add_trace(go.Bar(
        y=df_final['country'].unique(),
        x=df_final.loc[i:len(df_final):passo]['count'],
        text=df_final.loc[i:len(df_final):passo]['cuisines'].to_list(),
        name = nomes[i],
        orientation='h',
        legendgroup=str(i+1),
        marker_color=next(palette)
    ))



fig.update_traces(textposition='inside')#Ajustes no gráfico
fig.update_layout(barmode='stack',
                    xaxis=dict(tickformat=f'.2%'),
                    width=1000, 
                    height=600,
                    legend=dict(x=-0.01, y=1.2, orientation='h'))
fig.show()

## 2.2 Modelo com informações de preço para dois, avaliação média e quantidade de avaliações

In [45]:
dff = pd.DataFrame(index = ['Média de preço para dois', 'Avaliação média','Número de votos'], columns=df['country'].sort_values().unique())
dff.loc['Média de preço para dois'][:] = prato2_mean.sort_values(by='country')['average_cost_for_two']
dff.loc['Avaliação média'][:] = nota_mean_pp.sort_values(by='country')['aggregate_rating']
dff.loc['Número de votos'][:] = num_ava_mean_pp.sort_values(by='country')['votes']

dff


Unnamed: 0,Australia,Brazil,Canada,England,India,Indonesia,New Zeland,Philippines,Qatar,Singapure,South Africa,Sri Lanka,Turkey,United Arab Emirates,United States of America
Média de preço para dois,72.409091,37.624741,42.570621,58.201848,10.201663,21.413421,42.700892,111.732075,46.98,141.4375,24.666329,13.321329,22.610208,42.35051,55.38057
Avaliação média,4.369886,3.505778,4.321469,4.105897,4.039293,4.60125,4.161277,4.46375,4.24,4.435,4.064516,4.060759,4.310063,4.038095,4.403798
Número de votos,730.732955,13.155556,585.350282,102.207692,900.369453,1112.825,222.446809,604.975,376.325,22.775,238.956012,152.21519,630.144654,603.554422,380.894814


## 2.3 Modelo de gráfico borboleta

In [46]:


fig = make_subplots(rows=1, cols=2, specs=[[{}, {}]], shared_xaxes=False,
                    shared_yaxes=True, horizontal_spacing=0)

fig.append_trace(go.Bar(x=rest_por_pais['restaurant_id'],
                     y=rest_por_pais['country'], 
                     text=rest_por_pais["restaurant_id"].map('{:,.0f}'.format),
                     textposition='outside',
                     orientation='h', 
                     width=0.7, 
                     showlegend=False, 
                     marker_color='#ed7d31'), 
                     1, 2) 

fig.append_trace(go.Bar(x=cidades_por_pais['city'],
                     y=cidades_por_pais['country'], 
                     text=cidades_por_pais["city"].map('{:,.0f}'.format), 
                     textposition='outside',
                     orientation='h', 
                     width=0.7, 
                     showlegend=False, 
                     marker_color='#4472c4'), 
                     1, 1) 

fig.update_xaxes(showticklabels=False,title_text="country", row=1, col=1, range=[52,0])
fig.update_xaxes(showticklabels=False,title_text="city", row=1, col=2)

fig.update_layout(title_text="Quantidade de restaurantes e cidades por país", 
                  width=1500, 
                  height=500,
                  title_x=0.5,
                  xaxis1={'side': 'top'},
                  xaxis2={'side': 'top'},)

fig.show()

## 2.4 Modelo de gráfico de barras lado a lado

In [47]:
import plotly.graph_objects as go
animals=['giraffes', 'orangutans', 'monkeys']

dftest = df[df['country']=='India']
dftest = dftest.loc[:,['city', 'is_delivering_now']]
dftest1 = dftest.groupby('city').sum().reset_index() 
dftest2 = dftest.groupby('city').count().reset_index() 


fig = go.Figure(data=[
    go.Bar(name='Entrega', x=dftest1['city'], y=dftest2['is_delivering_now']-dftest1['is_delivering_now']),
    go.Bar(name='Não entrega', x=dftest2['city'], y=dftest1['is_delivering_now'])
])

fig.show()

## 2.5 Criação de um agrupamento de culinarias equivalentes. As equivalencias devem ser incluidas manualmente

In [48]:
#IMPLEMENTA AGRUPAMENTO POR CATAGORIA CULINARIA
dfcui = df[df['cuisines'].notnull()].copy()
dfcui['cuisines'] = [x.split(sep=',') for x in dfcui['cuisines']]
dfcui = dfcui.explode('cuisines', ignore_index=True).loc[:,['cuisines','restaurant_id']]
dfcui['cuisines'] = dfcui['cuisines'].str.strip().copy()

dfcuigp = dfcui.groupby('cuisines').size().sort_values(ascending=False).reset_index(name='quantidade')

equivalentes = {'Indian': ['Indian'], 
                'Asian': ['Asian'],
                'American': ['American'],
                'Mexican': ['Mexican'],
                'Churrasco': ['BBQ'],
                'Drinks': ['Drinks'],
                'Pizza': ['Pizza'],
                'Bebidas quentes': ['Tea', 'Coffee', 'Cafe']}

# Criar uma nova coluna 'cuisines_novas' no DataFrame
dfcuigp['cuisines_novas'] = dfcuigp['cuisines']

# Percorrer o dicionário e fazer a substituição das categorias
for categoria, palavras_chave in equivalentes.items():
    if isinstance(palavras_chave, str):
        dfcuigp.loc[dfcuigp['cuisines'].str.contains(palavras_chave), 'cuisines_novas'] = categoria
    elif isinstance(palavras_chave, list):
        for palavra_chave in palavras_chave:
            dfcuigp.loc[dfcuigp['cuisines'].str.contains(palavra_chave), 'cuisines_novas'] = categoria

# Agrupar e somar as categorias equivalentes
dfcuigp3 = dfcuigp.groupby('cuisines_novas').sum().sort_values(by='quantidade').reset_index()
dfof=pd.DataFrame(columns=['country','cuisines','count'])

## 2.6 Quantidade de restaurantes por bairro

In [49]:
rest_bairro=(df.loc[:,['country','city','locality','restaurant_name']]
 .groupby(['country','city','locality'])
 .count()
 .reset_index())

rest_bairro = rest_bairro[rest_bairro['city']=='Rio de Janeiro']

import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(go.Bar(x=rest_bairro['locality'], y=rest_bairro['restaurant_name']))

fig.show()
