## Imports

In [1]:
import pandas as pd
import inflection

## Funções

In [2]:
# Preenchimento do nome dos países
COUNTRIES = {
    1: "India",
    14: "Australia",
    30: "Brazil",
    37: "Canada",
    94: "Indonesia",
    148: "New Zeland",
    162: "Philippines",
    166: "Qatar",
    184: "Singapure",
    189: "South Africa",
    191: "Sri Lanka",
    208: "Turkey",
    214: "United Arab Emirates",
    215: "England",
    216: "United States of America",
}
def country_name(country_id):
    return COUNTRIES[country_id]

# Criação do Tipo de Categoria de Comida
def create_price_tye(price_range):
    if price_range == 1:
        return "cheap"
    elif price_range == 2:
        return "normal"
    elif price_range == 3:
        return "expensive"
    else:
        return "gourmet"

# Criação do nome das Cores
COLORS = {
    "3F7E00": "darkgreen",
    "5BA829": "green",
    "9ACD32": "lightgreen",
    "CDD614": "orange",
    "FFBA00": "red",
    "CBCBC8": "darkred",
    "FF7800": "darkred",
}
def color_name(color_code):
    return COLORS[color_code]

# Renomear as colunas do DataFrame
def rename_columns(dataframe):
    df = dataframe.copy()
    title = lambda x: inflection.titleize(x)
    snakecase = lambda x: inflection.underscore(x)
    spaces = lambda x: x.replace(" ", "")
    cols_old = list(df.columns)
    cols_old = list(map(title, cols_old))
    cols_old = list(map(spaces, cols_old))
    cols_new = list(map(snakecase, cols_old))
    df.columns = cols_new
    return df

## Carregar dados

In [6]:
df = pd.read_csv('/home/emerson/repos/rangohub/dataset/zomato.csv')
df1 = df.copy()

## Renomear Colunas

In [7]:
df1 = rename_columns(df1)

## Processar Dados

In [8]:
df1["price_type"] = df1.loc[:, "price_range"].apply(lambda x: create_price_tye(x))

df1["country_name"] = df1.loc[:, "country_code"].apply(lambda x: country_name(x))

df1["color_name"] = df1.loc[:, "rating_color"].apply(lambda x: color_name(x))

#  categorizar restaurantes somente por um tipo de culinária
df1["cuisines"] = df1.loc[:, "cuisines"].apply(lambda x: str(x).split(",")[0])

## Descrição dos Dados

In [9]:
df1.head()

Unnamed: 0,restaurant_id,restaurant_name,country_code,city,address,locality,locality_verbose,longitude,latitude,cuisines,...,is_delivering_now,switch_to_order_menu,price_range,aggregate_rating,rating_color,rating_text,votes,price_type,country_name,color_name
0,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,...,0,0,3,4.6,3F7E00,Excellent,619,expensive,Philippines,darkgreen
1,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,...,0,0,3,4.6,3F7E00,Excellent,619,expensive,Philippines,darkgreen
2,6314542,Blackbird,162,Makati City,"Nielson Tower, Ayala Triangle Gardens, Salcedo...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.024562,14.556042,European,...,0,0,4,4.7,3F7E00,Excellent,469,gourmet,Philippines,darkgreen
3,6301293,Banapple,162,Makati City,"Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.023171,14.556196,Filipino,...,0,0,3,4.4,5BA829,Very Good,867,expensive,Philippines,green
4,6315689,Bad Bird,162,Makati City,"Hole In The Wall, Floor 4, Century City Mall, ...","Century City Mall, Poblacion, Makati City","Century City Mall, Poblacion, Makati City, Mak...",121.027708,14.565899,American,...,0,0,3,4.4,5BA829,Very Good,858,expensive,Philippines,green


## Dimensão dos Dados

In [10]:
df1.shape

(7527, 24)

In [28]:
df1.loc[:, "country_name"].unique().tolist()

['Philippines',
 'Brazil',
 'Australia',
 'United States of America',
 'Canada',
 'Singapure',
 'United Arab Emirates',
 'India',
 'Indonesia',
 'New Zeland',
 'England',
 'Qatar',
 'South Africa',
 'Sri Lanka',
 'Turkey']

## Tipos de Dados

In [11]:
df1.dtypes

restaurant_id             int64
restaurant_name          object
country_code              int64
city                     object
address                  object
locality                 object
locality_verbose         object
longitude               float64
latitude                float64
cuisines                 object
average_cost_for_two      int64
currency                 object
has_table_booking         int64
has_online_delivery       int64
is_delivering_now         int64
switch_to_order_menu      int64
price_range               int64
aggregate_rating        float64
rating_color             object
rating_text              object
votes                     int64
price_type               object
country_name             object
color_name               object
dtype: object

## Checando dados faltantes

In [12]:
df1.isna().sum()

restaurant_id           0
restaurant_name         0
country_code            0
city                    0
address                 0
locality                0
locality_verbose        0
longitude               0
latitude                0
cuisines                0
average_cost_for_two    0
currency                0
has_table_booking       0
has_online_delivery     0
is_delivering_now       0
switch_to_order_menu    0
price_range             0
aggregate_rating        0
rating_color            0
rating_text             0
votes                   0
price_type              0
country_name            0
color_name              0
dtype: int64

## Dados estastísticos

In [13]:
df1.describe()

Unnamed: 0,restaurant_id,country_code,longitude,latitude,average_cost_for_two,has_table_booking,has_online_delivery,is_delivering_now,switch_to_order_menu,price_range,aggregate_rating,votes
count,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0,7527.0
mean,10556890.0,93.065365,33.764092,19.332787,7152.113,0.062176,0.352464,0.174306,0.0,2.624552,4.118055,616.401488
std,7075141.0,99.031229,77.395241,23.255979,290606.8,0.241491,0.477769,0.379397,0.0,0.959794,0.680191,1127.697932
min,549.0,1.0,-122.700455,-41.330428,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
25%,3500060.0,1.0,-4.258142,12.923378,60.0,0.0,0.0,0.0,0.0,2.0,4.0,152.0
50%,7701457.0,30.0,73.785121,25.246955,290.0,0.0,0.0,0.0,0.0,3.0,4.2,335.0
75%,17147150.0,214.0,79.833706,31.636552,600.0,0.0,1.0,0.0,0.0,3.0,4.5,663.0
max,19040280.0,216.0,175.310552,55.97698,25000020.0,1.0,1.0,1.0,0.0,4.0,4.9,41333.0


# Perguntas do negócio

## Geral

### 1. Quantos restaurantes únicos estão registrados?

In [14]:
df1['restaurant_id'].nunique()

6942

### 2. Quantos paises únicos estão registrados?

In [16]:
country_op = df1['country_name'].unique()

In [24]:
type(country_op)

numpy.ndarray

### 3. Quantas cidades únicas estão registradas?

In [None]:
df1['city'].nunique()

### 4. Qual o total de avaliações feitas?

In [None]:
df1['votes'].count()

### 5. Qual o total de tipos de culinária registrados?

In [None]:
df1['cuisines'].nunique()

## País

### 1. Qual o nome do país que possui mais cidades registradas?

In [None]:
df1.groupby('country_name')['city'].count().sort_values(ascending=False).reset_index()

### 2. Qual o nome do país que possui mais restaurantes registrados?

In [None]:
df1.groupby('country_name')['restaurant_id'].count().sort_values(ascending=False).reset_index()

### 3. Qual o nome do país que possui mais restaurantes com os nível de preço igual a 4 registrados?

In [None]:
df1.query('aggregate_rating >= 4').groupby('country_name')['restaurant_id'].count().sort_values(ascending=False).reset_index()

### 4. Qual o nome da país que possui a maior quantidade de tipos de culinária distintos?

In [None]:
df1.groupby('country_name')['cuisines'].nunique().sort_values(ascending=False).reset_index()

### 5. Qual o nome do país que possui a maior quantidade de avaliações feitas?

In [None]:
df1.groupby('country_name')['votes'].nunique().sort_values(ascending=False).reset_index()

### 6. Qual o nome do país que possui a maior quantidade de restaurantes que fazem entrega?

In [None]:
df1.query('is_delivering_now == 1').groupby('country_name')['restaurant_id'].count().sort_values(ascending=False).reset_index()

### 7. Qual o nome do país que possui a maior quantidade de restaurantes que aceitam reservas?

In [None]:
df1.query('has_table_booking == 1').groupby('country_name')['restaurant_id'].count().sort_values(ascending=False).reset_index()

### 8. Qual o nome do país que possui, na média, a maior quantidade de avaliações registrada?

In [None]:
df1.groupby('country_name')['votes'].mean().sort_values(ascending=False).reset_index()

### 9. Qual o nome do país que possui, na média, a maior nota média registrada?

In [None]:
df1.groupby('country_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index()

### 10. Qual o nome do país que possui, na média, a menor nota média registrada?

In [None]:
df1.groupby('country_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index()

### 11. Qual a média de preço de um prato para dois por país?

In [None]:
df1.groupby('country_name')['average_cost_for_two'].mean().sort_values(ascending=False).reset_index()

## Cidades

### 1. Qual o nome da cidade que possui mais restaurantes registrados?

In [None]:
df1.groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

### 2. Qual o nome da cidade que possui mais restaurantes com nota média acima de 4?

In [None]:
df1.query('aggregate_rating >= 4').groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

### 3. Qual o nome da cidade que possui mais restaurantes com nota média abaixo de 2.5?

In [None]:
df1.query('aggregate_rating <= 2.5').groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

### 4. Qual o nome da cidade que possui o maior valor médio de um prato para dois?

In [None]:
df1.groupby('city')['average_cost_for_two'].mean().sort_values(ascending=False).reset_index().head()

### 5. Qual o nome da cidade que possui a maior quantidade de tipos de culinária distintas?

In [None]:
df1.groupby('city')['cuisines'].nunique().sort_values(ascending=False).reset_index().head()

### 6. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem reservas?

In [None]:
df1.query('has_table_booking == 1').groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

### 7. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem entregas?

In [None]:
df1.query('is_delivering_now == 1').groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

### 8. Qual o nome da cidade que possui a maior quantidade de restaurantes que aceitam pedidos online?

In [None]:
df1.query('has_online_delivery == 1').groupby('city')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()

## Restaurantes

### 1. Qual o nome do restaurante que possui a maior quantidade de avaliações?

In [None]:
df1.loc[:, ['restaurant_name', 'votes']].sort_values('votes', ascending=False).head()

### 2. Qual o nome do restaurante com a maior nota média?

In [None]:
df1.groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 3. Qual o nome do restaurante que possui o maior valor de uma prato para duas pessoas?

In [None]:
df1.groupby('restaurant_name')['average_cost_for_two'].mean().sort_values(ascending=False).reset_index().head()

### 4. Qual o nome do restaurante de tipo de culinária brasileira que possui a menor média de avaliação?

In [None]:
df1.query('cuisines == "Brazilian"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 5. Qual o nome do restaurante de tipo de culinária brasileira, e que é do Brasil, que possui a maior média de avaliação?

In [None]:
df1.query('cuisines == "Brazilian" & country_name == "Brazil"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 6. Os restaurantes que aceitam pedido online são também, na média, os restaurantes que mais possuem avaliações registradas?

In [None]:
df1.groupby('has_online_delivery')['votes'].mean().reset_index()

### 7. Os restaurantes que fazem reservas são também, na média, os restaurantes que possuem o maior valor médio de um prato para duas pessoas?

In [None]:
df1.groupby('has_table_booking')['average_cost_for_two'].mean().reset_index()

### 8. Os restaurantes do tipo de culinária japonesa dos Estados Unidos da América possuem um valor médio de prato para duas pessoas maior que as churrascarias americanas (BBQ)?

In [None]:
df1.query('cuisines == "Japanese" | cuisines == "BBQ" & country_name == "United States of America"').groupby('cuisines')['average_cost_for_two'].mean().reset_index()

## Tipo de Colunária

### 1. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a maior média de avaliação?

In [None]:
df1.query('cuisines == "Italian"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 2. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a menor média de avaliação?

In [None]:
df1.query('cuisines == "Italian"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 3. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a maior média de avaliação?

In [None]:
df1.query('cuisines == "American"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 4. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a menor média de avaliação?

In [None]:
df1.query('cuisines == "American"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 5. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a maior média de avaliação?

In [None]:
df1.query('cuisines == "Arabian"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 6. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a menor média de avaliação?

In [None]:
df1.query('cuisines == "Arabian"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 7. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a maior média de avaliação?

In [None]:
df1.query('cuisines == "Japanese"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 8. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a menor média de avaliação?

In [None]:
df1.query('cuisines == "Japanese"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 9. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a maior média de avaliação?

In [None]:
df1.query('cuisines == "Home-made"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 10. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a menor média de avaliação?

In [None]:
df1.query('cuisines == "Home-made"').groupby('restaurant_name')['aggregate_rating'].mean().sort_values(ascending=True).reset_index().head()

### 11. Qual o tipo de culinária que possui o maior valor médio de um prato para duas pessoas?

In [None]:
df1.groupby('cuisines')['average_cost_for_two'].mean().sort_values(ascending=False).reset_index().head()

### 12. Qual o tipo de culinária que possui a maior nota média?

In [None]:
df1.groupby('cuisines')['aggregate_rating'].mean().sort_values(ascending=False).reset_index().head()

### 13. Qual o tipo de culinária que possui mais restaurantes que aceitam pedidos online e fazem entregas?

In [None]:
df1.query('has_online_delivery == 1 | is_delivering_now == 1').groupby('cuisines')['restaurant_id'].count().sort_values(ascending=False).reset_index().head()