# Definições Iniciais

In [287]:
import pandas as pd
import inflection

In [288]:
df = pd.read_csv('zomato.csv')
df1 = df.copy()

In [289]:
df1.columns
#df1.head()

Index(['Restaurant ID', 'Restaurant Name', 'Country Code', 'City', 'Address',
       'Locality', 'Locality Verbose', 'Longitude', 'Latitude', 'Cuisines',
       'Average Cost for two', 'Currency', 'Has Table booking',
       'Has Online delivery', 'Is delivering now', 'Switch to order menu',
       'Price range', 'Aggregate rating', 'Rating color', 'Rating text',
       'Votes'],
      dtype='object')

# Aplicando as funções dadas no problema

In [290]:
COUNTRIES = {
1: "India",
14: "Australia",
30: "Brazil",
37: "Canada",
94: "Indonesia",
148: "New Zeland",
162: "Philippines",
166: "Qatar",
184: "Singapure",
189: "South Africa",
191: "Sri Lanka",
208: "Turkey",
214: "United Arab Emirates",
215: "England",
216: "United States of America",
}

def country_name(country_id):
    return COUNTRIES[country_id]

df1['Country Code'] = df.loc[:, 'Country Code'].apply(lambda x: country_name(x))

In [291]:
def create_price_tye(price_range):
    if price_range == 1:
        return "cheap"
    elif price_range == 2:
        return "normal"
    elif price_range == 3:
        return "expensive"
    else:
        return "gourmet"
    
df1['Price range'] = df.loc[:, 'Price range'].apply(lambda x: create_price_tye(x))


In [292]:
COLORS = {
"3F7E00": "darkgreen",
"5BA829": "green",
"9ACD32": "lightgreen",
"CDD614": "orange",
"FFBA00": "red",
"CBCBC8": "darkred",
"FF7800": "darkred",
}

def color_name(color_code):
    return COLORS[color_code]

df1['Rating color'] = df.loc[:, 'Rating color'].apply(lambda x: color_name(x))

In [293]:
def rename_columns(dataframe):
    df = dataframe.copy()
    title = lambda x: inflection.titleize(x)
    snakecase = lambda x: inflection.underscore(x)
    spaces = lambda x: x.replace(" ", "")
    cols_old = list(df.columns)
    cols_old = list(map(title, cols_old))
    cols_old = list(map(spaces, cols_old))
    cols_new = list(map(snakecase, cols_old))
    df.columns = cols_new
    return df

df1 = rename_columns(df1)

In [294]:
df1['cuisines'] = df1['cuisines'].astype(str)
df1["cuisines"] = df1.loc[:, "cuisines"].apply(lambda x: x.split(",")[0])

# Limpeza do dataset

## Deletando as colunas inúteis

In [295]:
df1 = df1.drop(labels=['switch_to_order_menu'], axis='columns')

## Deletando as linhas com valores nulos

In [296]:
df1 = df1.loc[(df1['cuisines'] != 'nan'),:].copy()
df1 = df1.loc[(df1['longitude'] != 0),:].copy()
df1 = df1.loc[(df1['latitude'] != 0),:].copy()

## Verificando dados duplicados ou nulas

In [299]:
len(df1) == len(df1['restaurant_id'].unique())

True

In [298]:
df1 = df1.drop_duplicates().reset_index(drop=True)

In [200]:
for col in colunas:
    nula = len(df1[pd.notnull(df1[col])]) == len(df1)
    print(f'A coluna {col} não tem nulos: {nula}')

A coluna restaurant_id não tem nulos: True
A coluna restaurant_name não tem nulos: True
A coluna country_code não tem nulos: True
A coluna city não tem nulos: True
A coluna address não tem nulos: True
A coluna locality não tem nulos: True
A coluna locality_verbose não tem nulos: True
A coluna longitude não tem nulos: True
A coluna latitude não tem nulos: True
A coluna cuisines não tem nulos: True
A coluna average_cost_for_two não tem nulos: True
A coluna currency não tem nulos: True
A coluna has_table_booking não tem nulos: True
A coluna has_online_delivery não tem nulos: True
A coluna is_delivering_now não tem nulos: True
A coluna price_range não tem nulos: True
A coluna aggregate_rating não tem nulos: True
A coluna rating_color não tem nulos: True
A coluna rating_text não tem nulos: True
A coluna votes não tem nulos: True


# Entendendo o Dataset

## Entendo as colunas

In [300]:
colunas = list(df1.columns)
for col in colunas:
    print(f'{col} - {len(df1[col].unique())}')

restaurant_id - 6927
restaurant_name - 5900
country_code - 15
city - 125
address - 6751
locality - 2272
locality_verbose - 2356
longitude - 6831
latitude - 6818
cuisines - 165
average_cost_for_two - 156
currency - 12
has_table_booking - 2
has_online_delivery - 2
is_delivering_now - 2
price_range - 4
aggregate_rating - 30
rating_color - 6
rating_text - 28
votes - 1738


## Entendendo os tipos

In [301]:
df1.dtypes

restaurant_id             int64
restaurant_name          object
country_code             object
city                     object
address                  object
locality                 object
locality_verbose         object
longitude               float64
latitude                float64
cuisines                 object
average_cost_for_two      int64
currency                 object
has_table_booking         int64
has_online_delivery       int64
is_delivering_now         int64
price_range              object
aggregate_rating        float64
rating_color             object
rating_text              object
votes                     int64
dtype: object

## Verificando as colunas com NaN

In [302]:
na = ['nan']
colunas = list(df1.columns)
for col in colunas:
    print(f'{col} tem {len(df1.loc[df1[col].isin(na),:])} {na[0]}')

restaurant_id tem 0 nan
restaurant_name tem 0 nan
country_code tem 0 nan
city tem 0 nan
address tem 0 nan
locality tem 0 nan
locality_verbose tem 0 nan
longitude tem 0 nan
latitude tem 0 nan
cuisines tem 0 nan
average_cost_for_two tem 0 nan
currency tem 0 nan
has_table_booking tem 0 nan
has_online_delivery tem 0 nan
is_delivering_now tem 0 nan
price_range tem 0 nan
aggregate_rating tem 0 nan
rating_color tem 0 nan
rating_text tem 0 nan
votes tem 0 nan


# Respondendo as perguntas

## Geral

### 1. Quantos restaurantes únicos estão registrados?

In [303]:
re1 = len(df1['restaurant_id'].unique())
re1

6927

### 2. Quantos países únicos estão registrados?

In [304]:
re2 = len(df1['country_code'].unique())
re2

15

### 3. Quantas cidades únicas estão registradas?

In [305]:
re3 = len(df1['city'].unique())
re3

125

### 4. Qual o total de avaliações feitas?

In [306]:
re4 = df1['votes'].sum()
re4

4192339

### 5. Qual o total de tipos de culinária registrados?

In [307]:
re5 = len(df1['cuisines'].unique())
re5

165

## Pais

### 1. Qual o nome do país que possui mais cidades registradas?

In [308]:
re1 = df1.loc[:,['country_code','city','restaurant_id']].groupby(['country_code','city']).count().sort_values(by='country_code',ascending=False).reset_index()
re1 = re1.loc[:,['country_code','city']].groupby(['country_code']).count().sort_values(by='city',ascending=False).reset_index()
re1
re1.iloc[0,0]

'India'

### 2. Qual o nome do país que possui mais restaurantes registrados?

In [309]:
re2 = df1.loc[:,['restaurant_id','country_code']].groupby(['country_code']).count().sort_values(by='restaurant_id',ascending=False).reset_index()
re2.iloc[0,0]

'India'

### 3. Qual o nome do país que possui mais restaurantes com o nível de preço igual a 4 registrados?

In [310]:
re3 = df1.loc[(df1['price_range'] == 'gourmet'),['restaurant_id','country_code']].groupby(['country_code']).count().sort_values(by='restaurant_id',ascending=False).reset_index()
re3.iloc[0,0]

'United States of America'

### 4. Qual o nome do país que possui a maior quantidade de tipos de culinária distintos?

In [311]:
re4 = df1.loc[:,['country_code','cuisines','restaurant_id']].groupby(['country_code','cuisines']).count().sort_values(by='country_code',ascending=False).reset_index()
re4 = re4.loc[:,['country_code','cuisines']].groupby(['country_code']).count().sort_values(by='cuisines',ascending=False).reset_index()
re4
re4.iloc[0,0]

'India'

### 5. Qual o nome do país que possui a maior quantidade de avaliações feitas?

In [312]:
re5 = df1.loc[:,['votes','country_code']].groupby(['country_code']).sum().sort_values(by='votes',ascending=False).reset_index()
re5.iloc[0,0]

'India'

### 6. Qual o nome do país que possui a maior quantidade de restaurantes que fazem entrega?

In [313]:
re6 = df1.loc[(df1['has_online_delivery'] == 1),['has_online_delivery','country_code']].groupby(['country_code']).sum().sort_values(by='has_online_delivery',ascending=False).reset_index()
re6.iloc[0,0]

'India'

### 7. Qual o nome do país que possui a maior quantidade de restaurantes que aceitam reservas?

In [314]:
re7 = df1.loc[(df1['has_table_booking'] == 1),['has_table_booking','country_code']].groupby(['country_code']).sum().sort_values(by='has_table_booking',ascending=False).reset_index()
re7.iloc[0,0]

'India'

### 8. Qual o nome do país que possui, na média, a maior quantidade de avaliações registrada?

In [315]:
re8 = round(df1.loc[:,['votes','country_code']].groupby(['country_code']).mean().sort_values(by='votes',ascending=False).reset_index(),2)
re8.iloc[0,0]

'Indonesia'

### 9. Qual o nome do país que possui, na média, a maior nota média registrada?

In [316]:
re9 = round(df1.loc[:,['aggregate_rating','country_code']].groupby(['country_code']).mean().sort_values(by='aggregate_rating',ascending=False).reset_index(),2)
re9.iloc[0,0]

'Indonesia'

### 10. Qual o nome do país que possui, na média, a menor nota média registrada?

In [317]:
re10 = round(df1.loc[:,['aggregate_rating','country_code']].groupby(['country_code']).mean().sort_values(by='aggregate_rating',ascending=True).reset_index(),2)
re10.iloc[0,0]

'Brazil'

### 11. Qual a média de preço de um prato para dois por país?

In [318]:
re11 = round(df1.loc[:,['average_cost_for_two','country_code']].groupby(['country_code']).mean().sort_values(by='average_cost_for_two',ascending=False).reset_index(),2)
re11

Unnamed: 0,country_code,average_cost_for_two
0,Indonesia,303000.0
1,Australia,139735.73
2,Sri Lanka,2579.38
3,Philippines,1227.82
4,India,704.47
5,South Africa,339.23
6,Qatar,174.0
7,United Arab Emirates,153.72
8,Singapure,141.44
9,Brazil,138.81


## Cidade

### 1. Qual o nome da cidade que possui mais restaurantes registrados?

### 2. Qual o nome da cidade que possui mais restaurantes com nota média acima de 4?

### 3. Qual o nome da cidade que possui mais restaurantes com nota média abaixo de 2.5?

### 4. Qual o nome da cidade que possui o maior valor médio de um prato para dois?

### 5. Qual o nome da cidade que possui a maior quantidade de tipos de culinária distintas?

### 6. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem reservas?

### 7. Qual o nome da cidade que possui a maior quantidade de restaurantes que fazem entregas?

### 8. Qual o nome da cidade que possui a maior quantidade de restaurantes que aceitam pedidos online?

## Restaurantes

### 1. Qual o nome do restaurante que possui a maior quantidade de avaliações?

### 2. Qual o nome do restaurante com a maior nota média?

### 3. Qual o nome do restaurante que possui o maior valor de uma prato para duas pessoas?

### 4. Qual o nome do restaurante de tipo de culinária brasileira que possui a menor média de avaliação?

### 5. Qual o nome do restaurante de tipo de culinária brasileira, e que é do Brasil, que possui a maior média de avaliação?

### 6. Os restaurantes que aceitam pedido online são também, na média, os restaurantes que mais possuem avaliações registradas?

### 7. Os restaurantes que fazem reservas são também, na média, os restaurantes que possuem o maior valor médio de um prato para duas pessoas?

### 8. Os restaurantes do tipo de culinária japonesa dos Estados Unidos da América possuem um valor médio de prato para duas pessoas maior que as churrascarias americanas (BBQ)?

## Tipos de Culinária

### 1. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a maior média de avaliação?

### 2. Dos restaurantes que possuem o tipo de culinária italiana, qual o nome do restaurante com a menor média de avaliação?

### 3. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a maior média de avaliação?

### 4. Dos restaurantes que possuem o tipo de culinária americana, qual o nome do restaurante com a menor média de avaliação?

### 5. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a maior média de avaliação?

### 6. Dos restaurantes que possuem o tipo de culinária árabe, qual o nome do restaurante com a menor média de avaliação?

### 7. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a maior média de avaliação?

### 8. Dos restaurantes que possuem o tipo de culinária japonesa, qual o nome do restaurante com a menor média de avaliação?

### 9. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a maior média de avaliação?

### 10. Dos restaurantes que possuem o tipo de culinária caseira, qual o nome do restaurante com a menor média de avaliação?

### 11. Qual o tipo de culinária que possui o maior valor médio de um prato para duas pessoas?

### 12. Qual o tipo de culinária que possui a maior nota média?

### 13. Qual o tipo de culinária que possui mais restaurantes que aceitam pedidos online e fazem entregas?