In [15]:
import pandas as pd

# Análise primária do dataset.

### Em primeiro lugar, com a biblioteca pandas, vamos carregar o arquivo .csv no formato de um dataframe e observa-lo com o comando .head()

In [16]:
# Redefinindo o limíte de colunas exibidas para "None", ou seja, sem limite.
# Isso é necessário para que nenhuma coluna seja cortada da visualização.
pd.set_option('display.max_columns', None)

df = pd.read_csv('datasets/zomato.csv')
df

Unnamed: 0,Restaurant ID,Restaurant Name,Country Code,City,Address,Locality,Locality Verbose,Longitude,Latitude,Cuisines,Average Cost for two,Currency,Has Table booking,Has Online delivery,Is delivering now,Switch to order menu,Price range,Aggregate rating,Rating color,Rating text,Votes
0,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,1100,Botswana Pula(P),1,0,0,0,3,4.6,3F7E00,Excellent,619
1,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,1100,Botswana Pula(P),1,0,0,0,3,4.6,3F7E00,Excellent,619
2,6314542,Blackbird,162,Makati City,"Nielson Tower, Ayala Triangle Gardens, Salcedo...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.024562,14.556042,"European, Asian",3100,Botswana Pula(P),0,0,0,0,4,4.7,3F7E00,Excellent,469
3,6301293,Banapple,162,Makati City,"Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.023171,14.556196,"Filipino, American, Italian, Bakery",800,Botswana Pula(P),0,0,0,0,3,4.4,5BA829,Very Good,867
4,6315689,Bad Bird,162,Makati City,"Hole In The Wall, Floor 4, Century City Mall, ...","Century City Mall, Poblacion, Makati City","Century City Mall, Poblacion, Makati City, Mak...",121.027708,14.565899,American,700,Botswana Pula(P),0,0,0,0,3,4.4,5BA829,Very Good,858
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7522,5912546,Eataly,208,İstanbul,"Zorlu Center AVM, Köprü Katı, Levazım Mahalles...","Zorlu Center AVM, Levazım, Beşiktaş","Zorlu Center AVM, Levazım, Beşiktaş, İstanbul",29.017326,41.065322,"Italian, Pizza, Fresh Fish",300,Turkish Lira(TL),0,0,0,0,4,4.3,5BA829,Very Good,1367
7523,5913006,Tarihi Çınaraltı Aile Çay Bahçesi,208,İstanbul,"Çengelköy Mahallesi, Çınaraltı Camii Sokak, No...",Çengelköy Merkez,"Çengelköy Merkez, İstanbul",29.052620,41.050280,"Fast Food, Izgara, Seafood, Tea, Coffee",45,Turkish Lira(TL),0,0,0,0,2,4.5,3F7E00,Excellent,1172
7524,5923535,Boon Cafe & Restaurant,208,İstanbul,"Çengelköy Mahallesi, Çengelköy Caddesi, Kara S...",Çengelköy Merkez,"Çengelköy Merkez, İstanbul",29.052623,41.050717,Restaurant Cafe,140,Turkish Lira(TL),0,0,0,0,4,4.2,5BA829,Very Good,1160
7525,5914190,Kanaat Lokantası,208,İstanbul,"Sultantepe Mahallesi, Selmani Pak Caddesi, No ...",Üsküdar Merkez,"Üsküdar Merkez, İstanbul",29.016590,41.025741,"Home-made, Izgara",95,Turkish Lira(TL),0,0,0,0,3,4.0,5BA829,Very Good,770


### Com a visualização feita a cima, podemos notar algumas características do DataFrame que devemos ajustar para tornar as análises futuras mais fáceis.
1. Nomenclatura das colunas: Observamos que as colunas estão nomeadas com primeira letra maiúscula e espaços entre palávras, isso não é uma boa prática, logo, vamos corrigir;
2. Coluna "Country Code": Está coluna trás um código identificados de cada pais, oque não será muito eficiente na hora das análises, logo, vamos transformar os códigos em seus respectivos nomes de países e mudar o nome da coluna para "country_name";
3. Coluna "Switch to order menu": Com o comando df['Switch to order menu'].unique() podemos observar que essa coluna só possui um valor (0), logo, não faz muita diferença para análises futuras;
4. Coluna "Price range": Possui valores que podem pertencer a um intervalo de 1 a 4, que representa a "categoria de preço" do restaurante, sendo 1 o mais barato e 4 mais caro. Vamos mudar os números para o nome de cada categoria;
5. Coluna "Rating color": Mostra o código da cor que representa a avaliação, vamos trocar o código pelo nome da cor, oque irá facilitar na criação de gráficos.
6. Coluna "cousines": Está culona trás a cozinha típica do restaurante, porém em alguns casos há mais de um tipo, separado com vírgula, para facilitar a análise vamos categorizar os restaurantes apenas pelo primeirp tipo de culinária registrado.
7. Por fim, vamos deletar possíveis linhas/registros duplicados;

In [17]:
# 1. correção de nomes das colunas:
# remove possíveis espaços antes ou depois do nome, deixa todo munúsculo e substitui espaço por '_'
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# 3. Exclui uma coluna que não terá utilidade
df = df.drop(columns='switch_to_order_menu')

df.head(3)

Unnamed: 0,restaurant_id,restaurant_name,country_code,city,address,locality,locality_verbose,longitude,latitude,cuisines,average_cost_for_two,currency,has_table_booking,has_online_delivery,is_delivering_now,price_range,aggregate_rating,rating_color,rating_text,votes
0,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,1100,Botswana Pula(P),1,0,0,3,4.6,3F7E00,Excellent,619
1,6310675,Mama Lou's Italian Kitchen,162,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,1100,Botswana Pula(P),1,0,0,3,4.6,3F7E00,Excellent,619
2,6314542,Blackbird,162,Makati City,"Nielson Tower, Ayala Triangle Gardens, Salcedo...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.024562,14.556042,"European, Asian",3100,Botswana Pula(P),0,0,0,4,4.7,3F7E00,Excellent,469


In [18]:

# função para mudar valores de colunas
def altera_col(df, col_name, dicionario):
  df[col_name] = df[col_name].map(dicionario).fillna(df[col_name])


# 2. Alteração da coluna country_code:
COUNTRIES = {
    1: 'India',
    14: 'Australia',
    30: 'Brazil',
    37: 'Canada',
    94: 'Indonesia',
    148: 'New Zeland',
    162: 'Philippines',
    166: 'Qatar',
    184: 'Singapure',
    189: 'South Africa',
    191: 'Sri Lanka',
    208: 'Turkey',
    214: 'United Arab Emirates',
    215: 'England',
    216: 'United States of America',
}
altera_col(df, 'country_code', COUNTRIES)
# muda o nome da coluna
df = df.rename(columns={'country_code': 'country_name'})


# 4. Alteração da coluna price_range:
PRICE_RANGE = {
    1: 'cheap',
    2: 'normal',
    3: 'expensive',
    4: 'gourmet'
}
altera_col(df, 'price_range', PRICE_RANGE)


# 5. Alteração da coluna rating_color:
COLORS = {
  '3F7E00': 'darkgreen',
  '5BA829': 'green',
  '9ACD32': 'lightgreen',
  'CDD614': 'orange',
  'FFBA00': 'red',
  'CBCBC8': 'darkred',
  'FF7800': 'darkred',
}
altera_col(df, 'rating_color', COLORS)



# 6. Alteração da coluna cuisines:
# transforma a str em uma lista, separando pela "," e pega só o primeiro valor dessa lista (a cozinha principal)
# exemplo: cuisines = "European, Asian" -> split(",") = ['European', 'Asian'] -> [0] = 'European'
df['cuisines'] = df.loc[:, 'cuisines'].apply(lambda x: x.split(',')[0] if isinstance(x, str) else x)


# 7. Deleta linhas duplicadas. 
# (Após o início da realização das análises a baixo, identifique algumas colunas duplicadas, por isso a necessidade desse comando!)
df = df.drop_duplicates().reset_index(drop=True)


df

Unnamed: 0,restaurant_id,restaurant_name,country_name,city,address,locality,locality_verbose,longitude,latitude,cuisines,average_cost_for_two,currency,has_table_booking,has_online_delivery,is_delivering_now,price_range,aggregate_rating,rating_color,rating_text,votes
0,6310675,Mama Lou's Italian Kitchen,Philippines,Las Piñas City,"Block 1, Lot 36, Tropical Avenue Corner Tropic...",BF International,"BF International, Las Piñas City",121.009787,14.447615,Italian,1100,Botswana Pula(P),1,0,0,expensive,4.6,darkgreen,Excellent,619
1,6314542,Blackbird,Philippines,Makati City,"Nielson Tower, Ayala Triangle Gardens, Salcedo...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.024562,14.556042,European,3100,Botswana Pula(P),0,0,0,gourmet,4.7,darkgreen,Excellent,469
2,6301293,Banapple,Philippines,Makati City,"Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...","Ayala Triangle Gardens, Salcedo Village, Makat...",121.023171,14.556196,Filipino,800,Botswana Pula(P),0,0,0,expensive,4.4,green,Very Good,867
3,6315689,Bad Bird,Philippines,Makati City,"Hole In The Wall, Floor 4, Century City Mall, ...","Century City Mall, Poblacion, Makati City","Century City Mall, Poblacion, Makati City, Mak...",121.027708,14.565899,American,700,Botswana Pula(P),0,0,0,expensive,4.4,green,Very Good,858
4,6304833,Manam,Philippines,Makati City,"Level 1, Greenbelt 2, Ayala Center, Greenbelt,...","Greenbelt 2, San Lorenzo, Makati City","Greenbelt 2, San Lorenzo, Makati City, Makati ...",121.020380,14.552351,Filipino,700,Botswana Pula(P),0,0,0,expensive,4.7,darkgreen,Excellent,930
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6937,5912546,Eataly,Turkey,İstanbul,"Zorlu Center AVM, Köprü Katı, Levazım Mahalles...","Zorlu Center AVM, Levazım, Beşiktaş","Zorlu Center AVM, Levazım, Beşiktaş, İstanbul",29.017326,41.065322,Italian,300,Turkish Lira(TL),0,0,0,gourmet,4.3,green,Very Good,1367
6938,5913006,Tarihi Çınaraltı Aile Çay Bahçesi,Turkey,İstanbul,"Çengelköy Mahallesi, Çınaraltı Camii Sokak, No...",Çengelköy Merkez,"Çengelköy Merkez, İstanbul",29.052620,41.050280,Fast Food,45,Turkish Lira(TL),0,0,0,normal,4.5,darkgreen,Excellent,1172
6939,5923535,Boon Cafe & Restaurant,Turkey,İstanbul,"Çengelköy Mahallesi, Çengelköy Caddesi, Kara S...",Çengelköy Merkez,"Çengelköy Merkez, İstanbul",29.052623,41.050717,Restaurant Cafe,140,Turkish Lira(TL),0,0,0,gourmet,4.2,green,Very Good,1160
6940,5914190,Kanaat Lokantası,Turkey,İstanbul,"Sultantepe Mahallesi, Selmani Pak Caddesi, No ...",Üsküdar Merkez,"Üsküdar Merkez, İstanbul",29.016590,41.025741,Home-made,95,Turkish Lira(TL),0,0,0,expensive,4.0,green,Very Good,770


In [19]:
# Salvando o df limpo em um novo arquivo .csv
df.to_csv('datasets/zomato_limpo.csv', index=False)