In [1]:
import pandas as pd
import json


"""
# 📊 Exercícios: Manipulação de Dados JSON

Nesta atividade, você praticará:
1. Carregamento de arquivos JSON.
2. Extração e normalização de dados aninhados.
3. Filtragem e agregação de informações.
4. Manipulação de categorias e horários comerciais.

**Objetivo:** Aprofundar o entendimento sobre dados semi-estruturados através de desafios práticos.

---
"""


# --- Exercício 1: Carregar um JSON salvo anteriormente ---
"""
## 1.1. Carregar um arquivo JSON

- O arquivo disponível no classroom contém dados de estabelecimentos do Yelp.
- Leia o arquivo `data.json` e carregue-o em um DataFrame.
"""


In [2]:
file_path = "data.json"  # Substituir pelo nome certo caso necessário

with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

df = pd.DataFrame(data)
df

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,CA,93101,34.426679,-119.711197,5.0,7,0,{'ByAppointmentOnly': 'True'},"Doctors, Traditional Chinese Medicine, Naturop...",
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,MO,63123,38.551126,-90.335695,3.0,15,1,{'BusinessAcceptsCreditCards': 'True'},"Shipping Centers, Local Services, Notaries, Ma...","{'Monday': '0:0-0:0', 'Tuesday': '8:0-18:30', ..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,AZ,85711,32.223236,-110.880452,3.5,22,0,"{'BikeParking': 'True', 'BusinessAcceptsCredit...","Department Stores, Shopping, Fashion, Home & G...","{'Monday': '8:0-22:0', 'Tuesday': '8:0-22:0', ..."
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,PA,19107,39.955505,-75.155564,4.0,80,1,"{'RestaurantsDelivery': 'False', 'OutdoorSeati...","Restaurants, Food, Bubble Tea, Coffee & Tea, B...","{'Monday': '7:0-20:0', 'Tuesday': '7:0-20:0', ..."
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,PA,18054,40.338183,-75.471659,4.5,13,1,"{'BusinessAcceptsCreditCards': 'True', 'Wheelc...","Brewpubs, Breweries, Food","{'Wednesday': '14:0-22:0', 'Thursday': '16:0-2..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150341,IUQopTMmYQG-qRtBk-8QnA,Binh's Nails,3388 Gateway Blvd,Edmonton,AB,T6J 5H2,53.468419,-113.492054,3.0,13,1,"{'ByAppointmentOnly': 'False', 'RestaurantsPri...","Nail Salons, Beauty & Spas","{'Monday': '10:0-19:30', 'Tuesday': '10:0-19:3..."
150342,c8GjPIOTGVmIemT7j5_SyQ,Wild Birds Unlimited,2813 Bransford Ave,Nashville,TN,37204,36.115118,-86.766925,4.0,5,1,"{'BusinessAcceptsCreditCards': 'True', 'Restau...","Pets, Nurseries & Gardening, Pet Stores, Hobby...","{'Monday': '9:30-17:30', 'Tuesday': '9:30-17:3..."
150343,_QAMST-NrQobXduilWEqSw,Claire's Boutique,"6020 E 82nd St, Ste 46",Indianapolis,IN,46250,39.908707,-86.065088,3.5,8,1,"{'RestaurantsPriceRange2': '1', 'BusinessAccep...","Shopping, Jewelry, Piercing, Toy Stores, Beaut...",
150344,mtGm22y5c2UHNXDFAjaPNw,Cyclery & Fitness Center,2472 Troy Rd,Edwardsville,IL,62025,38.782351,-89.950558,4.0,24,1,"{'BusinessParking': '{'garage': False, 'street...","Fitness/Exercise Equipment, Eyewear & Optician...","{'Monday': '9:0-20:0', 'Tuesday': '9:0-20:0', ..."



"""
### 🔹 Pergunta:
Quantos registros existem no arquivo JSON?
Dica: Utilize `len( )` para contar os elementos.
"""


In [3]:
len(df)

150346


# --- Exercício 2: Criar um DataFrame com informações básicas ---
"""
## 2.1. Transformar o JSON em um DataFrame

- Extraia apenas os seguintes campos para um DataFrame:
  - `business_id`
  - `name`
  - `city`
  - `stars`
  - `review_count`
  - `categories`
- Exiba as **5 primeiras linhas**.
"""


In [4]:
df_business = df[['business_id', 'name', 'city', 'stars', 'review_count', 'categories']]

df_business.head()

Unnamed: 0,business_id,name,city,stars,review_count,categories
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,"Doctors, Traditional Chinese Medicine, Naturop..."
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,Affton,3.0,15,"Shipping Centers, Local Services, Notaries, Ma..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,Tucson,3.5,22,"Department Stores, Shopping, Fashion, Home & G..."
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,Philadelphia,4.0,80,"Restaurants, Food, Bubble Tea, Coffee & Tea, B..."
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,Green Lane,4.5,13,"Brewpubs, Breweries, Food"



"""
### 🔹 Pergunta:
Qual cidade tem o maior número de estabelecimentos registrados?
Dica: Utilize `value_counts()` e `idxmax()` se quiser.
"""



In [40]:
df_business.value_counts('city').idxmax()

'Philadelphia'

# --- Exercício 3: Trabalhar com Categorias ---
"""
## 3.1. Expandindo categorias em múltiplas linhas

- A coluna `categories` contém múltiplos valores separados por vírgula.
- Converta-a em uma lista e **exploda os valores** para transformar cada categoria em uma linha separada.
"""

In [17]:
df_copy = df_business.copy()
df_explode = df_copy['categories'] = df_copy['categories'].str.split(',')
df_exploded = df_copy.explode('categories')
df_exploded

Unnamed: 0,business_id,name,city,stars,review_count,categories
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,Doctors
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,Traditional Chinese Medicine
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,Naturopathic/Holistic
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,Acupuncture
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ",Santa Barbara,5.0,7,Health & Medical
...,...,...,...,...,...,...
150344,mtGm22y5c2UHNXDFAjaPNw,Cyclery & Fitness Center,Edwardsville,4.0,24,Bikes
150345,jV_XOycEzSlTx-65W906pg,Sic Ink,Apollo beach,4.5,9,Beauty & Spas
150345,jV_XOycEzSlTx-65W906pg,Sic Ink,Apollo beach,4.5,9,Permanent Makeup
150345,jV_XOycEzSlTx-65W906pg,Sic Ink,Apollo beach,4.5,9,Piercing



"""
### 🔹 Pergunta:
Qual a categoria mais comum entre os estabelecimentos?
Dica: Utilize `value_counts().head(10)`.
"""



In [18]:
df.value_counts('categories').head(10)

categories
Beauty & Spas, Nail Salons    1012
Restaurants, Pizza             935
Nail Salons, Beauty & Spas     934
Pizza, Restaurants             823
Restaurants, Mexican           728
Restaurants, Chinese           708
Mexican, Restaurants           672
Chinese, Restaurants           651
Food, Coffee & Tea             508
Beauty & Spas, Hair Salons     493
Name: count, dtype: int64

# --- Exercício 4: Trabalhar com Horários ---
"""
## 4.1. Criar um DataFrame com horários comerciais

- Extraia os horários de funcionamento (se existirem) para cada estabelecimento.
- Caso um estabelecimento não tenha horários, preencha com `"Closed"`.
"""


In [19]:
weekdays = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]

df_hours = pd.DataFrame([
   
    {
        'businees_id': d.get('business_id'),
        **{day: (d.get('hours') or {}).get(day, 'Fechado') for day in weekdays}
    } for d in data
])

print(df_hours.head())

              businees_id    Monday    Tuesday  Wednesday   Thursday  \
0  Pns2l4eNsfO8kk83dixA6A   Fechado    Fechado    Fechado    Fechado   
1  mpf3x-BjTdTEA3yCZrAYPw   0:0-0:0  8:0-18:30  8:0-18:30  8:0-18:30   
2  tUFrWirKiKi_TAnsVWINQQ  8:0-22:0   8:0-22:0   8:0-22:0   8:0-22:0   
3  MTSW4McQd7CbVtyjqoe9mw  7:0-20:0   7:0-20:0   7:0-20:0   7:0-20:0   
4  mWMc6_wTdE0EUBKIGXDVfA   Fechado    Fechado  14:0-22:0  16:0-22:0   

      Friday   Saturday     Sunday  
0    Fechado    Fechado    Fechado  
1  8:0-18:30   8:0-14:0    Fechado  
2   8:0-23:0   8:0-23:0   8:0-22:0  
3   7:0-21:0   7:0-21:0   7:0-21:0  
4  12:0-22:0  12:0-22:0  12:0-18:0  



"""
### 🔹 Pergunta:
Quantos estabelecimentos estão fechados no domingo?
"""


In [20]:
fechados_domingo = df_hours[df_hours['Sunday'] == 'Fechado'].shape[0]

print(f"Estabelecimentos fechados no domingo: {fechados_domingo}")

Estabelecimentos fechados no domingo: 69174



# --- Exercício 5: Cruzando Informações ---
"""
## 5.1. Encontrar os restaurantes mais bem avaliados de uma cidade específica

- Selecione apenas estabelecimentos da cidade **Tucson**.
- Filtre apenas aqueles com a categoria **Restaurants**.
- Ordene por **maior número de estrelas** e exiba os 10 primeiros.
"""


In [34]:
city_tucson = df_exploded[df_exploded['city'] == 'Tucson']
restaurants = city_tucson[city_tucson['categories'] == 'Restaurants']

df_sorted = restaurants.sort_values(by='stars', ascending=False)
df_sorted.head(10)

Unnamed: 0,business_id,name,city,stars,review_count,categories
37270,cyBml_LL3l9p_gGyEH0JoA,CakeLab,Tucson,5.0,5,Restaurants
90066,sk11RFNogbE0axZUIDBRHw,Los Mezquites,Tucson,5.0,11,Restaurants
75705,h7wpU50JpFK2nhBwgmUXYw,Prest Coffee Drive Thru,Tucson,5.0,39,Restaurants
14392,kRqJ-4FmgXrfGJpyW5KjFA,Juice Envy,Tucson,5.0,26,Restaurants
34720,5HuizbEg6qAIFwE9OAIxbQ,Cocteleria La Palma Mariscos Y Mas,Tucson,5.0,57,Restaurants
83907,YXkqTOzCciSvl0J-PkkZyw,Extreme Pita,Tucson,5.0,5,Restaurants
135726,5GgCRUSQ4_ejE8YpjDYuEQ,That's Amore Café,Tucson,5.0,5,Restaurants
62773,BOeBIWjryCt0EyrlAeqTMA,Meyer Avenue Cafe,Tucson,5.0,5,Restaurants
120405,hKOH2jIvHB9Xy4S4Gb7-rA,Papa Mike's Homemade Jerky,Tucson,5.0,6,Restaurants
29873,6OwxdpajDSJi3DkMqkr2sw,Barista Del Barrio,Tucson,5.0,357,Restaurants



"""
### 🔹 Pergunta:
Qual é o restaurante mais bem avaliado em Tucson?
Dica: Ordene o dataframe com sort_values("coluna") em ordem descendente veja os primeiros elementos.

Escolha aquele entre os 10 primeiros com mais estrelas e mais reviews.
"""




In [56]:
df_star = restaurants.sort_values(by='stars', ascending=False).head(10)
df_review = df_star.sort_values(by='review_count', ascending=False).head(10)

df_review.head(10)

Unnamed: 0,business_id,name,city,stars,review_count,categories
29873,6OwxdpajDSJi3DkMqkr2sw,Barista Del Barrio,Tucson,5.0,357,Restaurants
34720,5HuizbEg6qAIFwE9OAIxbQ,Cocteleria La Palma Mariscos Y Mas,Tucson,5.0,57,Restaurants
75705,h7wpU50JpFK2nhBwgmUXYw,Prest Coffee Drive Thru,Tucson,5.0,39,Restaurants
14392,kRqJ-4FmgXrfGJpyW5KjFA,Juice Envy,Tucson,5.0,26,Restaurants
90066,sk11RFNogbE0axZUIDBRHw,Los Mezquites,Tucson,5.0,11,Restaurants
120405,hKOH2jIvHB9Xy4S4Gb7-rA,Papa Mike's Homemade Jerky,Tucson,5.0,6,Restaurants
37270,cyBml_LL3l9p_gGyEH0JoA,CakeLab,Tucson,5.0,5,Restaurants
83907,YXkqTOzCciSvl0J-PkkZyw,Extreme Pita,Tucson,5.0,5,Restaurants
135726,5GgCRUSQ4_ejE8YpjDYuEQ,That's Amore Café,Tucson,5.0,5,Restaurants
62773,BOeBIWjryCt0EyrlAeqTMA,Meyer Avenue Cafe,Tucson,5.0,5,Restaurants



# --- Exercício 6: Agrupando Informações ---
"""
## Qual a cidade com maior média de estrelas em seus restaurantes?
"""


In [77]:
df_business = pd.DataFrame([{
    "business_id": d.get("business_id"),
    "name": d.get("name"),
    "city": d.get("city"),
    "stars": d.get("stars"),
    "categories": d.get("categories")
} for d in data])

# Faça o split das categorias ("categories")
df_copy = df_business.copy()
df_explode = df_copy['categories'] = df_copy['categories'].str.split(',')
df_exploded = df_copy.explode('categories')

# Filtre os restaurantes
restaurants = df_exploded[df_exploded['categories'] == 'Restaurants']

# Agrupe por cidade, calcule a média, e ordene
df_cidades = restaurants.groupby('city')['stars'].mean()

df_cidades.sort_values(ascending =False)

city
Kalispell        5.0
Picture Rocks    5.0
Pilesgrove       5.0
POTTSTOWN        5.0
Dupo             5.0
                ... 
Trappe           1.5
Land O'lakes     1.5
St.Rose          1.5
Land O'Lakes     1.5
Bellville        1.5
Name: stars, Length: 637, dtype: float64

# 🚀 Parabéns!
"Exercícios concluídos! 🎉"
