In [1]:
import pandas as pd
import json


"""
# 📊 Exercícios: Manipulação de Dados JSON

Nesta atividade, você praticará:
1. Carregamento de arquivos JSON.
2. Extração e normalização de dados aninhados.
3. Filtragem e agregação de informações.
4. Manipulação de categorias e horários comerciais.

**Objetivo:** Aprofundar o entendimento sobre dados semi-estruturados através de desafios práticos.

---
"""


# --- Exercício 1: Carregar um JSON salvo anteriormente ---
"""
## 1.1. Carregar um arquivo JSON

- O arquivo disponível no classroom contém dados de estabelecimentos do Yelp.
- Leia o arquivo `data.json` e carregue-o em um DataFrame.
"""


In [2]:

file_path = "data.json"

with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

df = pd.DataFrame(data)
df.head()


Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,CA,93101,34.426679,-119.711197,5.0,7,0,{'ByAppointmentOnly': 'True'},"Doctors, Traditional Chinese Medicine, Naturop...",
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,MO,63123,38.551126,-90.335695,3.0,15,1,{'BusinessAcceptsCreditCards': 'True'},"Shipping Centers, Local Services, Notaries, Ma...","{'Monday': '0:0-0:0', 'Tuesday': '8:0-18:30', ..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,AZ,85711,32.223236,-110.880452,3.5,22,0,"{'BikeParking': 'True', 'BusinessAcceptsCredit...","Department Stores, Shopping, Fashion, Home & G...","{'Monday': '8:0-22:0', 'Tuesday': '8:0-22:0', ..."
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,PA,19107,39.955505,-75.155564,4.0,80,1,"{'RestaurantsDelivery': 'False', 'OutdoorSeati...","Restaurants, Food, Bubble Tea, Coffee & Tea, B...","{'Monday': '7:0-20:0', 'Tuesday': '7:0-20:0', ..."
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,PA,18054,40.338183,-75.471659,4.5,13,1,"{'BusinessAcceptsCreditCards': 'True', 'Wheelc...","Brewpubs, Breweries, Food","{'Wednesday': '14:0-22:0', 'Thursday': '16:0-2..."


### 🔹 Pergunta:
Quantos registros existem no arquivo JSON?
Dica: Utilize `len( )` para contar os elementos.
"""


In [3]:
len(df)

150346


# --- Exercício 2: Criar um DataFrame com informações básicas ---
## 2.1. Transformar o JSON em um DataFrame

- Extraia apenas os seguintes campos para um DataFrame:
  - `business_id`
  - `name`
  - `city`
  - `stars`
  - `review_count`
  - `categories`
- Exiba as **5 primeiras linhas**.
"""


In [4]:

df2 = pd.DataFrame([{
    'bid': d.get('business_id'),
    'Nome': d.get('name'),
    'Cidade': d.get('city'),
    'Stars': d.get('stars'),
    'Contagem de reviews': d.get('review_count'),
    'Categorias': d.get('categories')
}]for d in data)

print()
df2




Unnamed: 0,0
0,"{'bid': 'Pns2l4eNsfO8kk83dixA6A', 'Nome': 'Abb..."
1,"{'bid': 'mpf3x-BjTdTEA3yCZrAYPw', 'Nome': 'The..."
2,"{'bid': 'tUFrWirKiKi_TAnsVWINQQ', 'Nome': 'Tar..."
3,"{'bid': 'MTSW4McQd7CbVtyjqoe9mw', 'Nome': 'St ..."
4,"{'bid': 'mWMc6_wTdE0EUBKIGXDVfA', 'Nome': 'Per..."
...,...
150341,"{'bid': 'IUQopTMmYQG-qRtBk-8QnA', 'Nome': 'Bin..."
150342,"{'bid': 'c8GjPIOTGVmIemT7j5_SyQ', 'Nome': 'Wil..."
150343,"{'bid': '_QAMST-NrQobXduilWEqSw', 'Nome': 'Cla..."
150344,"{'bid': 'mtGm22y5c2UHNXDFAjaPNw', 'Nome': 'Cyc..."



"""
### 🔹 Pergunta:
Qual cidade tem o maior número de estabelecimentos registrados?
Dica: Utilize `value_counts()` e `idxmax()` se quiser.
"""



In [5]:
df['city'].value_counts().idxmax()

'Philadelphia'

# --- Exercício 3: Trabalhar com Categorias ---

## 3.1. Expandindo categorias em múltiplas linhas

- A coluna `categories` contém múltiplos valores separados por vírgula.
- Converta-a em uma lista e **exploda os valores** para transformar cada categoria em uma linha separada.


In [6]:

df_exploded = df.explode('categories')
### "df_exploded = ???

df_exploded.head()


Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,CA,93101,34.426679,-119.711197,5.0,7,0,{'ByAppointmentOnly': 'True'},"Doctors, Traditional Chinese Medicine, Naturop...",
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,MO,63123,38.551126,-90.335695,3.0,15,1,{'BusinessAcceptsCreditCards': 'True'},"Shipping Centers, Local Services, Notaries, Ma...","{'Monday': '0:0-0:0', 'Tuesday': '8:0-18:30', ..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,AZ,85711,32.223236,-110.880452,3.5,22,0,"{'BikeParking': 'True', 'BusinessAcceptsCredit...","Department Stores, Shopping, Fashion, Home & G...","{'Monday': '8:0-22:0', 'Tuesday': '8:0-22:0', ..."
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,PA,19107,39.955505,-75.155564,4.0,80,1,"{'RestaurantsDelivery': 'False', 'OutdoorSeati...","Restaurants, Food, Bubble Tea, Coffee & Tea, B...","{'Monday': '7:0-20:0', 'Tuesday': '7:0-20:0', ..."
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,PA,18054,40.338183,-75.471659,4.5,13,1,"{'BusinessAcceptsCreditCards': 'True', 'Wheelc...","Brewpubs, Breweries, Food","{'Wednesday': '14:0-22:0', 'Thursday': '16:0-2..."



"""
### 🔹 Pergunta:
Qual a categoria mais comum entre os estabelecimentos?
Dica: Utilize `value_counts().head(10)`.
"""



In [7]:
df['categories'].value_counts().head(10)

categories
Beauty & Spas, Nail Salons    1012
Restaurants, Pizza             935
Nail Salons, Beauty & Spas     934
Pizza, Restaurants             823
Restaurants, Mexican           728
Restaurants, Chinese           708
Mexican, Restaurants           672
Chinese, Restaurants           651
Food, Coffee & Tea             508
Beauty & Spas, Hair Salons     493
Name: count, dtype: int64

# --- Exercício 4: Trabalhar com Horários ---
"""
## 4.1. Criar um DataFrame com horários comerciais

- Extraia os horários de funcionamento (se existirem) para cada estabelecimento.
- Caso um estabelecimento não tenha horários, preencha com `"Closed"`.
"""


In [8]:

weekdays = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]

df_hours = pd.DataFrame([
    {
        'business_id': d.get('business_id'),
        **{day: (d.get('hours') or {} ).get(day, 'Fechado') for day in weekdays}
    } for d in data
])

print(df_hours.head())


              business_id    Monday    Tuesday  Wednesday   Thursday  \
0  Pns2l4eNsfO8kk83dixA6A   Fechado    Fechado    Fechado    Fechado   
1  mpf3x-BjTdTEA3yCZrAYPw   0:0-0:0  8:0-18:30  8:0-18:30  8:0-18:30   
2  tUFrWirKiKi_TAnsVWINQQ  8:0-22:0   8:0-22:0   8:0-22:0   8:0-22:0   
3  MTSW4McQd7CbVtyjqoe9mw  7:0-20:0   7:0-20:0   7:0-20:0   7:0-20:0   
4  mWMc6_wTdE0EUBKIGXDVfA   Fechado    Fechado  14:0-22:0  16:0-22:0   

      Friday   Saturday     Sunday  
0    Fechado    Fechado    Fechado  
1  8:0-18:30   8:0-14:0    Fechado  
2   8:0-23:0   8:0-23:0   8:0-22:0  
3   7:0-21:0   7:0-21:0   7:0-21:0  
4  12:0-22:0  12:0-22:0  12:0-18:0  



"""
### 🔹 Pergunta:
Quantos estabelecimentos estão fechados no domingo?
"""


In [9]:
fechados_domingo = df_hours[df_hours['Sunday'] == 'Fechado'].shape[0]

print(f"Estabelecimentos fechados no domingo: {fechados_domingo}")

Estabelecimentos fechados no domingo: 69174



# --- Exercício 5: Cruzando Informações ---
"""
## 5.1. Encontrar os restaurantes mais bem avaliados de uma cidade específica

- Selecione apenas estabelecimentos da cidade **Tucson**.
- Filtre apenas aqueles com a categoria **Restaurants**.
- Ordene por **maior número de estrelas** e exiba os 10 primeiros.
"""


In [10]:
mais_avaliados = df[df['city'] == 'Tucson']
mais_avaliados = df[df['categories'] == 'Restaurants']

mais_avaliados = mais_avaliados.sort_values('stars', ascending=False)
mais_avaliados.head(10)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
23896,MjBfqjOH8tTZ3dBTpbMVmQ,Vfw Post 3944,10817 Midland Blvd,Saint Louis,MO,63114,38.703965,-90.398387,5.0,8,1,"{'RestaurantsGoodForGroups': 'True', 'Restaura...",Restaurants,
26265,TsohTE3w1br2m0Nb-tDRDA,Dairyland,501 S Main St,Dupo,IL,62239,38.514134,-90.209721,5.0,10,1,"{'Alcohol': 'u'none'', 'GoodForKids': 'True', ...",Restaurants,
58976,QNpFZ8OKF5VQl2jit7sTlQ,Penn Steak & Fries,Coventry Mall,Pottstown,PA,19464,40.234382,-75.666722,5.0,11,1,"{'RestaurantsTakeOut': 'True', 'RestaurantsDel...",Restaurants,
90066,sk11RFNogbE0axZUIDBRHw,Los Mezquites,2341-2399 W Drexel Rd,Tucson,AZ,85746,32.148224,-111.01744,5.0,11,1,"{'RestaurantsReservations': 'False', 'Restaura...",Restaurants,"{'Monday': '11:0-22:0', 'Wednesday': '11:0-22:..."
127444,YinVjl_e8croGmeUK8hRkA,Cheers Cafe,2601 E Westmoreland St,Philadelphia,PA,19134,39.986842,-75.101025,5.0,6,1,"{'GoodForMeal': '{'dessert': False, 'latenight...",Restaurants,
26061,fLZ8IpBPsDjFzl7zuXRZ9w,Zachs Famous Donair,7609 38 Ave NW,Edmonton,AB,T6K 3L6,53.47227,-113.450435,4.5,7,1,"{'RestaurantsAttire': 'u'casual'', 'Restaurant...",Restaurants,
31928,cUi8TwIH_dt91b_KfPRdTg,Bing Lau Chop Suey,3101 N Grand Blvd,Saint Louis,MO,63107,38.658713,-90.218877,4.5,6,1,"{'Ambience': '{'touristy': False, 'hipster': F...",Restaurants,
51864,_odbPl91mJbD1a9ws74mnQ,Mias Eatery,18 W Airline Hwy,Kenner,LA,70062,29.981238,-90.274867,4.5,7,1,"{'BusinessParking': '{'garage': False, 'street...",Restaurants,
57734,GQue4Nouo2Mg5R2GotVS7w,Big Yellow House,108 Pierpont Rd,Summerland,CA,93067,34.421675,-119.602687,4.5,10,0,"{'RestaurantsAttire': ''casual'', 'OutdoorSeat...",Restaurants,
44318,PG1L06w6sonKGsTJEbCZIQ,Kebab Gyros,3416 Nolensville Pike,Nashville,TN,37211,36.098971,-86.738789,4.5,10,1,"{'RestaurantsTakeOut': 'True', 'GoodForKids': ...",Restaurants,



"""
### 🔹 Pergunta:
Qual é o restaurante mais bem avaliado em Tucson?
Dica: Ordene o dataframe com sort_values("coluna") em ordem descendente veja os primeiros elementos.

Escolha aquele entre os 10 primeiros com mais estrelas e mais reviews.
"""




In [11]:
df_star = mais_avaliados = mais_avaliados.sort_values('stars', ascending=False).head(10)

df_review = df_star.sort_values(by='review_count', ascending=False).head(10)

df_review.head(1)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
90066,sk11RFNogbE0axZUIDBRHw,Los Mezquites,2341-2399 W Drexel Rd,Tucson,AZ,85746,32.148224,-111.01744,5.0,11,1,"{'RestaurantsReservations': 'False', 'Restaura...",Restaurants,"{'Monday': '11:0-22:0', 'Wednesday': '11:0-22:..."



# --- Exercício 6: Agrupando Informações ---
"""
## Qual a cidade com maior média de estrelas em seus restaurantes?
"""


In [12]:
df_business = pd.DataFrame([{
    'bid': d.get('business_id'),
    'name': d.get('name'),
    'cidade': d.get('city'),
    'stars': d.get('stars'),
    'revs': d.get('review_count'),
    'estado': d.get('state'),
    'categoria': d.get('categories')
} for d in data])

# Faça o split das categorias ("categories")
df_business.fillna('Desconhecido', inplace= True)
df_businessplit = df_business.assign(categoria= df_business['categoria'].str.split(', ')) 
# Filtre os restaurantes
df_exp = df_businessplit.explode('categoria')
df_filtrado = df_exp.groupby('cidade')['stars'].mean().reset_index()
# Agrupe por cidade, calcule a média, e ordene
df_filtrado.sort_values('stars', ascending=False)
# Exiba os valores
df_filtrado


Unnamed: 0,cidade,stars
0,AB Edmonton,4.500000
1,AMBLER,3.000000
2,ARDMORE,3.000000
3,AVON,3.500000
4,Abington,3.610724
...,...,...
1411,wilmington,4.000000
1412,wimauma,4.500000
1413,​Clayton,4.000000
1414,​Largo,5.000000


# 🚀 Parabéns!
"Exercícios concluídos! 🎉"
