In [None]:
import pandas as pd
import json


"""
# 📊 Exercícios: Manipulação de Dados JSON

Nesta atividade, você praticará:
1. Carregamento de arquivos JSON.
2. Extração e normalização de dados aninhados.
3. Filtragem e agregação de informações.
4. Manipulação de categorias e horários comerciais.

**Objetivo:** Aprofundar o entendimento sobre dados semi-estruturados através de desafios práticos.

---
"""


# --- Exercício 1: Carregar um JSON salvo anteriormente ---
"""
## 1.1. Carregar um arquivo JSON

- O arquivo disponível no classroom contém dados de estabelecimentos do Yelp.
- Leia o arquivo `data.json` e carregue-o em um DataFrame.
"""


In [None]:

file_path = "data.json"  # Substituir pelo nome certo caso necessário

with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

df = pd.DataFrame(data)
df.head()


### 🔹 Pergunta:
Quantos registros existem no arquivo JSON?
Dica: Utilize `len( )` para contar os elementos.
"""


In [None]:
len(df)


# --- Exercício 2: Criar um DataFrame com informações básicas ---
## 2.1. Transformar o JSON em um DataFrame

- Extraia apenas os seguintes campos para um DataFrame:
  - `business_id`
  - `name`
  - `city`
  - `stars`
  - `review_count`
  - `categories`
- Exiba as **5 primeiras linhas**.
"""


In [None]:

df2 = pd.DataFrame([{
    'bid': d.get('business_id'),
    'Nome': d.get('name'),
    'Cidade': d.get('city'),
    'Stars': d.get('stars'),
    'Contagem de reviews': d.get('review_count'),
    'Categorias': d.get('categories')
}]for d in data)

print()
df2


"""
### 🔹 Pergunta:
Qual cidade tem o maior número de estabelecimentos registrados?
Dica: Utilize `value_counts()` e `idxmax()` se quiser.
"""



In [None]:
df['city'].value_counts().idxmax()

# --- Exercício 3: Trabalhar com Categorias ---

## 3.1. Expandindo categorias em múltiplas linhas

- A coluna `categories` contém múltiplos valores separados por vírgula.
- Converta-a em uma lista e **exploda os valores** para transformar cada categoria em uma linha separada.


In [None]:

df_exploded = df.explode('categories')
### "df_exploded = ???

df_exploded.head()



"""
### 🔹 Pergunta:
Qual a categoria mais comum entre os estabelecimentos?
Dica: Utilize `value_counts().head(10)`.
"""



In [None]:
df['categories'].value_counts().head(10)

# --- Exercício 4: Trabalhar com Horários ---
"""
## 4.1. Criar um DataFrame com horários comerciais

- Extraia os horários de funcionamento (se existirem) para cada estabelecimento.
- Caso um estabelecimento não tenha horários, preencha com `"Closed"`.
"""


In [None]:

weekdays = ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]

df_hours = pd.DataFrame([
    {
        'business_id': d.get('business_id'),
        **{day: (d.get('hours') or {} ).get(day, 'Closed') for day in weekdays}  # Extrai horário ou 'Closed' caso não seja encontrado.
    } for d in data
])

print(df_hours.head())



"""
### 🔹 Pergunta:
Quantos estabelecimentos estão fechados no domingo?
"""


In [None]:
fechados_domingo = df_hours[df_hours['Sunday'] == 'Fechado'].shape[0]

print(f"Estabelecimentos fechados no domingo: {fechados_domingo}")


# --- Exercício 5: Cruzando Informações ---
"""
## 5.1. Encontrar os restaurantes mais bem avaliados de uma cidade específica

- Selecione apenas estabelecimentos da cidade **Tucson**.
- Filtre apenas aqueles com a categoria **Restaurants**.
- Ordene por **maior número de estrelas** e exiba os 10 primeiros.
"""


In [None]:
mais_avaliados = df[df['city'] == 'Tucson']
mais_avaliados = df[df['categories'] == 'Restaurants']

mais_avaliados = mais_avaliados.sort_values('stars', ascending=False)
mais_avaliados.head(10)


"""
### 🔹 Pergunta:
Qual é o restaurante mais bem avaliado em Tucson?
Dica: Ordene o dataframe com sort_values("coluna") em ordem descendente veja os primeiros elementos.

Escolha aquele entre os 10 primeiros com mais estrelas e mais reviews.
"""




In [50]:
df_star = mais_avaliados = mais_avaliados.sort_values('stars', ascending=False).head(10)

df_review = df_star.sort_values(by='review_count', ascending=False).head(10)

df_review.head(1)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
90066,sk11RFNogbE0axZUIDBRHw,Los Mezquites,2341-2399 W Drexel Rd,Tucson,AZ,85746,32.148224,-111.01744,5.0,11,1,"{'RestaurantsReservations': 'False', 'Restaura...",Restaurants,"{'Monday': '11:0-22:0', 'Wednesday': '11:0-22:..."



# --- Exercício 6: Agrupando Informações ---
"""
## Qual a cidade com maior média de estrelas em seus restaurantes?
"""


In [57]:
df_business = pd.DataFrame([{
    "business_id": d.get("business_id"),
    "name": d.get("name"),
    "city": d.get("city"),
    "stars": d.get("stars"),
    "categories": d.get("categories")
} for d in data])

# Faça o split das categorias ("categories")


df_completasplit = df_completa.assign(categoria= df_completa['categoria'].str.split(', ')) 
# Transforma a coluna 'categoria' em uma lista de strings

df_completasplit.head()
# Filtre os restaurantes

# Agrupe por cidade, calcule a média, e ordene

# Exiba os valores


NameError: name 'df_completa' is not defined

# 🚀 Parabéns!
"Exercícios concluídos! 🎉"
