## Introdução

Este notebook explora um conjunto de dados de restaurantes nos Estados Unidos, com o objetivo de analisar diversas características dos estabelecimentos. Iniciamos com a [**Tabela rest_data:**](#tabela-rest_data) para entender as colunas e os dados disponíveis. Em seguida, tratamos os [**dados nulos**](#dados-nulos) existentes na coluna 'chain'. A análise exploratória começa com a visualização dos [**Tipos de estabelecimentos**](#tipos-de-estabelecimentos) presentes no dataset e a proporção de [**Estabelecimento de rede**](#estabelecimento-de-rede). Investigamos também o [**Tipo de estabelecimento das reds**](#tipo-de-estabelecimento-das-reds) para entender a composição das redes de restaurantes. Analisamos a [**médiana da quantidade de cadeiras para cada chain**](#médiana-da-quantidade-de-cadeiras-para-cada-chain) e exploramos a relação entre [**Nº de cadeiras e se é rede.**](#n-de-cadeiras-e-se-é-rede) para identificar possíveis padrões.  Aprofundamos a análise no [**Cadeiras no restaurant**](#cadeiras-no-restaurant) para comparar a média de cadeiras por tipo de estabelecimento.  Exploramos a distribuição dos restaurantes por localização, identificando as [**Ruas com mais estabelecimentos**](#ruas-com-mais-estabelecimentos) e as [**Ruas com apenas 1 estabelecimento**](#ruas-com-apenas-1-estabelecimento). Por fim, investigamos a relação entre [**acentos e estabelecimentos por rua**](#acentos-e-estabelecimentos-por-rua) para entender a densidade de restaurantes e sua capacidade. E uma [**Conclusão**](#Conclusão)

Presentation: <[link para um armazenamento em nuvem](https://docs.google.com/presentation/d/1Zrejz8YR0GdSlxb1B1dcN_zEUMPnMeTaDhq6OkJgqVM/edit?usp=sharing)>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st
import plotly.express as px
import os

In [2]:
local = r'C:\Users\jonat\Documents\GitHub\Sprints\sprint 10'
caminho_arquivo = os.path.join(local, 'data', 'rest_data_us_upd.csv')

df = pd.read_csv(caminho_arquivo)
df.head(5)

Unnamed: 0,id,object_name,address,chain,object_type,number
0,11786,HABITAT COFFEE SHOP,3708 N EAGLE ROCK BLVD,False,Cafe,26
1,11787,REILLY'S,100 WORLD WAY 120,False,Restaurant,9
2,11788,STREET CHURROS,6801 HOLLYWOOD BLVD 253,False,Fast Food,20
3,11789,TRINITI ECHO PARK,1814 W SUNSET BLVD,False,Restaurant,22
4,11790,POLLEN,2100 ECHO PARK AVE,False,Restaurant,20


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9651 entries, 0 to 9650
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           9651 non-null   int64 
 1   object_name  9651 non-null   object
 2   address      9651 non-null   object
 3   chain        9648 non-null   object
 4   object_type  9651 non-null   object
 5   number       9651 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 452.5+ KB


In [4]:
df['number'] = df['number'].astype(np.int8)
df["chain"] = df["chain"].astype("boolean")
df["object_type"] = df["object_type"].astype("category")
df['id'] = df['id'].astype(np.int16)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9651 entries, 0 to 9650
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   id           9651 non-null   int16   
 1   object_name  9651 non-null   object  
 2   address      9651 non-null   object  
 3   chain        9648 non-null   boolean 
 4   object_type  9651 non-null   category
 5   number       9651 non-null   int8    
dtypes: boolean(1), category(1), int16(1), int8(1), object(2)
memory usage: 207.7+ KB


Consegui reduzir 200kb de informação somente mudando os tipos dos dados para os mais adequados. 

In [5]:
df

Unnamed: 0,id,object_name,address,chain,object_type,number
0,11786,HABITAT COFFEE SHOP,3708 N EAGLE ROCK BLVD,False,Cafe,26
1,11787,REILLY'S,100 WORLD WAY 120,False,Restaurant,9
2,11788,STREET CHURROS,6801 HOLLYWOOD BLVD 253,False,Fast Food,20
3,11789,TRINITI ECHO PARK,1814 W SUNSET BLVD,False,Restaurant,22
4,11790,POLLEN,2100 ECHO PARK AVE,False,Restaurant,20
...,...,...,...,...,...,...
9646,21432,HALL OF JUSTICE,217 W TEMPLE AVE,False,Restaurant,122
9647,21433,FIN-MELROSE,5750 MELROSE AVE,False,Restaurant,93
9648,21434,JUICY WINGZ,6741 HOLLYWOOD BLVD,True,Fast Food,15
9649,21435,MEDIDATE COFFEE,548 S SPRING ST STE 100,False,Cafe,6


# Tabela rest_data:

- object_name — nome de estabelecimento
- chain — estabelecimento de rede (TRUE/FALSE)
- object_type — tipo de estabelecimento
- address — endereço
- number — número de assentos

In [6]:
df["chain"] = df["chain"].fillna(False).astype("boolean")

### dados nulos
Existem dados na coluna 'chain' que estão nulos, eu os transformei em false, pois parece falso por omissão. 


In [7]:
df[df.duplicated(subset=['object_name', 'address'], keep=False)]

Unnamed: 0,id,object_name,address,chain,object_type,number
73,11859,BLD,700 WORLD WAY 7C,True,Restaurant,21
7115,18901,BLD,700 WORLD WAY 7C,True,Restaurant,26


In [8]:
df = df[df['id'] != 11859]  # Remove a linha com id 11859
df = df.reset_index(drop=True)  # Reseta o índice e remove o antigo
df

Unnamed: 0,id,object_name,address,chain,object_type,number
0,11786,HABITAT COFFEE SHOP,3708 N EAGLE ROCK BLVD,False,Cafe,26
1,11787,REILLY'S,100 WORLD WAY 120,False,Restaurant,9
2,11788,STREET CHURROS,6801 HOLLYWOOD BLVD 253,False,Fast Food,20
3,11789,TRINITI ECHO PARK,1814 W SUNSET BLVD,False,Restaurant,22
4,11790,POLLEN,2100 ECHO PARK AVE,False,Restaurant,20
...,...,...,...,...,...,...
9645,21432,HALL OF JUSTICE,217 W TEMPLE AVE,False,Restaurant,122
9646,21433,FIN-MELROSE,5750 MELROSE AVE,False,Restaurant,93
9647,21434,JUICY WINGZ,6741 HOLLYWOOD BLVD,True,Fast Food,15
9648,21435,MEDIDATE COFFEE,548 S SPRING ST STE 100,False,Cafe,6


A linha 700 WORLD WAY 7C estava duplicada apaguei a que tinha menos cadeiras. 

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9650 entries, 0 to 9649
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   id           9650 non-null   int16   
 1   object_name  9650 non-null   object  
 2   address      9650 non-null   object  
 3   chain        9650 non-null   boolean 
 4   object_type  9650 non-null   category
 5   number       9650 non-null   int8    
dtypes: boolean(1), category(1), int16(1), int8(1), object(2)
memory usage: 207.7+ KB


In [10]:
px.histogram(df, x='object_type',template='plotly_dark')

### Tipos de estabelecimentos
A maior parte dos estabelecimentos são Restaurant, e poucos são delivery.

In [11]:
px.histogram(df, x='chain',template='plotly_dark')

# Estabelecimento de rede. 
Uma boa quantidade dos estabelescimentos não não são de rede. 

In [12]:
px.histogram(df, x='chain',template='plotly_dark', color='object_type')

# Tipo de estabelecimento das reds
O tipo mais comum dos de red são os restaurants. 

# médiana da quantidade de cadeiras para cada chain 

In [13]:
#  O que caracteriza redes: muitos estabelecimentos com um pequeno número de assentos ou poucos estabelecimentos com muitos assentos?
df.groupby('chain')['number'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
chain,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
False,5975.0,20.492385,46.696904,-128.0,9.0,22.0,40.0,127.0
True,3675.0,22.702313,40.615328,-128.0,10.0,22.0,39.0,127.0


# Nº de cadeiras e se é rede. 
Olhando pela média existe uma pequena correlação com um numero maior de cadeiras nas redes, porém a mediana revela que a diferença é muito pouca, porém o desvio padrão dos que não são redes é maior. 

Não se pode caracterizar redes ou não redes pelo numero de acentos com muita certeza. 

In [14]:
df_grouped = df.groupby('object_type', as_index=False)['number'].mean()
fig = px.bar(
    df_grouped,
    x='object_type',
    y='number',
    title='Média de Cadeiras por Tipo de Estabelecimento',
    labels={'object_type': 'Tipo de Estabelecimento', 'number': 'Média de Cadeiras'},
    template='plotly_dark'  # Fundo preto
)

fig.show()






# Cadeiras no restaurant
Em media o Bar tem mais cadeiras que outros tipos de restaurantes. 

In [15]:
df['rua'] = df['address'].str.extract(r'^\d+\s+(.+?)(?:,|$)', expand=False)


In [16]:
f = df.groupby('rua')['object_type'].count()
f_df = f.sort_values(ascending=False).head(10).reset_index()
f_df.columns = ['rua', 'quantidade']

# Criar o gráfico
fig = px.bar(f_df, x='rua', y='quantidade', title='Top 10 ruas com mais estabelecimentos',
    template='plotly_dark' )
fig.show()

# Ruas com mais estabelecimentos
As ruas com mais estabelecimentos são W SUNSET BLVD e a W PICO BLVD, oque indica que essas ruas são muito movimentadas e longas oque justificaria quase 600 estabelecimentos apenas nas 2 ruas. 

In [17]:
f[f == 1].count()

2442

# Ruas com apenas 1 estabelecimento
Existem 2442 ruas com apenas 1 estabelescimento oque indica uma boa pulverisão do comercio na cidade. 

In [18]:
# Definir oque são muitos restaurantes em 1 rua 
df_violin = f.reset_index()
df_violin.columns = ['rua', 'contagem']

# Criar o gráfico violin
fig = px.violin(df_violin, y='contagem', box=True, points='all', title='Distribuição de Estabelecimentos por Rua',
    template='plotly_dark' )

fig.show()

Portanto acima de 50 estabelescimentos seria muitos estabelecimentos por rua.  

In [19]:
counts = (
    df
    .groupby('rua', as_index=False)
    .agg(estab_count=('id', 'size'),
         total_chairs=('number', 'sum'))
)

# 2. Filtra só ruas com mais de 50 estabelecimentos
top_ruas = counts[counts['estab_count'] > 50]

# 3. Cria o scatterplot
fig = px.scatter(
    top_ruas,
    x='estab_count',
    y='total_chairs',  # mostra o nome da rua em cada ponto
    title='Ruas com >50 Estabelecimentos: nº de estabelecimentos vs total de assentos',
    labels={
        'estab_count': 'Quantidade de Estabelecimentos',
        'total_chairs': 'Total de Assentos'
    },
    template='plotly_dark'
)
fig.update_layout(xaxis_tickangle=45)

# Ajustes visuais
fig.update_traces(textposition='top center', marker=dict(size=12))
fig.update_layout(xaxis=dict(dtick=10), width=800, height=500)

fig.show()

# acentos e estabelecimentos por rua
Existe uma correlação boa entre a quantidade de acentos e a quantidade de estabelescimentos por rua. 

# Conclusão

Em conclusão, a análise dos dados de restaurantes revelou insights importantes sobre o cenário gastronômico nos EUA. Observamos a predominância de restaurantes como tipo de estabelecimento, tanto em redes quanto independentes. Embora redes de restaurantes tendam a ter uma média ligeiramente maior de cadeiras, essa diferença não é drástica, indicando que o número de assentos não é um fator determinante para definir um estabelecimento como parte de uma rede.  Ruas como 'W SUNSET BLVD' e 'W PICO BLVD' se destacam pela alta concentração de restaurantes, refletindo áreas de grande atividade comercial.  A coexistência de muitas ruas com apenas um estabelecimento ao lado de ruas altamente concentradas sugere uma diversidade e pulverização do mercado de restaurantes.  Finalmente, a correlação positiva entre o número de estabelecimentos e o total de assentos em ruas com alta concentração indica que a capacidade de atendimento acompanha a densidade de restaurantes nessas áreas. Estes achados fornecem uma visão geral valiosa do mercado de restaurantes e podem ser úteis para análises mais aprofundadas e tomadas de decisão no setor.
Use code with caution.
Markdown