# Análise do Mercado de Cafeterias com Garçons Robôs em Los Angeles

O projeto consiste em abrir uma pequena cafeteria com garçons robôs em Los Angeles. Com o objetivo de atrair investidores, a equipe decidiu realizar uma pesquisa de mercado para analisar as condições atuais do setor e determinar a viabilidade e sustentabilidade do negócio a longo prazo, considerando o possível esgotamento do interesse inicial na novidade dos garçons robôs.

Para realizar essa análise, a equipe conta com um especialista em análise de dados, responsável por reunir e analisar informações relevantes sobre o mercado de cafeterias em Los Angeles. Os dados utilizados são provenientes de fontes de código aberto, fornecendo informações sobre outros restaurantes na região.

O objetivo dessa pesquisa de mercado é fornecer uma visão abrangente do setor de cafeterias em Los Angeles, identificando tendências, concorrência e oportunidades. A equipe espera que os resultados obtidos ajudem a tomar decisões estratégicas informadas e a atrair investidores interessados no potencial de sucesso e crescimento sustentável da cafeteria com garçons robôs.

Essa análise minuciosa do mercado é essencial para garantir que a cafeteria com garçons robôs seja capaz de se manter competitiva mesmo após a novidade inicial perder o brilho, maximizando suas chances de sucesso e estabelecendo uma posição sólida no setor de alimentação em Los Angeles.

# Introdução ao Projeto

Neste projeto, será realizada uma análise de dados sobre o mercado de restaurantes em Los Angeles. O objetivo é obter insights e recomendações para investidores interessados em abrir um novo estabelecimento na região. Os dados utilizados são provenientes de um conjunto de dados de restaurantes em LA disponíveis em formato CSV.


**Passo 1: Carregar e Preparar os Dados**

Nesta etapa, os dados sobre restaurantes em LA devem ser carregados e preparados para a análise. Certifique-se de que os tipos de dados estão corretos, não há valores ausentes ou duplicados. Se necessário, realize o processamento dos dados.

Caminho do arquivo: /datasets/rest_data_us.csv

**Passo 2: Análise de Dados**

Nesta etapa, serão realizadas várias análises para entender o mercado de restaurantes em Los Angeles. Algumas das tarefas incluem:

- Investigar as proporções de vários tipos de estabelecimentos e de redes versus estabelecimentos independentes.

- Identificar o tipo de estabelecimento típico para redes e o que caracteriza as redes em termos de número de estabelecimentos e número de assentos.

- Determinar o número médio de assentos para cada tipo de restaurante e identificar o tipo com maior média de assentos.

- Analisar os nomes das ruas presentes na coluna "address" e identificar as dez ruas com o maior número de restaurantes.

- Contar o número de ruas que possuem apenas um restaurante.

- Analisar a distribuição do número de assentos em ruas com muitos restaurantes.

**Passo 3: Preparar uma Apresentação**

Nesta etapa final, será preparada uma apresentação com base na pesquisa realizada. A apresentação deve incluir os principais resultados da análise, conclusões e recomendações para o tipo mais apropriado de restaurante e número de assentos. A apresentação pode ser criada em qualquer ferramenta de sua escolha, mas deverá ser convertida para o formato PDF para avaliação.

Link para a apresentação em formato PDF: [Inserir link aqui]

Certifique-se de seguir as diretrizes de formatação fornecidas no capítulo "Preparando Apresentações" do curso.



## Importação dos nossos dados e carregamento das bases

Iremos carregar as bibliotecas que iremos usar para gerar as análises e gráficos.

Iremos explicar cada um dos usos das bibliotecas:

* pandas --> análise de dados;
* numpy --> geração de gráficos e auxílio ao pandas;
* matplotlib.pyplot --> geração de gráficos 

Após isso iremos abrir nossos dados em diferentes seções e analisar a qualidade das bases e realizar as correções devidas em cada uma das seções como pré-análise de dados e processamento de base.

In [1]:
# instalando recordlinkage
!pip install recordlinkage

Collecting recordlinkage
  Downloading recordlinkage-0.16-py3-none-any.whl (926 kB)
[K     |████████████████████████████████| 926 kB 3.0 MB/s eta 0:00:01
Collecting scikit-learn>=1
  Downloading scikit_learn-1.3.1-cp38-cp38-macosx_10_9_x86_64.whl (10.1 MB)
[K     |████████████████████████████████| 10.1 MB 7.7 MB/s eta 0:00:01
Collecting joblib
  Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
[K     |████████████████████████████████| 302 kB 6.5 MB/s eta 0:00:01
Installing collected packages: joblib, scikit-learn, recordlinkage
  Attempting uninstall: joblib
    Found existing installation: joblib 1.0.1
    Uninstalling joblib-1.0.1:
      Successfully uninstalled joblib-1.0.1
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 0.24.1
    Uninstalling scikit-learn-0.24.1:
      Successfully uninstalled scikit-learn-0.24.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is 

In [2]:
# Carregando nossas bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import recordlinkage
from recordlinkage.preprocessing import clean
import plotly.graph_objects as go
import plotly.colors
import plotly.figure_factory as ff
import seaborn as sns
import plotly.subplots as sp
import re

### Base rest_data_us.csv e carregamento de dados

Como observado anteriormente iremos abrir a base de dados **rest_data_us.csv** realizando uma pré-análise de dados, processamento do dado e possível limpeza, indicando os erros e as mudanças

In [3]:
# abrindo a tabela visits_log_us

# Carregando dados no computador pessoal
try:
    df_rest = pd.read_csv(r'/downloads/visits_log_us.csv')
    
# Carregando dados no JupyterHub
except:
    df_rest = pd.read_csv(r'/datasets/rest_data_us.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/rest_data_us.csv'

In [None]:
# mostrando a df 
df_rest.head(5)

In [None]:
# informações gerais da df
df_rest.info()

**Conclusão Intermediária**

Podemos observar que há dados faltantes para a coluna de Chain. Iremos analisar os dados faltantes para entender o erro. 

Além disso, iremos verificar as colunas para entender se não existem dados duplicados em id, object_name e address. 


<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Excelente trabalho checando a consistência dos dados.

Sempre importante para garantir uma análise robusta!
</div>


## Limpeza de dados

### Dados duplicados

Iremos analisar se existem dados duplicados que recebemos e também duplicatas implícitas.

Vamos criar uma Dataframe filtrada somente com dados duplicados para análise mais aprofundada.

In [None]:
# Filtrar os dados duplicados
df_duplicates = df_rest[df_rest.duplicated()]

# mostrando a df
df_duplicates

**Conclusão Intermediária**

Não existem dados duplicados gerais. Assim, iremos seguir a análise para duplicatas para cada uma das colunas para entendimento.

#### Duplicadas em id

In [None]:
# criando df
duplicate_id = df_rest[df_rest['id'].duplicated()]

# mostrando df
duplicate_id

**Conclusão**
Não existem dados duplicados para id, podemos seguir para a próxima coluna

#### Duplicadas em object_name

In [None]:
# criando df
duplicate_object = df_rest[df_rest['object_name'].duplicated()]

# mostrando df
duplicate_object

**Conclusão Intermediária**

Podemos tirar os seguintes pontos:

- Pode-se observar que há nomes duplicados, pois existem um número grande de redes de restaurantes como, por exemplo, MCDONALDS. 

- Para analisar se há duplicatas de fato, iremos criar uma df com as condições do nome e endereço serem os mesmos;

- Vemos que existem restaurates duplicados que nano são de redes. Assim, necessitamos entender este fato. Iremos criar uma outra df com os filtros de nome duplicado e chain = False.

In [None]:
# criando df com nome e endereço iguais
df_add_obj = df_rest[df_rest.duplicated(subset=['object_name', 'address'], keep=False)]

# mostrando df
df_add_obj

**Conclusão Intermediária**

Não existem dados que são duplicados no nome e no endereço. Logo iremos analisar os valores que são duplicados no nome e não são de redes.

In [None]:
# filtrar os valores duplicados de object name e chain com valor False
df_chain_obj = df_rest[df_rest.duplicated(subset='object_name', keep=False) & (df_rest['chain'] == False)]

# exibir o DataFrame df_add_obj
df_chain_obj

**Conclusão Intermediária**

Podemos observar que inicialmente já temos um exemplo que parece um erro. O object_name (nome do restaurante) ADIMIRALS CLUB está duplicado e com dois endereços que parecem ser um ao lado do outro. Provavelmente, isso pode ser devido a erros de digitação ou compilação dos dados.

Iremos filtrar a df por nomes dos restaurantes e analisar os endereços.

In [None]:
# organizar df
df_chain_obj = df_chain_obj.sort_values(by='object_name')

# mostrar
df_chain_obj.head(20)

In [None]:
df_chain_obj.tail(20)

**Conclusão**

Como conclusão podemos tirar que:

* Existem estabelecimentos que não são de redes, mas que possuem mais de um estabelecimento na base;

* Os estabelecimentos duplicados diferenetemente do que imaginado inicialmente parecem não serem duplicados, podemos ver isso pelo endereço e pelo número de assentos para cada um deles.

* Vamos manter os estabelecimentos duplicados para a coluna object_name.

#### Dados faltantes coluna chain

In [None]:
# filtrando df
df_null = df_rest[df_rest.isnull().any(axis=1)]

# mostrando df
df_null

**Conclusão Intermediária**

É possível que tenha acontecido um erro ao compilar os dados de estabelecimentos, assim iremos analisar para entender se os os estabelecimentos possuem outros que possamos substituir os valores NaN.

In [None]:
# Lista de restaurantes com chain NaN
rest_list = df_null['object_name'].tolist()

# Fitlrando na base completa pelos nomes dos restaurantes 
(df_rest[df_rest['object_name'].isin(rest_list)])

**Conclusão Intermediária**

Podemos observar que não existe nenhum outro estabelecimento cadastrado na base recebida. Assim, não podemos ter certeza se os restaurantes são de rede ou não. Assim, iremos decidir por retirar esses dados da análise.

In [None]:
# Filtrar as linhas que não estão na lista de nomes a remover
df_rest = df_rest[~df_rest['object_name'].isin(rest_list)]

#### Dados duplicados coluna address

In [None]:
# criando df com nome e endereço iguais
df_add = df_rest[df_rest.duplicated(subset=['address'], keep=False)]

# mostrando df
df_add = df_add.sort_values(by='address')
df_add.head(20)

In [None]:
df_add.tail(20)

In [None]:
df_add.info()

**Conclusão Intermediária**

Através dos dados gerados podemos perceber os seguintes fatos:

* Existem 2047 dados com o mesmo registro de endereço;

* Existem estabelecimentos que estão duplicados no endereço, mas não são o mesmo estabelecimento. Isso ocorre, por exemplo, em shoppings, aeroportos e conglomerados.

* Existem, ainda, estabelecimentos duplicados implicitamente (com nomes um pouco diferente) e com mesmo endereço, mas com o a coluna 'number' diferente, um exemplo:
    * 7642	19428	NATALIE THAI	998 S ROBERTSON BLVD	False	Restaurant	148
    * 733	12519	NATALEE THAI	998 S ROBERTSON BLVD	True	Restaurant	62
    
* A primeira hipótese era a de retirada de duplicatas de maneira simples e manual, mas o problema é que existem muitos registros. A segunda era pela padronização pela coluna number, mas percebemos que essa coluna não está padronizada.

* A coluna chain apresenta discrepâncias também e podemos observar no exemplo acima dado. Onde claramente os restaurantes parecem ser os mesmos, mas com dados discrepantes.

**Takeaways**

* Iremos verificar o exemplo do restaurante NATALIE THAI;

* Para resolução inicial, iremos implementar um modelo de Machine Learning para limpeza de dados utilizando a biblioteca **recordlinkage** que trata dados pela similaridade. (verificar em: https://recordlinkage.readthedocs.io/en/latest/)

* Iremos verificar como foi a limpeza dos dados e realizar o set de parametros.

In [None]:
# verificando NATALEE THAI
df_rest[df_rest['object_name'] == 'NATALEE THAI']

In [None]:
# verificando NATALIE THAI
df_rest[df_rest['object_name'] == 'NATALIE THAI']

**Conclusão Intermediária**

* Apesar da similaridade encontrada não podemos afirmar de fato que são os mesmos estabelecimentos. 

* Podemos ver que existem diferenças entre o tratamento dos dados, por mais bizarro que possa parecer, esse exemplo pode realmente existir. 

* Para gerar nosso modelo de limpeza de dados iremos considerar a as similaridades nas colunas:
    * object_name --> Terá 75% de similaridade no nome
    * address --> Terá que ser o mesmo endereço
    * chain --> Terá que ser do mesmo tipo (True / False)
    * object_type --> Terá que ser do mesmo tipo de estabelecimento
    * number --> Terá que ter o mesmo número de de assentos disponíveis
    
* Faremos esses filtros afim de retirar dados de maneira mais consistente e iremos considerar as possibilidades acima para retirada de duplicatas.

* Consideramos 75% como start-point e sabemos que precisamos fazer um trade-off entre a precisão e recall de dados para falsos positivos. Iremos analisar a eficiencia e grau de retirada do script e, se necessário, ajustar. Iremos realizar testes posteriores com 65% - 75% - 85% e decidir qual iremos utilizar.


In [None]:
# criando função para aplicação e análise

def limpeza(df,similar):
    # Primeiro, criamos um índice para realizar a comparação
    indexer = recordlinkage.Index()
    indexer.full()
    pairs = indexer.index(df)

    # Em seguida, comparamos os pares de registros nos campos que nos interessam
    compare = recordlinkage.Compare()

    compare.string('object_name', 'object_name', method='levenshtein', label='name')
    compare.exact('address', 'address', label='address')
    compare.exact('chain', 'chain', label='chain')
    compare.exact('object_type', 'object_type', label='object_type')
    compare.exact('number', 'number', label='number')

    # Calculamos a similaridade
    features = compare.compute(pairs, df)

    # Aqui, vamos dizer que dois registros são duplicatas se todos os critérios forem atendidos
    matches = features[(features['name'] > similar) & (features['address'] == 1.0) & (features['chain'] == 1.0) & (features['object_type'] == 1.0) & (features['number'] == 1.0)]

    # Recuperamos os índices dos registros duplicados
    duplicate_indices = matches.index.get_level_values(1)

    # Removemos as duplicatas
    df = df[~df.index.isin(duplicate_indices)]
    
    # Info da df nova
    df = df.info()


In [None]:
# informação df_add
df_add.info()

In [None]:
# aplicando a função e analisando - 0.65 de precisão
limpeza(df_add,0.65)

In [None]:
# aplicando a função e analisando - 0.55 de precisão
limpeza(df_add,0.55)

In [None]:
# aplicando a função e analisando - 0.75 de precisão
limpeza(df_add,0.75)

In [None]:
# aplicando a função e analisando - 0.85 de precisão
limpeza(df_add,0.85)

**Conclusão**

A partir da limpeza realizada na base df_add que é a base de dados com endereços duplicados e utilizando o script com recordlinkage podemos perceber que a diferença para os parametros citados é ínfima, ou seja, com os nossos sets iniciais não se encontrou muitas duplicadas.

Iremos considerar para limpeza da base de dados o parâmetro com 0,55 de similaridade e com os outros padrões das outras colunas para uma limpeza na base geral de dados (df_rest). Iremos perder um número mínimo de dados.

Assim, a partir de nossas premissas, iremos limpar os dados e considerar que estes dados estão corretos e não duplicados apesar de nomes similares.

In [None]:
'''# Script para limpeza de dados

# Primeiro, criamos um índice para realizar a comparação
indexer = recordlinkage.Index()
indexer.full()
pairs = indexer.index(df_rest)

# Em seguida, comparamos os pares de registros nos campos que nos interessam
compare = recordlinkage.Compare()

compare.string('object_name', 'object_name', method='levenshtein', label='name')
compare.exact('address', 'address', label='address')
compare.exact('chain', 'chain', label='chain')
compare.exact('object_type', 'object_type', label='object_type')
compare.exact('number', 'number', label='number')

# Calculamos a similaridade
features = compare.compute(pairs, df_rest)

# Aqui, vamos dizer que dois registros são duplicatas se todos os critérios forem atendidos
matches = features[(features['name'] > 0.55) & (features['address'] == 1.0) & (features['chain'] == 1.0) & (features['object_type'] == 1.0) & (features['number'] == 1.0)]

# Recuperamos os índices dos registros duplicados
duplicate_indices = matches.index.get_level_values(1)

# Removemos as duplicatas
df_rest = df_rest[~df_rest.index.isin(duplicate_indices)]
    
# Info da df nova
df_rest.info()'''

**Nota**

Ao aplicar o código a Dataframe inteira o código acaba matando o Kernel. Iremos realizar o seguinte passo:

* Separar a df entre dados com endereço duplicado e não duplicado;
* aplicar o script na base com endereço duplicado;
* juntar os dados posteriormente em uma nova base;

In [None]:
df_rest

In [None]:
# Separação dos dados
duplicated_addresses = df_rest[df_rest.duplicated(subset='address', keep=False)]
df_duplicated = df_rest[df_rest['address'].isin(duplicated_addresses['address'])]
df_not_duplicated = df_rest[~df_rest['address'].isin(duplicated_addresses['address'])]

# Script de limpeza de dados
indexer = recordlinkage.Index()
indexer.full()
pairs = indexer.index(df_duplicated)

compare = recordlinkage.Compare()
compare.string('object_name', 'object_name', method='levenshtein', label='name')
compare.exact('address', 'address', label='address')
compare.exact('chain', 'chain', label='chain')
compare.exact('object_type', 'object_type', label='object_type')
compare.exact('number', 'number', label='number')

features = compare.compute(pairs, df_duplicated)
matches = features[(features['name'] > 0.55) & (features['address'] == 1.0) & (features['chain'] == 1.0) & (features['object_type'] == 1.0) & (features['number'] == 1.0)]
duplicate_indices = matches.index.get_level_values(1)
df_duplicated = df_duplicated[~df_duplicated.index.isin(duplicate_indices)]

# Juntar os DataFrames
df_rest = pd.concat([df_not_duplicated, df_duplicated])

# Informação sobre a nova DataFrame
df_rest.info()

**Conclusão**

Como conclusão da limpeza de dados podemos tirar que não perdemos muitos dados das limpezas que foram feitas. Os parametros utilizados de similaridade de nome, mesmo endereço e mesmo parametros de chain, tipo de estabelecimento e número de mesas filtraram os dados para mostrar se há ou não uma chance real de serem os mesmos estabelecimentos.

#### EDA - Base de dados

Iremos realizar uma análise estatística de dados para a base de dados para todas as colunas e tirar conclusões iniciais acerca delas. 

Iremos análisar:

- Número diferentes de restaurantes coletados
- Número diferentes de endereços coletados
- Número de redes e número de não redes
- Distribuição dos tipos de estabelecimentos
- Distribuição dos número de assentos --> Podemos ter outliers ou dados a retirar;

##### EDA - Número de restaurantes da base

In [None]:
# Número diferentes de restaurantes
df_rest['object_name'].nunique()

##### EDA - Diferentes endereços

In [None]:
df_rest['address'].nunique()

##### EDA - Distribuição entre número de redes e não redes

In [None]:
# Contar o número de valores únicos de "object_name"
unique_object_names = df_rest['object_name'].nunique()

# Contar quantos são de rede ("chain" é True) e quantos não são de rede ("chain" é False)
chain_counts = df_rest['chain'].value_counts()
num_chain_true = chain_counts[True]
num_chain_false = chain_counts[False]

# Plotar um gráfico de pizza para mostrar a distribuição
labels = ['Rede', 'Não Rede']
values = [num_chain_true, num_chain_false]

fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.update_layout(title=f"Distribuição de Rede vs. Não Rede para {unique_object_names} valores únicos de 'object_name'")
fig.show()

##### EDA - Distribuição dos tipos de estabelecimentos

In [None]:
# Remover duplicados dos nomes
df_unique_names = df_rest.drop_duplicates(subset='object_name')

# Categorizar e contar o número de valores diferentes em "object_type"
object_type_counts = df_unique_names['object_type'].value_counts()

# Obter a lista de cores disponíveis na paleta Plotly
colors = plotly.colors.DEFAULT_PLOTLY_COLORS

# Plotar um gráfico de barras com cores diferentes para cada classe
fig = go.Figure(data=[go.Bar(
    x=object_type_counts.index,
    y=object_type_counts.values,
    marker=dict(color=colors[:len(object_type_counts)])
)])

fig.update_layout(
    title='Número de estabelecimentos únicos na região de Los Angeles',
    xaxis_title='Tipo',
    yaxis_title='Contagem'
)

fig.show()

##### EDA - Distribuição dos número de assentos

In [None]:
# Criar um objeto de subplot
fig = sp.make_subplots(rows=2, cols=1, shared_xaxes=True, vertical_spacing=0.1)

# Adicionar o histograma à primeira linha do subplot
histogram_trace = go.Histogram(x=df_rest['number'], nbinsx=20)
fig.add_trace(histogram_trace, row=1, col=1)

# Adicionar o gráfico de distribuição à segunda linha do subplot
distribution_trace = go.Histogram(x=df_rest['number'], histnorm='probability')
fig.add_trace(distribution_trace, row=2, col=1)

# Atualizar o layout do subplot
fig.update_layout(
    title='Distribuição e Histograma da coluna "number"',
    xaxis_title='Número',
    yaxis_title='Contagem',
    showlegend=False
)

# Mostrar o subplot
fig.show()

In [None]:
# Criar o boxplot
fig = go.Figure()

# Adicionar o boxplot à figura
fig.add_trace(go.Box(y=df_rest['number'], name='Número'))

# Atualizar o layout da figura
fig.update_layout(
    title='Boxplot da coluna "number"',
    xaxis_title='Coluna',
    yaxis_title='Número',
    showlegend=True,
    legend=dict(
        x=0.05,
        y=0.95,
        bordercolor='gray',
        borderwidth=1
    ),
    plot_bgcolor='white',
    paper_bgcolor='white'
)

# Mostrar o boxplot
fig.show()

**Conclusão**

Podemos tirar as seguintes conclusões:

- Há 8665 restaurantes diferentes em nossa análise;

- Estamos avaliando 8514 endereços diferentes

- 62% não são de redes e 38% dos restaurantes analisados são de redes

- A maior parte são classificados como restaurantes

- A distribuição dos assentos não são normais, existem muitos restaurantes até 59 assentos após isso o número diminui drasticamente;

- Não existem erros, o restaurante com menor número de assentos é de 1 assento e o maior possuí 229. A mediana fica em 27 assentos. Iremos utilizar a mediana, pois demonstra de maneira melhor a centralidade dos dados.


Agora que analisamos e observamos as especificações analíticas dos dados iremos gerar nossos gráficos e análises. Não iremos retirar os restaurantes com 1 assento, pois podem ser restaurantes exclusivos ou personalizados.

## Análise dos dados

Iremos gerar as seguintes análises:

* Investigaremos as proporções de vários tipos de estabelecimentos e construiremos um gráfico.
* Investigaremos as proporções de estabelecimentos de rede e não de rede e construiremos um gráfico.
* Descobriremos qual tipo de estabelecimento é típico para redes.
* Analisaremos o que caracteriza redes: se são muitos estabelecimentos com um pequeno número de assentos ou poucos estabelecimentos com muitos assentos.
* Determinaremos o número médio de assentos para cada tipo de restaurante. Em média, qual tipo de restaurante terá o maior número de assentos? Construiremos gráficos para visualizar essas informações.
* Colocaremos os dados dos nomes das ruas da coluna "address" em uma coluna separada.
* Construiremos um gráfico com as dez ruas que terão o maior número de restaurantes.
* Encontraremos o número de ruas que terão apenas um restaurante.
* Para as ruas com muitos restaurantes, analisaremos a distribuição do número de assentos e quais tendências conseguiremos observar.

### Proporções de vários tipos de estabelecimentos

In [None]:
# Gerando análise e gráficos 
object_types = df_rest['object_type'].value_counts(normalize=True)
plt.figure(figsize=(10,6))
sns.barplot(x=object_types.index, y=object_types.values)
plt.title('Proporção de Tipos de Estabelecimentos')
plt.xlabel('Tipo de Estabelecimento')
plt.ylabel('Proporção')
plt.show()


**Conclusão**

Como vimos anteriormente e seguindo o mesmo padrão temos os principais estabelcimeentos classficados como restaurantes.

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Perfeito
</div>


### Proporções de estabelecimentos de rede e não:

In [None]:
# Gerando análise
chain_counts = df_rest['chain'].value_counts(normalize=True)
plt.figure(figsize=(6,6))
plt.pie(chain_counts, labels=['Rede' if is_chain else 'Não rede' for is_chain in chain_counts.index], autopct='%1.1f%%')
plt.title('Proporção de Estabelecimentos de Rede vs Não Rede')
plt.show()

**Conclusão**

Já havíamos gerado essa conclusão e gráfico em nossa análise de EDA, mas como podemos ver há uma volume muito maior para estabelecimentos que não são de rede. Aproximadamente 62% não são de rede e 38% são de redes.

<div class="alert alert-success">
<strong>Comentário do revisor v1</strong>

Correto!
</div>


### Tipo de estabelecimento típico para redes

In [None]:
# calculando e gerando gráficos para redes
chain_types = df_rest[df_rest['chain'] == True]['object_type'].value_counts()

plt.figure(figsize=(16,9))
sns.barplot(x=chain_types.index, y=chain_types.values)
plt.title('Tipos de Estabelecimentos em Redes')
plt.xlabel('Tipo de Estabelecimento')
plt.ylabel('Quantidade')
plt.show()

In [None]:
# Número de redes
df_rest[df_rest['chain'] == True]['object_name'].nunique()

In [None]:
# Número de não redes
df_rest[df_rest['chain'] == False]['object_name'].nunique()

In [None]:
# calculando e gerando gráficos para Não redes
chain_types = df_rest[df_rest['chain'] == False]['object_type'].value_counts()

plt.figure(figsize=(16,9))
sns.barplot(x=chain_types.index, y=chain_types.values)
plt.title('Tipos de Estabelecimentos em Não Redes')
plt.xlabel('Tipo de Estabelecimento')
plt.ylabel('Quantidade')
plt.show()

**Conclusão**

Como podemos observar e em comparação a análise geral da base:

- Os restaurantes ainda continuam como top1;

- O fast food ainda é o segundo;

- Para redes as padarias crescem de maneira que sai de último para terceiro;

- Os cafés continuam de maneira incidente;

- Os bares não são tão incidentes para redes;

Iremos gerar análises para clusterizada para cada grupo em % para o tipo de estabelecimento para cada tipo para análise de rede.

In [None]:
# Calculando a quantidade de cada tipo de estabelecimento que é de rede
chain_types = df_rest[df_rest['chain'] == True]['object_type'].value_counts()

# Calculando a quantidade total de cada tipo de estabelecimento
total_types = df_rest['object_type'].value_counts()

# Calculando a porcentagem de cada tipo de estabelecimento que é de rede
chain_percentage = (chain_types / total_types) * 100

# Plotando o gráfico
plt.figure(figsize=(16,9))
sns.barplot(x=chain_percentage.index, y=chain_percentage.values)
plt.title('Porcentagem de Estabelecimentos em Redes por Tipo')
plt.xlabel('Tipo de Estabelecimento')
plt.ylabel('Porcentagem (%)')
plt.show()

**Conclusão**

Como conclusão podemos tirar que:

* A partir dos dados gerados em ambos os tipos, ao parametrizar os estabelecimetnos por percentual a gente pode observar que padarias e cafés tem os maiores percentual para redes de estabelecimentos.

* As padarias atingem quase 100% do valor total.

* Os cafés tem um total de, aproximadamente, 60% isso demonstra que o mercado de café tem grande percentaual de redes de café.

* Ao observar a tendência para as cafeterias serem de redes a gente pode entender que um dos pontos é que este mercado é altamente padronizada, ou seja, sabemos que o mercado de redes funcionam de maneira padronizada e não oferecem diferentes experiências para o cliente, isso é um fato muito interessante, pois apresenta um potencial competitivo e diferencial alto para nosso modelo de negócio.

### O que caracteriza redes:

In [None]:
# Gerando descrição para redes
# Criar o boxplot
fig = go.Figure()

# Adicionar o boxplot à figura
fig.add_trace(go.Box(y=df_rest[df_rest['chain'] == True]['number'], name='Número'))

# Atualizar o layout da figura
fig.update_layout(
    title='Boxplot da coluna "number para redes"',
    xaxis_title='Coluna',
    yaxis_title='Número',
    showlegend=True,
    legend=dict(
        x=0.05,
        y=0.95,
        bordercolor='gray',
        borderwidth=1
    ),
    plot_bgcolor='white',
    paper_bgcolor='white'
)

# Mostrar o boxplot
fig.show()

In [None]:
# Gerando descrição para não redes
# Criar o boxplot
fig = go.Figure()

# Adicionar o boxplot à figura
fig.add_trace(go.Box(y=df_rest[df_rest['chain'] == False]['number'], name='Número'))

# Atualizar o layout da figura
fig.update_layout(
    title='Boxplot da coluna "number para não redes"',
    xaxis_title='Coluna',
    yaxis_title='Número',
    showlegend=True,
    legend=dict(
        x=0.05,
        y=0.95,
        bordercolor='gray',
        borderwidth=1
    ),
    plot_bgcolor='white',
    paper_bgcolor='white'
)

# Mostrar o boxplot
fig.show()

**Conclusão**

- Podemos perceber que a mediana é de 25 cadeiras para os estabelecimentos de rede;

- Há um grande desvio padrão, demonstrando que existem vários tamanhos de estabelecimetnos para as redes também. 

- Existem estabelecimentos com o mínimo de assentos possíveis, contando somente com 1, podem ser consideradas redes personalizadas;


### Número médio de assentos para cada tipo de estabelecimento:

Iremos utilizar o número mediano para representar melhor o valor central dos dados

In [None]:
# Gerando análise e gráfico
avg_seats = df_rest.groupby('object_type')['number'].median()

plt.figure(figsize=(16,9))
sns.barplot(x=avg_seats.index, y=avg_seats.values)
plt.title('Número Médio de Assentos por Tipo de Estabelecimento')
plt.xlabel('Tipo de Estabelecimento')
plt.ylabel('Número Médio de Assentos')
plt.show()

In [None]:
# mostrando os valores quantitativos
avg_seats

**Conclusão**

Pode-se perceber que bares e restaurantes tem os maiores números de assentos. Padarias o menor número, seguidos de pizzarias e fast foods e cafés.

Esses dados fazem sentido, pois se formos pensar estabelecimentos que os clientes passam mais tempo dentro precisam de maior número de assentos.

### Análise de estabelecimentos por nome da rua

Iremos gerar algumas análises e steps:

- Colocar os dados dos nomes das ruas da coluna address em uma coluna separada

- Gerar as Dez ruas com o maior número de restaurantes

- Compilar o Número de ruas que têm apenas um restaurante

- enteder a istribuição de número de assentos para as ruas com muitos restaurantes

In [None]:
# Colocar os dados dos nomes das ruas da coluna address em uma coluna separada
df_rest['street'] = df_rest['address'].apply(lambda x: re.sub(r'[0-9#]', '', x))
df_rest

In [None]:
# Gerar as Dez ruas com o maior número de restaurantes
top_streets = df_rest['street'].value_counts().head(10)

# gerando imagem
plt.figure(figsize=(16,9))
sns.barplot(x=top_streets.index, y=top_streets.values)
plt.title('Top 10 Ruas com Mais Estabelecimentos')
plt.xlabel('Rua')
plt.ylabel('Quantidade de Estabelecimentos')
plt.xticks(rotation=90)
plt.show()


In [None]:
# Ruas com único restaurante
single_restaurant_streets = df_rest['street'].value_counts()
num_single_restaurant_streets = (single_restaurant_streets == 1).sum()
print('Número de ruas que têm apenas um restaurante: ', num_single_restaurant_streets)

In [None]:
# número de ruas
df_rest['street'].nunique()

In [None]:
# Distribuição de número de assentos para as ruas com muitos restaurantes:
# Primeiro, obtemos uma lista das 10 ruas com mais restaurantes.
top_streets_list = top_streets.index.tolist()

# Em seguida, criamos um novo DataFrame que contém apenas os restaurantes localizados nessas 10 ruas.
# Fazemos isso filtrando o DataFrame original com base em se a rua de cada restaurante está na nossa lista das top 10 ruas.
df_top_streets = df_rest[df_rest['street'].isin(top_streets_list)]

# Agora, criamos um boxplot (gráfico de caixa) que mostra a distribuição do número de assentos para cada uma dessas ruas.
# Para fazer isso, usamos a biblioteca Seaborn e fornecemos a rua (x) e o número de assentos (y) como inputs.
# O parâmetro data é usado para especificar o DataFrame que estamos usando.
plt.figure(figsize=(16,9))
sns.boxplot(x='street', y='number', data=df_top_streets)

# Por fim, adicionamos um título ao gráfico e rotulamos os eixos para maior clareza.
plt.title('Distribuição de Número de Assentos para Ruas com Muitos Restaurantes')
plt.xlabel('Rua')
plt.ylabel('Número de Assentos')

# Como o nome das ruas pode ser longo e complexo, rotacionamos os rótulos do eixo x em 90 graus para melhor visualização.
plt.xticks(rotation=90)
plt.show()


**Conclusão**

Pode-se perceber que a WILSHIRE BLVD é a rua com o maior número de assentos por ruas, seguida da HOLLYWOOD BLVD E W SUNSET BLV. 

Apesar disso, a rua com maior número de estabelecimentos W THT ST parece contar com menor número de assentos. Isso pode estar ligado a rotatividade por região, sendo que a W THT deve ter clientes em maior Rush diário e menos sentados.

As médias de assentos ficaram muito parecidas para todos os casos, apesar de um alto desvio padrão positivio para o número de assentos nos endereços.

## Conclusão Final e Pitch Deck


**Acerca da análise**

Após uma análise detalhada, concluímos que existem algumas inconsistências e discrepâncias nos dados, especialmente em relação a duplicatas, dados faltantes e problemas com padronização. Observamos que, embora existam nomes de restaurantes duplicados, isso se deve principalmente à presença de cadeias de restaurantes, como o McDonald's.

Apesar dessas duplicatas, após uma análise mais aprofundada, descobrimos que muitos desses casos não são de fato duplicatas. Por exemplo, alguns restaurantes com o mesmo nome, mas com endereços ligeiramente diferentes, podem ser devido a erros de digitação ou problemas na compilação dos dados, mas também podem representar estabelecimentos legítimos e separados.

Na tentativa de corrigir as duplicatas, inicialmente pensamos em eliminar as duplicatas manualmente ou através de padronização, mas logo percebemos que isso não seria viável devido ao grande volume de dados. Em vez disso, decidimos implementar um modelo de Machine Learning para limpeza de dados, utilizando a biblioteca recordlinkage, que trata dados pela similaridade.

Nosso modelo considera vários fatores ao determinar a similaridade entre as entradas, incluindo o nome do estabelecimento, o endereço, se o estabelecimento é parte de uma rede, o tipo de estabelecimento, e o número de assentos disponíveis. Através desse método, conseguimos limpar a base de dados e remover duplicatas de forma eficiente e precisa.

Em relação aos nossos insights analíticos, concluímos que:

* Temos um total de 8665 restaurantes diferentes e 8514 endereços diferentes na nossa base de dados.
* A maioria dos restaurantes (62%) não faz parte de uma rede, enquanto 38% fazem.
* A distribuição de assentos nos restaurantes não é normal, com a maioria dos restaurantes tendo até 59 assentos. A mediana é de 27 assentos.
* As ruas WILSHIRE BLVD, HOLLYWOOD BLVD e W SUNSET BLVD possuem o maior número de assentos por ruas, sugerindo que podem ser áreas populares para restaurantes maiores ou com maior capacidade de atendimento.
* Apesar de W THT ST ter o maior número de estabelecimentos, apresenta um número menor de assentos, o que pode indicar uma alta rotatividade de clientes.


Além disso, com base na análise dos dados, podemos concluir que:

* A partir dos dados gerados em ambos os tipos, ao parametrizar os estabelecimentos por percentual, observamos que padarias e cafés têm o maior percentual de pertencer a redes de estabelecimentos.
* As padarias atingem quase 100% do valor total, enquanto os cafés apresentam um total de aproximadamente 60%. Isso demonstra que o mercado de café tem um grande percentual de redes de cafés.
* Ao observar a tendência para as cafeterias serem de redes, podemos entender que este mercado é altamente padronizado, ou seja, sabemos que o mercado de redes funciona de maneira padronizada e não oferece diferentes experiências para o cliente. Isso é um fato muito interessante, pois apresenta um potencial competitivo e diferencial alto para nosso modelo de negócio.


Em conclusão, embora tenhamos enfrentado alguns desafios na limpeza e na análise dos dados, conseguimos obter uma visão detalhada e precisa do panorama da indústria de restaurantes em nossa área de estudo. A partir disso, somos capazes de prosseguir com a produção de gráficos e análises mais detalhados.



**Pitch Deck e apresentação para investidores**

Com a análise de mercado realizada, identificamos que o segmento de cafeterias em Los Angeles, apesar de já estabelecido, apresenta oportunidades consideráveis para inovação. Observamos a predominância de estabelecimentos que não são parte de redes e, com isso, surge o potencial de criação de uma experiência única e personalizada para os clientes.

A implementação de garçons robôs em nossa cafeteria permitirá superar os desafios que o mercado enfrenta atualmente, como filas exaustivas nos horários de pico, limitações de personalização do menu e a questão da mão de obra escassa e por vezes não qualificada.

A nossa localização na W THT Street, uma rua com alto fluxo de pessoas e grande visibilidade, juntamente com a oferta de um maior número deassentos em comparação à média do mercado, nos coloca em uma posição estratégica para atrair e reter um público diversificado.

Ainda que sejamos um estabelecimento independente, isso nos possibilita menor custo inicial de implementação, maior liberdade para a personalização e criação da identidade da marca, além de nos permitir oferecer uma experiência única e futurista aos nossos clientes.

Ao analisar o mercado, identificamos que a proposta de nossa cafeteria com garçons robôs tem potencial para revolucionar a indústria na cidade, oferecendo um serviço eficiente e personalizado, além de contribuir para a elevação do padrão de serviço e experiência dos clientes no segmento de cafeterias.

A observação da tendência para as cafeterias serem de redes e a padronização resultante oferece uma oportunidade significativa para nós. Como nosso modelo de negócios se concentra em proporcionar uma experiência única e personalizada aos clientes, temos a chance de se destacar e competir efetivamente no mercado.

Dessa forma, temos a combinação ideal entre localização, inovação tecnológica e estratégia de negócios, prontos para nos estabelecer como referência em atendimento eficiente e personalizado em cafeterias em Los Angeles. A análise de mercado reforça nossa confiança de que nossa proposta de negócio é não apenas viável, mas tem um grande potencial para sucesso e crescimento.


**Pitch Deck**
https://drive.google.com/file/d/1A_UkNovv_WrH0Yycaiv3b1l8o6pbfbhe/view?usp=share_link
