<a href="https://colab.research.google.com/github/LuisMig-code/Analise-Exploratoria-de-Restaurantes-nos-EUA/blob/main/Analise_exploratoria_de_restaurantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise Exploratória do Ranking dos maiores restaurantes de 2020

O ramo de comida sempre foi algo muito comum em nosso dia-a-dia , desde delivery de grandes redes de fast-food , até as pequenas lanchonetes de bairro , e podemos dizer que é um ramo que dificilmente terá um fim, afinal , precisamos sempre nso alimentar , e muitas vezes ir a um restaurante é mais rentável do que fazer nossas própria comida.

<img src="https://images.pexels.com/photos/1267708/pexels-photo-1267708.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=750&w=1260" width = 800>


Com cada vez mais pessoa adentrando nesses negócios o controle das contas virou algo importante , e o ranqueamento dos restaurantes também.

## Contexto

O ano de 2020 está atrás de nós, portanto, muitos resumos deste ano pandêmico são criados, por exemplo, na forma de classificações. Essa lista (ou na verdade 3 listas) foram criada pela revista "Restaurant Business". No site você encontra apenas informações básicas sobre restaurantes classificados, dados completos e análises estão disponíveis no [relatório pago](https://www.technomic.com/reports/industry-reports/top-500).

O que faremos hoje será explorar essas 3 listas e fazer algumas descobertas sobre os restaurantes que nelas estão

## Importando dados

Todos os dados aqui usado foram obtidos no kaggle , e você pode acessá-los clicando [aqui](https://www.kaggle.com/michau96/restaurant-business-rankings-2020).

Estes arquivo serão importados para uma estrutura *DataFrame* utilizando a biblioteca *pandas* a fim de possibilitar sua manipulação e análise.

In [1]:
# importar pacontes necessários: 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# filtrar mensagens de warning
import warnings
warnings.filterwarnings('ignore')

In [2]:
#link dos dados:
path_future_50 = "https://www.dropbox.com/s/9uap2lw0e08b649/Future50.csv?dl=1"
path_independence_100 = "https://www.dropbox.com/s/d87a1l8y5vg28ea/Independence100.csv?dl=1"
path_top_250 = "https://www.dropbox.com/s/05b4sz9hahfnupv/Top250.csv?dl=1"

O que devemos saber já é que se trata de 3 análises que serão feitas, portanto , dividiremos este projeto em 3: "*Future 50*" , "*Independence 100*" e "*Top 250*" a fim de que possamos tirar nossas conclusões e nos manter organizados

## Future 50

Nosso primeiro dados trata basicamente de Restaurantes que tiveram um rápido crescimento e tem vendas anuais entre 20 milhões e 50 milhões de dólares , classificando eles como restaurantes promissores para o futuro.

vamos começar visualizando as 5 primeiras entradas de nossos dados

In [3]:
df_future_50 = pd.read_csv(path_future_50).drop("Location", axis=1)

In [4]:
df_future_50.head()

Unnamed: 0,Rank,Restaurant,Sales,YOY_Sales,Units,YOY_Units,Unit_Volume,Franchising
0,1,Evergreens,24,130.5%,26,116.7%,1150,No
1,2,Clean Juice,44,121.9%,105,94.4%,560,Yes
2,3,Slapfish,21,81.0%,21,90.9%,1370,Yes
3,4,Clean Eatz,25,79.7%,46,58.6%,685,Yes
4,5,Pokeworks,49,77.1%,50,56.3%,1210,Yes


Já podemos notar que nossos dados estão em inglês , seria interessante que estivessem em português, vamos lá?

In [5]:
df_future_50.columns = ["rank","restaurante","vendas_2019","aumento_percentual_das_vendas","estabelecimentos","aumento_percentual_de_estabelecimentos_por_ano","venda_media_por_estabelecimentos","franquia"]

mapa = {
    "No":"Nao",
    "Yes":"Sim"
}

df_future_50["franquia"] = df_future_50["franquia"].map(mapa)
df_future_50.head()

Unnamed: 0,rank,restaurante,vendas_2019,aumento_percentual_das_vendas,estabelecimentos,aumento_percentual_de_estabelecimentos_por_ano,venda_media_por_estabelecimentos,franquia
0,1,Evergreens,24,130.5%,26,116.7%,1150,Nao
1,2,Clean Juice,44,121.9%,105,94.4%,560,Sim
2,3,Slapfish,21,81.0%,21,90.9%,1370,Sim
3,4,Clean Eatz,25,79.7%,46,58.6%,685,Sim
4,5,Pokeworks,49,77.1%,50,56.3%,1210,Sim


Com nossos dados em Português irei disponibilizar um pequeno dicionário que explique cada variável:

**Dicionário das variáveis :**


*   *rank* : **Posição no Ranking**
*   *restaurante* : **Nome do Restaurante**
*   *vendas_2019* : **Vendas feitas em 2019 (em milhões de dólares)**
*   *aumento_percentual_das_vendas* : **O quanto as vendas aumentarão de 2019 para 2020**
*   *estabelecimentos* : **número de estabelcimentos em 2019**
*   *aumento_percentual_de_estabelecimentos_por_ano* : **O quanto os estabelecimentos aumentaarão de 2019 para 2020**
*   *venda_media_por_estabelecimentos* : **Vendas média por estabelecimento (em milhares de dólares)**
*   *franquia* : **é ou não é franquia?**



feito isso , agora podemos saber exatamente com quais o que estamos trabalhando , e por falar nisso , vamos analisar os tipos delas

In [6]:
df_future_50.dtypes

rank                                               int64
restaurante                                       object
vendas_2019                                        int64
aumento_percentual_das_vendas                     object
estabelecimentos                                   int64
aumento_percentual_de_estabelecimentos_por_ano    object
venda_media_por_estabelecimentos                   int64
franquia                                          object
dtype: object

O que podemos observar é que nos dados de aumentos percentuais não temos valores numéricos , mas sim "*object*" , vamos mudar isso a fim de facilitar nossas análises

In [7]:
for i in range(0,50) :
  df_future_50['aumento_percentual_das_vendas'].iloc[[i]] = df_future_50['aumento_percentual_das_vendas'].iloc[[i]][i].replace("%","")
  df_future_50['aumento_percentual_de_estabelecimentos_por_ano'].iloc[[i]] = df_future_50['aumento_percentual_de_estabelecimentos_por_ano'].iloc[[i]][i].replace("%","")

df_future_50["aumento_percentual_das_vendas"] = pd.to_numeric(df_future_50["aumento_percentual_das_vendas"])
df_future_50["aumento_percentual_de_estabelecimentos_por_ano"] = pd.to_numeric(df_future_50["aumento_percentual_de_estabelecimentos_por_ano"])  

feito isso , podemos novamente visualizar nossos dados

In [8]:
df_future_50.head()

Unnamed: 0,rank,restaurante,vendas_2019,aumento_percentual_das_vendas,estabelecimentos,aumento_percentual_de_estabelecimentos_por_ano,venda_media_por_estabelecimentos,franquia
0,1,Evergreens,24,130.5,26,116.7,1150,Nao
1,2,Clean Juice,44,121.9,105,94.4,560,Sim
2,3,Slapfish,21,81.0,21,90.9,1370,Sim
3,4,Clean Eatz,25,79.7,46,58.6,685,Sim
4,5,Pokeworks,49,77.1,50,56.3,1210,Sim


por último , vamos ver se realmente não temos algum valor nulo em nosso *DataSet*

In [9]:
df_future_50.isnull().sum()

rank                                              0
restaurante                                       0
vendas_2019                                       0
aumento_percentual_das_vendas                     0
estabelecimentos                                  0
aumento_percentual_de_estabelecimentos_por_ano    0
venda_media_por_estabelecimentos                  0
franquia                                          0
dtype: int64

Não temos nenhum

### Perguntas:

Após observar nossos dados , vamos começar alguns questionamentos iniciais acerca dele , para então começar nossas análises e fazer nossas descobertas

1.   **Franquias foram mais lucrativas que estabelecimentos normais**?
2.   **Como seria o 2020 dos restaurantes**?
3.   **Quem venderá mais em 2020 , franqueados ou não franqueados**?
4.   **Quais restaurantes crescerão mais** ?

### Pergunta 1:

Franquias foram mais lucrativas que estabelecimentos normais?

Vamos começar vendo quantos são e quanto não são franqueados

In [10]:
df_temp = df_future_50.franquia.value_counts()
print("Dos 50 Restaurantes de nossos dados , {} são franqueados e {} não são franqueados".format(df_temp[0] , df_temp[1]))

Dos 50 Restaurantes de nossos dados , 29 são franqueados e 21 não são franqueados


In [11]:
def plota_grafico_de_barras_franquia(df , eixo_x , eixo_y , titulo , cores , text , titulo_eixo_x , titulo_eixo_y):
  fig = px.bar(df, x=eixo_x, y=eixo_y,height=700,width=1000,
              title=titulo,
              color_discrete_sequence = [cores] , text=text)

  # alterando o eixo X
  fig.update_xaxes(title = dict(
      text = titulo_eixo_x
  ))

  # alterando o eixo Y
  fig.update_yaxes(title = dict(
      text = titulo_eixo_y
  ))

  fig.show()

In [12]:
fig = px.histogram(df_future_50,x="franquia",
                   color_discrete_sequence = [["darkgreen","lightblue"]],
                   width = 1000 , height = 550
)
fig.show()

Já podemos notas que temos mais restaurantes franqueados do que não franqueados , e isso posteriormente nos será útil

Vamos ver também a soma total das vendas deles

In [13]:
df_temp = df_future_50[["franquia","vendas_2019"]].groupby("franquia").sum().reset_index()

plota_grafico_de_barras_franquia(df_temp,"franquia","vendas_2019","Diferenças de vendas entre franqueados e não franqueados",
                                 ["crimson","lightblue"],"vendas_2019","Franquia ?","vendas em milhões de dólares")

Já podemos notar que franquia vendem mais , o que era esperado já que são também maioria em nossos dados

In [14]:
diferenca = df_temp["vendas_2019"].pct_change()[1]
print("A diferença de vendas percentuais foi de aproximadamente {}%".format(diferenca.round(2)*100))

A diferença de vendas percentuais foi de aproximadamente 39.0%


Sabendo disso vamos agor analisar se de fato franquia vendem mais ou não , para isso , vamos usar a média das franquias e não franquias para saber se este fato se concretiza

In [15]:
df_temp = df_future_50[["franquia","aumento_percentual_das_vendas","vendas_2019"]].groupby("franquia").mean().round(2).reset_index()

plota_grafico_de_barras_franquia(df_temp,"franquia","vendas_2019","Diferenças da média de vendas entre franqueados e não franqueados",
                                 ["mediumorchid","mediumpurple"] , "vendas_2019","Franquia ?" , "vendas em milhões de dólares")

Podemos já contatar um fato interessante , mesmo que as franquias vendam mais , elas em média vendem o mesmo que não franquias

**obs: média equivale , neste caso , a venda média por restaurante**

Ok , já sabemos que as vendas médias em 2019 de ambos foram próximas , mas e alongo prazo? como se comportariam? será que o crescimento percentual de vendas deles é igual também?

In [16]:
plota_grafico_de_barras_franquia(df_temp,"franquia","aumento_percentual_das_vendas","Diferenças do aumento percentual de vendas entre franqueados e não franqueados",
                                 ["seashell","cadetblue"],"aumento_percentual_das_vendas" , "Franquia ?" , "Aumento percentual (%)")

Ao que tudo indica , as franquias tenderão a continuar crescendo ano a ano , apesar da média de vendas entre eles ser igual franquias a longo prazo irão lucrar mais, evidentimente que as franquias como um todo lucrarão , mas a média por estabelecimento pode ser ligeiramente diferente

### Pergunta 2

Como seria o 2020 dos restaurantes?

Para começar a pensar em como seria o 2020 dos restaurantes devemos primeiramente usar os dados sobre o crescimento percentual das empresas para saber os dados de 2020 , vamos lá!

In [17]:
df_temp = df_future_50.copy()
df_temp["previsao_de_vendas_2020"] = ((df_temp.vendas_2019* 100000) * (1 + (df_temp.aumento_percentual_das_vendas / 100))).round(2) 
df_temp["previsao_de_estabelecimentos"] = (df_temp.estabelecimentos * (1 + (df_temp.aumento_percentual_de_estabelecimentos_por_ano / 100))).round(0)
df_temp["previsao_de_venda_media_por_estabelecimentos"] = (df_temp["previsao_de_vendas_2020"] / df_temp["previsao_de_estabelecimentos"]).round(2)
df_temp["vendas_medias_por_estabelecimento_2019"] = ((df_temp["vendas_2019"]*100000) / df_temp["estabelecimentos"]).round(2)

In [18]:
fig = go.Figure(data=[
    go.Bar(name='Vendas em 2019', x=df_temp["rank"], y=df_temp["vendas_medias_por_estabelecimento_2019"]),
        go.Bar(name='Previsão de Vendas', x=df_temp["rank"], y=df_temp["previsao_de_venda_media_por_estabelecimentos"])
])
# mudando o modo do gráfico de barra
fig.update_layout(barmode='group' , height=700,width=1800)

# alterando o título
fig.update_layout(title_text='Comparação entre as vendas de 2019 e as vendas previstas em 2020 (Gráfico de Barras)' , 
                  title_font=dict(family="Arial",size = 30
))

# alterando a legenda dos dados
fig.update_layout(legend=dict(
    orientation = "h"
))

# alterando o eixo X
fig.update_xaxes(title = dict(
    text = "Rank do Restaurante"
))

fig.show()

No gráfico temos em vermelho o de deveriam ser as vendas por estabelecimento 2020 e em azul como foram as vendas em 2019

O que podemos perceber é que as vendas se manterão positivas , com alguns poucos caso havendo vendas inferiores à 2019 , mas uma tendência sempre positiva.

Vale ressaltar que não estamos falando das vendas totais em 2020 , mas sim as vendas por restaurante em 2020 , considerando o crescimento das vendas e o aumento do número de restaurantes.

O ano de 2020 , aparentemente , deveria ser próximo ao que foi o de 2019 , entretanto , alguns restaurantes não se sairam tão bem , mas quanto foi a diferença? ou seja , a diferença percentual , as vendas médias de 2020 menos as vendas médias de 2019 em porcentagem (%)

In [19]:
df_temp["diferenca_de_vendas"] = df_temp["previsao_de_venda_media_por_estabelecimentos"] - df_temp["vendas_medias_por_estabelecimento_2019"]
df_temp["percentual_de_lucro"] = ((df_temp["diferenca_de_vendas"] / df_temp["vendas_medias_por_estabelecimento_2019"])*100).round(2)

In [20]:
fig = px.bar(df_temp,x="rank",y="percentual_de_lucro",
             title="Percentual de crescimento médio dos Restaurantes",
             labels = {"percentual_de_lucro":"Crescimento(%)" , "rank":"Rank do Restaurante"},
             width=1700 , height=700 , text="percentual_de_lucro",
             color_discrete_sequence = ["RebeccaPurple"])

fig.update_layout(
    font=dict(
        size=16
    )
)

fig.show()

Algo interessante apareceu. Lembra que vimos que as diferenças de lucro eram poucas mais sempre indicavam um crescimento? agora vemos uma queda de até 18% em alguns restaurantes , quando comparados à 2019 .O que isso significa? provavelmente trata-se de uma franquia que abriu muitos estabelecimentos mas não manteve uma venda média boa neles.

### Pergunta 3:

Quem venderá mais em 2020 , franqueados ou não franqueados?

In [21]:
def plota_fig_comparacao(df , label_1 , eixo_y_1 ,label_2 , eixo_y_2  , titulo , titulo_eixo_y , cores=list):
  if label_2 == "" and eixo_y_2 == "":
    fig = px.bar(data_frame=df, x="franquia", y=eixo_y_1 ,color_discrete_sequence=[cores] , text=eixo_y_1)
  else:
    fig = go.Figure(data=[
      go.Bar(name=label_1, x=df.franquia, y=df[eixo_y_1] , marker_color=cores[0]),
      go.Bar(name=label_2, x=df.franquia, y=df[eixo_y_2] , marker_color=cores[1])
  ])
  
  

  # mudando o modo do gráfico de barra
  fig.update_layout(barmode='group' , height=700,width=1300)

  # alterando o título
  fig.update_layout(title_text= titulo , 
                    title_font= dict(family="Arial",size = 30
  ))

  # alterando a legenda dos dados
  fig.update_layout(legend=dict(
      orientation = "h"
  ))

  # alterando o eixo X
  fig.update_xaxes(title = dict(
      text = "Franquia"
  ))

  # alterando o eixo Y
  fig.update_yaxes(title = dict(
      text = titulo_eixo_y
  ))

  fig.show()  


Vamos primeiramente analisar se as vendas médias de franquias ou não franquias se alteram quando passado o ano

In [22]:
df_media_de_vendas = df_temp[["franquia","vendas_medias_por_estabelecimento_2019","previsao_de_venda_media_por_estabelecimentos","percentual_de_lucro"]].groupby("franquia").mean().round(2).reset_index()
#--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------#


plota_fig_comparacao(df_media_de_vendas ,"Vendas médias em 2019",'vendas_medias_por_estabelecimento_2019' , 
                    "Previsão de vendas médias em 2020" , 'previsao_de_venda_media_por_estabelecimentos' ,
                    "Comparação de vendas por estabelecimento entre Franqueados e não Franqueados" , "$" , cores=["indianred","lightsalmon"])

O que já podemos notar é que não franquias tem maiores vendas médias em 2020 . Importante ressaltar que **estas vendas se referem as vendas médias por restaurante , e não a média das vendas** , assim , não franquias lucram mais (em média) do que franquias por estabelecimento

Ok , mas até onde esse aumento de lucros vai? será que franquias algum dia poderão alcançar os lucros por estabelecimento de não franquias? para isso temos de saber como anda o crescimento percentual anual de cada uma

In [23]:
plota_fig_comparacao(df_media_de_vendas ,"Vendas médias em 2019",'percentual_de_lucro' , 
                    "" , "" ,
                    "Comparação entre os aumentos percentuais de Lucro" , "%" , cores=["moccasin","lightseagreen"])

O que já podemos observar é que franquias tem um crescimento de lucro por estabelecimento anual levemente superior as não franquias , o que isso quer dizer? Bom , significa que possivelmente em algum momento as franquias poderão ter lucros por estabelecimentos supeiores as não franquias , mas como a diferença é bem sutíl , pode ser que demore um certo tempo

Por último , um dado interessante a ser comentado e analisado é a mediana. Basicamente esta é o valor que divide nossos dados no meio , ou seja , 50% de nossos dados são inferiores a este valor e os outros 50% são superiores. Usar ela como parêmetro de comparação muitas vezes é mais preferível do que usar a média padrão.

In [24]:
df_mediana_de_vendas = df_temp[["franquia","vendas_medias_por_estabelecimento_2019","previsao_de_venda_media_por_estabelecimentos","percentual_de_lucro"]].groupby("franquia").median().round(2).reset_index()
#------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------#

plota_fig_comparacao(df_mediana_de_vendas ,"Vendas médias em 2019",'vendas_medias_por_estabelecimento_2019' , 
                    "Previsão de vendas médias em 2020" , 'previsao_de_venda_media_por_estabelecimentos' ,
                    "Comparação entre a Mediana das vendas de 2019 e as vendas previstas para 2020" , "$" , cores=["mediumvioletred","midnightblue"])

O que podemos notar , ainda assim , é que de fato as vendas médias de não franqueados são superiores , sendo que em 2020 podemos notar que 50% das vendas por estabelecimento serão superiores à 253 mil dólares , enquanto em franqueados esse valor é de apenas 89 mil dólares 

### Pergunta 4:

Quais restaurantes crescerão mais?

Para estabelecermos a resposta à essa pergunta devemos primeiro pensar em quais serão os critérios de tal crescimento?


Em nosso caso usarei os seguintes:
 - previsao de venda maior que a mediana
 - percentual de lucro(aumento do faturamento) superior a mediana 

sendo estes nossos critérios , vamos separar nossas dados e saber quais valores são estes

In [25]:
mediana_da_previsao_de_vendas = round(df_temp.vendas_medias_por_estabelecimento_2019.mean())
mediana_do_percentual_de_lucro = round(df_temp.percentual_de_lucro.mean())

print("A mediana do percentual de Crescimento de Faturamento foi de {} e a mediana da previsão de vendas foi de {}".format(mediana_do_percentual_de_lucro,mediana_da_previsao_de_vendas))

A mediana do percentual de Crescimento de Faturamento foi de 6 e a mediana da previsão de vendas foi de 143440


In [26]:
df_maiores_crescimentos = df_temp.query("previsao_de_venda_media_por_estabelecimentos >= {} & percentual_de_lucro >= {}".format(mediana_da_previsao_de_vendas , mediana_do_percentual_de_lucro))

Separado nossos dados , vamos a priori vem como se distribue eles , ou seja , será que os restaurantes que mais crescerão são em sua maioria franquias ou não franquias

In [27]:
fig = px.pie(data_frame=df_maiores_crescimentos , names="franquia",
             title = "Franqueados e não franqueados , como se distribuem os Restaurantes que mais cresceram?",
             color_discrete_sequence=px.colors.sequential.RdBu,
)

# Configurando os dados internos do gráfico
fig.update_traces(hoverinfo='label+percent', textinfo='value+percent', textfont_size=16,
                  marker=dict(line=dict(color='#ffffff', width=5)))


# Configuranto as fontes
fig.update_layout(
    title_font_family="Arial",
    font=dict(
        size=18,
    )
)


fig.show()

Já podemos constatar que , em maioria , restaurantes que não são franquias estão no topo dos maiores crescimentos

In [28]:
df_temp = df_maiores_crescimentos[['restaurante','previsao_de_venda_media_por_estabelecimentos', 'percentual_de_lucro','rank']].sort_values("previsao_de_venda_media_por_estabelecimentos")

In [29]:
def plota_crescimento(df,eixo_x,eixo_y,texto,titulo,cor,titulo_eixo_X):
  fig = px.bar(df, x=eixo_x, y=eixo_y, orientation='h',text = texto,
              title =titulo , color_discrete_sequence = [cor])


  # Configurando os dados internos do gráfico
  fig.update_traces(textfont_size=20)

  # alterando o eixo X
  fig.update_xaxes(title = dict(
      text = titulo_eixo_X
  ))

  # alterando o eixo Y
  fig.update_yaxes(title = dict(
      text = ""
  ))

  # Configurando o Título
  fig.update_layout(title_font_size=30)

  fig.show()

In [30]:
plota_crescimento(df_temp,"previsao_de_venda_media_por_estabelecimentos","restaurante","rank",
                  "Quais restaurantes venderão mais ?" , "lightsteelblue" , "Previsão de Vendas ($)")

Outro fato interessante podemos constatar , dos restaurantes que mais crescerão , **nenhum ocupa as posições de top 10** , ou seja mesmo que tenham lucros por estabelecimento excepcionais , ainda não estão no topo 

Vamos ver o mesmo gráfico , só que agora para os crescimentos percentuais

In [31]:
df_temp = df_maiores_crescimentos[['restaurante','previsao_de_venda_media_por_estabelecimentos', 'percentual_de_lucro','rank']].sort_values("percentual_de_lucro")

plota_crescimento(df_temp,"percentual_de_lucro","restaurante","rank",
                  "Quais restaurantes crescerão mais em percentual de lucro" , "darkslategray" , "Crescimento (%)")

Nada muito fora do comum , novamente vemos restaurantes com crescimentos exorbitantes mas que não ocupam posições muito altas. Evidentimente no momento de agora, pode ser que no futuro venham a ocupar melhores posições no ranking

## Independence 100

Em nosso segundo conjunto de dados , temos restaurantes com grande número de visitas e que são independentes (no máximo 5 estabelecimentos). As classificações são baseadas em vendas brutas. Você pode checar mais informações clicando [aqui](https://www.restaurantbusinessonline.com/top-100-independents-2020).

vamos começar visualizando as 5 primeiras entradas de nossos dados 

In [32]:
df_independence_100 = pd.read_csv(path_independence_100)

In [33]:
df_independence_100.head()

Unnamed: 0,Rank,Restaurant,Sales,Average Check,City,State,Meals Served
0,1,Carmine's (Times Square),39080335.0,40,New York,N.Y.,469803.0
1,2,The Boathouse Orlando,35218364.0,43,Orlando,Fla.,820819.0
2,3,Old Ebbitt Grill,29104017.0,33,Washington,D.C.,892830.0
3,4,LAVO Italian Restaurant & Nightclub,26916180.0,90,New York,N.Y.,198500.0
4,5,Bryant Park Grill & Cafe,26900000.0,62,New York,N.Y.,403000.0


Novamente , o que constatamos nos dados passados , temos colunas em inglês, o ideal seria se estivessem em português , para isso vamos altera-las

In [34]:
df_independence_100.columns = ["rank","restaurante","vendas_anuais","vendas_por_visita","cidade","estado","refeicoes_servidas_em_2020"]

Como vimos anteriormente nestes dados , temos dados internos de colunas em inglês, incluindo o "estado" , que para melhores análises é preferível estar em Português

In [35]:
codigo_dos_estados ={"N.Y." : "Nova Iorque" , 
                     "Fla." : "Florida" ,
                     "D.C." : "Washington DC",
                     "Ill." : "Illinois" ,
                     "Nev." : "Nevada",
                     "N.C." : "North Carolina" ,
                     "Ind." : "Indiana",
                     "Texas." : "Texas",
                     "Pa." : "Pennsylvania",
                     "Calif." : "California",
                     "Ga." : "Georgia",
                     "Mich." : "Michigan",
                     "Mass." : "Massachusetts",
                     "Ore.": "Oregon",
                     "N.J.":"New Jersey",
                     "Fla. ":"Florida" ,
                     "Tenn.": "Tennessee",
                     "Colo.":"Colorado",
                     "Va.": "Virginia"}
                     
df_independence_100.estado = df_independence_100.estado.map(codigo_dos_estados)

Feito isso , vamos por último ver se temos algum valor nulo em nosso *DataSet* e com que tipo de dados estamos trabalhando

In [36]:
#verificando dados nulos
df_future_50.isnull().sum()

rank                                              0
restaurante                                       0
vendas_2019                                       0
aumento_percentual_das_vendas                     0
estabelecimentos                                  0
aumento_percentual_de_estabelecimentos_por_ano    0
venda_media_por_estabelecimentos                  0
franquia                                          0
dtype: int64

Não temos nenhum dados nulo

In [37]:
df_independence_100.dtypes

rank                            int64
restaurante                    object
vendas_anuais                 float64
vendas_por_visita               int64
cidade                         object
estado                         object
refeicoes_servidas_em_2020    float64
dtype: object

temos dados numéricos e de tipo texto

Assim como feito lá em cima , é ideal criarmos um dicionário para guardarmos o que cada coluna quer dizer

**Dicionário das variáveis :**


*   *rank* : **Posição no Ranking**
*   *restaurante* : **Nome do Restaurante**
*   *vendas_anuais* : **Vendas feitas em 2020 (em milhões de dólares)**
*   *vendas_por_visita* : **Valor gasto em média por cliente no restaurante**
*   *cidade* : **cidade do restaurante**
*   *estado* : **estado ou província em que se localiza o restaurante**
*   *refeicoes_servidas_em_2020* : **Número total de refeições servidas em 2020**



### Perguntas:

Após observar nossos dados , vamos começar alguns questionamentos iniciais acerca dele , para então começar nossas análises e fazer nossas descobertas

1.   **Quais estados vendem mais**?
2.   **Quais restaurantes venderam mais refeições**?
3.   **Quais restaurantes tiveram mais lucro**?

### Pergunta 1:

Quais estados vendem mais

O primeiro passo para isso é estabelecer quais critérios usar para o termo "*vendem*" . Vamos usar dois , **vendas anuais** e **quantidade de refeições servidas** , afinal depende do que precisamos em nossas análises , para tal usaremos estes 2 parâmetros . Vamos agrupar nossos dados e começar nossas análises gráficas

In [38]:
df_temp = df_independence_100[["restaurante","vendas_anuais","refeicoes_servidas_em_2020","estado"]].groupby("estado").sum().reset_index()

In [39]:
def plota_grafico_de_barras_lateral(df , x , y , titulo , cor , x_label , y_label , text=None):
  fig = px.bar(data_frame=df ,
              y = x , x = y,
              orientation = "h",
              title = titulo ,
              color_discrete_sequence = [cor] ,
              width = 1600 , text=text)

  # Configurando os dados internos do gráfico
  fig.update_traces(textfont_size=20)

  # alterando o eixo X
  fig.update_xaxes(title = dict(
      text = x_label
  ))

  # alterando o eixo Y
  fig.update_yaxes(title = dict(
      text = y_label
  ))

  # Configurando o Título
  fig.update_layout(title_font_size=30)

  fig.show()

Vamos começar com os critérios de vendas anuais , afinal quais estados vendem mais?

In [40]:
# vendas anuais
df_temp2 = df_temp.sort_values("vendas_anuais").head()

plota_grafico_de_barras_lateral(df_temp2 , "estado" , "vendas_anuais" , "Estados que mais fizeram Vendas em 2020" , "lightseagreen" , "Vendas ($)" , "")

Já podemos notar que a Pennsylvania é o estado com mais vendas brutas ($)

Agora vamos comprara com os estados que mais servem refeições aos seus clientes

In [41]:
# vendas anuais
df_temp2 = df_temp.sort_values("refeicoes_servidas_em_2020").head()

plota_grafico_de_barras_lateral(df_temp2 , "estado" , "refeicoes_servidas_em_2020" , "Estados que mais serviram refeições em 2020" , "wheat" , "Vendas ($)" , "")

Já contrariando os dados anteriores , podemos notar que a Virgínia serve mais refeições , e mesmo a Pennsylvania sequer está entre o top 5. O que isso quer dizer? provavelmente as refeições na Pennsylvania são mais caras , por isso mesmo que sirvam menos , tem lucros brutos maiores

### Pergunta 2:

Quais restaurantes venderam mais refeições?

Para começar , vamos dividir nossos dados para esta análise

In [42]:
df_restaurantes = df_independence_100[["restaurante","vendas_anuais","refeicoes_servidas_em_2020","estado"]]
df_restaurante_refeicoes = df_restaurantes.sort_values("refeicoes_servidas_em_2020").tail(8)

In [43]:
plota_grafico_de_barras_lateral(df_restaurante_refeicoes , "restaurante" , "refeicoes_servidas_em_2020" , "Restaurantes que mais serviram refeições em 2020" , "darkblue" , "Quantidade de refeições servidas" , "" , text="estado")

Podemos notar também que Washington DC ocupa o pódio , com 3 de seus restaurantes servindo muitas refeições , seguidos de Nova Iorque 

### Pergunta 3:

Quais restaurantes tiveram mais lucro ?

Por último , vamos analisar quais restaurantes tiveram mais lucros brutos , começando com a separação dos dados 

In [44]:
df_restaurante_lucro = df_restaurantes.sort_values("vendas_anuais").tail(8)

In [45]:
plota_grafico_de_barras_lateral(df_restaurante_lucro , "restaurante" , "vendas_anuais" , "Restaurantes que mais Lucraram em 2020" , "darkgreen" , "Vendas ($)" , "" , text="estado")

Desta vez quem ocupa o pódio de restaurantes com maiores lucros é Nova Iorque , com 3 restaurantes , seguido de Illinois com 2. Este fato provavelmente se deve a grande concentração populacional deste estado e sua importância economica nos Estado Unidos

## Top 250

O último dos nossos conjuntos de dados trata-se dos 250 maiores restaurantes dos Estados Unidos ranqueado a partir de suas vendas no ano de 2019.

para começo de conversa , assim como feito anteriormente , vamos visualizar as 5 primeiras entradas de nosso *DataSet*

In [46]:
df_top_250 = pd.read_csv(path_top_250)
df_top_250.head()

Unnamed: 0,Rank,Restaurant,Content,Sales,YOY_Sales,Units,YOY_Units,Headquarters,Segment_Category
0,1,McDonald's,,40412,4.9%,13846,-0.5%,,Quick Service & Burger
1,2,Starbucks,,21380,8.6%,15049,3.0%,,Quick Service & Coffee Cafe
2,3,Chick-fil-A,While Popeyes got a lot of the chicken buzz in...,11320,13.0%,2470,5.0%,,Quick Service & Chicken
3,4,Taco Bell,,11293,9.0%,6766,2.7%,,Quick Service & Mexican
4,5,Burger King,,10204,2.7%,7346,0.2%,,Quick Service & Burger


O que já podemos perceber é que temos colunas em nosso *DataFrame* que contêm valores vazios (não serão utilizados) e que as mesmas estão em Inglês, para tal , vamos mudar isso

In [47]:
df_top_250.columns = ["rank","restaurante","desc","vendas_2019","crescimento_de_vendas_anual","estabelecimentos","crescimento_de_estabelecimentos_anual","QG","segmento"]
df_top_250.drop(["desc","QG"] , axis =1 , inplace=True)

Feito isso , vamos primeiramente fazer um pequeno dicionários explicativo para as colunas de nosso conjunto de dados

**Dicionário das variáveis :**


*   *rank* : **Posição no Ranking**
*   *restaurante* : **Nome do Restaurante**
*   *vendas_2019* : **Vendas feitas em 2019 (em milhões de dólares)**
*   *crescimento_de_vendas_anual* : **Crescimento percentual das vendas anualmente**
*   *estabelecimentos* : **Número de estabelecimentos/restaurantes**
*   *crescimento_de_estabelecimentos_anual* : **Crescimento percentual do número de estabelecimentos**
*   *segmento* : **Segmento(tipo) do Restaurante**



O que farei logo de incio é alterar os dados dos valores e colocar os dados reais , para tal , multiplicarei a coluna *vendas_2019* por 100000 a fim de termos os valores reais de vendas

In [48]:
df_top_250.vendas_2019 = df_top_250.vendas_2019 * 100000

Por último é importante verificar se temos algum dados nulo e saber com quais tipos de variáveis estamos trabalhando

In [49]:
# verificar se há valores nulos:

df_top_250.isnull().sum()

rank                                     0
restaurante                              0
vendas_2019                              0
crescimento_de_vendas_anual              0
estabelecimentos                         0
crescimento_de_estabelecimentos_anual    0
segmento                                 0
dtype: int64

In [50]:
# verificar os tipos de variáveis

df_top_250.dtypes

rank                                      int64
restaurante                              object
vendas_2019                               int64
crescimento_de_vendas_anual              object
estabelecimentos                          int64
crescimento_de_estabelecimentos_anual    object
segmento                                 object
dtype: object

Não temos valores nulos , mas assim como anteriormente , os nossos dados de crescimento percentual não estão em formato numérico , devemos mudar isso

In [51]:
# substituindo o "%" para um valor em branco e depois torná-lo um número
for i in range(0,250) :
  df_top_250['crescimento_de_vendas_anual'].iloc[[i]] = df_top_250['crescimento_de_vendas_anual'].iloc[[i]][i].replace("%","")
  df_top_250['crescimento_de_estabelecimentos_anual'].iloc[[i]] = df_top_250['crescimento_de_estabelecimentos_anual'].iloc[[i]][i].replace("%","")

# convertendo os valores para dados numéricos
df_top_250['crescimento_de_vendas_anual'] = pd.to_numeric(df_top_250['crescimento_de_vendas_anual'])
df_top_250['crescimento_de_estabelecimentos_anual'] = pd.to_numeric(df_top_250['crescimento_de_estabelecimentos_anual'])  

feito isso , vamos partir para as perguntas

### Perguntas:

Após observar nossos dados , vamos começar alguns questionamentos iniciais acerca dele , para então começar nossas análises e fazer nossas descobertas

1.   **Quais restaurantes terão maiores vendas por estabelecimento em 2020?**
2.   **Quais restaurantes terão o maior crescimento percentual em 2020?**

Como estamos trabalhando com dados que serão "estimados" , vamos criar logo uma coluna com estes valores previstos para 2020

In [52]:
# Prevendo o número de vendas em 2020 e o número de estabelecimentos

df_top_250["vendas_em_2020"] = ((1 + (df_top_250["crescimento_de_vendas_anual"] / 100)) * df_top_250["vendas_2019"]).round(2)

df_top_250["estabelecimentos_em_2020"] = ((1 + (df_top_250["crescimento_de_estabelecimentos_anual"] / 100)) * df_top_250["estabelecimentos"]).round(0)

### Pergunta 1:

Quais restaurantes terão maiores vendas por estabelecimento em 2020?

Evidentemente para sabermos este dado devemos calculá-lo em nosso *DataSet* e então começar o processo de análise

In [53]:
df_top_250["vendas_por_estabelecimento_em_2020"] = (df_top_250["vendas_em_2020"] / df_top_250["estabelecimentos_em_2020"]).round(2)

Vamos organizar nossos dados na ordem que queremos

In [54]:
df_temp = df_top_250.sort_values("vendas_por_estabelecimento_em_2020").tail(10)

O gráfico que usaremos nessa situação é um *Scatter Plot* , nele cada dados é representado como um ponto marcado no plano, cuja localização é dada pelas colunas x e y.

In [55]:
fig = px.scatter(df_temp, x="estabelecimentos_em_2020", y="vendas_por_estabelecimento_em_2020",
	               size="vendas_em_2020",
                 hover_name="restaurante", size_max=80 , color="segmento",
                 title = "Vendas médias por estabelecimento dos Restaurantes")

# Configurando os dados internos do gráfico
fig.update_traces(textfont_size=20)

# alterando o eixo X
fig.update_xaxes(title = dict(
    text = "Número de estabelecimentos"
))

# alterando o eixo Y
fig.update_yaxes(title = dict(
    text = "$"
))

# Configurando o Título
fig.update_layout(title_font_size=30)

fig.show()

No eixo X temos o número de estabelecimentos e no eixo Y as vendas por estabelecimento e o tamanho de cada ponto é as vendas totais. Além disso , foram dividos por cor , onde a mesma representa um segmento.


Podemos notar que tivemos restaurantes onde o valor no eixo Y é alto (muitas vendas por estabelecimento) e o valor no eixo X é pequenos (poucos restaurantes) , mas que o tamanho do circulo não é tão grande, ou seja , mesmo com altas vendas por estabelecimento , as vendas "brutas" não foram altas.


O contrário também acontece , com restaurantes com muitos estabelecimentos , muitas vendas anuais , mas poucas vendas por estabelecimento.

Vamos por último ver quais foram os restaurantes que ocuparam essas posições

In [56]:
print("O rank dos restaurantes com maiores vendas por estabelecimento foi:")
print("*******************************************************************")
print
for i in range(0,df_temp.shape[0]):
  print("__________________________________________________________________________________")
  print("O restaurante{} ficou na {}° posição".format(df_temp.iloc[[i]].restaurante.to_string(index=False) , i+1))

O rank dos restaurantes com maiores vendas por estabelecimento foi:
*******************************************************************
__________________________________________________________________________________
O restaurante Maggiano's Little Italy ficou na 1° posição
__________________________________________________________________________________
O restaurante Nobu ficou na 2° posição
__________________________________________________________________________________
O restaurante The Capital Grille ficou na 3° posição
__________________________________________________________________________________
O restaurante Cooper's Hawk Winery & Restaurants ficou na 4° posição
__________________________________________________________________________________
O restaurante Portillo's ficou na 5° posição
__________________________________________________________________________________
O restaurante Ocean Prime ficou na 6° posição
________________________________________________________

### Pergunta 2:

Quais restaurantes terão o maior crescimento percentual em 2020?

O Crescimento percentual usado aqui será usando os mesmos critérios passados , ou seja , a diferenças das vendas por estabelecimento de 2019 e 2020 e qual o percentual de aumento entre eles

In [57]:
# separando os dados
df_temp = df_top_250.copy()

In [58]:
# criando a coluna de vendas por estabelecimento para o ano de 2019
df_temp["vendas_por_estabelecimento_em_2019"] = df_temp["vendas_2019"] / df_temp["estabelecimentos"]

In [59]:
# criando a coluna das diferenças de vendas entre 2020 e 2019
df_temp["diferenca_de_vendas"] = df_temp["vendas_por_estabelecimento_em_2020"] - df_temp["vendas_por_estabelecimento_em_2019"]

In [60]:
# criando a coluna de diferença percentual
df_temp["diferenca_percentual(%)"] = ((df_temp["diferenca_de_vendas"] / df_temp["vendas_por_estabelecimento_em_2019"]) * 100).round(2)

In [61]:
# organizando nossos dados
df_temp = df_temp.sort_values("diferenca_percentual(%)" , ascending=False).head(10)

In [62]:
plota_grafico_de_barras_lateral(df_temp,"restaurante","diferenca_percentual(%)","Restaurantes com maiores crescimentos","darkblue","percentual(%)","")

Muitos dos dados aqui são ligeiramente diferente dos analisados na pergunta anterior , o que nos prova novamente que vendas e crescimento são diferentes

## Conclusões:

De fato com a Pandemia do CoronaVírus em 2020 tivemos muitas mudanças no setor alimentíceo mundial , mas não fora de todo ruim , pudemos ver que muitos restaurantes se adaptaram bem ao momento e continuaram seu crescimento , principalmente restaurantes pequenos.

Notamos também que o conceito de vendas absolutas , vendas por estabelecimentos e crescimento percentual entre os restaurantes