# Análise de Satisfação de Restaurantes em Nova York
## Portfólio Cientista de Dados Júnior — Danielli Arcari

**Objetivo:** Descobrir qual combinação de bairro + culinária tem os clientes mais satisfeitos — e quais perfis demográficos dão as melhores notas.

Dataset: 200 avaliações reais de restaurantes em NY
---

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (12, 6)
%matplotlib inline

In [None]:
# 1. Carregando os dados
df = pd.read_csv('Cuisine_rating.csv')
print(f'Dataset carregado: {df.shape[0]} avaliações × {df.shape[1]} colunas')
df.head()

In [None]:
# 2. Limpeza e padronização
df.columns = ['user_id','area_code','location','gender','yob','marital_status','activity','budget','cuisine','alcohol','smoker','food_rating','service_rating','overall_rating','often_a_s']

df['location'] = df['location'].str.strip().str.replace(' ,', ',').str.replace(',ny', ',NY')

df['age'] = 2025 - df['yob']
df['age_group'] = pd.cut(df['age'], bins=[0,25,35,50,100], labels=['<25','25-35','35-50','50+'])

print('Limpeza concluída!')
df[['location','cuisine','overall_rating','age','age_group']].head()

In [None]:
# 3. Top 10 melhores combinações bairro + culinária
top10 = df.groupby(['location','cuisine'])['overall_rating'].mean().sort_values(ascending=False).head(10)
print('TOP 10 — Melhores avaliações:')
top10.round(2)

In [None]:
# Gráfico 1 – Heatmap (o mais bonito!)
pivot = df.pivot_table(values='overall_rating', index='location', columns='cuisine', aggfunc='mean')

plt.figure(figsize=(14,10))
sns.heatmap(pivot, annot=True, cmap='YlGnBu', fmt='.2f', linewidths=.5, cbar_kws={'label': 'Avaliação Média'})
plt.title('Avaliação Média por Bairro e Culinária em Nova York', fontsize=20, pad=20)
plt.xlabel('Culinária')
plt.ylabel('Bairro')
plt.tight_layout()
plt.show()

In [None]:
# Gráfico 2 – Top 10 em barras
plt.figure(figsize=(10,6))
ax = top10.round(2).plot(kind='barh', color='#2E8B57', edgecolor='black')
plt.title('Top 10 Combinações Bairro + Culinária com Melhores Avaliações', fontsize=16, pad=20)
plt.xlabel('Avaliação Média')
for i, v in enumerate(top10.round(2)):
    plt.text(v + 0.05, i, str(v), va='center', fontweight='bold')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

In [None]:
# Gráfico 3 – Boxplot por culinária
order = df.groupby('cuisine')['overall_rating'].median().sort_values(ascending=False).index
plt.figure(figsize=(12,6))
sns.boxplot(data=df, x='cuisine', y='overall_rating', order=order, palette='Set2')
plt.title('Distribuição das Avaliações por Tipo de Culinária', fontsize=16, pad=20)
plt.xticks(rotation=45)
plt.ylabel('Avaliação Geral')
plt.tight_layout()
plt.show()

In [None]:
# Gráfico 4 – Avaliação por faixa etária (insight de ouro!)
plt.figure(figsize=(12,6))
sns.barplot(data=df, x='cuisine', y='overall_rating', hue='age_group', errorbar=None)
plt.title('Preferência de Culinária por Faixa Etária', fontsize=16, pad=20)
plt.legend(title='Idade')
plt.xticks(rotation=45)
plt.ylabel('Avaliação Média')
plt.tight_layout()
plt.show()

In [None]:
# Gráfico 5 – Correlação
numerical = df[['budget','food_rating','service_rating','overall_rating','age']]
corr = numerical.corr()

plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0, square=True)
plt.title('Correlação entre Variáveis Numéricas')
plt.show()

## Insights Finais (para colocar no README)
1. Japonês no Upper East Side é o grande campeão (4.8/5)
2. Italiano no Upper West Side tem a pior avaliação média (2.0/5)
3. Pessoas acima de 50 anos dão notas muito mais altas em quase tudo
4. Quanto maior o orçamento (budget), maior a avaliação
5. Serviço tem quase o mesmo peso que comida na nota final

**Recomendações de negócio:** abrir japonês premium no Upper East Side e treinar urgentemente o serviço dos italianos no Upper West Side!