<a href="https://colab.research.google.com/github/TmKelve/Data-analysis/blob/main/Projeto%20Final%20Capstone.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Como a localização afeta o sucesso do seu negócio?

## Tabela de conteúdos
* [Problema comercial](#problema)
* [Dados](#dados)
* [Metodologia](#metodologia)
* [Análise](#análise)
* [Resultados e discussão](#results)
* [Conclusão](#conclusão)

## Problema comercial <a name="problema"></a>

A localização de uma empresa é um elemento fundamental para o seu bom desenvolvimento, podendo ser um dos seus mais importantes **fatores competitivos**. Nesse sentido, uma empresa pode decidir se posicionar perto de seus concorrentes se não puder competir em preços, pois vende um produto homogêneo, ou pode se posicionar a uma certa distância se isso lhe confere algum poder de mercado.

Por esta razão, os proprietários de restaurantes estariam interessados ​​em aceder a um serviço que pudesse fornecer informações adicionais sobre a localização de outros restaurantes na cidade, para que possam tomar uma decisão informada sobre este fator chave. O objetivo desta análise é, portanto, **prever o sucesso de um restaurante com base em sua localização**.

Para isso, vou criar um **sistema de recomendação colaborativo** que permite fazer uma lista para um bairro da cidade de Los Angeles contendo quais restaurantes teriam mais sucesso se abrissem um lá, com base no **categoria do restaurante**.

## Dados <a name="dados"></a>

Para resolver este problema, não só é necessário obter dados sobre a localização dos diferentes restaurantes em uma cidade, mas também adquirir **dados para medir o sucesso dos restaurantes**. Precisamente por isso, além de usarmos dados da **API Fourquare** (para a cidade de Los Angeles, Califórnia), também usaremos dados de **comentários do Google** que os usuários deixam nessas empresas, por meio do uso da **API do Google Maps**. Esses dados de avaliação têm um valor de **1 a 5 estrelas**, em que 1 seria a classificação mais baixa que pode ser atribuída a uma empresa.

A API do Foursquare precisa dos dados de *latitude e longitude* das vizinhanças de destino. Para obter essas informações, usamos a **Google Geocode API**. Feito isso, os dados dos diferentes negócios que existem em cada bairro podem ser obtidos através da API do Foursquare e, finalmente, seus nomes podem ser usados ​​para obter as avaliações que os usuários do Google fizeram sobre o negócio.

### Bairros

Primeiro, é necessário obter dados sobre os diferentes bairros da cidade da Califórnia, para que se possa estabelecer uma área de interesse. Para isso, é necessário obter os dados de latitude e longitude. Vamos ver como esse processo é feito.

Antes de tudo, é necessário obter uma lista com todos os bairros, para a qual usaremos a página correspondente da Wikipedia e o pacote **BeautifulSoup**

In [None]:
soup = BeautifulSoup(html_doc, 'html.parser')
places = []
for link in soup.find_all('a'):
    if "#" in link.get('href') or "index" in link.get('href'):
        pass
    else:
        places.append(link.get('href')[link.get('href').rfind("/")+1:link.get('href').find(",")].replace("_"," "))

In [None]:
import requests
def get_latlng(address):
    try:
        url = "https://maps.googleapis.com/maps/api/geocode/json?address={}&key={}".format(address,API_key)
        results = requests.get(url).json()
        geo_data = results["results"][0]["geometry"]["location"]
        lat,lng = (geo_data["lat"],geo_data["lng"])
        print("{}. Latitud {} y Longitud {}".format(address,lat,lng))
        return address,lat,lng
    except:
        pass

In [None]:
barrios = []
for i in places:
    barrios.append(get_latlng(i))

Adams-Normandie. Latitud 34.0343441 y Longitud -118.2993138
Alsace. Latitud 48.3181795 y Longitud 7.441624099999999
Angelino Heights. Latitud 34.0702889 y Longitud -118.2547965
Angeles Mesa. Latitud 33.9955656 y Longitud -118.3219894
Angelus Vista. Latitud 34.0471577 y Longitud -118.3177106
Arleta. Latitud 34.2504595 y Longitud -118.4338345
Arlington Heights. Latitud 42.0883603 y Longitud -87.98062650000001
Arts District. Latitud 34.0418947 y Longitud -118.2326448
Atwater Village. Latitud 34.1183176 y Longitud -118.2605846
Baldwin Hills. Latitud 34.0181993 y Longitud -118.3403506
Crenshaw. Latitud 34.0181993 y Longitud -118.3403506
Baldwin Village. Latitud 34.0150915 y Longitud -118.3476559
Baldwin Vista. Latitud 34.0134562 y Longitud -118.3627367
Beachwood Canyon. Latitud 34.1188801 y Longitud -118.3215322
Bel Air. Latitud 34.1002455 y Longitud -118.459463
Benedict Canyon. Latitud 34.0939284 y Longitud -118.4324553
Beverly Crest. Latitud 34.1012952 y Longitud -118.4162542
Beverly Glen

In [None]:
barrios = [i for i in barrios if i is not None]
barrios

[('Adams-Normandie', 34.0343441, -118.2993138),
 ('Alsace', 48.3181795, 7.441624099999999),
 ('Angelino Heights', 34.0702889, -118.2547965),
 ('Angeles Mesa', 33.9955656, -118.3219894),
 ('Angelus Vista', 34.0471577, -118.3177106),
 ('Arleta', 34.2504595, -118.4338345),
 ('Arlington Heights', 42.0883603, -87.98062650000001),
 ('Arts District', 34.0418947, -118.2326448),
 ('Atwater Village', 34.1183176, -118.2605846),
 ('Baldwin Hills', 34.0181993, -118.3403506),
 ('Crenshaw', 34.0181993, -118.3403506),
 ('Baldwin Village', 34.0150915, -118.3476559),
 ('Baldwin Vista', 34.0134562, -118.3627367),
 ('Beachwood Canyon', 34.1188801, -118.3215322),
 ('Bel Air', 34.1002455, -118.459463),
 ('Benedict Canyon', 34.0939284, -118.4324553),
 ('Beverly Crest', 34.1012952, -118.4162542),
 ('Beverly Glen', 34.1077162, -118.442596),
 ('Beverly Grove', 34.0734732, -118.3765717),
 ('Beverly Hills Post Offic', 34.0691217, -118.4067693),
 ('Beverly Park', 34.1177924, -118.4177707),
 ('Beverlywood', 34.0494

In [None]:
import pandas as pd
location_data = pd.DataFrame(data = barrios, columns = ["Neighborhood","Latitude","Longitude"])
location_data["Neighborhood"] = [i[:i.find(",")] for i in list(location_data["Neighborhood"].values)]
location_data.head()

Unnamed: 0,Neighborhood,Latitude,Longitude
0,Adams-Normandi,34.034344,-118.299314
1,Alsac,48.318179,7.441624
2,Angelino Height,34.070289,-118.254796
3,Angeles Mes,33.995566,-118.321989
4,Angelus Vist,34.047158,-118.317711


Uma vez obtidos os dados de latitude e longitude dos diferentes bairros, é interessante visualizá-los no mapa.

In [None]:
import folium
la_map = folium.Map(location = [34.052235, -118.243683],zoom_start = 10)
for barrio in barrios:
    name,lat,long = barrio
    folium.Circle(location = [lat,long], popup = name, radius = 500, color = "blue", fill = True).add_to(la_map)

la_map


Agora é a hora de usar esses dados para obter os restaurantes localizados nos diferentes bairros de Los Angeles. Para fazer isso, usamos a API Foursquare.

In [None]:
import json
def getNearbyrestaurants(names, latitudes, longitudes, radius=500):
    
    restaurants_list=[]
    for name, lat, lng in zip(names, latitudes, longitudes):
        print(name, lat, lng)
            
        # crear la URL de solicitud de API
        url = "https://api.foursquare.com/v3/places/search?ll={}%2C{}&radius={}&limit=50".format(lat, lng, radius)

        headers = {
            "Accept": "application/json",
            "Authorization": API_Key_FS
                }

        response = requests.get(url, headers=headers)
        results = json.loads(response.text)["results"]
        # regresa solo información relevante de cada sitio cercano
        restaurants_list.append([(
            name, 
            lat, 
            lng, 
            v['name'], 
            v['geocodes']['main']['latitude'], 
            v['geocodes']['main']['longitude'],  
            v['categories'][0]['name']) for v in results if len(v['categories'])>0 and len(v['geocodes'])>0])

    nearby_restaurants = pd.DataFrame([item for venue_list in restaurants_list for item in venue_list])
    nearby_restaurants.columns = ['Neighborhood', 
                  'Neighborhood Latitude', 
                  'Neighborhood Longitude', 
                  'Venue', 
                  'Venue Latitude', 
                  'Venue Longitude', 
                  'Venue Category']
    
    return(nearby_restaurants)

In [None]:
la_restaurants = getNearbyrestaurants(location_data["Neighborhood"], location_data["Latitude"], location_data["Longitude"])

Adams-Normandi 34.0343441 -118.2993138
Alsac 48.3181795 7.441624099999999
Angelino Height 34.0702889 -118.2547965
Angeles Mes 33.9955656 -118.3219894
Angelus Vist 34.0471577 -118.3177106
Arlet 34.2504595 -118.4338345
Arlington Height 42.0883603 -87.98062650000001
Arts Distric 34.0418947 -118.2326448
Atwater Villag 34.1183176 -118.2605846
Baldwin Hill 34.0181993 -118.3403506
Crensha 34.0181993 -118.3403506
Baldwin Villag 34.0150915 -118.3476559
Baldwin Vist 34.0134562 -118.3627367
Beachwood Canyo 34.1188801 -118.3215322
Bel Ai 34.1002455 -118.459463
Benedict Canyo 34.0939284 -118.4324553
Beverly Cres 34.1012952 -118.4162542
Beverly Gle 34.1077162 -118.442596
Beverly Grov 34.0734732 -118.3765717
Beverly Hills Post Offi 34.0691217 -118.4067693
Beverly Par 34.1177924 -118.4177707
Beverlywoo 34.0494132 -118.3952319
Boyle Height 34.0297895 -118.2117257
Brentwoo 34.0521011 -118.4732464
Brentwood Circl 34.0717832 -118.4710675
Brentwood Gle 34.0655045 -118.4626788
Brooksid 39.0222212 -94.585014

In [None]:
la_restaurants.head()

Unnamed: 0,Neighborhood,Neighborhood Latitude,Neighborhood Longitude,Venue,Venue Latitude,Venue Longitude,Venue Category
0,Adams-Normandi,34.034344,-118.299314,Orange Door Sushi,34.03255,-118.299437,Sushi Restaurant
1,Adams-Normandi,34.034344,-118.299314,South Shore Barbers,34.033941,-118.298332,Health and Beauty Service
2,Adams-Normandi,34.034344,-118.299314,El Paseo,34.035435,-118.29911,Park
3,Adams-Normandi,34.034344,-118.299314,Master Works Painting,34.034762,-118.300045,Painter
4,Adams-Normandi,34.034344,-118.299314,Sushi Delight,34.032483,-118.299436,Sushi Restaurant


Uma vez obtidos esses dados, é necessário limpá-los para obter um banco de dados onde permanecem apenas os restaurantes.

In [None]:
la_restaurants["Venue Category"].unique()

array(['Sushi Restaurant', 'Health and Beauty Service', 'Park', 'Painter',
       'Latin American Restaurant', 'Organization', 'Credit Union',
       'Fast Food Restaurant', 'Plumber', 'Automotive Repair Shop',
       'Equipment Rental Service', 'Shoe Store', 'Electronics Store',
       'Laundromat', 'Butcher', 'Ramen Restaurant',
       'Chemicals and Gasses Manufacturer', 'Repair Service',
       'Sports and Recreation', 'Hair Salon',
       'Business and Professional Services',
       'Business and Strategy Consulting Office',
       'Shipping, Freight, and Material Transportation Service', 'Garden',
       'Gift Store', 'Gourmet Store', 'Grocery Store / Supermarket',
       'Beer Garden', 'Dance Studio', 'Flower Store', 'Garden Center',
       'Carpet and Flooring Contractor',
       'Electric Vehicle Charging Station', 'Retail', 'Martial Arts Dojo',
       'Historic and Protected Site', 'Health and Medicine',
       'Performing Arts Venue', 'Monument', 'General Contractor',
      

In [None]:
restaurants = [i for i in list(la_restaurants["Venue Category"].unique()) if 'Restaurant' in i or 'Burger' in i or 'Pizz' in i or 'Hot Dog' in i or 'BBQ' in i]
code = ""
for i in restaurants:
    code+="(la_restaurants['Venue Category']=='{}')|".format(i)
print(code)

(la_restaurants['Venue Category']=='Sushi Restaurant')|(la_restaurants['Venue Category']=='Latin American Restaurant')|(la_restaurants['Venue Category']=='Fast Food Restaurant')|(la_restaurants['Venue Category']=='Ramen Restaurant')|(la_restaurants['Venue Category']=='Taco Restaurant')|(la_restaurants['Venue Category']=='Restaurant')|(la_restaurants['Venue Category']=='Asian Restaurant')|(la_restaurants['Venue Category']=='Pizzeria')|(la_restaurants['Venue Category']=='Seafood Restaurant')|(la_restaurants['Venue Category']=='Mexican Restaurant')|(la_restaurants['Venue Category']=='Burger Joint')|(la_restaurants['Venue Category']=='Cajun / Creole Restaurant')|(la_restaurants['Venue Category']=='Salad Restaurant')|(la_restaurants['Venue Category']=='Thai Restaurant')|(la_restaurants['Venue Category']=='American Restaurant')|(la_restaurants['Venue Category']=='Italian Restaurant')|(la_restaurants['Venue Category']=='Vegan and Vegetarian Restaurant')|(la_restaurants['Venue Category']=='Chi

In [None]:
la_restaurants = la_restaurants[(la_restaurants['Venue Category']=='Sushi Restaurant')|(la_restaurants['Venue Category']=='Latin American Restaurant')|(la_restaurants['Venue Category']=='Fast Food Restaurant')|(la_restaurants['Venue Category']=='Ramen Restaurant')|(la_restaurants['Venue Category']=='Taco Restaurant')|(la_restaurants['Venue Category']=='Restaurant')|(la_restaurants['Venue Category']=='Asian Restaurant')|(la_restaurants['Venue Category']=='Pizzeria')|(la_restaurants['Venue Category']=='Seafood Restaurant')|(la_restaurants['Venue Category']=='Mexican Restaurant')|(la_restaurants['Venue Category']=='Burger Joint')|(la_restaurants['Venue Category']=='Cajun / Creole Restaurant')|(la_restaurants['Venue Category']=='Salad Restaurant')|(la_restaurants['Venue Category']=='Thai Restaurant')|(la_restaurants['Venue Category']=='American Restaurant')|(la_restaurants['Venue Category']=='Italian Restaurant')|(la_restaurants['Venue Category']=='Vegan and Vegetarian Restaurant')|(la_restaurants['Venue Category']=='Chinese Restaurant')|(la_restaurants['Venue Category']=='Caribbean Restaurant')|(la_restaurants['Venue Category']=='Mediterranean Restaurant')|(la_restaurants['Venue Category']=='Vietnamese Restaurant')|(la_restaurants['Venue Category']=='Hot Dog Joint')|(la_restaurants['Venue Category']=='BBQ Joint')|(la_restaurants['Venue Category']=='Southern / Soul Food Restaurant')|(la_restaurants['Venue Category']=='Greek Restaurant')|(la_restaurants['Venue Category']=='Sandwich Restaurant')|(la_restaurants['Venue Category']=='Indian Restaurant')|(la_restaurants['Venue Category']=='Hotpot Restaurant')|(la_restaurants['Venue Category']=='Japanese Restaurant')|(la_restaurants['Venue Category']=='African Restaurant')|(la_restaurants['Venue Category']=='Ethiopian Restaurant')|(la_restaurants['Venue Category']=='Poke Restaurant')|(la_restaurants['Venue Category']=='Salvadoran Restaurant')|(la_restaurants['Venue Category']=='French Restaurant')|(la_restaurants['Venue Category']=='New American Restaurant')|(la_restaurants['Venue Category']=='Korean Restaurant')|(la_restaurants['Venue Category']=='Peruvian Restaurant')|(la_restaurants['Venue Category']=='Lebanese Restaurant')|(la_restaurants['Venue Category']=='Burrito Restaurant')|(la_restaurants['Venue Category']=='Middle Eastern Restaurant')|(la_restaurants['Venue Category']=='Tex-Mex Restaurant')|(la_restaurants['Venue Category']=='Falafel Restaurant')|(la_restaurants['Venue Category']=='Kosher Restaurant')|(la_restaurants['Venue Category']=='Halal Restaurant')|(la_restaurants['Venue Category']=='Tuscan Restaurant')|(la_restaurants['Venue Category']=='Brazilian Restaurant')|(la_restaurants['Venue Category']=='Filipino Restaurant')|(la_restaurants['Venue Category']=='Caucasian Restaurant')|(la_restaurants['Venue Category']=='Argentinian Restaurant')|(la_restaurants['Venue Category']=='Bangladeshi Restaurant')|(la_restaurants['Venue Category']=='Soup Restaurant')|(la_restaurants['Venue Category']=='Colombian Restaurant')|(la_restaurants['Venue Category']=='Dim Sum Restaurant')|(la_restaurants['Venue Category']=='Cantonese Restaurant')|(la_restaurants['Venue Category']=='Noodle Restaurant')|(la_restaurants['Venue Category']=='Cuban Restaurant')|(la_restaurants['Venue Category']=='Hawaiian Restaurant')|(la_restaurants['Venue Category']=='Armenian Restaurant')|(la_restaurants['Venue Category']=='South American Restaurant')|(la_restaurants['Venue Category']=='Szechuan Restaurant')]

In [None]:
la_restaurants.head()

Unnamed: 0,Neighborhood,Neighborhood Latitude,Neighborhood Longitude,Venue,Venue Latitude,Venue Longitude,Venue Category
0,Adams-Normandi,34.034344,-118.299314,Orange Door Sushi,34.03255,-118.299437,Sushi Restaurant
4,Adams-Normandi,34.034344,-118.299314,Sushi Delight,34.032483,-118.299436,Sushi Restaurant
9,Adams-Normandi,34.034344,-118.299314,La Estrella Mexican Food,34.033002,-118.301072,Fast Food Restaurant
17,Adams-Normandi,34.034344,-118.299314,Orange Sekai Ramen,34.032519,-118.299366,Ramen Restaurant
20,Adams-Normandi,34.034344,-118.299314,Lago De Guija,34.032538,-118.2988,Fast Food Restaurant



Feito isso, a etapa final é combinar esses dados com os da API do Google Maps para obter as avaliações do restaurante.

In [None]:
!pip install googlemaps



In [None]:
import googlemaps
gmaps = googlemaps.Client(key=API_Key_Google)

In [None]:
lista = []

In [None]:
import numpy as np
from tqdm import tqdm
mean_reviews = []
for restaurant in tqdm(list(la_restaurants.Venue.values)):
    if restaurant not in lista:
        try:
            place_details = gmaps.places(restaurant)
            place = gmaps.place(place_details['results'][0]['place_id'])
            reviews = []
            for i in place['result']['reviews']:
                reviews.append(i["rating"])
            mean_reviews.append(np.mean(reviews))
        except:
            lista.append(restaurant)
            pass
    else:
        pass

100%|██████████| 1284/1284 [16:25<00:00,  1.30it/s]


In [None]:
la_restaurants = la_restaurants[la_restaurants.Venue.isin(lista) == False]

In [None]:
la_restaurants["Mean Review"] = mean_reviews


Seria interessante observar isso em um mapa para cada bairro

In [None]:
from IPython.display import display
for neighborhood in la_restaurants.Neighborhood.unique():
    n = la_restaurants[la_restaurants.Neighborhood == neighborhood]
    n_map = folium.Map(location = [n["Neighborhood Latitude"].values[0],n["Neighborhood Longitude"].values[0]],zoom_start = 16)
    for row in n.iterrows():
        row = row[1]
        name = row["Venue"]+", "+row["Venue Category"]+", "+str(row["Mean Review"])
        folium.Marker(location = [row["Venue Latitude"],row["Venue Longitude"]], popup = name).add_to(n_map)
        n_map.add_child(folium.ClickForMarker(popup=name))
    display(n_map)

O último passo é obter uma série de comentários. Isso nos permitirá, na próxima seção, desenvolver um sistema de recomendação de filtragem colaborativa. Para isso, é necessário ter um banco de dados onde, para cada *usuário*, neste caso, os bairros, você tenha as informações
sobre quais restaurantes existem na área e a nota que eles têm. Como as classificações variam de 1 a 5, um 0 indica que esse tipo de restaurante não está na área.

In [None]:
la_onehot = pd.get_dummies(la_restaurants[['Venue Category']], prefix="", prefix_sep="")
la_onehot["Mean Review"] = la_restaurants["Mean Review"]
la_onehot['Neighborhood'] = la_restaurants['Neighborhood']
fixed_columns = [la_onehot.columns[-1]] + list(la_onehot.columns[:-1])
la_onehot = la_onehot[fixed_columns]
la_onehot.head()

Unnamed: 0,Neighborhood,African Restaurant,American Restaurant,Argentinian Restaurant,Armenian Restaurant,Asian Restaurant,BBQ Joint,Bangladeshi Restaurant,Brazilian Restaurant,Burger Joint,...,Southern / Soul Food Restaurant,Sushi Restaurant,Szechuan Restaurant,Taco Restaurant,Tex-Mex Restaurant,Thai Restaurant,Tuscan Restaurant,Vegan and Vegetarian Restaurant,Vietnamese Restaurant,Mean Review
0,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,2.8
4,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,2.2
5,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,4.6
9,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,4.6
17,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,4.2


In [None]:
la_grouped = la_onehot.groupby('Neighborhood').sum().reset_index()
la_grouped

Unnamed: 0,Neighborhood,African Restaurant,American Restaurant,Argentinian Restaurant,Armenian Restaurant,Asian Restaurant,BBQ Joint,Bangladeshi Restaurant,Brazilian Restaurant,Burger Joint,...,Southern / Soul Food Restaurant,Sushi Restaurant,Szechuan Restaurant,Taco Restaurant,Tex-Mex Restaurant,Thai Restaurant,Tuscan Restaurant,Vegan and Vegetarian Restaurant,Vietnamese Restaurant,Mean Review
0,Adams-Normandi,0,0,0,0,0,0,0,0,0,...,0,2,0,0,0,0,0,0,0,27.4
1,Angeles Mes,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,4.8
2,Angelino Height,0,0,0,0,1,0,0,0,0,...,0,0,0,1,0,0,0,0,0,22.6
3,Angelus Vist,0,0,0,0,1,0,0,0,2,...,0,0,0,1,0,0,0,0,0,42.8
4,Arlington Height,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
144,Wilshire Cente,0,1,0,0,2,5,0,0,1,...,0,0,0,0,0,1,0,0,0,103.6
145,Wilshire Vist,0,2,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,17.0
146,Winnetk,0,3,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,26.8
147,Woodland Hill,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,9.4


In [None]:
df_reviews = pd.DataFrame(columns = ["Neighborhood","Category","Mean Review"]) 
for neighborhood in la_onehot.Neighborhood.unique():
    n_data = la_onehot[la_onehot.Neighborhood == neighborhood]
    for category in la_grouped.columns[1:]:
        n_values = [neighborhood]
        n_values.append(category)
        reviews = la_restaurants[(la_restaurants.Neighborhood == neighborhood)&(la_restaurants["Venue Category"] == category)]["Mean Review"].values
        if la_grouped[la_grouped.Neighborhood == neighborhood][category].values[0] != 0:
            mean_review = np.sum(reviews)/la_grouped[la_grouped.Neighborhood == neighborhood][category].values[0]
        else:
            mean_review = 0
        n_values.append(mean_review)
        df_reviews.loc[len(df_reviews.index)] = n_values
df_reviews = df_reviews[df_reviews["Mean Review"] != 0]
df_reviews.reset_index(inplace = True)
df_reviews.drop("index",axis = 1,inplace = True)
df_reviews

Unnamed: 0,Neighborhood,Category,Mean Review
0,Adams-Normandi,Fast Food Restaurant,4.3
1,Adams-Normandi,Latin American Restaurant,4.8
2,Adams-Normandi,Ramen Restaurant,4.2
3,Adams-Normandi,Sushi Restaurant,2.5
4,Angelino Height,Asian Restaurant,3.6
...,...,...,...
819,Yucca Corrido,Indian Restaurant,3.4
820,Yucca Corrido,Mexican Restaurant,4.6
821,Yucca Corrido,Pizzeria,4.3
822,Yucca Corrido,Restaurant,5.0


In [None]:
sorted(list(df_reviews.Neighborhood.unique()))

['Adams-Normandi',
 'Angeles Mes',
 'Angelino Height',
 'Angelus Vist',
 'Arlington Height',
 'Arts Distric',
 'Atwater Villag',
 'Baldwin Hill',
 'Baldwin Villag',
 'Beachwood Canyo',
 'Beverly Grov',
 'Beverly Hills Post Offi',
 'Boyle Height',
 'Brentwoo',
 'Brentwood Circl',
 'Bunker Hil',
 'Byzantine-Latino Quarte',
 'Canoga Par',
 'Cartha',
 'Carthay Circl',
 'Castle Height',
 'Central-Alamed',
 'Century Cit',
 'Civic Cente',
 'Country Club Par',
 'Crensha',
 'Crenshaw Mano',
 'Crestvie',
 'Cypress Par',
 'Del Re',
 'Downtown Los Angel',
 'Eagle Roc',
 'East Hollywoo',
 'Echo Par',
 'Edendal',
 'El Seren',
 'Elysian Height',
 'Elysian Valle',
 'Exposition Par',
 'Faircrest Height',
 'Fairfax Distric',
 'Fashion Distric',
 'Financial Distric',
 'Florenc',
 'Franklin Hill',
 'Gallery Ro',
 'Garvanz',
 'Glassell Par',
 'Gramercy Par',
 'Hancock Par',
 'Harbor Cit',
 'Harbor Gatewa',
 'Harvard Height',
 'Harvard Par',
 'Highland Par',
 'Historic Cor',
 'Historic Filipinotow',
 'Histo

É necessário separar os dados entre o *usuário ativo*, que neste caso será o bairro de Los Ágeles Oeste, e os demais *usuários*, que são os que permitem avaliar a filtragem colaborativa. Este caso é a título de exemplo, e esta análise pode ser replicada para qualquer bairro de interesse, não apenas para o escolhido nesta ocasião.

In [None]:
inputRest = df_reviews[df_reviews.Neighborhood == "West Los Angel"]
df_reviews = df_reviews[df_reviews.Neighborhood != "West Los Angel"]

In [None]:
inputRest

Unnamed: 0,Neighborhood,Category,Mean Review
759,West Los Angel,Asian Restaurant,3.633333
760,West Los Angel,BBQ Joint,5.0
761,West Los Angel,Burger Joint,4.733333
762,West Los Angel,Japanese Restaurant,3.8
763,West Los Angel,Korean Restaurant,4.6
764,West Los Angel,Ramen Restaurant,4.2
765,West Los Angel,Restaurant,4.2
766,West Los Angel,Sushi Restaurant,4.0
767,West Los Angel,Szechuan Restaurant,4.8
768,West Los Angel,Taco Restaurant,5.0


## Metodologia <a name="metodologia"></a>

Antes de elaborar o sistema de recomendação, seria interessante entender o que é. Nesse sentido, podemos defini-los como uma coleção de algoritmos usados ​​para sugerir tópicos aos usuários, com base em informações retiradas do ponto de vista do usuário.

Neste caso específico, a ideia é encontrar *usuários*, neste situação, os bairros, que tenham preferências e opiniões semelhantes, assim, sobre os tipos de restaurantes, e então recomendar itens semelhantes ao da entrada anterior . Existem diferentes métodos para encontrar os diferentes bairros que são semelhantes entre si. Neste caso, o método que vamos utilizar será baseado na **Função de Correlação de Pearson**.

Como definimos anteriormente quem será o *usuário ativo*, resta realizar os seguintes passos:
* Encontrar os primeiros X bairros semelhantes com base nas pontuações da categoria do restaurante.
* Obter o cadastro da categoria do restaurante que “valorizou” o bairro para cada bairro.
* Calcular uma pontuação de similaridade usando alguma fórmula.
* Recomendar as categorias de restaurantes com as maiores pontuações.

Vamos começar com o primeiro passo.

In [None]:
df_group = df_reviews.groupby("Neighborhood")
df_group = sorted(df_group, key = lambda x: len(x[1]), reverse = True)
df_group

[('Sherman Oak',
      Neighborhood                   Category Mean Review
  592  Sherman Oak        American Restaurant         4.4
  593  Sherman Oak                  BBQ Joint         4.2
  594  Sherman Oak               Burger Joint         3.8
  595  Sherman Oak         Chinese Restaurant         3.0
  596  Sherman Oak       Fast Food Restaurant         4.4
  597  Sherman Oak           Greek Restaurant         4.2
  598  Sherman Oak          Indian Restaurant         4.8
  599  Sherman Oak  Middle Eastern Restaurant         4.2
  600  Sherman Oak                   Pizzeria         4.5
  601  Sherman Oak           Ramen Restaurant         5.0
  602  Sherman Oak                 Restaurant         4.8
  603  Sherman Oak           Sushi Restaurant         4.8
  604  Sherman Oak            Thai Restaurant         4.8),
 ('Carthay Circl',
        Neighborhood                  Category Mean Review
  92   Carthay Circl        African Restaurant    4.333333
  93   Carthay Circl            

Feito isso, é necessário encontrar a semelhança entre a vizinhança escolhida e aquelas que compõem o grupo, para isso, como já indicado, é utilizado o **Coeficiente de Correlação de Pearson**. Este coeficiente é usado para medir a força de uma associação linear entre duas variáveis. A fórmula para encontrar esse coeficiente entre os conjuntos X e Y com os valores de N pode ser vista na imagem abaixo:

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd1ccc2979b0fd1c1aec96e386f686ae874f9ec0 "Correlación Pearson")

Os valores dados pela fórmula podem variar de r = -1 a r = 1, onde 1 se correlaciona diretamente entre as duas entidades (isso seria uma correlação positiva perfeita) e -1 forma uma correlação negativa perfeita.

No nosso caso, 1 significa que dois usuários têm gostos semelhantes, enquanto -1 é o oposto.

Agora, vamos calcular a Correlação de Pearson entre a vizinhança escolhida e o grupo, para armazená-la no dicionário, onde a chave é o nome da vizinhança e o valor é o coeficiente de correlação.

In [None]:
from math import sqrt
pearsonCorrelationDict = {}

for name,group in df_group:
    group.sort_values(by="Category")
    inputRest.sort_values(by="Category")
    nRatings = len(group)
    temp_df = inputRest[inputRest['Category'].isin(group['Category'].tolist())]
    tempRatingList = temp_df['Mean Review'].tolist()
    tempGroupList = group['Mean Review'].tolist()
    Sxx = sum([i**2 for i in tempRatingList]) - pow(sum(tempRatingList),2)/float(nRatings)
    Syy = sum([i**2 for i in tempGroupList]) - pow(sum(tempGroupList),2)/float(nRatings)
    Sxy = sum( i*j for i, j in zip(tempRatingList, tempGroupList)) - sum(tempRatingList)*sum(tempGroupList)/float(nRatings)
    if Sxx != 0 and Syy != 0 and Sxx*Syy > 0:
        pearsonCorrelationDict[name] = round(Sxy/sqrt(Sxx*Syy),2)
    else:
        pearsonCorrelationDict[name] = 0

In [None]:
pearsonCorrelationDict.items()

dict_items([('Sherman Oak', -0.61), ('Carthay Circl', -0.09), ('Pico-Roberts', 0.48), ('Beverly Grov', 0.17), ('Echo Par', -0.49), ('Wilshire Cente', -0.03), ('Atwater Villag', -0.44), ('Country Club Par', 0.12), ('Edendal', -0.12), ('Jewelry District (Los Angele', -0.51), ('Koreatow', 0.27), ('Little Banglades', -0.21), ('Naud Junction (Los Angele', 0.27), ('Sonorato', -0.03), ('Westwood Villag', 0.22), ('Exposition Par', 0.16), ('Fairfax Distric', -0.06), ('Financial Distric', 0.16), ('Hollywoo', -0.26), ('Lake Balbo', 0.12), ('Little Toky', 0.06), ('Melrose Hil', -0.14), ('Toy Distric', 0.18), ('Victor Height', -0.37), ('Westwoo', 0.32), ('Angelus Vist', 0.25), ('Cartha', 0.2), ('Eagle Roc', -0.32), ('Fashion Distric', -0.42), ('Harbor Cit', -0.37), ('Historic Cor', 0.03), ('Mid-City Wes', 0.03), ('Mid-Wilshir', 0.13), ('Northridg', -0.13), ('Old Bank Distric', 0.25), ('Palm', 0.21), ('Pico-Unio', -0.43), ('University Hill', -0.32), ('West Adams Height', -0.76), ('Yucca Corrido', -0

In [None]:
pearsonDF = pd.DataFrame.from_dict(pearsonCorrelationDict, orient='index')
pearsonDF.columns = ['similarityIndex']
pearsonDF['Neighborhood'] = pearsonDF.index
pearsonDF.index = range(len(pearsonDF))
pearsonDF.head()

Unnamed: 0,similarityIndex,Neighborhood
0,-0.61,Sherman Oak
1,-0.09,Carthay Circl
2,0.48,Pico-Roberts
3,0.17,Beverly Grov
4,-0.49,Echo Par


In [None]:
topN=pearsonDF.sort_values(by='similarityIndex', ascending=False)
topN.head()

Unnamed: 0,similarityIndex,Neighborhood
124,1.0,El Seren
129,1.0,Venic
115,1.0,Vermont Squar
125,1.0,Harbor Gatewa
127,1.0,Lafayette Squar


## Análise <a name="análise"></a>


Agora, é hora de recomendar quais restaurantes devem abrir com base na categoria. Para fazer isso, tomaremos o peso médio das classificações das categorias de restaurantes usando a Correlação de Pearson. Mas, para fazer isso, primeiro precisamos que os bairros vejam as categorias em nosso **pearsonDF** a partir do dataframe de pontuações e, em seguida, salve a correlação em uma nova coluna chamada \_similarityIndex. Isso é feito juntando as duas tabelas abaixo.

In [None]:
topNRating=topN.merge(df_reviews, on='Neighborhood')
topNRating.head()

Unnamed: 0,similarityIndex,Neighborhood,Category,Mean Review
0,1.0,El Seren,Mexican Restaurant,5.0
1,1.0,El Seren,Taco Restaurant,4.2
2,1.0,Venic,Fast Food Restaurant,3.4
3,1.0,Venic,Restaurant,3.1
4,1.0,Vermont Squar,Burger Joint,3.8


Agora tudo que é preciso fazer é multiplicar a pontuação da categoria pelo seu peso (o índice de similaridade), então somar as novas pontuações e dividir pela soma dos pesos.

Isso é obtido simplesmente multiplicando duas colunas, agrupando o dataframe pela coluna Categoria e dividindo duas colunas:

Aqui está a ideia de todos os usuários semelhantes em relação às categorias de restaurantes candidatos para o usuário inserido:

In [None]:
topNRating['weightedRating'] = topNRating['similarityIndex']*topNRating['Mean Review']
topNRating.head()

Unnamed: 0,similarityIndex,Neighborhood,Category,Mean Review,weightedRating
0,1.0,El Seren,Mexican Restaurant,5.0,5.0
1,1.0,El Seren,Taco Restaurant,4.2,4.2
2,1.0,Venic,Fast Food Restaurant,3.4,3.4
3,1.0,Venic,Restaurant,3.1,3.1
4,1.0,Vermont Squar,Burger Joint,3.8,3.8


In [None]:
tempTopNRating = topNRating.groupby('Category').agg({'similarityIndex':"sum",'weightedRating':"sum"})
tempTopNRating.columns = ['sum_similarityIndex','sum_weightedRating']
tempTopNRating.head()

Unnamed: 0_level_0,sum_similarityIndex,sum_weightedRating
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
African Restaurant,0.11,0.501429
American Restaurant,-2.45,-6.070667
Argentinian Restaurant,0.69,3.098
Armenian Restaurant,0.18,0.756
Asian Restaurant,-1.6,-0.0854


In [None]:
recommendation_df = pd.DataFrame()
recommendation_df['weighted average recommendation score'] = tempTopNRating['sum_weightedRating']/tempTopNRating['sum_similarityIndex']
recommendation_df['Category'] = tempTopNRating.index
recommendation_df.head()

Unnamed: 0_level_0,weighted average recommendation score,Category
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
African Restaurant,4.558442,African Restaurant
American Restaurant,2.477823,American Restaurant
Argentinian Restaurant,4.489855,Argentinian Restaurant
Armenian Restaurant,4.2,Armenian Restaurant
Asian Restaurant,0.053375,Asian Restaurant


## Resultados e discussão <a name="resultados"></a>

Por fim, aqui podemos ver as categorias de restaurantes ordenadas de acordo com sua pontuação.

In [None]:
recommendation_df = recommendation_df.sort_values(by='weighted average recommendation score', ascending=False)
recommendation_df.head(10)

Unnamed: 0_level_0,weighted average recommendation score,Category
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
Burger Joint,22.134043,Burger Joint
Indian Restaurant,8.182609,Indian Restaurant
Sushi Restaurant,6.417497,Sushi Restaurant
Taco Restaurant,5.82037,Taco Restaurant
Thai Restaurant,5.456878,Thai Restaurant
Sandwich Restaurant,5.369811,Sandwich Restaurant
Mexican Restaurant,5.291489,Mexican Restaurant
French Restaurant,5.185185,French Restaurant
Restaurant,5.175276,Restaurant
Cuban Restaurant,5.0,Cuban Restaurant


## Conclusão <a name="conclusão"></a>

Como você pode ver, graças a esse sistema de recomendação, uma pessoa interessada em abrir um restaurante no bairro West Los Angeles poderia conhecer quais tipos de restaurante poderiam funcionar melhor naquele local, neste caso, uma rede de hambúrgueres seria a primeiro opção.

Essa análise pode ser estendida a qualquer outro bairro da cidade de Los Angeles ou país, permitindo assim que as pessoas que desejam abrir um restaurante entendam não apenas quais tipos de restaurantes podem funcionar melhor com base na localização, mas também entendam qual localização é a melhor para abrir um certo tipo de restaurante.



>              Tom Kelve Santos de Medeiros - Data Science
>              ________________*01/09/2022*_______________





  

