In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import unidecode
import json

# Caso hipotético
## A un yucateco le sobran y estorban unos 300 mil pesos, y tiene ganas de invertirlos en un negocio de comida, pero quiere saber en cuál conviene.


## Lo primero que hacemos es conocer la oferta existente, lo cual revisamos de las bases de datos de Ingegi.

Obtenemos archivo CSV de la siguiente liga:
https://inegi.org.mx/app/descarga/default.html

# Inegi

## Exploring the data

In [2]:
inegi = pd.read_csv('./conjunto_de_datos/denue_inegi_72_2.csv', encoding='ISO-8859-1')
inegi.shape

  interactivity=interactivity, compiler=compiler, result=result)


(177812, 41)

In [3]:
inegi.columns

Index(['id', 'nom_estab', 'raz_social', 'codigo_act', 'nombre_act', 'per_ocu',
       'tipo_vial', 'nom_vial', 'tipo_v_e_1', 'nom_v_e_1', 'tipo_v_e_2',
       'nom_v_e_2', 'tipo_v_e_3', 'nom_v_e_3', 'numero_ext', 'letra_ext',
       'edificio', 'edificio_e', 'numero_int', 'letra_int', 'tipo_asent',
       'nomb_asent', 'tipoCenCom', 'nom_CenCom', 'num_local', 'cod_postal',
       'cve_ent', 'entidad', 'cve_mun', 'municipio', 'cve_loc', 'localidad',
       'ageb', 'manzana', 'telefono', 'correoelec', 'www', 'tipoUniEco',
       'latitud', 'longitud', 'fecha_alta'],
      dtype='object')

In [4]:
inegi['entidad'].value_counts()

VERACRUZ DE IGNACIO DE LA LLAVE             48459
YUCATÁN                                     17180
SAN LUIS POTOSÍ                             15655
TAMAULIPAS                                  15576
SINALOA                                     15321
SONORA                                      13198
QUERÉTARO                                   12448
TABASCO                                     11959
QUINTANA ROO                                11275
ZACATECAS                                    8474
TLAXCALA                                     8267
Name: entidad, dtype: int64

## Basic cleaning, columns selection and data type setup

### Filtering duplicates

In [5]:
inegi.drop_duplicates(inplace=True)
inegi.shape

(177812, 41)

### Filtering unnecessary columns

In [6]:
columns = ['id', 'raz_social', 'codigo_act', 'nom_vial', 'tipo_v_e_1', 'nom_v_e_1', 'tipo_v_e_2',
       'nom_v_e_2', 'tipo_v_e_3', 'nom_v_e_3', 'numero_ext', 'letra_ext', 'nomb_asent',
       'edificio', 'edificio_e', 'numero_int', 'letra_int', 'cod_postal', 'num_local',
       'cve_ent', 'cve_mun', 'cve_loc', 'ageb', 'manzana', 'telefono', 'correoelec',
          'tipo_vial', 'tipo_asent', 'tipoCenCom', 'nom_CenCom']
inegi.drop(columns=columns, inplace=True)

inegi.head()

Unnamed: 0,nom_estab,nombre_act,per_ocu,entidad,municipio,localidad,www,tipoUniEco,latitud,longitud,fecha_alta
0,ANTOJITOS VICKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,San Juan del Río,San Juan del Río,,Fijo,20.375935,-99.960659,2019-11
1,ANTOJITOS VICKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Querétaro,Santiago de Querétaro,,Fijo,20.604599,-100.407414,2014-12
2,ANTOJITOS VIKI,Restaurantes con servicio de preparación de ta...,11 a 30 personas,QUERÉTARO,Huimilpan,El Vegil,,Fijo,20.430326,-100.349455,2014-12
3,ANTOJITOS VIKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Tequisquiapan,Tequisquiapan,,Fijo,20.525991,-99.902751,2010-07
4,ANTOJITOS VUELVE A LA VIDA,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Querétaro,Santiago de Querétaro,,Fijo,20.634093,-100.459866,2019-11


In [7]:
inegi.dtypes

nom_estab      object
nombre_act     object
per_ocu        object
entidad        object
municipio      object
localidad      object
www            object
tipoUniEco     object
latitud       float64
longitud      float64
fecha_alta     object
dtype: object

In [8]:
inegi.fecha_alta = pd.to_datetime(inegi.fecha_alta)
inegi.fecha_alta.head()

0   2019-11-01
1   2014-12-01
2   2014-12-01
3   2010-07-01
4   2019-11-01
Name: fecha_alta, dtype: datetime64[ns]

In [9]:
inegi.nombre_act.value_counts().index

Index(['Restaurantes con servicio de preparación de antojitos',
       'Restaurantes con servicio de preparación de tacos y tortas',
       'Cafeterías, fuentes de sodas, neverías, refresquerías y similares',
       'Restaurantes con servicio de preparación de pizzas, hamburguesas, hot dogs y pollos rostizados para llevar',
       'Restaurantes con servicio de preparación de alimentos a la carta o de comida corrida',
       'Servicios de preparación de otros alimentos para consumo inmediato',
       'Restaurantes que preparan otro tipo de alimentos para llevar',
       'Bares, cantinas y similares',
       'Restaurantes con servicio de preparación de pescados y mariscos',
       'Restaurantes de autoservicio',
       'Hoteles sin otros servicios integrados',
       'Hoteles con otros servicios integrados', 'Moteles',
       'Pensiones y casas de huéspedes',
       'Servicios de preparación de alimentos en unidades móviles',
       'Servicios de preparación de alimentos para ocasiones e

### Filtering non-food stands

In [10]:
tofilter = ['Servicios de preparación de alimentos para ocasiones especiales', 'Centros nocturnos, discotecas y similares',
            'Servicios de comedor para empresas e instituciones', 'Departamentos y casas amueblados con servicios de hotelería',
            'Cabañas, villas y similares', 'Campamentos y albergues recreativos', 'Hoteles sin otros servicios integrados',
            'Hoteles con otros servicios integrados', 'Moteles', 'Pensiones y casas de huéspedes',
            'Bares, cantinas y similares', 'Cafeterías, fuentes de sodas, neverías, refresquerías y similares']

for item in tofilter:
    inegi.drop(inegi[inegi.nombre_act==item].index, inplace=True)

inegi.shape

(142980, 11)

### Setting data types

In [11]:
inegi.dtypes

nom_estab             object
nombre_act            object
per_ocu               object
entidad               object
municipio             object
localidad             object
www                   object
tipoUniEco            object
latitud              float64
longitud             float64
fecha_alta    datetime64[ns]
dtype: object

In [12]:
inegi.per_ocu = inegi.per_ocu.astype('category')
inegi.tipoUniEco = inegi.tipoUniEco.astype('category')
inegi.nombre_act = inegi.nombre_act.astype('category')
inegi.dtypes

nom_estab             object
nombre_act          category
per_ocu             category
entidad               object
municipio             object
localidad             object
www                   object
tipoUniEco          category
latitud              float64
longitud             float64
fecha_alta    datetime64[ns]
dtype: object

### Filtering non-describing business names

In [13]:
inegi.nom_estab.value_counts()

VENTA DE ANTOJITOS SIN NOMBRE        2363
ANTOJITOS SIN NOMBRE                 2091
VENTA DE ANTOJITOS                   1115
COCINA ECONÓMICA SIN NOMBRE          1074
TAQUERIA SIN NOMBRE                  1072
                                     ... 
RESTAURANTE BAR LA FOGATA NORTEÑA       1
ANTOJITOS MARI Y CINTHIA                1
VENTA DE COMIDA DOÑA MINA               1
BURROS DE MACHACA LA VIA                1
POLLERIA CARMELA                        1
Name: nom_estab, Length: 88046, dtype: int64

In [14]:
inegi.drop(inegi[inegi['nom_estab'].isnull()].index, inplace=True)

In [15]:
inegi.shape

(142980, 11)

### Como caso de uso, el negocio se considera en Mérida , Yucatán, filtramos por estado y luego por localidad.

In [16]:
inegi['entidad'] = inegi['entidad'].apply(lambda x: 'YUCATAN' if 'YUCA' in x else x)
yinegi = inegi[inegi['entidad']=='YUCATAN']
yinegi.head()

Unnamed: 0,nom_estab,nombre_act,per_ocu,entidad,municipio,localidad,www,tipoUniEco,latitud,longitud,fecha_alta
152158,100 ARRACHERO,Restaurantes con servicio de preparación de ta...,6 a 10 personas,YUCATAN,Mérida,Mérida,,Fijo,21.001433,-89.605708,2010-07-01
152159,100 MONTADITOS,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,21.038795,-89.601918,2019-11-01
152161,100 NATURAL RESTAURANTES,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,WWW.100NATURAL.COM,Fijo,21.020646,-89.585322,2014-12-01
152162,100 PIZZAS,Restaurantes con servicio de preparación de pi...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,20.998787,-89.566374,2019-11-01
152163,100% ARRACHERA EXPRESS,Restaurantes con servicio de preparación de ta...,0 a 5 personas,YUCATAN,Mérida,Mérida,,Fijo,20.995639,-89.648207,2019-11-01


In [17]:
yinegi['localidad'].value_counts()

Mérida              6208
Kanasín              546
Valladolid           461
Tizimín              430
Ticul                426
                    ... 
Sáamal                 1
Hubikú                 1
Uxmal [Ruinas]         1
Xmatkuil [Feria]       1
San Benito             1
Name: localidad, Length: 134, dtype: int64

In [18]:
yinegi.drop(yinegi[yinegi['localidad']!='Mérida'].index, inplace=True)
yinegi['localidad'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Mérida    6208
Name: localidad, dtype: int64

In [19]:
yinegi['nom_estab'].value_counts()

COCINA ECONÓMICA SIN NOMBRE         96
COCINA ECONÓMICA                    93
VENTA DE ANTOJITOS                  75
VENTA DE ANTOJITOS SIN NOMBRE       65
LONCHERÍA SIN NOMBRE                46
                                    ..
COCINA ECONÓMICA MONSTER CHEF        1
VENTA DE COMIDA COCINA ECONOMICA     1
ELABORACIÓN Y VENTA DE CEVICHE       1
LONCHERÍA YOANDROS                   1
FRITANGAS DOÑA AIDA                  1
Name: nom_estab, Length: 4755, dtype: int64

## Extracting main food types

In [20]:
import re

def clean_up(s):
    """
    Cleans up numbers, URLs, and special characters from a string.

    Args:
        s: The string to be cleaned up.

    Returns:
        A string that has been cleaned up.
    """
    res = re.sub('[0-9]+', '', s).lower()
    res = re.sub('http://\w+\.\w+', '', res)
    
    for letter in res:
        if not letter.isalpha() and letter != ' ':
            res = res.replace(letter,' ')
            
    #res = re.sub('http', '', res)
    return res.strip()

In [21]:
from nltk.tokenize import word_tokenize

def tokenize(s):
    """
    Tokenize a string.

    Args:
        s: String to be tokenized.

    Returns:
        A list of words as the result of tokenization.
    """
    return word_tokenize(s)

In [23]:
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
#print(" ".join(SnowballStemmer.languages))

def stem_and_lemmatize(l):
    """
    Perform stemming and lemmatization on a list of words.

    Args:
        l: A list of strings.

    Returns:
        A list of strings after being stemmed and lemmatized.
    """
    stemmer = SnowballStemmer('spanish')
    lemmatizer = WordNetLemmatizer()
    
    res = []
    for word in l:
        stem_word = stemmer.stem(word) 
        res.append(lemmatizer.lemmatize(stem_word))
        
    return res

In [24]:
from nltk.corpus import stopwords

def remove_stopwords(l):
    """
    Remove English stopwords from a list of strings.

    Args:
        l: A list of strings.

    Returns:
        A list of strings after stop words are removed.
    """
    stopWords = set(stopwords.words('spanish'))
    return [w for w in l if w not in stopWords]

In [25]:
def prepareText(text):
    cleaned = clean_up(text)
    tokenized = tokenize(cleaned)
    sl_ized = stem_and_lemmatize(tokenized)
    return remove_stopwords(sl_ized)

In [26]:
import multiprocessing as mp

pool = mp.Pool(processes=(mp.cpu_count()-1))

yinegi['nom_processed'] = pool.map(prepareText, yinegi.nom_estab)
yinegi.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Unnamed: 0,nom_estab,nombre_act,per_ocu,entidad,municipio,localidad,www,tipoUniEco,latitud,longitud,fecha_alta,nom_processed
152158,100 ARRACHERO,Restaurantes con servicio de preparación de ta...,6 a 10 personas,YUCATAN,Mérida,Mérida,,Fijo,21.001433,-89.605708,2010-07-01,[arracher]
152159,100 MONTADITOS,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,21.038795,-89.601918,2019-11-01,[montadit]
152161,100 NATURAL RESTAURANTES,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,WWW.100NATURAL.COM,Fijo,21.020646,-89.585322,2014-12-01,"[natural, restaur]"
152162,100 PIZZAS,Restaurantes con servicio de preparación de pi...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,20.998787,-89.566374,2019-11-01,[pizz]
152163,100% ARRACHERA EXPRESS,Restaurantes con servicio de preparación de ta...,0 a 5 personas,YUCATAN,Mérida,Mérida,,Fijo,20.995639,-89.648207,2019-11-01,"[arracher, express]"


In [29]:
yinegi['tipo'] = yinegi.nom_processed.apply(lambda x: ' '.join(x))

pd.set_option('display.max_rows', None)
yinegi.tipo.value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


cocin econom nombr                                                           97
cocin econom                                                                 95
vent antojit                                                                 79
vent antojit nombr                                                           71
lonch nombr                                                                  46
vent panuch salbut                                                           44
lonch                                                                        36
vent com nombr                                                               31
vent panuch                                                                  30
antojit nombr                                                                30
vent cochinit                                                                28
antojit                                                                      27
vent panuch nombr                       

In [30]:
tipos = ['cocin', 'com', 'caser', 'antojit', 'lonch', 'panuch', 'cochinit', 'lechon', 'tamal', 'poll', 'desay', 'pizz', 'tort', 
         'burg', 'taqu', 'tac', 'carne', 'asad', 'carnit', 'mondong', 'empan', 'hot dog', 'hotdog', 'fritang', 'pesc', 'marisc', 'marisq',
         'chicharr', 'gordit', 'cevich', 'costill', 'asader', 'grill', 'carnit', 'sush', 'doradit', 'baguet', 'parrill', 'birr', 'pozole',
         'huarach', 'rosti', 'china', 'chinesse', 'yuca', 'tabas', 'vaporc', 'arracher', 'restaur', 'barbaco', 'pastor']

def getTokenType(text):
    token_type = []
    for tipo in tipos:
        if tipo in text:
            token_type.append(tipo)
            
    return token_type
#for tipo in tipos:
#    yinegi.tipo = yinegi.tipo.apply(lambda x: tipo if tipo in x else x)
 
yinegi.tipo = yinegi.tipo.apply(getTokenType)

yinegi.tipo.value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


[]                                             1148
[cocin]                                        1069
[lonch]                                         479
[taqu]                                          458
[antojit]                                       435
[restaur]                                       316
[pizz]                                          278
[panuch]                                        169
[com]                                           160
[poll]                                          115
[tort]                                          105
[burg]                                          103
[cochinit]                                       90
[tac]                                            84
[tamal]                                          77
[poll, asad]                                     74
[pesc]                                           70
[chicharr]                                       69
[desay]                                          65
[tort, tac] 

In [31]:
foods = {
    'Cocina Económica': ['cocin', 'com', 'caser'],
    'Antojitos': ['antojit', 'lonch', 'cenaduria', 'fritang'],
    'Pizza': ['pizz'],
    'Hamburguesas': ['burg'],
    'Hot Dogs': ['hot dog', 'hotdogs'],
    'Sushi': ['sush'],
    'Tamales': ['tamal', 'vaporc'],
    'Mariscos': ['marisc', 'marisq', 'cevich'],
    'Pescado': ['pesc'],
    'Tacos': ['tac', 'taqu'],
    'Carne': ['carne'],
    'Asada': ['asader', 'asad'],
    'Panuchos': ['panuch', 'salbut'],
    'Cochinita': ['cochinit', 'lechon'],
    'Pollo': ['poll'],
    'Desayunos': ['desay'],
    'Tortas': ['tort'],
    'Mondongo': ['mondong'],
    'Empanadas': ['empan'],
    'Chicharronería': ['chicharr'],
    'Gorditas': ['gordit'],
    'Costillas': ['costill'],
    'Grill': ['grill'],
    'Carnitas': ['carnit'],
    'Doraditas': ['doradit'],
    'Baguettes': ['baguet', 'deli'],
    'Parrilla': ['parrill'],
    'Huaraches': ['huarach'],
    'Rosticería': ['rost'],
    'China': ['china', 'chinesse'],
    'Yucateca': ['yuca'],
    'Tabasqueña': ['tabas'],
    'Arrachera': ['arracher'],
    'Pastor': ['pastor'],
    'Birria': ['birr'],
    'Barbacoa': ['barbac'],
    'Pozole': ['pozole']
}

In [41]:
# NOT USED
def formatType(text):
    if 'restaur' in text:
        if ' ' in text:
            text = text.replace('restaur', '').strip()
        else:
            return 'Restaurante'
        
    for key in food:
        for word in food[key]:
            if word in text:
                text = text.replace(word, key)
                
    return ' '.join(list(set(text.split())))

In [32]:
def checkType(l, foods):
    for item in l:
        if item in foods:
            return 1
    return 0

for food in foods:
    yinegi[food] = yinegi.tipo.apply(checkType, args=(foods[food],))
    
yinegi.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,nom_estab,nombre_act,per_ocu,entidad,municipio,localidad,www,tipoUniEco,latitud,longitud,...,Huaraches,Rosticería,China,Yucateca,Tabasqueña,Arrachera,Pastor,Birria,Barbacoa,Pozole
152158,100 ARRACHERO,Restaurantes con servicio de preparación de ta...,6 a 10 personas,YUCATAN,Mérida,Mérida,,Fijo,21.001433,-89.605708,...,0,0,0,0,0,1,0,0,0,0
152159,100 MONTADITOS,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,21.038795,-89.601918,...,0,0,0,0,0,0,0,0,0,0
152161,100 NATURAL RESTAURANTES,Restaurantes con servicio de preparación de al...,11 a 30 personas,YUCATAN,Mérida,Mérida,WWW.100NATURAL.COM,Fijo,21.020646,-89.585322,...,0,0,0,0,0,0,0,0,0,0
152162,100 PIZZAS,Restaurantes con servicio de preparación de pi...,11 a 30 personas,YUCATAN,Mérida,Mérida,,Fijo,20.998787,-89.566374,...,0,0,0,0,0,0,0,0,0,0
152163,100% ARRACHERA EXPRESS,Restaurantes con servicio de preparación de ta...,0 a 5 personas,YUCATAN,Mérida,Mérida,,Fijo,20.995639,-89.648207,...,0,0,0,0,0,1,0,0,0,0


In [33]:
yelp_results = {}

for food in foods:
    yelp_results[food] = yinegi[food].sum()
    
yelp_results

{'Cocina Económica': 1379,
 'Antojitos': 1027,
 'Pizza': 308,
 'Hamburguesas': 149,
 'Hot Dogs': 36,
 'Sushi': 42,
 'Tamales': 91,
 'Mariscos': 59,
 'Pescado': 91,
 'Tacos': 685,
 'Carne': 1,
 'Asada': 176,
 'Panuchos': 189,
 'Cochinita': 118,
 'Pollo': 230,
 'Desayunos': 74,
 'Tortas': 200,
 'Mondongo': 13,
 'Empanadas': 25,
 'Chicharronería': 73,
 'Gorditas': 9,
 'Costillas': 15,
 'Grill': 22,
 'Carnitas': 40,
 'Doraditas': 23,
 'Baguettes': 6,
 'Parrilla': 19,
 'Huaraches': 6,
 'Rosticería': 0,
 'China': 0,
 'Yucateca': 39,
 'Tabasqueña': 11,
 'Arrachera': 4,
 'Pastor': 21,
 'Birria': 2,
 'Barbacoa': 0,
 'Pozole': 2}

In [34]:
pd.set_option('display.max_rows', 20)

In [49]:
df = pd.DataFrame(yelp_results.items(), columns = ['Index', 'InegiCount']).set_index('Index')
df.head()

Unnamed: 0_level_0,InegiCount
Index,Unnamed: 1_level_1
Cocina Económica,1379
Antojitos,1027
Pizza,308
Hamburguesas,149
Hot Dogs,36


# Google Trends

### Revisaremos qué tantas búsquedas se hacen en Google sobre cada uno de los giros de comida, con el fin de conocer dónde está el interés del consumidor.
### Para esto utilizaremos la API de Google Trends a través de pytrends.

In [35]:
from pytrends.request import TrendReq

pytrends = TrendReq(hl='es-MX', tz=360)

In [36]:
resultados = []
for comida in yelp_results:
    pytrends.build_payload([comida], cat=71, geo='MX', gprop='')
    resultados.append(pytrends.interest_by_region(resolution='REGION', inc_low_vol=True, inc_geo_code=False))
    
resultados

[                     Cocina Económica
 geoName                              
 Aguascalientes                      0
 Baja California                     0
 Baja California Sur                 0
 Campeche                            0
 Chiapas                             0
 ...                               ...
 Tamaulipas                          0
 Tlaxcala                            0
 Veracruz                            0
 Yucatán                           100
 Zacatecas                           0
 
 [32 rows x 1 columns],                      Antojitos
 geoName                       
 Aguascalientes              12
 Baja California             20
 Baja California Sur         20
 Campeche                   100
 Chiapas                     33
 ...                        ...
 Tamaulipas                  27
 Tlaxcala                    23
 Veracruz                    56
 Yucatán                     38
 Zacatecas                   37
 
 [32 rows x 1 columns],                      Pizza

### Como los resultados nos los da por estados, filtramos y nos quedamos con las búsquedas en Yucatán.

In [37]:
busquedas = resultados[0].join(resultados[1:]).T
busquedas

geoName,Aguascalientes,Baja California,Baja California Sur,Campeche,Chiapas,Chihuahua,Ciudad de México,Coahuila de Zaragoza,Colima,Durango,...,Quintana Roo,San Luis Potosí,Sinaloa,Sonora,Tabasco,Tamaulipas,Tlaxcala,Veracruz,Yucatán,Zacatecas
Cocina Económica,0,0,0,0,0,0,36,0,0,0,...,0,0,0,0,0,0,0,0,100,0
Antojitos,12,20,20,100,33,32,18,15,31,27,...,51,40,23,21,46,27,23,56,38,37
Pizza,70,82,74,80,80,65,84,69,78,64,...,100,82,74,77,77,62,38,63,98,45
Hamburguesas,63,70,44,49,39,76,70,71,100,60,...,49,58,80,75,48,56,39,58,49,72
Hot Dogs,36,100,76,0,24,49,43,38,78,40,...,40,35,90,99,36,42,0,36,26,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Arrachera,24,17,35,32,14,16,30,27,14,17,...,100,58,11,12,19,34,22,22,43,26
Pastor,57,36,55,100,52,68,85,82,54,55,...,93,45,36,45,81,47,63,85,98,58
Birria,59,81,61,14,13,21,41,19,75,29,...,16,13,100,46,16,11,17,19,15,80
Barbacoa,33,39,38,49,61,56,40,35,100,37,...,50,43,50,59,90,36,34,61,32,26


In [38]:
trends = busquedas['Yucatán'].sort_values(ascending=False)
trends

Cocina Económica    100
Yucateca            100
Panuchos            100
Doraditas           100
Parrilla            100
                   ... 
Gorditas             18
Birria               15
Tabasqueña           11
Chicharronería        0
Rosticería            0
Name: Yucatán, Length: 37, dtype: int64

In [51]:
#yinegi['trend'] = yinegi['nom_estab'].apply(lambda x: trends.loc[x])
#yinegi[['nom_estab','trend']]
df['GoogleTrend'] = trends
df

Unnamed: 0_level_0,InegiCount,GoogleTrend
Index,Unnamed: 1_level_1,Unnamed: 2_level_1
Cocina Económica,1379,100
Antojitos,1027,38
Pizza,308,98
Hamburguesas,149,49
Hot Dogs,36,26
...,...,...
Arrachera,4,43
Pastor,21,98
Birria,2,15
Barbacoa,0,32


### Con esto, tenemos parametrizado el interés en el estado por cada uno de los giros de comida.
### Ahora, necesitamos revisar el grado de satisfacción de los usuarios por la oferta existente.

# Yelp

### Utilizando la API de Yelp, hacemos búsquedas nuevamente sobre los diferentes giros de comida para encontrar negocios y sus calificaciónes en la plataforma.

In [59]:
client_id = 'JPrLnyol5AaT0XLf7CYbWg'
api_key = '5F0kTJmEIUsrAXKEcpqHA_HvL2uKWA3HZC_iQ73dGgIXgke7fCh84CBP5KpwVMXumfm4BahGo3iaBiNtBi9Q9vexfphH6urta05XSFaaQCs6aphzSQfWwhWSo_6nXHYx'
app_name = 'ravenous'

endpoint = 'https://api.yelp.com/v3/businesses/search?'
req_parameters_1 = ['location']
req_parameters_2 = ['latitud', 'longitude']
optional_parameters = ['term', 'radius', 'categories', 'locale', 'limit', 'sort_by', 'price']

In [63]:
yelp_search = []
for comida in tipos_comida:
    term = 'term={}&'.format(comida)
    print(term)
    location = 'latitude=21.073881&longitude=-89.655476&'
    locale = 'locale=es_MX&'
    categories = 'restaurants,foodstands'
    limit = 'limit=50'
    res = requests.get(endpoint+term+location+locale+limit, headers={'Authorization':'Bearer '+api_key})
    soup = bs(res.content)
    yelp_json = json.loads(soup.findAll('p')[0].text)
    ydf = pd.DataFrame(yelp_json['businesses'])
    ydf['tipo'] = comida
    yelp_search.append(ydf)
    
yelp_search

term=cocina económica&
term=tacos&
term=antojitos&
term=lonchería&
term=pizza&
term=restaurante&
term=pollo&
term=panuchos&
term=mariscos&
term=tortas&
term=cochinita&
term=tamales&
term=carne asada&
term=desayunos&
term=chicharronería&
term=sushi&
term=carnitas&
term=hot dogs&
term=arracheras&


[                        id                                              alias  \
 0   a1oMI_2Bll8V38pMmh3C5A                      cocina-económica-laura-mérida   
 1   u6quJ-v_REMlOl8qtlsVsQ               cocina-económica-altabrisa-altabrisa   
 2   oazpmGeb5m1hSv44oR_xsg     cocina-económica-y-cenaduría-el-remedio-mérida   
 3   gci7gop2fxTpmiUv26N34Q                      la-cocina-de-emilia-vergel-ii   
 4   2Qb0-JhFAC2VCZaTb3ok1w                  cocina-económica-los-pinos-mérida   
 5   9l4NrLx8bFKeieEdencPSg                             kitchen-by-mina-mérida   
 6   8ST_oRKKasGwvzDh9FOUag       taquería-y-cocina-económica-pensiones-mérida   
 7   hJehvLFO-XRVfNHo1gz20Q                             las-bugambilias-mérida   
 8   pF01k3BB2pKXndFCJm6heA                              las-sombrillas-mérida   
 9   bHuEeXA1XFbr1xu1-4s6GQ  cafetería-de-la-facultad-de-psicología-uady-al...   
 10  JaC7VgnA-KYGaIrXbmwASg                               cocina-y-algo-mérida   
 11  RqABoMit60P

In [64]:
lugares = pd.concat(yelp_search, axis=0, sort=False)
print(lugares.shape)

(733, 17)


In [66]:
lugares.tipo.value_counts()

pollo               50
desayunos           50
tacos               50
tortas              50
cocina económica    50
carne asada         50
pizza               50
arracheras          50
restaurante         50
mariscos            50
antojitos           38
cochinita           36
tamales             31
sushi               31
panuchos            30
carnitas            22
lonchería           21
hot dogs            18
chicharronería       6
Name: tipo, dtype: int64

In [67]:
lugares.reset_index(inplace=True)

### La información más relevante que extraemos de Yelp es el 'rating' por giro de comida, por lo que de los resultados sacamos promedios basados en su giro.

In [83]:
ratings = dict(lugares.tipo.value_counts())
for comida in tipos_comida:
    ratings[comida] = lugares[lugares.tipo == comida]['rating'].mean()
ratings

{'pollo': 4.13,
 'desayunos': 4.33,
 'tacos': 4.33,
 'tortas': 4.12,
 'cocina económica': 4.14,
 'carne asada': 4.06,
 'pizza': 4.08,
 'arracheras': 4.05,
 'restaurante': 4.5,
 'mariscos': 4.23,
 'antojitos': 4.026315789473684,
 'cochinita': 4.194444444444445,
 'tamales': 4.145161290322581,
 'sushi': 4.048387096774194,
 'panuchos': 3.9,
 'carnitas': 4.318181818181818,
 'lonchería': 4.0476190476190474,
 'hot dogs': 4.194444444444445,
 'chicharronería': 4.333333333333333}

# Análisis Final

### Ahora hace falta integrar toda la información.

### Primero revisamos la oferta con los datos del Inegi, y lo dejamos en términos porcentuales para conocer cómo están distribuidos los giros de comida.

In [84]:
yinegi['ratings'] = yinegi['nom_estab'].apply(lambda x: ratings[x])
yinegi.columns

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Index(['id', 'nom_estab', 'raz_social', 'nombre_act', 'per_ocu', 'tipo_vial',
       'cod_postal', 'tipoUniEco', 'latitud', 'longitud', 'fecha_alta',
       'trend', 'ratings'],
      dtype='object')

In [99]:
analysis = pd.DataFrame()
analysis['qty'] = yinegi['nom_estab'].value_counts()
analysis

Unnamed: 0,qty
cocina económica,1329
tacos,665
antojitos,506
lonchería,500
pizza,326
restaurante,325
pollo,217
panuchos,180
mariscos,127
tortas,112


In [100]:
analysis['percentage'] = analysis.qty.apply(lambda x: x*100/analysis.qty.sum())
analysis

Unnamed: 0,qty,percentage
cocina económica,1329,27.849958
tacos,665,13.935457
antojitos,506,10.603521
lonchería,500,10.477787
pizza,326,6.831517
restaurante,325,6.810562
pollo,217,4.54736
panuchos,180,3.772003
mariscos,127,2.661358
tortas,112,2.347024


### Luego, integramos la información de Yelp, sobre el grado de satisfacción con la oferta existente.

In [105]:
ratings

{'pollo': 4.13,
 'desayunos': 4.33,
 'tacos': 4.33,
 'tortas': 4.12,
 'cocina económica': 4.14,
 'carne asada': 4.06,
 'pizza': 4.08,
 'arracheras': 4.05,
 'restaurante': 4.5,
 'mariscos': 4.23,
 'antojitos': 4.026315789473684,
 'cochinita': 4.194444444444445,
 'tamales': 4.145161290322581,
 'sushi': 4.048387096774194,
 'panuchos': 3.9,
 'carnitas': 4.318181818181818,
 'lonchería': 4.0476190476190474,
 'hot dogs': 4.194444444444445,
 'chicharronería': 4.333333333333333}

In [116]:
analysis = pd.concat([analysis, pd.Series(ratings)], axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


In [119]:
analysis.rename(columns = {0:'rating'}, inplace=True)
analysis

Unnamed: 0,qty,percentage,rating
antojitos,506,10.603521,4.026316
arracheras,3,0.062867,4.05
carne asada,71,1.487846,4.06
carnitas,33,0.691534,4.318182
chicharronería,69,1.445935,4.333333
cochinita,104,2.17938,4.194444
cocina económica,1329,27.849958,4.14
desayunos,70,1.46689,4.33
hot dogs,17,0.356245,4.194444
lonchería,500,10.477787,4.047619


### También integramos la información de Google Trends sobre el interés de los consumidores por cada uno de los giros de comida.

In [120]:
trends

cocina económica    100
panuchos            100
pizza               100
cochinita            88
pollo                79
desayunos            77
tamales              54
carnitas             42
restaurante          39
antojitos            37
arracheras           34
carne asada          32
mariscos             31
sushi                30
hot dogs             29
tacos                22
tortas               22
chicharronería        0
lonchería             0
Name: Yucatán, dtype: int64

In [121]:
analysis = pd.concat([analysis, trends], axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


In [123]:
analysis.rename(columns = {'Yucatán': 'trend'}, inplace=True)
analysis

Unnamed: 0,qty,percentage,rating,trend
antojitos,506,10.603521,4.026316,37
arracheras,3,0.062867,4.05,34
carne asada,71,1.487846,4.06,32
carnitas,33,0.691534,4.318182,42
chicharronería,69,1.445935,4.333333,0
cochinita,104,2.17938,4.194444,88
cocina económica,1329,27.849958,4.14,100
desayunos,70,1.46689,4.33,77
hot dogs,17,0.356245,4.194444,29
lonchería,500,10.477787,4.047619,0


## Decisión 

### Para decidir el giro del negocio de comida, se toman las siguientes consideraciones:
#### 1. Se prefiere un giro con alto interés (trend).
#### 2. Se prefiere un giro con baja satisfacción por la población, por ser área de oportunidad. (rating)
#### 3. Conviene un giro con poca oferta, pues significa menor competencia. (percentage)

### Fórmula utilizada
$$score = \frac{trend}{20*rating}$$

In [141]:
analysis['score'] = analysis['trend'] / (100 * analysis['rating']/5)
analysis.sort_values('score', ascending=False).head()

Unnamed: 0,qty,percentage,rating,trend,score
panuchos,180,3.772003,3.9,100,1.282051
pizza,326,6.831517,4.08,100,1.22549
cocina económica,1329,27.849958,4.14,100,1.207729
cochinita,104,2.17938,4.194444,88,1.049007
pollo,217,4.54736,4.13,79,0.956416


### Indudablemente, conviene poner un restaurante de panuchos. Because yucas.