<h1 align='center'>WebScraping TripAdvisor</h1>

---

El código a continuación tiene por objetivo extraer la **[información solicitada](https://github.com/mozilla/geckodriver/releases/download/v0.28.0/geckodriver-v0.28.0-win64.zip "Word en Google Drive")**, desde la página de **[TripAdvisor](https://www.tripadvisor.cl/Restaurants-g294305-Santiago_Santiago_Metropolitan_Region.html "Web TripAdvisor")** para Ximena. La siguiente celda sólo cumple con el propósito de **silenciar las posibles advertencias** que pudieran levantarse al correr el código, pero no aportan mayormente a la comprensión del proceso por parte del usuario.

In [None]:
%%capture --no-display

import warnings
warnings.filterwarnings('ignore')

La celda anterior asegurará que no se desplieguen advertencias innecesarias para la correcta comprensión y lectura de este informe. A continuación se darán las **instrucciones para instalar las librerías** necesarias para correr el código, cuestión que requiere de un comando para ello, por lo que las instrucciones se despliegan como impresión de una celda.

In [None]:
import os

print(f'Si es la primera vez que corre este programa, por favor abra la terminal PowerShell de Anaconda' +
      f' e ingrese el siguiente comando: "\033[4mpip install -r {os.getcwd()}\\requirements.txt\033[4m"')

La primera parte fundamental de todo programa, corresponde a la **importación de librerías de Python**. Si acaso hubiera errores en esta primera celda, se aconseja contactar a Nicolás Ganter a su correo: nicolas@ganter.cl

In [3]:
import time
import pickle
import pandas as pd
from tqdm import tqdm
from datetime import datetime

from distributed import Client, LocalCluster, progress
import utils

Dentro del código, hay ciertas **variables que es preferible tener en especial consideración**. Entre ellas, encontramos la ubicación del *driver* para *Selenium* que permitirá lanzar una instancia de *Firefox* para navegar la página y extraer los enlaces requeridos en la primera etapa de *webcrawling*. Si aún no ha instalado el driver, acceda a este **[link de descarga](https://github.com/mozilla/geckodriver/releases/download/v0.28.0/geckodriver-v0.28.0-win64.zip "geckodriver download link")**, extraiga el paquete y mueva los documentos a la carpeta de binarios de las librerías de Python.

In [4]:
geckodriver_path = r'C:\Users\nicol\anaconda3\Library\bin\geckodriver'
time_id = datetime.today().strftime('%Y%m%d')
basic_url = 'https://www.tripadvisor.cl'

<h2>Dask raising instructions</h2>

In [5]:
print(f' cd {os.getcwd()}', '\n', 'dask-worker tcp://192.168.1.105:8786 --preload worker_setup.py', '\n',
     'dask-worker --nprocs 6 --nthreads 1 tcp://192.168.1.105:8786 --preload worker_setup.py')

 cd C:\Users\nicol\Proyectos\GitHub\Webscraping-TripAdvisor 
 dask-worker tcp://192.168.1.105:8786 --preload worker_setup.py 
 dask-worker --nprocs 6 --nthreads 1 tcp://192.168.1.105:8786 --preload worker_setup.py


A continuación se creará nuestro clúster para trabajar en forma distribuída cada tarea a realizarse. En particular, utilizaremos un *LocalCluster* para levantar en una máquina cierta cantidad de *workers* con determinada configuración pre-cargada.

In [6]:
cluster = LocalCluster(threads_per_worker=1, preload='worker_setup.py')
client = Client(cluster)
#client = Client('192.168.1.105:8786')
client

0,1
Client  Scheduler: tcp://127.0.0.1:56664  Dashboard: http://127.0.0.1:8787/status,Cluster  Workers: 6  Cores: 6  Memory: 17.02 GB


<h2>Webcrawling de los restaurantes</h2>
La siguiente celda se encargará de la **extracción de los enlaces** asociados a cada restaurante en las páginas especificadas mediante el enlace de la segunda línea. En este caso, se extraerán los restaurantes de Santiago de Chile. Al final de la celda se imprime la cantidad de restaurantes extraídos, la cantidad de restaurantes disponibles según la página, y el porcentaje capturado por el programa. Nótese que el proceso toma algo así como 10 minutos, por lo que se utilizará un atajo mediante *pickles* (estructura de datos propia de este lenguaje de programación) y se especificará la fecha de captura de la información asociada a éste.

In [7]:
start = time.time()
url = basic_url + '/Restaurants-g294305-Santiago_Santiago_Metropolitan_Region.html'
info = utils.info_restaurants(url, geckodriver_path)

cwd = os.getcwd()
dict_pickles = utils.check_files(dir_files=cwd, keyword='urls')

if len(dict_pickles) == 0:
    urls = utils.gen_pickle(url, geckodriver_path, info['pages'], basic_url, time_id)

else:
    last_pickle = utils.last_pickle(dict_pickles)
    with open(last_pickle, 'rb') as file:
        urls = pickle.load(file)
    
print('Se obtuvieron {} restaurantes de {} lo que corresponde a una extracción del {}%'
      .format(len(urls), info['max_restaurants'], round(len(urls) / info['max_restaurants'] * 100, 2)))

stop = time.time()
print(f'Este proceso tomó {round(stop-start, 2)} segundos en correr.\n')

Información cargada del pickle 20210205_4830_urls.pickle extraído el 05 de febrero del 2021.
Se obtuvieron 4830 restaurantes de 4852 lo que corresponde a una extracción del 99.55%
Este proceso tomó 12.02 segundos en correr.



<h2>Webscraping de los restaurantes</h2>
Con esto concluye la parte más compleja y crítica de la recopilación de enlaces para los restaurantes. No obstante esta tarea continúa luego a nivel de comentarios, **a continuación se procederá a extraer la información solicitada** para cada uno de los restaurantes en la lista. Dado que se utilizan estrategias de computación paralela, no es posible observar el avance, sino abriendo el *Dashboard* cuyo link se encuentra bajo la cuarta celda del código.

In [8]:
start = time.time()
dict_dataframes = utils.check_files(dir_files=cwd, keyword='dataframe')

if len(dict_dataframes) == 0:
    futures = [client.submit(utils.get_restaurant, url_restaurant) for url_restaurant in list(set(urls))]
    results = client.gather(futures)
    
    dict_structure = {'id':[], 'Nombre restaurante':[], 'Promedio de calificaciones':[],
                      'N° de opiniones':[], 'Calificación de viajeros por categoría':[],
                      'Toman medidas de seguridad':[], 'Rankings':[],
                      'Tipo de comida y servicios':[], 'url':[]}
    
    df_restaurants = utils.build_dataframe(dict_structure, results, time_id)
    df_restaurants.to_pickle(f'{time_id}_dataframe_of_{df_restaurants.shape[0]}_restaurants.pickle')
    print(f'Se guardó "{time_id}_dataframe_of_{df_restaurants.shape[0]}_restaurants.pickle" en "{os.getcwd()}".')
    
else:
    last_pickle = utils.last_pickle(dict_dataframes)
    with open(last_pickle, 'rb') as file:
        df_restaurants = pickle.load(file)
    
stop = time.time()
print(f'Este proceso tomó {round(stop-start, 2)} segundos en correr.\n')

Información cargada del pickle 20210215_dataframe_of_788_scraped_reviews.pickle extraído el 15 de febrero del 2021.
Este proceso tomó 0.02 segundos en correr.



<h2>Webcrawling de los comentarios</h2>

In [9]:
start = time.time()
dict_files = utils.check_files(dir_files=cwd, keyword='review_urls')

if len(dict_files) == 0:
    futures = [client.submit(utils.review_urls, url_restaurant) for url_restaurant in list(set(urls))]
    results = client.gather(futures)
    
    dict_reviews = {key:value for key, value in results if isinstance(value, list)}
    n_reviews = len(dict_reviews.values())
    
    with open(f'{time_id}_{n_reviews}_review_urls.pickle', 'wb') as file:
        pickle.dump(dict_reviews, file)
    
    print(f'Se guardó "{time_id}_{n_reviews}_review_urls.pickle" en "{os.getcwd()}".')
    
else:
    last_pickle = utils.last_pickle(dict_files)
    with open(last_pickle, 'rb') as file:
        dict_reviews = pickle.load(file)
    
stop = time.time()
print(f'Este proceso tomó {round(stop-start, 2)} segundos en correr.',
      'Se dispone aproximadamente de {} comentarios para extraer.\n'.format(len(dict_reviews.values())*10))

Información cargada del pickle 20210205_4321_review_urls.pickle extraído el 05 de febrero del 2021.
Este proceso tomó 0.02 segundos en correr. Se dispone aproximadamente de 43210 comentarios para extraer.



<h2>Preparation of urls</h2>

In [10]:
start = time.time()
dict_files = utils.check_files(dir_files=cwd, keyword='scraped_reviews')
url_reviews = utils.prepare_urls(dict_reviews)
dict_chunks = {}

chunks = utils.gen_chunks(url_reviews, None, 100)

for i, chunk in enumerate(chunks):
    dict_chunks['chunk{:02d}'.format(i+1)] = chunk

<h2>Webscraping de los comentarios</h2>

A continuación se extraerán los comentarios, con un enfoque en chunks, para evitar problemas de deserialización en Dask. 

In [11]:
cwd = os.getcwd()

try:
    dir_pickles = os.mkdir(str(cwd) + r'\Pickles\Chunks')
except:
    dir_pickles = f'{str(cwd)}\\Pickles\\Chunks'

In [None]:
for i, chunk in enumerate(dict_chunks):

    if i < 5:
        pass
    
    else:
        url_reviews = dict_chunks[chunk]

        futures = [client.submit(utils.get_reviews, url) for url in url_reviews]
        results = client.gather(futures)

        dict_structure = {'id':[], 'date_review':[], 'comments':[], 'date_stayed':[], 'response_body':[],
                          'user_name':[], 'user_reviews':[], 'useful_votes':[]}

        df_reviews = utils.build_dataframe(dict_structure, results, time_id)
        df_pathname = (f'{time_id}_{chunk}_dataframe_with_' +
                       f'{df_reviews.shape[0]}_reviews.pickle')

        df_reviews.to_pickle(f'{dir_pickles}\\{df_pathname}')

<h2>Generación de tablas</h2>

In [None]:
#start = time.time()
#df_restaurants.to_excel(f'{time_id}_excel_with_{df_restaurants.shape[0]}_restaurants.xlsx')
#df_reviews.to_excel(f'{time_id}_excel_with_{df_reviews.shape[0]}_reviews.xlsx')
#stop = time.time()
#
#print(f'Este proceso tomó {round(stop-start, 2)} segundos en correr.',
#      'Se extrajeron {} comentarios.\n'.format(df_reviews.shape[0]))

In [None]:
#start = time.time()
#
#urls_test = url_reviews
#
#futures = [client.submit(utils.get_reviews, url) for url in urls_test]
#results = client.gather(futures)
#
#stop = time.time()
#
#dict_structure = {'id':[], 'date_review':[], 'comments':[], 'date_stayed':[], 'response_body':[],
#                  'user_name':[], 'user_reviews':[], 'useful_votes':[]}
#
#df_reviews = utils.build_dataframe(dict_structure, results, time_id)
#
#print(f'Este proceso tomó {round(stop-start, 2)} segundos')
#display(df_reviews)

In [None]:
#df_reviews.to_excel('test01.xlsx')

In [None]:
#import random as rd
#
#def simple_sum():
#    return rd.randint(0, 10) * rd.randint(0, 10)
#
#futures = [client.submit(simple_sum) for simple in range(100000)]
#results = client.gather(futures)
#
#print(simple_sum())

<h2>Extraer comunas</h2>

In [None]:
#import googlemaps
#
#gmaps = googlemaps.Client(key='AIzaSyAv9kBNSqEznAwQ3nhnb1A6GZPlxJteLE8')
#
#def get_location(address):
#    geocode = dict(*gmaps.geocode([address]))['address_components']
#    location = str(geocode[3]['long_name'])
#    
#    return location

In [None]:
#df_restaurants = pd.read_pickle('20210205_dataframe_of_4830_restaurants.pickle')
#addresses = df_restaurants['Dirección'].to_list()
#locations = []
#
#for address in tqdm(addresses):
#    try:
#        location = get_location(address)
#        locations.append(location)
#        
#    except:
#        locations.append(address)
        
    #time.sleep(3)

In [None]:
#df_restaurants['Comuna'] = locations
#df_restaurants.to_excel(f'{time_id}_excel_with_{df_restaurants.shape[0]}_restaurants_with_locations.xlsx')

In [None]:
#url = url_reviews[7]
#
#print(url['scraping'])