# IIC 2115, Webscrapping (Parte 2): POST Requests a HTML
Autor: Felipe Gutiérrez / figutier@uc.cl  (Parte 2): Post Requests a HTML


In [None]:
import requests #Librería para hacer requests
import json #Para parsear Json
import time 
import re 
import pandas as pd

# Post Requests 

En este notebook ejemplificaremos como extraer datos mediante una solicitud POST, esto implica enviar datos a través de algún tipo de formularios para hacer consulta a alguna aplicación de la página de la cual hacemos la extracción. Cabe notar que este notebook esta hecho para la versión del sitio a la fecha (15/06/2023)

El objetivo será extraer las propiedades con latitud y longitud del sitio toctoc, para esto, accederemos a la información que se encuentra en su aplicación vinculada a  las publicaciones georeferenciadas.

![toctoc1.png](attachment:toctoc1.png)

## Encontrando el dato

En la pestaña Network de la herramienta de desarrollador de su navegador, se registran todas las solicitudes realizadas por el navegador y la respuesta recibida. Podemos utilizar esto para detectar a donde solicita el navegador los datos. Un buen consejo para encontrar la solicitud específica es cargar y actualizar los datos mientras se registran las solicitudes. En este caso, al aumentar o disminuir el zoom del mapa, notaremos facilmente que hay una solicitud llamada GetProps

![Toctoc2.png](attachment:Toctoc2.png)



Si revisamos la solicitud, veremos bastante información sobre que es lo que requiere el dato en particular, vemos que esta contiene el sitio a donde se solicitan los datos como también vemos que la solicitud requiere una token de acceso, contiene un payload, que son los parámetros de consulta para saber el dato que deberá entregar el servidos, y podemos ver también la respuesta (donde se puede verificar que contiene el dato que buscamos)

![toctoc3.png](attachment:toctoc3.png)

### Obtener la token

Para encontrar la token, en este caso se puede buscar dentro del html del sitio al que pueden acceder con click derecho, "view page source". 
En este caso encontraremos dos tokens, una llamada accessToken y otra llamada simplemente token. Pueden ver cual funciona viendo la token de la solicitud donde se encuentra el dato, ya que debería tener el mismo valor.

Como se puede notar, también se entrega en los encabezados de la solicitud el agente de usuario que por default es python. Como es de esperar, algunos sitios no siempre aceptarán solicitudes que vienen de un lenguaje de programación.

In [2]:
def get_token() -> str:
    """
    Función que extrae la token de la aplicación de mapa, extrae el html del sitio de toctoc en su aplicación de mapa
    Del texto del HTML, usa expresiones regulares para sacar la token
    """
    url='https://www.toctoc.com/resultados/mapa/compra/departamento/?moneda=2&precioDesde=0&precioHasta=0&dormitoriosDesde=&dormitoriosHasta=&banosDesde=0&banosHasta=0&estado=0&disponibilidadEntrega=&numeroDeDiasTocToc=0&superficieDesdeUtil=0&superficieHastaUtil=0&superficieDesdeConstruida=0&superficieHastaConstruida=0&superficieDesdeTerraza=0&superficieHastaTerraza=0&superficieDesdeTerreno=0&superficieHastaTerreno=0&ordenarPor=0&pagina=1&paginaInterna=1&zoom=2.6593752866676548&idZonaHomogenea=0&atributos=&texto=&viewport=-64.99999999999875,-100.37752823759887,-12.099181219333985,-49.29251687510208&idPoligono=0&publicador=0&temporalidad=0'
    user_agent= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    headers= {'User-Agent': user_agent}
    source= requests.get(url, headers)
    pattern= r'\"token":".{,}?"'
    token= re.search(pattern, source.text).group().strip('"token"').strip(":").strip('"')
    return token

In [3]:
token = get_token()

In [4]:
token

'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpZCI6IjIwMS4yMzkuNjMuMTU3IiwiaWF0IjoxNjg2ODQ0Mzg1LCJleHAiOjE2ODc0NDkxODV9.mL_0dBQtHYdHKhE6pfz0pgWJugSNIqbqiK-mxropDGw'

### Armando la payload
Ahora que tenemos la token, el siguiente paso es armar la solicitud al sitio de consulta de los datos (GetProps) entregando los parámetros de los datos que queremos obtener

Como fue mencionado, payload refiere a los parámetros de la consulta que condicionarán la entrega de datos por parte del servidor. En este caso podemos ver en las herramientas de desarrollador como se ve en esta consulta.


![toctoc4.png](attachment:toctoc4.png)


Notar que en los encabezados entregaremos el agente de usuario (para identificarnos como google chrome y no como python), la token de acceso y content-type (mas información sobre esto en https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Content-Type).

Por último, notar que al ver el payload, existe un parámetro de página, operación y tipo, la página refiere al conjunto de propiedades que va a entregar (pagina uno las primeras 20, pagina 2 las segundas... etc), tipo refiere a casa, oficina, etc, y operación a si es arriendo a o venta.

Como se verá, la respuesta contendrá un json con los datos que buscamos, por lo cual se armará una función para convertirlo en dataframe

In [5]:
def get_toc_toc(pagina:int, tipo:str, operacion:int):
    """
    Pagina: n de pagina
    tipo: 1,2 (compra o arriendo)
    tipo: "departamento", "casa", "terreno" etc...
    """
    ### operacion 1,2 (compra, arriendo), tipo: "departamento", "casa", "terreno", "oficina", "local comercial"
    url='https://www.toctoc.com/api/mapa/GetProps'
    method='POST'
##############################################################################################################################
    payload={ 
    'region': "",
    'comuna': "",
    'barrio': "",
    'poi': "",
    'tipoVista': "mapa",
    'operacion': operacion,
    'idPoligono': '0',
    'moneda': '2',
    'precioDesde': '0',
    'precioHasta': '0',
    'dormitoriosDesde': '0',
    'dormitoriosHasta': '0',
    'banosDesde': '0',
    'banosHasta': '0',
    'tipoPropiedad': tipo,
    'estado': '0',
    'disponibilidadEntrega': "",
    'numeroDeDiasTocToc': '0',
    'superficieDesdeUtil': '0',
    'superficieHastaUtil': '0',
    'superficieDesdeConstruida': '0',
    'superficieHastaConstruida': '0',
    'superficieDesdeTerraza': '0',
    'superficieHastaTerraza': '0',
    'superficieDesdeTerreno': '0',
    'superficieHastaTerreno': '0',
    'ordenarPor': '0',
    'pagina': '{0}'.format(pagina+1),
    'paginaInterna': '1',
    'zoom': '2.9604474313144915',
    'idZonaHomogenea': '0',
    'busqueda': "",
    'viewport': "-53.322206687377715,-94.01165015122845,-5.265176625303226,-55.80055985968981",
    'atributos': '[]',
    'publicador': '0',
    'temporalidad': '0',
    'limite': '510',
    'cargaBanner': 'false',
    'primeraCarga': 'false'}
##########################################################################################################################    
    datareq=json.dumps(payload)
    
    response= requests.post(url=url, headers={
    'x-access-token': get_token(),
    'content-type': 'application/json',
    'origin': 'https://www.toctoc.com'}, data= datareq)
    
    time.sleep(1.5)
    return response

In [6]:
solicitud = get_toc_toc(1, 'departamento', 'compra') #primera página de compras de departamentos

In [7]:
solicitud.text #viendo el texto que nos devuelve la solicitud, podemos notar rapidamente un json con la información que buscamos

'{"resultados":{"Poligono":[],"Total":60297,"Pagina":2,"TotalPorPagina":510,"Propiedades":[[[27,28,30,37,100],1320635,-72.98260100,-41.31324100,1,2,4,"Puerto Varas",1,3,false,true,0,false,"24-09-2019 0:00:00",2,7,2,7,2,"https://d1cfu8v5n1wsm.cloudfront.net/toctoc/fotos/20190924/1320635/s_wm_2019092439141676651.jpg",8,4610.000000,4610.000000,166289384.50,0.0,"4016/2019092419504332901.jpg",54.280000,114.220000,0.0,0.0,54.280000,114.220000,47.080000,97.940000,false,false,false,0,"Edificio Jardines de Klenner","https://www.toctoc.com/propiedades/compranuevo/departamento/puerto-varas/edificio-jardines-de-klenner/1320635",0,1,0,""],[[25,28,39],458116,-70.69711000,-33.45396500,1,1,5,"Estación Central",2,2,false,true,0,false,"22-10-2015 0:00:00",2,7,2,7,2,"https://d1cfu8v5n1wsm.cloudfront.net/toctoc/fotos/20151022/458116/s_wm_2015102200479752162.jpg",8,2499.000000,2499.000000,90142553.55,0.0,"59/2014111143247747983.jpg",48.100000,48.400000,0.0,0.0,48.100000,48.400000,43.000000,45.600000,false,

In [8]:
type(solicitud)

requests.models.Response

In [9]:
def registro_to_dataframe(dataframe: pd.DataFrame, propiedad: dict) -> pd.DataFrame:
    """
    toma un dataframe y le agrega los registros como dataframe del json de una propiedad
    de una respuesta a la consulta de una página de propiedades
    """
    registro={'codigo': propiedad[1],
    'longitud': propiedad[2],
    'latitud': propiedad[3],
    'comuna': propiedad[7],
    'direccion': propiedad[39],
    'm21': propiedad[27],
    'm22': propiedad[28],
    'bathroom': propiedad[4],
    'dormitorios':propiedad[5],
    'precio11': propiedad[22],
    'precio12': propiedad[23],
    'precio21': propiedad[24],
    'precio22': propiedad[25],
    'uf': min(propiedad[22],propiedad[24]),
    'fecha_publicacion': propiedad[14],
    'url': propiedad[40],
    'url_img': propiedad[20],
    'operacion': 'venta'
    }
    #generamos el registro del dataframe y lo anexamos al dataframe previo
    pd.concat([dataframe, pd.DataFrame(registro, index = [len(df)])])
    return dataframe

In [10]:
df = pd.DataFrame(columns=['codigo', 'longitud', 'latitud', 'comuna', 'direccion', 'm21', 'm22', 'bathroom', 'dormitorios', 'precio11', 'precio12','precio21', 'precio22',
                                    'uf','fecha_publicacion', 'url', 'url_img'])

### Juntandolo todo

Ahora que sabemos como obtener una página de propiedades desde la aplicación de mapas de toctoc, haremos un for loop que extraiga un numero arbitrario de páginas". Además tomamos en cuenta que por situaciones fuera de nuestro control, lo que nos devuelva una página puede ser un error ya sea por errores del sitio,conexión a internet, denegación por parte del servidor, etc...

Además hacemos una función para re intentar obtener las páginas en donde el sitio no envio respuesta para finalmente convertirlas en un csv

In [11]:
def toc_toc_to_dataframe(tipo: str, operacion: int, max_paginas: int = 10000) -> pd.DataFrame:
    
    """
    Extrae un numero arbitrario de páginas para un tipo de anuncio y una operación dada y las convierte en dataframe
    """
    #instanciamos lista de páginas que fallan en la extracción
    fail_list=[] 
    #instanciamos dataframe con la información que estamos solicitando
    dataframe=pd.DataFrame(columns=['codigo', 'longitud', 'latitud', 'comuna', 'direccion', 'm21', 'm22', 'bathroom', 'dormitorios', 'precio11', 'precio12','precio21', 'precio22',
                                    'uf','fecha_publicacion', 'url', 'url_img'])
    
    #iteramos sobre la cantidad de páginas
    for pagina in range(10000):
        print("Extrayendo pagina {0}".format(pagina))
        if max_paginas<pagina:
            break   
        
            
        propiedades=get_toc_toc(pagina=pagina, tipo=tipo, operacion=operacion)
        #Obtenemos la primera página para saber cuantas páginas tenemos que extraer tomando en cuenta que
        #por página el sitio nos devuelve cierto número de propiedades por páginas, por lo cual aca calculamos
        #el máximo de páginas a extraer real es calculado en este momento
        if pagina==0:
            print(propiedades.status_code)
            if propiedades.status_code==200:
                max_paginas=round(propiedades.json()['resultados']['Total']/510)
                print(max_paginas)
            else:
                #Si falla al principio, intentamos de nuevo, hasta que funcione
                print('fallo al principio')
                dataframe=toc_toc_to_dataframe(tipo=tipo, operacion=operacion)
                return dataframe
        #si el código de status es 200 (es decir, la página responde correctamente nuestra solicitud)
        #itera sobre las propiedades del json y se agrega al dataframe
        if propiedades.status_code==200:
            for propiedad in propiedades.json()['resultados']['Propiedades']:
                dataframe=registro_to_dataframe(dataframe=dataframe, propiedad=propiedad)
         
        #si no, imprime que no funciono  y lo añade a la lista de solicitudes que no resultaron
        else:
            print("pagina {0} no funciono".format(pagina))
            fail_list.append(pagina)
            
    #finalmente, mientras tengamos páginas en la lista de fracasos, intentamos de extraerlas de nuevo
    if len(fail_list)>0:
        print(fail_list)
        dataframe=retry_to_df(fail_list=fail_list, tipo=tipo, operacion= operacion, dataframe=dataframe)
        
            

    return dataframe
    
        

In [12]:
def retry_to_df(fail_list: list, tipo: str, operacion: int,dataframe: pd.DataFrame) -> pd.DataFrame:
    
    """
    Toma la lista de paginas que no se extrayeron e intenta extraerlas hasta lograrlo
    """
    
    fail_list_redo=[]
    for pagina in fail_list:
        propiedades=get_toc_toc(pagina, tipo=tipo, operacion=operacion)
        if propiedades.status_code==200:
            for propiedad in propiedades.json()['resultados']['Propiedades']:
                dataframe=registro_to_dataframe(dataframe= dataframe, propiedad=propiedad)
 
        else:
            print("pagina {0} no funciono".format(pagina))
            fail_list_redo.append(pagina)
            
    if len(fail_list_redo)>0:
        retry_to_df(fail_list=fail_list_redo, tipo=tipo, operacion=operacion, dataframe=dataframe)
    return dataframe
    

In [13]:
def gen_csv(tipo: str, operacion: int):
    """
    hace todo lo de arriba y lo envía a un csv
    """
    
    df=toc_toc_to_dataframe(tipo=tipo, operacion=operacion)
    df.to_csv("{0}{1}.csv".format(tipo, operacion))

In [14]:
#si se ejecuta correctamente esta función, se generará un csv para las casas en venta.
#a veces podría no funcionar por diversos motivos asociados al servidor, en ese caso, se recomienda ejecutar en otro momento
gen_csv("casa", 1)

Extrayendo pagina 0
200
70
Extrayendo pagina 1
Extrayendo pagina 2
Extrayendo pagina 3
pagina 3 no funciono
Extrayendo pagina 4
Extrayendo pagina 5
Extrayendo pagina 6
pagina 6 no funciono
Extrayendo pagina 7
pagina 7 no funciono
Extrayendo pagina 8
pagina 8 no funciono
Extrayendo pagina 9
Extrayendo pagina 10
Extrayendo pagina 11
Extrayendo pagina 12
Extrayendo pagina 13
Extrayendo pagina 14
pagina 14 no funciono
Extrayendo pagina 15
pagina 15 no funciono
Extrayendo pagina 16
pagina 16 no funciono
Extrayendo pagina 17
pagina 17 no funciono
Extrayendo pagina 18
Extrayendo pagina 19
Extrayendo pagina 20
Extrayendo pagina 21
Extrayendo pagina 22
Extrayendo pagina 23
Extrayendo pagina 24
Extrayendo pagina 25
Extrayendo pagina 26
Extrayendo pagina 27
Extrayendo pagina 28
Extrayendo pagina 29
Extrayendo pagina 30
Extrayendo pagina 31
Extrayendo pagina 32
Extrayendo pagina 33
Extrayendo pagina 34
Extrayendo pagina 35
pagina 35 no funciono
Extrayendo pagina 36
Extrayendo pagina 37
Extrayendo 