# Prerequisitos

Se requiere tener instalado Python 3  

Para ejecutar el script es necesario instalar la siguientes librerias Python:

* pip install pandas
* pip install re
* pip install numpy
* pip install urllib3

# Ejecutar Script

1. Se debe crear un directorio data en la misma ruta donde se encuentra el script.
2. Ejecutar el script __\# python3 foodPriceCorabastos.py__.
3. En directorio __data__ se encuentra el archivo .csv con los datos extraídos del sitio web.


# Código fuente

__Cargamos las librerias Phython__

In [34]:
import urllib3 # Libreria para descargar URL
import re # Libreria para exprecion regular
import numpy as np # Libreria para crear manipulacion de array
import pandas as pd # Libreria para crear manipulacion de DataFrame
from selenium import webdriver # librerias para manipular paginas web dinamicas
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

## Definicion de funciones
********

**_Funcion:webSiteStatus_**

Obtiene el codigo de estado del request

In [None]:
def webSiteStatus(url,user_agent='wswp'):   
    headers = {'User-agent': user_agent}
    
    http = urllib3.PoolManager(cert_reqs='CERT_NONE')
    response = http.request('GET', url, retries=False,headers=headers)
    
    return response.status

**_Funcion:download_**

Funcion para descargar el sitio web

In [51]:
# download: funcion para descargar el sitio web
# parametros in:
# url: direccion del sitio web
# num_retries: numeros de reintentos de la solicitud en caso de error
# user_agent: informacion de la peticion por defecto el valor 'wswp' (Estandar web scraping con Python)
def download1(url,user_agent='wswp',num_retries=2):
    print ('Downloading:', url)
    
    headers = {'User-agent': user_agent}
    
    http = urllib3.PoolManager(cert_reqs='CERT_NONE')
    response = http.request('GET', url, retries=False,headers=headers)
    
    if response.status == 200:
        html = response.data
    else:
        print('Download error: cod_status => ', response.status)
        html = None
        if num_retries > 0:            
            if 500 <= response.status < 600:                
                # retry 5XX HTTP errors                
                return download(url, user_agent, num_retries-1)
    
    return html.decode('utf-8')

**_Funcion:download_**

Funcion para descargar el sitio web con listado de precios por fecha

In [59]:
# download: funcion para descargar el sitio web con listado de precio por dia
# parametros in:
# url: direccion del sitio web
# fprecio: dia del listado de precios a consultar
# num_retries: numeros de reintentos de la solicitud en caso de error
# user_agent: informacion de la peticion por defecto el valor 'wswp' (Estandar web scraping con Python)
def download2(url,fprecio,user_agent='wswp',num_retries=2):
    print ('Downloading:', url)
    
    request_status = webSiteStatus(url)
    if request_status == 200:
        driver = webdriver.Firefox()
        driver.get(url)
        driver.implicitly_wait(3) # esperar a que cargue el sitio web seconds
        assert "APP Historico de Precios" in driver.title
        # carganos el reporte 'Boletin x Fecha'
        elem = driver.find_element_by_xpath("//div[@class='col-md-12 column  visible-desktop']/div/div/div//a[div/@class='textoIcono' and div/text()='Boletin x Fecha']")
        elem.click()
        # llenamos el campo fecha
        elem = driver.find_element_by_id('datepicker4')
        elem.clear()
        elem.send_keys(fprecio)
        # damos click boton con sultar
        elem = driver.find_element_by_xpath("//div[@class='divVisible' and @id='divPorFechas']//button")
        ActionChains(driver).move_to_element(elem).click(elem).perform()
        driver.implicitly_wait(10)
        assert "No results found." not in driver.page_source
        html = driver.page_source
        driver.close()
        #print(driver.page_source)
        #html = driver.page_source
    else:
        print('Download error: cod_status => ', request_status)
        html = None
        if num_retries > 0:            
            if 500 <= request_status < 600:   
                # retry 5XX HTTP errors                
                return download(url, user_agent, num_retries-1)
                        
    return html #html.decode('utf-8')

**_Funcion: extractData_**

Esta funcion extrae los datos del HTML, por medio de patrones utilizando expreciones regulares

In [54]:
# extractData: extrae los datos del HTML
# parametros in:
# html: HTML de la pagina web descargada
def extractData(html,type_rpt):
    if type_rpt == "daily":
        colum_names = ['grupo','nombre','presentacion','cantidad','unidad','cal_extra','cal_primera','valor','fecha_publicacion']
    else:
        colum_names = ['grupo','nombre','presentacion','cantidad','unidad','cal_extra','cal_primera','cal_corriente','valor','fecha_publicacion']
    array_html = re.findall('<img src="../img/logosolo.gif" align="bottom" />(.*?)<br />.*?<div class="table-responsive">(.*?)</div><b>', html,flags=re.DOTALL)
    df_data = pd.DataFrame(columns=colum_names)
    for html_grupo in array_html:
        grupo = re.findall('(.*?) Actualizado el: (.{10})', html_grupo[0],flags=re.DOTALL)
        tbody_tr = re.findall('<tbody>(.*?)</tbody>', html_grupo[1],flags=re.DOTALL)
        if type_rpt == "daily":
            array_data = re.findall('<tr.*?>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?</tr>', tbody_tr[0],flags=re.DOTALL)
        else:
            array_data = re.findall('<tr.*?>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?<td.*?>(.*?)</td>.*?</tr>', tbody_tr[0],flags=re.DOTALL)
        #creamos array con los datos
        col_grupo = np.full((len(array_data),1), grupo[0][0]) # crear columna grupo
        col_fpublicacion = np.full((len(array_data),1), grupo[0][1]) # crear columna fecha publicacion
        all_data = np.hstack((col_grupo,array_data,col_fpublicacion)) # crear dataset

        df_data = df_data.append(pd.DataFrame(all_data,columns=colum_names),ignore_index=True)
        #print(array_data)
        #print(all_data)
    return df_data

## Descargamos HTML del sitio web

In [60]:
url = 'https://www.corabastos.com.co/sitio/historicoApp2/reportes/prueba.php'
# Descargar reporte de precios diarios
html_rdaily = download1(url) 
# Descargar reporte de precios x fecha
html_rdate = download2(url,'2019-11-08')
# print("html => ", html)

Downloading: https://www.corabastos.com.co/sitio/historicoApp2/reportes/prueba.php




Downloading: https://www.corabastos.com.co/sitio/historicoApp2/reportes/prueba.php




## Extraer los datos del HTML y Creamos el DataSet

__Generar dataset del listado de precio diario__

In [55]:
df_data = extractData(html_rdaily,"daily")
df_data.head(10) # mostramos las primeras 10 filas del dataset


Unnamed: 0,grupo,nombre,presentacion,cantidad,unidad,cal_extra,cal_primera,valor,fecha_publicacion
0,HORTALIZAS,ACELGA,ATADO,10.0,KILO,"$ 12,000","$ 11,000","$ 1,200",2019-11-08
1,HORTALIZAS,AHUYAMA,KILO,1.0,KILO,"$ 1,500","$ 1,300","$ 1,500",2019-11-08
2,HORTALIZAS,AJO ROSADO,ATADO,5.0,KILO,"$ 45,000","$ 43,000","$ 9,000",2019-11-08
3,HORTALIZAS,ALCACHOFA,DOCENA,5.0,KILO,"$ 20,000","$ 18,000","$ 4,000",2019-11-08
4,HORTALIZAS,APIO,ATADO,10.0,KILO,"$ 10,000","$ 9,000","$ 1,000",2019-11-08
5,HORTALIZAS,ARVEJA VERDE,BULTO,50.0,KILO,"$ 180,000","$ 175,000","$ 3,600",2019-11-08
6,HORTALIZAS,BERENJENA,KILO,1.0,KILO,"$ 1,600","$ 1,400","$ 1,600",2019-11-08
7,HORTALIZAS,BROCOLI,DOCENA,12.0,KILO,"$ 35,000","$ 33,000","$ 2,917",2019-11-08
8,HORTALIZAS,CALABACIN,KILO,1.0,KILO,"$ 1,500","$ 1,300","$ 1,500",2019-11-08
9,HORTALIZAS,CALABAZA,KILO,1.0,KILO,"$ 1,500","$ 1,300","$ 1,500",2019-11-08


__Generar dataset del listado de precio por fecha__

In [61]:
df_data = extractData(html_rdate,"date")
df_data.head(10) # mostramos las primeras 10 filas del dataset

Unnamed: 0,grupo,nombre,presentacion,cantidad,unidad,cal_extra,cal_primera,cal_corriente,valor,fecha_publicacion


## Exportamos el DataSet a un archivo con formato CSV

In [6]:
#print(df_data.loc[0,'fecha_publicacion'])
df_data.to_csv('../data/datos_' + df_data.loc[0,'fecha_publicacion'] + '.csv',index=False)