# Web Scraping con XPath

Scraper de las noticias de La Republica
https://www.larepublica.co/

*Versión 29 de Marzo 2021*

- Links = //div[@class="V_Trends"]/h2/a/@href
- Título = //div[@class="mb-auto"]/h2/span/text()
- Resumen = //div[@class="lead"]/p/text()
- Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()

In [1]:
# Instalar lxml
try:
    import lxml
except:
    !pip install lxml

Collecting lxml
  Downloading lxml-4.6.3-cp38-cp38-manylinux1_x86_64.whl (5.4 MB)
[K     |████████████████████████████████| 5.4 MB 2.1 MB/s eta 0:00:01
[?25hInstalling collected packages: lxml
Successfully installed lxml-4.6.3


In [5]:
import requests
import lxml.html as html
import os 
import datetime

In [29]:
HOME_URL = 'https://www.larepublica.co/'

XPATH_LINK_TO_ARTICLE = '//text-fill[not(@class)]/a/@href'
XPATH_TITLE = '//div[@class="mb-auto"]//span/text()'
XPATH_SUMMARY = '//div[@class="lead"]/p/text()'
XPATH_BODY = '/div[@class="html-content"]/p[not(@class)]/text()'

In [33]:
def parse_notice(link, today):
    try:
        print(link)
        response = requests.get(link)
        if response.status_code == 200:
            notice = response.content.decode('utf-8')
            parsed = html.fromstring(notice)
            try:
                title = parsed.xpath(XPATH_TITLE)[1]
                print(title)
                summary = parsed.xpath(XPATH_SUMMARY)[0]
                print(summary)
                body = parsed.xpath(XPATH_BODY)
                print(body)
            except IndexError:
                print("Error")
                return

        else:
            raise ValueError(f'Error: {response.status_code}')
    except ValueError as ve:
        print(ve)
        
def parse_home():
    try:
        response = requests.get(HOME_URL)
        
        if response.status_code == 200:
            home = response.content.decode('utf-8')
            parsed = html.fromstring(home)
    
            links_to_notices = parsed.xpath(XPATH_LINK_TO_ARTICLE)
            # print("Cantidad de Links: ", len(links_to_notices))
            # Imprimir todos los links de noticias
            # print(links_to_notices)
            
            today = datetime.date.today().strftime('%d-%m-%Y')
            if not os.path.isdir(today):
                os.mkdir(today)

            for link in links_to_notices:
                parse_notice(link, today)
            
        else:
            raise ValueError(f"Error: {response.status_code}")


    except ValueError as ve: 
        print(ve)

def main():
    parse_home()

if __name__ == '__main__':
    main()

https://www.larepublica.co/finanzas/en-marzo-2097704-deudores-redefinieron-sus-creditos-por-un-total-de-367-billones-3146768
En marzo, 2.097.704 deudores redefinieron sus créditos por un total de $36,7 billones
La cifras revelan que en el producto financiero donde más se concentran los deudores es en el de libre inversión con 399.073 personas
[]
https://www.larepublica.co/globoeconomia/oms-dice-que-estudio-sobre-origen-de-covid-19-no-fue-completo-y-hubo-problemas-3146800
OMS dice que estudio sobre origen de covid-19 no fue completo y hubo problemas
El director de la organización hizo los comentarios a los estados miembro de la agencia después de cuatro semanas en Wuhan
[]
https://www.larepublica.co/economia/anif-recomendamos-evitar-a-la-implementacion-de-nuevas-restricciones-a-la-movilidad-3146733
Anif: "Recomendamos evitar la implementación de nuevas restricciones a la movilidad"
Según la asociación, se deben evaluar las medidas que no cuentan con evidencia para contrarrestar los cont

Obrador acusa a Oxxo, Walmart y Bimbo de recibir subsidios eléctricos injustos
El mandatario mexicano solicitó informe de Comisión Federal de Electricidad (CFE) sobre rebajas a las empresas y convocó a diálogo
[]
https://www.larepublica.co/globoeconomia/ceo-de-sura-am-chile-dijo-que-se-esta-yendo-en-sentido-contrario-con-tercer-retiro-de-10-3146131
CEO de Sura AM Chile dijo que se va en sentido contrario con tercer retiro de 10%
El ejecutivo señaló que por ahora se debe priorizar la focalización de los recursos antes de avanzar hacia una Pensión Básica Universal
[]
https://www.larepublica.co/globoeconomia/las-empresas-en-eeuu-estan-encendiendo-las-alarmas-por-el-aumento-de-la-inflacion-3146270
Las empresas en EE.UU. están encendiendo las alarmas por el aumento de la inflación
Los cuellos de botella en las cadenas de suministro, el alza de los commodities y los mayores gastos laborales afectan los costos
[]
https://www.larepublica.co/globoeconomia/millonaria-demanda-del-exgerente-genera

KeyboardInterrupt: 