<h1>Capítulo 4 - Modelos de Web Crawling</h1>

In [15]:
class Content:
	"""
	Classe base comum para todos os artigos e páginas
	"""
	def __init__(self, url, title, body):
		self.url = url
		self.title = title
		self.body = body

	def print(self):
		"""
		Função flexível de exibição controla a saída
		"""
		print(f"URL: {self.url}")
		print(f"TITLE: {self.title}")
		print(f"BODY:\n {self.body}")

class Website:
	"""
	Contém informações sobre a estrutura do site
	"""
	def __init__(self, name, url,titleTag, bodyTag):
		self.name= name
		self.url=url
		self.titleTag=titleTag
		self.bodyTag=bodyTag

In [16]:
import requests
from bs4 import BeautifulSoup

class Crawler:

	def getPage(self,url):
		try:
			req=requests.get(url)
		except requests.exceptions.RequestException:
			return None
		return BeautifulSoup(req.text, 'html.parser')

	def safeGet(self,pageObj, selector):
		"""
		Função utilitária para obter uma string de conteúdo de um objeto BeautifulSoup e um seletor.
		Devolve uma string vazia caso nenhum objeto seja encontrado para o dado seletor
		"""

		selectedElems=pageObj.select(selector)
		if selectedElems is not None and len(selectedElems) >0:
			return '\n'.join([elem.get_text() for elem in selectedElems])
		return ''

	def parse(self,site, url):
		"""
		Extrai conteúdo de um dado URL de página
		"""
		bs=self.getPage(url)
		if bs is not None:
			title=self.safeGet(bs, site.titleTag)
			body= self.safeGet(bs, site.bodyTag)
			if title!= '' and body !='':
				content= Content(url, title, body)
				content.print()

In [39]:
crawler = Crawler()

siteData = [
    ['Infobae', 'https://www.infobae.com/america/colombia/', 'h1', 'div.nd-body-article'],
    ['Infodefensa', 'https://www.infodefensa.com/portada-brasil.php', 'h1', 'div#article_content.article_content.story_editor'],
    ['Defensa', 'https://www.defensa.com/', 'h1', 'div.entry-content.clearfix.e_descr'],
    ['El Tiempo', 'https://www.eltiempo.com/', 'h1', 'div.articulo-contenido']
]
websites = []
for row in siteData:
    websites.append(Website(row[0], row[1], row[2], row[3]))

In [34]:
crawler.parse(websites[0],"https://www.infobae.com/america/colombia/2022/08/25/ministerio-de-defensa-evaluara-la-posibilidad-de-comprar-nuevos-aviones-para-la-fuerza-aerea/")

URL: https://www.infobae.com/america/colombia/2022/08/25/ministerio-de-defensa-evaluara-la-posibilidad-de-comprar-nuevos-aviones-para-la-fuerza-aerea/
TITLE: Ministerio de Defensa evaluará la posibilidad de comprar nuevos aviones para la Fuerza Aérea 
BODY:
 Foto de archivo. Ministerio de Defensa evaluará la posibilidad de comprar nuevos aviones para la Fuerza Aérea colombiana. REUTERS/John VizcainoEl ministro de Defensa, Iván Velásquez, afirmó este jueves 25 de agosto que el Gobierno nacional está evaluando la posibilidad de comprar nuevos aviones para la Fuerza Aérea de Colombia. Si bien el presidente Gustavo Petro aseguró en campaña que no habría una nueva flota aérea, desde la cartera se percataron que la vida útil de algunas aeronaves está por concluir.“Es un tema que se está evaluando sobre las capacidades de la fuerza pública”, explicó el ministro en una rueda de prensa. Velásquez expuso que “hay efectivamente una vida útil ya cercana a concluir de varios de estos equipos” y a p

In [36]:
crawler.parse(websites[1],'https://www.infodefensa.com/texto-diario/mostrar/3861449/168-primicia-colombia-cotecmar-prepara-botadura-nueva-patrullera-fluvial-colombiana')

URL: https://www.infodefensa.com/texto-diario/mostrar/3861449/168-primicia-colombia-cotecmar-prepara-botadura-nueva-patrullera-fluvial-colombiana
TITLE: 

            Cotecmar botará su nueva Patrullera de Apoyo Fluvial Ligera en septiembre

        
BODY:
 

El astillero colombiano Cotecmar se encuentra en la fase  preparatoria para la botadura de la nueva Patrullera de Apoyo Fluvial Ligera  (PAF-L), de la Armada Colombiana (ARC), Esta etapa se surtirá a  mediados del próximo mes de septiembre –en aguas del puerto de Cartegana de  Indias-, luego de la cual se iniciará la fase de pruebas de aceptación de  puerto HAT (por Harbour Acceptance Trials) y posteriormente las pruebas de mar SAT (por Sea Acceptance Trials), antes de su entrega para despliegue  operacional. Diseño  incremental La nueva PAF cuenta con una serie pormenorizada  de mejoras en su diseño (de acuerdo a especificaciones técnicas ET-3240-B),  entre las que se destacan la reubicación de los camarotes de la tripulación

In [38]:
crawler.parse(
    websites[2], 'https://www.defensa.com/rusia/x-69-nuevo-misil-furtivo-fuerza-aerea-rusia')

URL: https://www.defensa.com/rusia/x-69-nuevo-misil-furtivo-fuerza-aerea-rusia
TITLE: X-69, el nuevo misil furtivo de la Fuerza Aérea de Rusia
BODY:
 Hemos conocido en Army 2022, en Moscú, el nuevo misil furtivo X-69 que está destinado a ser transportado por los cazabombarderos de la Fuerza Aérea de Rusia en sus cometidos de ataque a objetivos de alto valor.La presencia de novedades tecnológicas en el ámbito del armamento aéreo es constante para poner a punto diseños que respondan a necesidades concretas. El misil furtivo X-69 llega para complementar a otros desarrollos recientes, como el misil X-59MKM del que próximamente les hablaremos, en el difícil cometido de ser empleados de forma casi autónoma para alcanzar puntos en la superficie terrestre o en la zona costera.
Por lo que nos han informado desde la Corporación de Misiles Tácticos JSC, que lo ha diseñado y lo fabrica, el misil furtivo X-69 es un arma que está diseñada para atacar objetivos estacionarios en superficie, incluidos 

In [41]:
crawler.parse(websites[3],'https://www.eltiempo.com/colombia/otras-ciudades/turistas-holandeses-murieron-intoxicados-en-cartagena-comieron-en-bazurto-697302')

URL: https://www.eltiempo.com/colombia/otras-ciudades/turistas-holandeses-murieron-intoxicados-en-cartagena-comieron-en-bazurto-697302
TITLE: Los últimos pasos de los holandeses que murieron intoxicados en Cartagena
BODY:
 



En manos de la Fiscalía General de la Nación están las investigaciones por las muertes de Robert Gerrit Kootte y Nienke Guri Trishna Bawa, una pareja de turistas holandeses que había arribado a Cartagena el sábado 20 de agosto.Los jóvenes holandeses habían llegado en horas de la noche a Cartagena, procedentes de Santa Marta. Y en su itinerario por el Caribe colombiano estaba incluido un viaje a San Andrés, el cual se haría el lunes 22 de agosto, pero se presentó la tragedia.Las autoridades buscan a una pareja de extranjeros que acompañó a los holandeses el domingo al mercado de Bazurto y luego a una cena en la calle del Arsenal, en el centro histórico.(En contexto: ¿De qué murieron los 2 turistas holandeses en Cartagena? Este es el parte médico



Estuvieron comi