# Endi.com Web-Scrapper
## Import Modules
* requests -> to send HTTP/1.1 requests
* bas4/BeautifulSoup -> parsing HTML documents
* itertools -> counter functionality

In [55]:
import requests
from bs4 import BeautifulSoup
from itertools import count

## Extract and Save HTML Content

In [56]:
# Base url
news_url= "https://www.elnuevodia.com/noticias/seguridad"

# Get request to base url
news_html = requests.get(news_url)

## Parse HTML Content

In [60]:
# Creating soup of HTML text content with bs4 HTML parser
main_soup = BeautifulSoup(news_html.text, 'html.parser')

## Find Articles

In [65]:
# find all articles by tag and class specification
articles = main_soup.find_all('article', {'class': 'standard-teaser-container condensed-horizontal news'})

## Function to Extract Articles Data
* Title
* Path
* url
* Author

In [62]:
def get_artcl_data(article):
        """
        Extract articles data from endi.com digital news paper.

        Parameters
        ----------
        articles : ResultSet
            list of query results

        Returns
        -------
        dict
            a dictionary containing article title, url, and author data

        Raises
        ------
        AttribureError
            when article not found
        """
        try:
            # Check check article tagged Noticias or Seguridad
            if (article.find(name= "h5", attrs= {"class": "standard-teaser-subheading slug"}).text== "Seguridad"
                or article.find(name= "h5", attrs= {"class": "standard-teaser-subheading slug"}).text == "Noticias"):

                # Extract article title 
                article_headline= article.find(name= 'h3', attrs= {'class':'standard-teaser-headline teaser-headline'}).text
                
                # Extract article path
                article_path= article.find(name= "a", href= True)['href']
                
                # Extract article url
                article_url= "https://www.elnuevodia.com{path}".format(path= article_path)
                
                # Extract article author
                article_author= article.find("div", {"class": "authors-byline-text"}).text
                
                # Return dictionary with data
                return {"Headline": article_headline, "url": article_url, "author": article_author}
        except AttributeError:
             # Print message is find error
             print("¡No se encontró resultado!")

## Iterate Articles and Construct Dictionary 

In [None]:
data_handler= {}
for artcl in zip(count(start= 1, step= 1), articles):
    artcl_data= get_artcl_data(article= artcl[1])
    data_handler[str(artcl[0])]= artcl_data

In [68]:
article_url= data_handler["1"]["url"]
article_url


'https://www.elnuevodia.com/noticias/seguridad/notas/encuentran-un-cadaver-en-la-carretera-pr-6685-en-manati/'

In [69]:
article_html = requests.get(article_url)

In [73]:
article_soup= BeautifulSoup(article_html.text, "html.parser")

In [83]:
headline_sub= article_soup.find(name= "div", attrs= {"class": "article-headline__subheadline"}).text
headline_sub

'La Policía investiga si guarda relación con el cuerpo baleado y hallado flotando el lunes en un río del mencionado municipio'

In [94]:
article_date_time= (article_soup.find(name= "div", attrs= {"class": "article-headline__date"}).text).split("-")
article_date= article_date_time[0].strip()
article_time= article_date_time[1].strip()
article_time

'2:17 PM'

In [112]:
article_content= article_soup.find_all(name= "p", attrs= {"class": "content-element"})
content= []
for _ in article_content: content.append(_.text)
" ".join(content)

'El cuerpo de un hombre, que presenta heridas de bala y se encuentra atado de manos y pies, fue encontrado, en horas de la tarde del martes, en el kilómetro 9.0, en la carretera PR-6685, en el barrio Montebello, en el municipio de Manatí, informó el Negociado de la Policía. El director del Cuerpo de Investigaciones Criminales (CIC) de Arecibo, Carlos Vélez Hernández, indicó a El Nuevo Día que se está investigando si guarda relación con el cuerpo baleado que fue encontrado a orillas de un río debajo del puente Montebello, el lunes, en el mencionado municipio. “Se está verificando si se relacionan”, comentó. El Nuevo Día supo que la Policía indaga, además, si ambos cuerpos corresponden a dos jóvenes que fueron reportados como desaparecidos en el municipio de Vega Alta. Al presente, este es el decimocuarto asesinato que se reporta este año en Manatí. Mantente conectado a elnuevodia.com para la ampliación de esta noticia.'