                               scrapping web portal Yahoo Noticias!
Requerimiento

Cree una solución que rastree articulos de un sitio web de noticias, limpie la respuesta, almacenenela en una base de datos de mongo y luego pongala a disposición para realizar busquedas a traves de una API.

- Escriba una app para rastrear un sitio web de noticias en linea, utilizando un framework de scrapping como [Scrapy] (http://scrapy.org/).
-Puede utilizar un framework de scrapping de su elección y desarrollar la app en Python.
- La app debe limpiar los articulos para obtener solo información relevante para la noticia, p. Ej. texto del articulo, autor, titulo, URL del articulo, etc. Utilice un framework/librerias como readability para limpiar la página de contenido superfluo como publicidad y html
- Almacene los datos en una base de datos de mongo, p. Ej. compose/mongo atlas (gratuito), para
a su posterior busqueda y recuperación. Asegurese de que la URL del articulo esta incluida para permitir la comparación con el original.
- Escriba una API que proporcione acceso al contenido de la base de datos de mongo. El usuario debe poder buscar articulos por palabra clave.


 ### primer bloque
 se importan las librerias y la ejecución sobre el scrapping web , toda informacion recopilada se almacena una lista.

In [1]:
## importar librerias
import re
import csv
from time import sleep
from bs4 import BeautifulSoup
import requests

In [2]:
## página de noticias 
template = 'https://news.search.yahoo.com/search?p={}'

In [3]:
## usuario debe escribir palabra clave para la busquedas de noticias. ejemplo: sport,fashion,politics

Tag = str(input('Ingrese Palabra Clave: '))


Ingrese Palabra Clave: sport


In [4]:
## busca noticias relacionadas con la palabra clave ingresada
url = 'https://news.search.yahoo.com/search?p={}' + Tag

In [5]:
headers = {
    'accept': '*/*',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'en-US,en;q=0.9',
    'referer': 'https://www.google.com',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44'
}

In [6]:
response = requests.get(url, headers=headers)

## parseo del htlm 
soup = BeautifulSoup(response.text, 'html.parser')

## busqueda por etiquetas del html
cards = soup.find_all('div', 'dd NewsArticle')

In [7]:
len(cards)

10

In [8]:
card = cards[5]

In [9]:
## extraer el titulo de la noticia en una variable 
Titulo = card.find('h4', 's-title').text

## extrae la fuente de la noticia 
Fuente = card.find("span", 's-source').text

## extrae la fecha de la publicacion de la noticia- no tiene un campo de fecha real 
Fecha_posteo = card.find('span', 's-time').text.replace('·', '').strip()

 ## estrae la descripcion de la noticia 
Descripcion = card.find('p', 's-desc').text.strip()

## estrae la Url de la noticia 
Url = card.find('a').get('href')

unquoted_link = requests.utils.unquote(Url)

## transformacion para limpiar la url y extraer solo el link 
pattern = re.compile(r'RU=(.+)\/RK')
clean_link = re.search(pattern, unquoted_link).group(1)



In [10]:
def get_article(card):
    ##Extract article information from the raw html
    headline = card.find('h4', 's-title').text
    source = card.find("span", 's-source').text
    posted = card.find('span', 's-time').text.replace('·', '').strip()
    description = card.find('p', 's-desc').text.strip()
    raw_link = card.find('a').get('href')
    unquoted_link = requests.utils.unquote(raw_link)
    pattern = re.compile(r'RU=(.+)\/RK')
    clean_link = re.search(pattern, unquoted_link).group(1)
    
    article = (headline, source, posted, description, clean_link)
    return article

In [11]:
articles = []
links = set()

for card in cards:
    article = get_article(card)
    link = article[-1]
    if not link in links:
        links.add(link)
        articles.append(article)

In [12]:
articles[:5]

[('Sports Illustrated thinks Florida football will regress in 2021, but don’t be fooled',
  'MSN News',
  '2 hours ago',
  'Sports Illustrated tabs Florida as one of three teams to take a step back next season. Here are some...',
  'https://www.msn.com/en-us/Sports/other/sports-illustrated-thinks-florida-football-will-regress-in-2021-but-dont-be-fooled/vi-AAKIKIk'),
 ("Sports media lacks 'sensitivity and informed questioning', Naomi Osaka under 'different pressure'",
  'MSN News',
  '7 hours ago',
  'Sports journalist Kavitha Davidson joins Rev. Al Sharpton to discuss recent treatment of...',
  'https://www.msn.com/en-us/Health/other/sports-media-lacks-sensitivity-and-informed-questioning-naomi-osaka-under-different-pressure/vi-AAKKmKw'),
 ('Sports Media World Reacts To The Kelly Stewart News',
  'AOL',
  '13 hours ago',
  'An ESPN sports gambling analyst has been let go by the company after less than a month of work. Kelly Stewart, a sports gambling expert, is out at ESPN...',
  'http

### Segundo bloque 
se importa la libreria de pandas y se convierte la lista a un data frame de pandas para hacer transformaciones,

 -se  agrega la columna fecha ( fecha de ejecucion )
 
 -se agrega la columna etiqueta 


In [13]:
## Importa la libreria de pandas 
import pandas as pd

## transforma el resultado en un dataframe de pandas 
df = pd.DataFrame(articles)

## asigno los nombre se la cabecera 
cabecera=["Titulo","Fuente","Fecha posteo","Descripcion","Url"]

df.columns=cabecera

In [14]:
## agrego una columna con la fecha del sistemas
df['Fecha'] = pd.to_datetime('today').strftime("%d/%m/%Y")

In [15]:
df['etiqueta'] = Tag

### Tercer bloque
se importa pymongo, conexion a la base de datos Mongo Atlas , insercion del data frame en la base de datos Noticas

In [16]:
## importar librerias de mongodb
from pymongo import MongoClient

import dns.resolver
dns.resolver.default_resolver=dns.resolver.Resolver(configure=False)
dns.resolver.default_resolver.nameservers=['8.8.8.8']

## cadena de conexin con el mongo atlas 
client =  MongoClient("mongodb+srv://junior:18168188@cluster0.iugq2.mongodb.net/Noticias?retryWrites=true&w=majority")

In [17]:
db = client['Noticias']
collection = db['covid']

df.reset_index(inplace=True)
data_dict = df.to_dict("records")

# Insert collection
collection.insert_many(data_dict)

<pymongo.results.InsertManyResult at 0x1502cd3fec0>

In [18]:
 consulta = db.covid.find({"etiqueta": Tag})

In [19]:
for doc in consulta : 
    print(doc)

{'_id': ObjectId('60bd68a1e618b6c11c441237'), 'index': 0, 'Titulo': 'Sports Illustrated thinks Florida football will regress in 2021, but don’t be fooled', 'Fuente': 'MSN News', 'Fecha posteo': '2 hours ago', 'Descripcion': 'Sports Illustrated tabs Florida as one of three teams to take a step back next season. Here are some...', 'Url': 'https://www.msn.com/en-us/Sports/other/sports-illustrated-thinks-florida-football-will-regress-in-2021-but-dont-be-fooled/vi-AAKIKIk', 'Fecha': '06/06/2021', 'etiqueta': 'sport'}
{'_id': ObjectId('60bd68a1e618b6c11c441238'), 'index': 1, 'Titulo': "Sports media lacks 'sensitivity and informed questioning', Naomi Osaka under 'different pressure'", 'Fuente': 'MSN News', 'Fecha posteo': '7 hours ago', 'Descripcion': 'Sports journalist Kavitha Davidson joins Rev. Al Sharpton to discuss recent treatment of...', 'Url': 'https://www.msn.com/en-us/Health/other/sports-media-lacks-sensitivity-and-informed-questioning-naomi-osaka-under-different-pressure/vi-AAKKmKw