# Módulo 2: HTML: Requests y BeautifulSoup    
## Web Scraping.

![texto alternativo](https://iqss.eu/img/web-scrape-technology.jpg)

## Parsing El Comercio.
![texto alternativo](https://www.elcomercio.com/bundles/elcomerciocms/images/icons/social/article-placeholder.jpg))

En este módulo veremos cómo utilizar las bibliotecas requests y bs4 para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario Página 12.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y apretar Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:

    El navegador envía una solicitud a la URL pidiéndole información.
    El servidor recibe la petición y procesa la respuesta.
    El servidor envía la respuesta a la IP de la cual recibió la solicitud.
    Nuestro navegador recibe la respuesta y la muestra formateada en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática y sistemática para luego extraer la información deseada de la respuesta. Utilizaremos requests para realizar peticiones y recibir las respuestas y bs4 para parsear la respuesta y extraer la información.
Te dejo unos links que tal vez te sean de utilidad:

   Códigos de status HTTP: https://developer.mozilla.org/es/docs/Web/HTTP/Status
   
   Documentación de requests: https://requests.kennethreitz.org/en/master/
   
   Documentación de bs4: https://www.crummy.com/software/BeautifulSoup/bs4/doc/




In [1]:
import requests

In [2]:
url = 'https://www.elcomercio.com/'

In [3]:
#Generar solicitud a la URL
elcomercio = requests.get(url)

In [4]:
elcomercio

<Response [200]>

In [5]:
#Codigo HTTP 200 es que acepta comunicacion 
elcomercio.status_code

200

In [6]:
#Información de la página web presentada en texto plano
print(elcomercio.text)

<!DOCTYPE html>
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
         <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
                            
    <meta name="Keywords" content="elecciones, elecciones seccionales, mundial, mundial de futbol, news, actualidad, noticias, Quito, Ecuador, diario, periódico, periodismo, elcomercio.com, www.elcomercio.com política, opinión, deportes, fútbol, negocios, seguridad, sociedad, cultura, tecnología, entretenimiento, video, especiales, multimedia, clasificados, empleo, blogs, fotos, galerías, de ecuador, noticias ecuador, noticias del ecuador, ulimas noticias, el comercio, el comercio, diario el comercio, EL COMERCIO, el comercio ecuador, guayaquil, cuenca, ambato, ibarra, manta, santo domingo, municipio, gobernacion, prefecto, prefectura, alcalde, alcaldia">
<meta name="news_keywords" content="elecciones, elecciones seccionales, mundial, mundial de futbol, news, actualidad, notic

In [7]:
elcomercio.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n         <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n                            \n    <meta name="Keywords" content="elecciones, elecciones seccionales, mundial, mundial de futbol, news, actualidad, noticias, Quito, Ecuador, diario, peri\xc3\xb3dico, periodismo, elcomercio.com, www.elcomercio.com pol\xc3\xadtica, opini\xc3\xb3n, deportes, f\xc3\xbatbol, negocios, seguridad, sociedad, cultura, tecnolog\xc3\xada, entretenimiento, video, especiales, multimedia, clasificados, empleo, blogs, fotos, galer\xc3\xadas, de ecuador, noticias ecuador, noticias del ecuador, ulimas noticias, el comercio, el comercio, diario el comercio, EL COMERCIO, el comercio ecuador, guayaquil, cuenca, ambato, ibarra, manta, santo domingo, municipio, gobernacion, prefecto, prefectura, alcalde, alcaldia">\n<meta name="news_keywords" content="elecciones, elecciones seccionales, 

In [8]:
elcomercio.headers

{'Content-Type': 'text/html; charset=UTF-8', 'Content-Encoding': 'gzip', 'cache-control': 'public, max-age=50', 'Content-Length': '35945', 'Accept-Ranges': 'bytes', 'Date': 'Fri, 21 Feb 2020 17:33:05 GMT', 'Via': '1.1 varnish', 'Age': '16', 'Connection': 'keep-alive', 'X-Served-By': 'cache-mia17648-MIA', 'X-Cache': 'HIT', 'X-Cache-Hits': '5', 'X-Timer': 'S1582306385.037535,VS0,VE0', 'Vary': 'Accept-Encoding', 'Strict-Transport-Security': 'max-age=300'}

In [9]:
elcomercio.request.headers

{'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [10]:
elcomercio.request.method

'GET'

In [11]:
elcomercio.request.url

'https://www.elcomercio.com/'

In [12]:
from bs4 import BeautifulSoup

In [13]:
#Separa el codigo largo en pequeños pedazos con el pharse de lxml, mas faciles de identificar y manejar
s = BeautifulSoup(elcomercio.text,'lxml')

In [14]:
type(s)

bs4.BeautifulSoup

In [15]:
print(s.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="elecciones, elecciones seccionales, mundial, mundial de futbol, news, actualidad, noticias, Quito, Ecuador, diario, periódico, periodismo, elcomercio.com, www.elcomercio.com política, opinión, deportes, fútbol, negocios, seguridad, sociedad, cultura, tecnología, entretenimiento, video, especiales, multimedia, clasificados, empleo, blogs, fotos, galerías, de ecuador, noticias ecuador, noticias del ecuador, ulimas noticias, el comercio, el comercio, diario el comercio, EL COMERCIO, el comercio ecuador, guayaquil, cuenca, ambato, ibarra, manta, santo domingo, municipio, gobernacion, prefecto, prefectura, alcalde, alcaldia" name="Keywords"/>
  <meta content="elecciones, elecciones seccionales, mundial, mundial de futbol, news, actualidad, noticias, Quito, Ecuador, diario, periódico, periodismo, elcomercio.co

# Cambios a la busqueda de la lista de noticias

In [16]:
lassecciones = s.find('div',attrs={'class':'container header-menu'}).find_all('li',)
# soup = BeautifulSoup(page.content, 'html.parser')
# project_href = [i['href'] for i in soup.find_all('a', href=True) if i['href'] != "#"]

lassecciones

[<li class="actualidad expandable first">
 <a href="/actualidad">Actualidad</a>
 <ul class="menu_level_1">
 <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>
 <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>
 </ul>
 </li>, <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>, <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>, <li class="tendencias expandable">
 <a href="/tendencias">Tendencias</a>
 <ul class="menu_level_1">
 <li class="link external first">
 <a href="https://goo.gl/VVHzRF" target="_blank">Educacción</a>
 </li>
 <li class="construir">
 <a href="/construir">Construir</a>
 </li>
 <li class="afull">
 <a href="/afull">Afull</a>
 </li>
 <li class="guaifai">
 <a href="/guaifai">Gua

xxxxxxxxxxxxxxxxxxxxxxxxxx

In [17]:
#s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'actualidad expandable first'})
#project_href = [i['href'] for i in s.find_all('a', href=True) if i['href'] != "#"]
#project_href
 

In [18]:
#for i in newlist:
#    print('hola')
 #  project_href = [i['href'] for i in lassecciones_1.find_all('a', href=True) if i['href'] != "#"]


#s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'actualidad expandable first'})

xxxxxxxxxxxxxxxxxxxxxxxxxx

In [65]:
lassecciones_7= s.find('div',attrs={'class':'container header-menu'}).find_all('ul',attrs={'class':'menu_level_1'})

In [66]:
lassecciones_7

[<ul class="menu_level_1">
 <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>
 <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="link external first">
 <a href="https://goo.gl/VVHzRF" target="_blank">Educacción</a>
 </li>
 <li class="construir">
 <a href="/construir">Construir</a>
 </li>
 <li class="afull">
 <a href="/afull">Afull</a>
 </li>
 <li class="guaifai">
 <a href="/guaifai">GuaiFai</a>
 </li>
 <li class="narices-frias last">
 <a href="/narices-frias">Narices Frías</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="opinion-editorial first">
 <a href="/opinion/editorial">Editorial</a>
 </li>
 <li class="opinion-caricaturas">
 <a href="/opinion/caricaturas">Caricaturas</a>
 </li>
 <li class="link">
 <a href="/columnistas">Columnistas</a>
 </li>
 <li class="cartas last">
 <a href="

In [57]:
lassecciones_1 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'actualidad expandable first'})
lassecciones_2 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'tendencias expandable'})
lassecciones_3 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'deportes'})
lassecciones_4 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'opinion expandable'})
lassecciones_5 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'multimedia expandable'})
lassecciones_6= s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'blogs last'})
lassecciones_7= s.find('div',attrs={'class':'container header-menu'}).find_all('ul',attrs={'class':'menu_level_1'})
type(lassecciones_6)

newlista = lassecciones_7
newlist = lassecciones_1 + lassecciones_2 + lassecciones_3 + lassecciones_4 + lassecciones_5 + lassecciones_6

In [58]:
lassecciones_7

[<ul class="menu_level_1">
 <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>
 <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="link external first">
 <a href="https://goo.gl/VVHzRF" target="_blank">Educacción</a>
 </li>
 <li class="construir">
 <a href="/construir">Construir</a>
 </li>
 <li class="afull">
 <a href="/afull">Afull</a>
 </li>
 <li class="guaifai">
 <a href="/guaifai">GuaiFai</a>
 </li>
 <li class="narices-frias last">
 <a href="/narices-frias">Narices Frías</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="opinion-editorial first">
 <a href="/opinion/editorial">Editorial</a>
 </li>
 <li class="opinion-caricaturas">
 <a href="/opinion/caricaturas">Caricaturas</a>
 </li>
 <li class="link">
 <a href="/columnistas">Columnistas</a>
 </li>
 <li class="cartas last">
 <a href="

In [59]:
newlist

[<li class="actualidad expandable first">
 <a href="/actualidad">Actualidad</a>
 <ul class="menu_level_1">
 <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>
 <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>
 </ul>
 </li>, <li class="tendencias expandable">
 <a href="/tendencias">Tendencias</a>
 <ul class="menu_level_1">
 <li class="link external first">
 <a href="https://goo.gl/VVHzRF" target="_blank">Educacción</a>
 </li>
 <li class="construir">
 <a href="/construir">Construir</a>
 </li>
 <li class="afull">
 <a href="/afull">Afull</a>
 </li>
 <li class="guaifai">
 <a href="/guaifai">GuaiFai</a>
 </li>
 <li class="narices-frias last">
 <a href="/narices-frias">Narices Frías</a>
 </li>
 </ul>
 </li>, <li class="deportes">
 <a href="/deportes">Deportes</a>
 </li>, <li class="opinion expandable">
 <a href="/opinion">Opinión</a>
 <ul class

In [60]:
newlista

[<ul class="menu_level_1">
 <li class="venezolanos-en-ecuador first">
 <a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
 </li>
 <li class="periodistas-en-la-frontera-norte last">
 <a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="link external first">
 <a href="https://goo.gl/VVHzRF" target="_blank">Educacción</a>
 </li>
 <li class="construir">
 <a href="/construir">Construir</a>
 </li>
 <li class="afull">
 <a href="/afull">Afull</a>
 </li>
 <li class="guaifai">
 <a href="/guaifai">GuaiFai</a>
 </li>
 <li class="narices-frias last">
 <a href="/narices-frias">Narices Frías</a>
 </li>
 </ul>, <ul class="menu_level_1">
 <li class="opinion-editorial first">
 <a href="/opinion/editorial">Editorial</a>
 </li>
 <li class="opinion-caricaturas">
 <a href="/opinion/caricaturas">Caricaturas</a>
 </li>
 <li class="link">
 <a href="/columnistas">Columnistas</a>
 </li>
 <li class="cartas last">
 <a href="

In [62]:
unaseccionespecial =newlista[0]
unaseccionespecial

<ul class="menu_level_1">
<li class="venezolanos-en-ecuador first">
<a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
</li>
<li class="periodistas-en-la-frontera-norte last">
<a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
</li>
</ul>

In [61]:
unaseccion =newlist[0]
unaseccion

<li class="actualidad expandable first">
<a href="/actualidad">Actualidad</a>
<ul class="menu_level_1">
<li class="venezolanos-en-ecuador first">
<a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
</li>
<li class="periodistas-en-la-frontera-norte last">
<a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
</li>
</ul>
</li>

In [22]:

#for i in newlist:
  #  print('hola')
  #  project_href = [i['href'] for i in lassecciones_1.find_all('a', href=True) if i['href'] != "#"]




In [23]:
unaseccion
#lassecciones_1 = s.find('div',attrs={'class':'container header-menu'}).find_all('li',attrs={'class':'actualidad expandable first'})

<li class="actualidad expandable first">
<a href="/actualidad">Actualidad</a>
<ul class="menu_level_1">
<li class="venezolanos-en-ecuador first">
<a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
</li>
<li class="periodistas-en-la-frontera-norte last">
<a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
</li>
</ul>
</li>

In [64]:
unaseccionespecial

<ul class="menu_level_1">
<li class="venezolanos-en-ecuador first">
<a href="/venezolanos-en-ecuador">Venezolanos en Ecuador</a>
</li>
<li class="periodistas-en-la-frontera-norte last">
<a href="/periodistas-en-la-frontera-norte">Periodistas en la frontera norte</a>
</li>
</ul>

In [63]:
linkdelasseccionespecial =[unaseccionespecial.a.get('href') for unaseccionespecial in newlista ]
linkdelasseccionespecial

['/venezolanos-en-ecuador',
 'https://goo.gl/VVHzRF',
 '/opinion/editorial',
 'http://gec.ec/',
 '/video']

In [52]:
linkdelassecciones =[unaseccion.a.get('href') for unaseccion in newlist ]
linkdelassecciones

['/actualidad',
 '/tendencias',
 '/deportes',
 '/opinion',
 '/multimedia',
 '/blogs']

In [50]:
linkdelassecciones =[unaseccion.a for unaseccion in newlist ]
linkdelassecciones

[<a href="/actualidad">Actualidad</a>,
 <a href="/tendencias">Tendencias</a>,
 <a href="/deportes">Deportes</a>,
 <a href="/opinion">Opinión</a>,
 <a href="/multimedia">Multimedia</a>,
 <a href="/blogs">Blogs</a>]

In [25]:
#linkdelassecciones =['https://www.elcomercio.com'+ unaseccion.a.get('href') for unaseccion in newlist.find_all('a',attrs={'class':'blogs last'}]

In [39]:
linkdelassecciones

['https://www.elcomercio.com/actualidad',
 'https://www.elcomercio.com/tendencias',
 'https://www.elcomercio.com/deportes',
 'https://www.elcomercio.com/opinion',
 'https://www.elcomercio.com/multimedia',
 'https://www.elcomercio.com/blogs']

In [27]:
unaseccion.find('a')

<a href="/actualidad">Actualidad</a>

In [28]:
unaseccion.a

<a href="/actualidad">Actualidad</a>

In [29]:
unaseccion.a.get('href')

'/actualidad'

In [30]:
unaseccion.a.get_text()

'Actualidad'

In [31]:
linkdelassecciones =['https://www.elcomercio.com'+ unaseccion.a.get('href') for unaseccion in newlist ]

In [32]:
linkdelassecciones

['https://www.elcomercio.com/actualidad',
 'https://www.elcomercio.com/tendencias',
 'https://www.elcomercio.com/deportes',
 'https://www.elcomercio.com/opinion',
 'https://www.elcomercio.com/multimedia',
 'https://www.elcomercio.com/blogs']

# hasta Aqui bien

In [33]:
laseccion = lassecciones[0]

In [34]:
laseccion.find('a')

<a href="/actualidad">Actualidad</a>

In [35]:
laseccion.a

<a href="/actualidad">Actualidad</a>

In [36]:
laseccion.a.get('href')

'/actualidad'

In [37]:
laseccion.a.get_text()

'Actualidad'

In [38]:
links_secciones = [laseccion.a.get('href') for laseccion in lassecciones] if

SyntaxError: invalid syntax (<ipython-input-38-f0cf052e608c>, line 1)

In [None]:
links_secciones

# HASTA AQUI EL CAMBIP DE NOTICIAS

In [None]:
s.find('ul')

In [None]:
s.find('div',attrs={'class':'container header-menu'})

In [None]:
s.find('div',attrs={'class':'container header-menu'}).find_all('li')

In [None]:
#Cambiando para el menu de los del comercio - valido
seccio = s.find('li',attrs={'class':'actualidad expandable first'}).find_all('li')
seccio

In [None]:
#Cambiando para el menu de los del comercio - valido
sec = seccio[0]

In [None]:
sec

In [None]:
sec.find('a')

In [None]:
#Hace lo mismo que la linea In[39]
sec.a

In [None]:
sec.a.get('href')

In [None]:
print('https://www.elcomercio.com'+ sec.a.get('href'))

In [None]:
sec.a.get_text()

In [None]:
link_seccionesss = ['https://www.elcomercio.com'+sec.a.get('href') for sec in seccio ]

In [None]:
link_seccionesss

# Aqui otra forma 1

# Aqui otra forma 2

In [None]:
secciones = s.find('div',attrs={'class':'container header-menu'}).find_all('li')
secciones

In [None]:
seccion = secciones[0]

In [None]:
seccion

In [None]:
seccion.find('a')

In [None]:
#Hace lo mismo que la linea In[32]
seccion.a

In [None]:
seccion.a.get('href')

In [None]:
a = print('https://www.elcomercio.com'+ seccion.a.get('href'))

In [None]:
seccion.a.get_text()

In [None]:
link_seccioness= [seccion.a.get('href') for seccion in secciones ]

In [None]:
link_seccioness

In [None]:
link_secciones = ['https://www.elcomercio.com'+seccion.a.get('href') for seccion in secciones ]

In [None]:
link_secciones 