## **ACCEDIENDO (LEYENDO) HTML CON RE Y BEAUTIFULSOP DESDE WEB SITES**

---



## HTML

### **Accediendo con urllib**

In [6]:
#Se utiliza para realizar solicitudes
import urllib.request, urllib.error
url="https://www.pinterest.com/"

#Abrir la URL especificada y obtener una respuesta del servidor.
response=urllib.request.urlopen(url)
type(response) # response devuelve un objeto de tipo http.client.HTTPResponse, que contiene la respuesta del servidor.

#  Leer y mostrar el contenido de la respuesta HTTP:
print(response.read()) # read() devuelve los datos de la respuesta como una secuencia de bytes.




### **Accediendo con Expresiones Regulares y BeautifulSoup**

- **Ejemplo con fragmento de HTML:**

In [8]:
from bs4 import BeautifulSoup

# fragmento de HTML:
html = """
<ul class="scrollable__list">
    <li class="scrollable__item mb-8 col-md-4 col-lg-3">
        <div class="card border relative bg-white flex shadow-cards min-h-14 h-full flex-col">
            <div class="flex flex-wrap md:no-wrap">
                <h3 aria-describedby="presidenta-dina-boluarte-expreso-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panama-description" class="text-base leading-snug flex-1 mt-4 sm:mt-0">
                    <a class="text-primary track-ga-click card__mock hover:no-underline" data-origin="-noticias-1-presidenta-dina-boluarte-expresó-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panamá-link" href="/institucion/presidencia/noticias/950578-presidenta-dina-boluarte-expreso-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panama">
                        Presidenta Dina Boluarte expresó el deseo de su Gobierno de continuar el trabajo hermanado con Panamá
                    </a>
                </h3>
            </div>
        </div>
    </li>
</ul>
"""

# Parsear el HTML: analizador para analizar el HTML (analizador integrado de Python llamado "html.parser")
soup = BeautifulSoup(html, "html.parser") # objeto soup: representa el árbol de análisis del HTML proporcionado

# Encontrar el texto del enlace:
texto_enlace = soup.find("a").text.strip() # con "find" busca el primer elemento <a> en el árbol de análisis del HTML representado por el objeto soup
                                           # con "strip" se puede eliminar los caracteres en blanco (como espacios, tabulaciones, saltos de línea, etc.) al inicio y al final de una cadena. 
                                           # También puedes especificar qué caracteres adicionales deseas eliminar.
# Imprimir el texto del enlace:
print("Texto del enlace:", texto_enlace)


Texto del enlace: Presidenta Dina Boluarte expresó el deseo de su Gobierno de continuar el trabajo hermanado con Panamá


In [9]:
# Imprimiendo la estructura de arbol anterior en una cadena de texto bien formateada e indentada.
print(soup.prettify())

<ul class="scrollable__list">
 <li class="scrollable__item mb-8 col-md-4 col-lg-3">
  <div class="card border relative bg-white flex shadow-cards min-h-14 h-full flex-col">
   <div class="flex flex-wrap md:no-wrap">
    <h3 aria-describedby="presidenta-dina-boluarte-expreso-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panama-description" class="text-base leading-snug flex-1 mt-4 sm:mt-0">
     <a class="text-primary track-ga-click card__mock hover:no-underline" data-origin="-noticias-1-presidenta-dina-boluarte-expresó-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panamá-link" href="/institucion/presidencia/noticias/950578-presidenta-dina-boluarte-expreso-el-deseo-de-su-gobierno-de-continuar-el-trabajo-hermanado-con-panama">
      Presidenta Dina Boluarte expresó el deseo de su Gobierno de continuar el trabajo hermanado con Panamá
     </a>
    </h3>
   </div>
  </div>
 </li>
</ul>



In [18]:
# Ejemplo prettify (presenta HTML bien formateado)
from bs4 import BeautifulSoup

# HTML sin formato
html = """
<html><head><title>Título de la página</title></head><body><p>Hola, mundo!</p></body></html>
"""

# Crear objeto BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Mostrar el HTML bien formateado
print(soup.prettify())


<html>
 <head>
  <title>
   Título de la página
  </title>
 </head>
 <body>
  <p>
   Hola, mundo!
  </p>
 </body>
</html>



In [21]:
# Si deseas guardar el HTML bien formateado en un archivo, puedes hacerlo así:
with open("output.html", "w", encoding="utf-8") as file:
    file.write(soup.prettify())

- **Desde un URL:**

In [10]:
import re
import requests
from bs4 import BeautifulSoup

# URL de la página web que quieres analizar
url = "https://www.pinterest.com/"

# Realizar la solicitud HTTP GET a la página web
response = requests.get(url)

response.text



In [11]:
# Comprobar si la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Crear un objeto BeautifulSoup para analizar el contenido HTML:
    soup = BeautifulSoup(response.content, "html.parser")

    # Encontrar todos los enlaces (<link>) en la página:
    links = soup.find_all("link", href=True)

    # Utilizar una expresión regular para filtrar los enlaces que comienzan con "https"
    https_links = [link["href"] for link in links if re.match(r'^https://', link["href"])]

    # Imprimir los enlaces que comienzan con "https"
    for link in https_links:
        print(link)
else:
    print("Error al cargar la página:", response.status_code)


https://s.pinimg.com/webapp/logo_transparent_144x144-3da7a67b.png
https://s.pinimg.com/webapp/pinterest_favicon-70db4fa7.svg
https://s.pinimg.com/webapp/favicon_48x48-7470a30d.png
https://chrome.google.com/webstore/detail/gpdjojdkbbmdfjfahjcgigfpmkopogic
https://www.pinterest.com/
https://ar.pinterest.com/
https://at.pinterest.com/
https://au.pinterest.com/
https://br.pinterest.com/
https://ca.pinterest.com/
https://ch.pinterest.com/
https://cl.pinterest.com/
https://co.pinterest.com/
https://cz.pinterest.com/
https://de.pinterest.com/
https://dk.pinterest.com/
https://es.pinterest.com/
https://fi.pinterest.com/
https://fr.pinterest.com/
https://uk.pinterest.com/
https://gr.pinterest.com/
https://hu.pinterest.com/
https://id.pinterest.com/
https://ie.pinterest.com/
https://in.pinterest.com/
https://it.pinterest.com/
https://jp.pinterest.com/
https://kr.pinterest.com/
https://mx.pinterest.com/
https://nl.pinterest.com/
https://nz.pinterest.com/
https://no.pinterest.com/
https://ph.pinte

In [12]:
#Ejemplo 2

x = urllib.request.urlopen ('https://www.google.com/')
#print (x.read ())

#usando Beautifull
from bs4 import BeautifulSoup
sopa = BeautifulSoup(x)
#print(sopa)
print(sopa.prettify())

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="es-419">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/>
  <title>
   Google
  </title>
  <script nonce="bakaDF4uR53xrJvQbhZrSw">
   (function(){var _g={kEI:'4oFJZ-7kJZTU5OUPvaKjEA',kEXPI:'0,202746,3497507,689,442,448528,55288,34845,2872,2891,8348,64702,221953,130793,8155,23351,22435,9779,62658,6049,85975,1804,14360,6651,6081,8177,11813,1632,29279,5240755,585,5991925,2842058,18,25,1,6,3,7,6,1,81,6,2,2,2,16,1,1,1,1,1,1,1,1,1,2,1,1,1,1,2,1,1,11,1,2,4,2,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,3,1,3,1,5,1,1,2,1,1,2,2,3,1,1,2,2,1,1,1,2,1,6,1,1,1,1,1,1,1,1,2,34,60,10,2,18,58,3,3,3,3,6,3,3,29,15,68,27978394,16672,25199210,12799,78016,22465,16826,5796,15165,7146,1035,49430,21667,6757,22593,1286,9139,767,3832,328,4459,1766,1116,22291,6,4577,5633,688,7851,24,21979,1341,13707,15635,14520,3291,

In [13]:
#print(sopa.find_all('a'))
print(sopa.find_all(id="mngb"))

[<div id="mngb"><div id="gbar"><nobr><b class="gb1">Búsqueda</b> <a class="gb1" href="https://www.google.com/imghp?hl=es-419&amp;tab=wi">Imágenes</a> <a class="gb1" href="https://maps.google.com.pe/maps?hl=es-419&amp;tab=wl">Maps</a> <a class="gb1" href="https://play.google.com/?hl=es-419&amp;tab=w8">Play</a> <a class="gb1" href="https://www.youtube.com/?tab=w1">YouTube</a> <a class="gb1" href="https://news.google.com/?tab=wn">Noticias</a> <a class="gb1" href="https://mail.google.com/mail/?tab=wm">Gmail</a> <a class="gb1" href="https://drive.google.com/?tab=wo">Drive</a> <a class="gb1" href="https://www.google.com.pe/intl/es-419/about/products?tab=wh" style="text-decoration:none"><u>Más</u> »</a></nobr></div><div id="guser" width="100%"><nobr><span class="gbi" id="gbn"></span><span class="gbf" id="gbf"></span><span id="gbe"></span><a class="gb4" href="http://www.google.com.pe/history/optout?hl=es-419">Historial web</a> | <a class="gb4" href="/preferences?hl=es-419">Configuración</a> | 

# a = anchor (anclas o hipervínculo) 

In [None]:
#print(sopa.prettify())
#print(sopa.find_all('a'))
#print(sopa.find_all(id="mngb"))
#sopa.find_all(id="gbar")
#sopa.find_all('a',{'class':'gb1'})

In [14]:
div_google = sopa.find(id="gbar")
anchors=[]
if div_google is not None:
  anchors=div_google.find_all('a')
hrefs=[a['href'] for a in anchors]
hrefs

['https://www.google.com/imghp?hl=es-419&tab=wi',
 'https://maps.google.com.pe/maps?hl=es-419&tab=wl',
 'https://play.google.com/?hl=es-419&tab=w8',
 'https://www.youtube.com/?tab=w1',
 'https://news.google.com/?tab=wn',
 'https://mail.google.com/mail/?tab=wm',
 'https://drive.google.com/?tab=wo',
 'https://www.google.com.pe/intl/es-419/about/products?tab=wh']

<h1>XML</h1>  

https://docs.python.org/es/3.9/library/xml.etree.elementtree.html

In [19]:
import xml.etree.ElementTree as ET

input = '''
<stuff>
  <users>
    <user x="1">
      <id>001</id>
      <name>Patricia</name>
      <consumer>Verduras</consumer>
    </user>
    <user x="20">
      <id>0020</id>
      <name>Alisson</name>
      <consumer>Menestras</consumer>
    </user>
  </users>
</stuff>'''

stuff = ET.fromstring(input)
lst = stuff.findall('users/user')
print('User count:', len(lst))

for item in lst:
    print('Id', item.find('id').text)
    print('Nombre', item.find('name').text)
    print('consumer', item.find('consumer').text)
    print('Attribute', item.get('x'))


User count: 2
Id 001
Nombre Patricia
consumer Verduras
Attribute 1
Id 0020
Nombre Alisson
consumer Menestras
Attribute 20


<h1>JSON </h1>

<h3>Lectura sin usar JSON</h3>

In [20]:
{"Minnimarket":
 [
  {"Menestras":
   [
    {"Nombre":"Arveja Verde Partida","Cantidad":10},
    {"Nombre":"Lenteja Bebé","Cantidad":20},
    {"Nombre":"Frijol Canario","Cantidad":30}
   ]
  },
  {"Verdura":
   [
    {"Nombre":"Lechuga","Cantidad":15},
    {"Nombre":"Tomate","Cantidad":30},
    {"Nombre":"Pepino","Cantidad":20}
   ]
  },
  {"tubérculos":
   [
    {"Nombre":"papa amarilla","Cantidad":20},
    {"Nombre":"Batata","Cantidad":15},
    {"Nombre":"Yuca","Cantidad":20}
   ]
  }
 ]
}

{'Minnimarket': [{'Menestras': [{'Nombre': 'Arveja Verde Partida',
     'Cantidad': 10},
    {'Nombre': 'Lenteja Bebé', 'Cantidad': 20},
    {'Nombre': 'Frijol Canario', 'Cantidad': 30}]},
  {'Verdura': [{'Nombre': 'Lechuga', 'Cantidad': 15},
    {'Nombre': 'Tomate', 'Cantidad': 30},
    {'Nombre': 'Pepino', 'Cantidad': 20}]},
  {'tubérculos': [{'Nombre': 'papa amarilla', 'Cantidad': 20},
    {'Nombre': 'Batata', 'Cantidad': 15},
    {'Nombre': 'Yuca', 'Cantidad': 20}]}]}

<h3>Importando JSON</h3>

In [23]:
import json

data = {"Minimarket": [  {"Menestras":   [    {"Nombre":"Arveja Verde Partida","Cantidad":10},    {"Nombre":"Lenteja Bebé","Cantidad":20},    {"Nombre":"Frijol Canario","Cantidad":30}   ]  },  {"Verdura":   [    {"Nombre":"Lechuga","Cantidad":15},    {"Nombre":"Tomate","Cantidad":30},    {"Nombre":"Pepino","Cantidad":20}   ]  } ]}

#Nos imprime en pantalla data como un tipo de dato nativo.
print ('DATA:', repr(data))

#Nos devuelve el String con el JSON
data_string = json.dumps(data) # json.dumps() convierte un objeto Python (como un diccionario, lista, etc.) en una cadena JSON. Esto se conoce como serialización.
print ('JSON:', data_string)

DATA: {'Minimarket': [{'Menestras': [{'Nombre': 'Arveja Verde Partida', 'Cantidad': 10}, {'Nombre': 'Lenteja Bebé', 'Cantidad': 20}, {'Nombre': 'Frijol Canario', 'Cantidad': 30}]}, {'Verdura': [{'Nombre': 'Lechuga', 'Cantidad': 15}, {'Nombre': 'Tomate', 'Cantidad': 30}, {'Nombre': 'Pepino', 'Cantidad': 20}]}]}
JSON: {"Minimarket": [{"Menestras": [{"Nombre": "Arveja Verde Partida", "Cantidad": 10}, {"Nombre": "Lenteja Beb\u00e9", "Cantidad": 20}, {"Nombre": "Frijol Canario", "Cantidad": 30}]}, {"Verdura": [{"Nombre": "Lechuga", "Cantidad": 15}, {"Nombre": "Tomate", "Cantidad": 30}, {"Nombre": "Pepino", "Cantidad": 20}]}]}


In [4]:
import json

data = {"Minimarket": [  {"Menestras":   [    {"Nombre":"Arveja Verde Partida","Cantidad":10},    {"Nombre":"Lenteja Bebé","Cantidad":20},    {"Nombre":"Frijol Canario","Cantidad":30}   ]  },  {"Verdura":   [    {"Nombre":"Lechuga","Cantidad":15},    {"Nombre":"Tomate","Cantidad":30},    {"Nombre":"Pepino","Cantidad":20}   ]  } ]}

data_string = json.dumps(data) # # json.dumps() convierte un objeto Python (como un diccionario, lista, etc.) en una cadena JSON. Esto se conoce como serialización.
print ('ENCODED:', data_string)

decoded = json.loads(data_string) # json.loads() convierte una cadena JSON a un objeto Python. Esto se conoce como deserialización.
print ('DECODED:', decoded)

ENCODED: {"Minimarket": [{"Menestras": [{"Nombre": "Arveja Verde Partida", "Cantidad": 10}, {"Nombre": "Lenteja Beb\u00e9", "Cantidad": 20}, {"Nombre": "Frijol Canario", "Cantidad": 30}]}, {"Verdura": [{"Nombre": "Lechuga", "Cantidad": 15}, {"Nombre": "Tomate", "Cantidad": 30}, {"Nombre": "Pepino", "Cantidad": 20}]}]}
DECODED: {'Minimarket': [{'Menestras': [{'Nombre': 'Arveja Verde Partida', 'Cantidad': 10}, {'Nombre': 'Lenteja Bebé', 'Cantidad': 20}, {'Nombre': 'Frijol Canario', 'Cantidad': 30}]}, {'Verdura': [{'Nombre': 'Lechuga', 'Cantidad': 15}, {'Nombre': 'Tomate', 'Cantidad': 30}, {'Nombre': 'Pepino', 'Cantidad': 20}]}]}


In [24]:
import json

data = {"Minimarket": [  {"Menestras":   [    {"Nombre":"Arveja Verde Partida","Cantidad":10},    {"Nombre":"Lenteja Bebé","Cantidad":20
},    {"Nombre":"Frijol Canario","Cantidad":30}   ]  },  {"Verdura":   [    {"Nombre":"Lechuga","Cantidad":30},    {"Nombre":"Tomate","Cantidad":20},    {"Nombre":"Pepino","Cantidad":20}   ]  } ]}

#encoded
data_string = json.dumps(data)

#Decoded
decoded = json.loads(data_string)

#print(data)
#print(type(data))
#print(data.keys())

print ("Tenemos "+str(decoded["Minimarket"][0]["Menestras"][1]["Cantidad"])+" Lentejas Bebé.")
print ("Tenemos "+str(decoded["Minimarket"][1]["Verdura"][0]["Cantidad"])+" Lechugas.")


Tenemos 20 Lentejas Bebé.
Tenemos 30 Lechugas.
