# Obtener información a través del HTML
Si seleccionas líneas de la transcripción en esta sección, irás a la marca de tiempo en el vídeo
A continuación, vamos a ver cómo podemos usar Beautiful Soup para obtener una cierta información de una página web. Aquí, por ejemplo, vamos a ir a buscar la información correspondiente a las referencias externas. Vamos a intentar obtener la información que aparece aquí y la que aparece aquí. Más concretamente conseguir los enlaces para ir siguiendo todas estas páginas web. Para hacerlo, vamos a cargar esta página, vamos a crear el 'soup' y vamos a mostrar la estructura en árbol. Lo primero que vamos a intentar, y no todo este código va a funcionar correctamente, es encontrar los enlaces externos, que es el título bajo el cual se encontraban algunos de los enlaces. Aquí sencillamente nos muestra el título. Esto no es lo que estábamos buscando. Así que vamos a ir a buscar todos los enlaces. Vamos a encontrar todos aquellos que cuenten con enlaces externos. Y vemos que volvemos a encontrarnos con lo mismo. Podemos usar las funciones de encontrar el elemento siguiente para ver cómo funciona y obtenemos esta información de aquí. Esto es un enlace, pero usaré esta estructura de aquí. Podríamos usarla para ir iterando sobre cuál es el elemento siguiente. Pero no termina de ser la manera más elegante de buscar toda la información que nos interesa. Otra opción que propongo es explorar la función contenido, y vemos que el contenido es sencillamente toda esta parte de aquí que no es código de HTML, que es exactamente esto. Estas aproximaciones que usan las funciones más básicas de Beautiful Soup son bastante más limitadas que realizar un análisis un poco más en profundidad. 




In [59]:
cortes = soup.find(id="CortesProgramados")

In [60]:
cortes

<table class="table table-hover" id="CortesProgramados">
<caption style="display: none;">Cortes Programados por Mantenimiento y Obras</caption>
<div class="form-group" style="display: none;"><input class="form-control search" placeholder="Buscar Partido"/></div>
<thead>
<tr class="bg-info">
<th>PARTIDO</th>
<th>LOCALIDAD / BARRIO</th>
<th>SUBESTACION / ALIMENTADOR</th>
<th>USUARIOS AFECTADOS</th>
<th>HORA ESTIMADA DE NORMALIZACION</th>
</tr> </thead>
<tbody class="list">
<tr class="text-center" v-if="sinProgramados">
<td colspan="5">Sin Interrupciones por Mantenimiento y Obras</td>
</tr>
<tr v-for="corte in cortesProgramados">
<td class="partido">{{corte.partido}}</td>
<td class="localidad">{{corte.localidad}}</td>
<td>{{corte.subestacion_alimentador}}</td>
<td>{{corte.usuarios}}</td>
<td>{{corte.normalizacion}}</td>
</tr>
</tbody>
</table>

In [None]:
# pip install beautifulsoup4
from bs4 import BeautifulSoup
import requests

pagina = requests.get("https://es.wikipedia.org/wiki/Python")
soup = BeautifulSoup(pagina.content, "html.parser")

print(soup.prettify())

In [None]:
soup.find(id="Enlaces_externos")

In [None]:
enlaces = soup.find(id="Enlaces_externos")

In [None]:
enlaces

In [None]:
enlaces.find_next()

In [None]:
enlaces.contents

In [None]:
enlaces = soup.findAll("div",{"class":"listaref"})

In [None]:
enlaces

Es lo que te propongo a continuación. Primero vamos a ver cómo podemos encontrar todos aquellos elementos que estén categorizados con esta etiqueta y que pertenezcan a una cierta clase. En este caso, el listado de referencias. Aquí obtenemos algo que tiene bastante mejor pinta que lo que estábamos obteniendo. Pero, aún así, si lo que nos interesa son los enlaces, aquí aún hay demasiado código. Por ejemplo, vemos que bajo esta etiqueta tenemos enlaces, que es lo que nos interesa conseguir, pero aún hay la referencia, dónde la cita, también hay el nombre y avisos, por ejemplo. Todo esto es información que no queremos, y lo hemos obtenido con esta instrucción de aquí. Y lo que vamos a ver es otro método.

In [None]:
soup.find_all("li")

Vamos a ver este de aquí primero. Aquí estamos consiguiendo todos los objetos que cuelguen de esta etiqueta de aquí. Esto he ido a explorarlo usando el inspeccionar en la página web original. No son etiquetas que sean globales, sino que esto depende en concreto de cómo está estructurada la Wikipedia en español.

In [None]:
for d in soup.find("div", attrs={"class":"listaref"}).descendants:
    if d.name == "span" and d.get("class", "") == ["reference-text"]:
        print(d.text)

 Y este código de aquí es más elaborado y lo que estamos encontrando es cada uno de los elementos que encuentre nuestra etiqueta que cumplan, que sean de la clase lista de referencias, buscar todos sus descendientes. Una vez dentro de esta lista, por cada uno de estos elementos vamos a buscar aquellos cuyo nombre sea este, 'span', y que tengan esta clase, que pertenezcan a este grupo. Y vamos a imprimirlos. Aquí ya hemos obtenido algo mucho más útil. Estamos en el apartado de referencias, pero solo estamos obteniendo los "links" de aquellas páginas que directamente tenían el "link" en la página web. Esto eran enlaces y aquí no los estamos obteniendo. Solamente estamos obteniendo aquellos que directamente estaban escritos. Es decir, este código funciona correctamente, estamos obteniendo la información de las referencias, pero estamos obteniendo directamente el título de la referencia, no el enlace.

In [None]:
data = soup.find("div", attrs={"class":"listaref"})
for div in data:
    links = div.findAll("a")
    for a in links:
        if a["href"].startswith("http"):
            print(a["href"])
    

 Y para eso os he puesto aquí un último código, que lo que obtenemos es todos los datos que estén etiquetados así, que pertenezcan a esta clase y, para cada una de estas, vamos a encontrar todos los que estén categorizados con 'a'. 'a' normalmente va asociado a 'links', es decir, enlaces. Y por cada uno de los que haya encontrado aquí, por cada 'a' que encuentre en este objeto, si la hiperreferencia de 'a' empieza con 'http', vamos a imprimirlo. Este código puede parecer muy complicado, pero en realidad solo estamos explorando cada uno de los elementos y, dentro de cada uno de los elementos, cada uno de los elementos. Si ejecutamos esto, obtenemos exactamente lo que estábamos buscando, que es todos los enlaces para cada una de las referencias que teníamos en la página web original. Este tipo de código de aquí está combinando funciones propias de Beautiful Soup con "loops" mediante los cuales vamos explorando todos los objetos que nos devuelven estas funciones. Puede parecer muy complejo al principio porque estás trabajando con objetos que son bastante distintos a los que estás acostumbrado con Python. Pero en realidad todo puede explorarse como si fuesen listas. Y ya ves que no estoy utilizando más que dos funciones en particular. Todo lo demás son tratamiento de "strings", bucles y condicionales.

In [None]:
data = soup.find("div", attrs={"class":"listaref"})
#link = data.findAll("a")
for div in data:
    links = div.findAll("a")
    for a in links:
        if a["href"].startswith("http"):
            print(a["href"])

Y para eso os he puesto aquí un último código, que lo que obtenemos es todos los datos que estén etiquetados así, que pertenezcan a esta clase y, para cada una de estas, vamos a encontrar todos los que estén categorizados con 'a'. 'a' normalmente va asociado a 'links', es decir, enlaces. Y por cada uno de los que haya encontrado aquí, por cada 'a' que encuentre en este objeto, si la hiperreferencia de 'a' empieza con 'http', vamos a imprimirlo. Este código puede parecer muy complicado, pero en realidad solo estamos explorando cada uno de los elementos y, dentro de cada uno de los elementos, cada uno de los elementos. Si ejecutamos esto, obtenemos exactamente lo que estábamos buscando, que es todos los enlaces para cada una de las referencias que teníamos en la página web original. Este tipo de código de aquí está combinando funciones propias de Beautiful Soup con "loops" mediante los cuales vamos explorando todos los objetos que nos devuelven estas funciones. Puede parecer muy complejo al principio porque estás trabajando con objetos que son bastante distintos a los que estás acostumbrado con Python. Pero en realidad todo puede explorarse como si fuesen listas. Y ya ves que no estoy utilizando más que dos funciones en particular. Todo lo demás son tratamiento de "strings", bucles y condicionales.

---
# Extracción de texto usando Beautiful Soup
Si seleccionas líneas de la transcripción en esta sección, irás a la marca de tiempo en el vídeo
Si quieres extraer información textual de una página web para posteriormente realizar un análisis de "text mining", en este vídeo voy a mostrarte distintas maneras de cómo puedes hacerlo. Lo primero que tendremos que hacer es cargar toda la información del HTML realizando estas dos funciones y vamos a visualizar qué tipo de información tenemos. Tenemos la estructura en árbol del HTML de la Wikipedia en la entrada de Python. Y aquí vamos a intentar extraer todo lo que corresponde al cuerpo del artículo, es decir, al texto en sí. Una primera aproximación es usar este tipo de estructuras. Por ejemplo, voy a usar el 'sub', voy a extraerle el título y convertirlo en 'string'. Esto funciona correctamente, pero esto solamente es el título. Beautiful Soup nos ofrece esa función que es bastante útil, pero no funciona todo lo exhaustivamente que querríamos. Efectivamente coge texto, pero también nos incorpora algunas cosas que no nos interesan. Por ejemplo, esto claramente no es el texto que estábamos buscando. Más adelante sí que hay texto. Nos incluye también el índice, que no es especialmente interesante si lo que queremos es información textual para procesar. Y aquí ya sí que tenemos más información como la que nos interesa, pero aún hay elementos que no nos interesan. Otra aproximación es ir a buscar el cuerpo del artículo. Aquí tenemos directamente todo el cuerpo con el código asociado. Y podríamos intentar explorar, por ejemplo, los elementos categorizados con 'p'. Es lo que vemos aquí abajo. Obtenemos información. Ciertamente esto es la información que estamos buscando procesar, pero aún no está limpia. Requeriría aún mucho procesamiento. Vamos a hacerlo guardando esta instrucción de aquí. Todo lo que encuentres dentro del cuerpo, todos los elementos categorizados como 'p' y vamos a ver qué tenemos aquí. Tenemos en una lista cada uno de los elementos donde el programa ha detectado que tenemos un párrafo. 

In [None]:
# pip install beautifulsoup4
from bs4 import BeautifulSoup
import requests

pagina = requests.get("https://es.wikipedia.org/wiki/Python")
soup = BeautifulSoup(pagina.content, "html.parser")

print(soup.prettify())

In [None]:
soup.title.string

In [None]:
print(soup.get_text())

In [None]:
soup.find("body")

In [None]:
elementos = soup.find("body").find_all("p")

In [None]:
elementos

In [None]:
import re

def limpiarhtml(html):
    expresion = re.compile('<.*?>')
    texto = re.sub(expresion, "", html)
    return texto



In [None]:
for elem in elementos:
    print(limpiarhtml(str(elem)))

Vamos a importar un nuevo paquete y a definir una función que va a limpiarnos todo lo que es código HTML. ¿Cómo se limpia el código HTML? Es muy sencillo. Tenemos que decirle que todo lo que encuentre entre estas flechitas nos lo extraiga. Como es una página web, todo esto va a eliminarlo. En principio, no tendría que haber ningún problema, porque una página web no compilaría si uno de estos está abierto pero no cerrado. Así que, lo que vamos a hacer es pedirle que nos extraiga esto y lo sustituya por nada y directamente nos devuelva el texto limpio. Y aquí sencillamente tenemos que ejecutar esta función sobre cada uno de los elementos que hayamos encontrado usando esta función de aquí. Vamos a ver el resultado. Esto es exactamente lo que estábamos buscando, es decir, toda la información textual lista para ser procesada con un modelo. Es importante notar que he tenido que convertir esto a un 'string'. Si no lo hago, Python se va a quejar. Estaba esperando un 'string' y tengo otro tipo de objeto. Es tan sencillo como añadirle aquí esta conversión. El código para obtener la información textual, como has visto, no es especialmente complicado. Sencillamente es darse cuenta de dónde se encuentra, bajo qué etiqueta y definir una función que puedes usarla, y es muy sencilla de crear, para limpiar todo aquello que no nos interesa.

---
# Obtención de información no textual
Si seleccionas líneas de la transcripción en esta sección, irás a la marca de tiempo en el vídeo
Una de las vertientes del "web scraping" que más interesantes me parecen personalmente es la obtención de "links" para explorar cómo están conectadas las páginas entre ellas. Aquí lo que te voy a mostrar son distintas maneras de obtener estos "links" con códigos bastante sencillos. Voy a estar usando esta página web, la entrada de la Wikipedia de Python, y vamos a crear un 'soup' directamente. Y vamos a ver cómo obtener todos los "links" de una manera muy sencilla. Primero es, dentro del 'soup', encontrar todos los elementos que estén categorizados con 'a' y que tengan atributo 'hiperreferencia', que cumplan que empieza por 'http'.


 

In [None]:
# pip install beautifulsoup4
from bs4 import BeautifulSoup
import requests

pagina = requests.get("https://es.wikipedia.org/wiki/Python")
soup = BeautifulSoup(pagina.content, "html.parser")

print(soup.prettify())

In [None]:
for link in soup.findAll("a", attrs={"href": re.compile("^http://")}):
    print(link.get("href"))

 ¿Qué estamos obteniendo con esto? No estamos obteniendo todos los "links", estamos obteniendo todos los "links" que apunten hacia fuera de la página web. Vamos a ver exactamente qué es lo que estamos obteniendo. Y son todos los enlaces que llevan a otras páginas. Aquí no hay entradas de la Wikipedia. Esto es una primera aproximación.

In [34]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pagina = requests.get("https://www.enre.gov.ar/paginacorte/tabla_cortes_edenor.html")
soup = BeautifulSoup(pagina.text, "html.parser")




In [None]:
print(soup.prettify())
#list(soup.children)
#list(soup_.children)

In [49]:
tabla =soup.find("table")


In [61]:
import requests

headers = {
    'Accept': '*/*',
    'Accept-Language': 'es-419,es;q=0.9',
    'Connection': 'keep-alive',
    'If-Modified-Since': 'Mon, 12 Feb 2024 16:42:44 GMT',
    'Referer': 'https://www.enre.gov.ar/paginacorte/tabla_cortes_edenor.html',
    'Sec-Fetch-Dest': 'script',
    'Sec-Fetch-Mode': 'no-cors',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-GPC': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not A(Brand";v="99", "Brave";v="121", "Chromium";v="121"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

params = ''

response = requests.get('https://www.enre.gov.ar/paginacorte/js/data_EDN.js', params=params, headers=headers)

In [70]:
response.headers['content-type']

'application/x-javascript'

In [118]:
import re

def limpiarhtml(html, exp_reg):
    expresion = re.compile('(?:' + exp_reg +')')
    texto = re.sub(expresion, "", html)
    return texto

#tabla = limpiarhtml(response.text)

In [108]:
import json
js= json.dump(tabla)

TypeError: dump() missing 1 required positional argument: 'fp'

In [114]:
print(tabla)

{
	fuente : 'Web Service',
    empresa: 'EDENOR',
    totalUsuariosSinSuministro: '3.365',
    totalUsuariosConSuministro: '3.306.845',
    ultimaActualizacion: '13:55',
    totalUsuariosAyer: '32.373',
    cortesPreventivos:  [],
    cortesProgramados:  [{partido: 'GRAL SAN MARTIN',localidad: 'C LIBERTADOR SAN MART?N',subestacion_alimentador: '- / R:MALAVER / 68-TR2 / 68-5535',usuarios: '424',normalizacion: '2024-02-12 16:41'},{partido: 'SAN FERNANDO',localidad: 'DELTA 3RA SECCION (SF)',subestacion_alimentador: '- / ',usuarios: '2',normalizacion: 'Sin datos'}],
    cortesServicioMedia:  [{partido: 'ESCOBAR',localidad: 'ESCOBAR',subestacion_alimentador: '- / R:MATANZA / 65-TR1 / 65-5517',usuarios: '23',normalizacion: 'Sin datos'},{partido: 'MORENO',localidad: 'TRUJUI',subestacion_alimentador: '- / R:CATONAS / 256-TR1 / 256-5541',usuarios: '851',normalizacion: '2024-02-12 14:00'},{partido: 'PILAR',localidad: 'PILAR',subestacion_alimentador: '- / R:MANZONE / 257-TR2 / 257-5523',usuarios:

In [85]:
dict(str(tabla))

ValueError: dictionary update sequence element #0 has length 1; 2 is required

In [56]:
df = pd.read_html(str(tabla))[0]
df

Unnamed: 0,PARTIDO,LOCALIDAD / BARRIO,SUBESTACION / ALIMENTADOR,USUARIOS AFECTADOS,HORA ESTIMADA DE NORMALIZACION
0,No Previstos Por La Distribuidora,No Previstos Por La Distribuidora,No Previstos Por La Distribuidora,No Previstos Por La Distribuidora,No Previstos Por La Distribuidora
1,{{corte.partido}},{{corte.localidad}},{{corte.subestacion_alimentador}},{{corte.usuarios}},{{corte.normalizacion}}


## Encabezados

In [None]:
#Limpio el texto
tabla_aux = tabla.replace("\r","").replace("\t","")

#Armo una lista de los elementos.
tabla_aux= tabla_aux.split("\n")

#Guardo las categorías
for i in tabla_aux:
    if "cortesProgramados:" in i:
        cortesProgramados =  i[len("cortesProgramados:"):-1]
        expresion = re.compile('(?:cortesProgramados:)')
        texto = re.sub(expresion, "", i)
    

texto


"      [{partido: 'GRAL SAN MARTIN',localidad: 'C LIBERTADOR SAN MART?N',subestacion_alimentador: '- / R:MALAVER / 68-TR2 / 68-5535',usuarios: '424',normalizacion: '2024-02-12 16:41'},{partido: 'SAN FERNANDO',localidad: 'DELTA 3RA SECCION (SF)',subestacion_alimentador: '- / ',usuarios: '2',normalizacion: 'Sin datos'}],"

In [119]:
categoria = "cortesProgramados:"
for i in tabla_aux:
    if categoria in i:
        texto_dos = limpiarhtml(i, categoria)
        
texto_dos

"      [{partido: 'GRAL SAN MARTIN',localidad: 'C LIBERTADOR SAN MART?N',subestacion_alimentador: '- / R:MALAVER / 68-TR2 / 68-5535',usuarios: '424',normalizacion: '2024-02-12 16:41'},{partido: 'SAN FERNANDO',localidad: 'DELTA 3RA SECCION (SF)',subestacion_alimentador: '- / ',usuarios: '2',normalizacion: 'Sin datos'}],"

In [113]:
cortesProgramados

"dos:  [{partido: 'GRAL SAN MARTIN',localidad: 'C LIBERTADOR SAN MART?N',subestacion_alimentador: '- / R:MALAVER / 68-TR2 / 68-5535',usuarios: '424',normalizacion: '2024-02-12 16:41'},{partido: 'SAN FERNANDO',localidad: 'DELTA 3RA SECCION (SF)',subestacion_alimentador: '- / ',usuarios: '2',normalizacion: 'Sin datos'}]"

## Datos

In [None]:
aux = tabla_IDH.find_all("td")
lista_datos = [i.get_text()[:-1] if "\n" in i.get_text() else i.get_text() for i in aux]

In [None]:
valores = np.array(lista_datos)
valores.shape = (20, len(encabezado))

In [None]:
Puesto = [i[0] for i in valores]
Puesto

In [None]:
df = pd.DataFrame(valores, index=Puesto, columns=encabezado)
del df["Puesto"]
df

In [None]:
df["IDH según datos del 2021"] = df["IDH según datos del 2021"].apply(str.strip)
df["IDH según datos del 2021"] = df["IDH según datos del 2021"].str.replace(",", ".")
df["IDH según datos del 2021"] = df["IDH según datos del 2021"].astype("float64")
df["IDH según datos del 2019"] = df["IDH según datos del 2019"].apply(str.strip)
df["IDH según datos del 2019"] = df["IDH según datos del 2019"].str.replace(",", ".")
df["IDH según datos del 2019"] = df["IDH según datos del 2019"].astype("float64")
df["Crecimiento"] = df["Crecimiento"].apply(str.strip)
df["Crecimiento"] = df["Crecimiento"].str.replace(",", ".")
df["Crecimiento"] = df["Crecimiento"].astype("float64")
df.info()

# Regresión lineal

In [None]:
X = df[["IDH según datos del 2019", "IDH según datos del 2021"]] # si no los paso con doble corchete en el predic tira error.
Y = df.Crecimiento
X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.2, random_state=10) #validación 80%(train) 20%(test)

In [None]:
X

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X_train, y_train) # entrenamiento

print("Coeficientes:", regr.coef_) # valor de las betas
Y_pred = regr.predict(X) # prediccion
print("R cuadrado:", r2_score(Y,Y_pred)) #R cuadrado

## Gráfico

In [None]:
plt.scatter(X, Y, color="black")
plt.plot(X, Y_pred, color="blue")
plt.show()