# Web Scraping

Usaremos la librería Selenium y BeautifulSoup para hacer un breve análisis del portal BBC en Español.

Como siempre, hay dos opciones para ejecutar este notebook. Uno es hacerlo en Colab; la otra, en tu computadora. Si utilizas Colab, no debes hacer nada más que correr las celdas correspondientes. Si lo vas a correr en tu computadora, 

>1. En primer lugar, debes instalar Selenium. Te dejamos la documentación necesaria [aquí](https://selenium-python.readthedocs.io/installation.html).
>2. Instala BeautifulSoup (beautifulsoup4).

**Para ejecutar en Colab**

Este bloque de código instala Selenium y permite ejecutar la librería en Google Colab. Lo encontramos en [esta consulta](https://stackoverflow.com/questions/51046454/how-can-we-use-selenium-webdriver-in-colab-research-google-com) de Stack Overflow. 

In [1]:
!pip install selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin



"apt-get" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"apt" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"cp" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [7]:
import sys

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

#wd = webdriver.Chrome(chrome_options=chrome_options, executable_path= r"C:\Users\Juanes Mejía\Desktop\Temp\chromedriver.exe")
wd = webdriver.Chrome(chrome_options=chrome_options, executable_path= "C:/Users/JuanesMejia/Desktop/Temp/chromedriver.exe")



  wd = webdriver.Chrome(chrome_options=chrome_options, executable_path= "C:/Users/JuanesMejia/Desktop/Temp/chromedriver.exe")
  wd = webdriver.Chrome(chrome_options=chrome_options, executable_path= "C:/Users/JuanesMejia/Desktop/Temp/chromedriver.exe")


**Para ejecutar en, por ejemplo, Firefox en tu computadora**

Ten en cuenta que si usas otro navegador debes modificar las celdas de manera apropiada.

Corre las siguientes celdas así como están. Verás que te abre una ventana de tu navegador.

Si esa ventana te molesta, descomenta las intrucciones que hay en la primera celda.

In [8]:
#from selenium import webdriver

# Para que abra navegador
#wd = webdriver.Firefox()


# Para que NO abra navegador
# firefox_options = webdriver.FirefoxOptions()
# firefox_options.add_argument('--headless')
# wd = webdriver.Firefox(options = firefox_options)

Testeamos si Selenium y el Webdriver están funcionando correctamente. Traemos el html del home.

In [9]:
# Le decimos al Webdriver (wd) que entre a la BBC
wd.get('https://www.bbc.com/mundo/')

# Con el método page_source guardamos el html en una variable que lleva ese nombre
html=wd.page_source

# Imprimimos en pantalla
html



In [10]:
x = html.find("BBC")

In [11]:
x

541

In [12]:
html[515:600]

'e-web-app-title" content="BBC News Mundo"><meta data-react-helmet="true" name="applic'

Al parecer está funcionando bien, pero lo que obtuvimos parece difícil de abordar. 

Vamos elegir una sección y explorar sus autores. Para eso usaremos la librería BeautifulSoup.

Antes de escribir el código:
1. Entramos a la sección que queremos analizar y guardamos el link.
2. Inspeccionamos el código con el click derecho en el texto que se nombra al autor. **Recomendación**: una vez que abriste el código, si das click derecho sobre la sección del código que te interesa y eliges "edit as HTML" podrás copiar la clase, tag o texto.

In [45]:
#descargamos la librería BeautifulSoup
from bs4 import BeautifulSoup

#guardamos el link de la seccion en una variable
seccionTech =  "https://www.portafolio.co/economia"

#traemos el link de la sección Economía
wd.get(seccionTech)

#creamos un objeto Soup y lo imprimimos en pantalla
html = BeautifulSoup(wd.page_source)
#html

In [46]:
html

<html lang="es"><head>
</head><body><iframe role="presentation" src="javascript:void(0)" style="width: 0px; height: 0px; border: 0px; display: none;" title=""></iframe><script async="" src="https://sb.scorecardresearch.com/c2/6035169/cs.js" type="text/javascript"></script><script async="" src="//static.chartbeat.com/js/chartbeat.js" type="text/javascript"></script><script src="https://js-agent.newrelic.com/nr-spa-1130.min.js"></script><script async="async" charset="UTF-8" src="https://cdn.taboola.com/libtrc/cta-component.20220911-7-RELEASE.es6.js" type="text/javascript"></script><script async="async" charset="UTF-8" src="https://cdn.taboola.com/libtrc/userx.20220911-7-RELEASE.es6.js" type="text/javascript"></script><script async="async" charset="UTF-8" src="https://cdn.taboola.com/libtrc/feed-card-placeholder.20220911-7-RELEASE.es6.js" type="text/javascript"></script><script async="async" charset="UTF-8" src="https://cdn.taboola.com/libtrc/explore-more.20220911-7-RELEASE.es6.js" type="

In [47]:
type(html)

bs4.BeautifulSoup

In [48]:
html.findAll("div", {"class": "listing-category"})[1].text

'\nContenido Patrocinado'

In [60]:
category = html.findAll("div", {"class": "listing-category"})

In [61]:
category

[<div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">
 <a class="page-link" href="/contenido-patrocinado/mis-carnes-parrilla-inaugura-un-nuevo-punto-de-venta-570816" id="m573-1-574">Contenido Patrocinado</a></div>,
 <div class="listing-category">    Infraestructura
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Gobierno
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Gobierno
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Empleo
 </div>,
 <div class="listing-category">    Economía
 </div>,
 <div class="listing-category">    Finanzas
 </div>,
 <div class="listing-category">    Gobierno
 </div>,
 <div class="listing-category">
 <a class="page-link" href="/contenido-patrocinado/inversion-inmobiliaria-en-la-f

In [24]:
# Prueba

In [58]:
title = html.findAll("h3", {"class": "listing-title"})

In [59]:
title

[<h3 class="listing-title" itemprop="headline">
 <a class="page-link" href="/economia/finanzas/intervencion-de-la-creg-no-es-la-solucion-a-tarifas-consejo-gremial-571025">Intervención de la Creg no es la solución a tarifas: consejo gremial</a>
 </h3>,
 <h3 class="listing-title" itemprop="headline">
 <a class="page-link" href="/contenido-patrocinado/mis-carnes-parrilla-inaugura-un-nuevo-punto-de-venta-570816" id="m585-3-586">Mis Carnes Parrilla abre el punto de venta más grande de Colombia</a></h3>,
 <h3 class="listing-title" itemprop="headline">
 <a class="page-link" href="/economia/infraestructura/hidroelectrica-el-guavio-salio-de-operacion-otra-turbina-por-bloqueos-571017">Hidroeléctrica El Guavio: salió de operación otra turbina por bloqueos</a>
 </h3>,
 <h3 class="listing-title" itemprop="headline">
 <a class="page-link" href="/economia/finanzas/lluvias-en-colombia-irian-hasta-febrero-del-2023-ideam-gobierno-nacional-570997">Prepárese: las lluvias en el país podrían durar hasta feb

In [64]:
post =  html.findAll("div", {"class": "listing-epigraph"})
post

[<div class="listing-epigraph" itemprop="description">
 <a class="page-link" href="/economia/finanzas/intervencion-de-la-creg-no-es-la-solucion-a-tarifas-consejo-gremial-571025">De acuerdo con lo señalado por los gremios esta intervención podría poner en riesgo la construcción de proyectos renovables.</a>
 </div>,
 <div class="listing-epigraph" itemprop="description">
 <a class="page-link" href="/economia/infraestructura/hidroelectrica-el-guavio-salio-de-operacion-otra-turbina-por-bloqueos-571017">La central operará al 20 % de su capacidad instalada. Normalmente produce 7 % de la energía del país, por lo que afectaciones aumentarían los costos.</a>
 </div>,
 <div class="listing-epigraph" itemprop="description">
 <a class="page-link" href="/economia/finanzas/lluvias-en-colombia-irian-hasta-febrero-del-2023-ideam-gobierno-nacional-570997">El fenómeno tendría posibilidad del 86 % de llegar a diciembre, según Ideam. Gobierno evalúa medidas ante la crisis climática.</a>
 </div>,
 <div class

In [65]:
post[0]

<div class="listing-epigraph" itemprop="description">
<a class="page-link" href="/economia/finanzas/intervencion-de-la-creg-no-es-la-solucion-a-tarifas-consejo-gremial-571025">De acuerdo con lo señalado por los gremios esta intervención podría poner en riesgo la construcción de proyectos renovables.</a>
</div>

In [67]:
# imprimimos sólo el texto
for i in category:
    print(i.text)

    Finanzas


Contenido Patrocinado
    Infraestructura

    Finanzas

    Finanzas

    Gobierno

    Finanzas

    Gobierno

    Finanzas

    Finanzas

    Empleo

    Economía

    Finanzas

    Gobierno


Contenido Patrocinado


In [68]:
postlist = []
for strong_tag in post:
      print(strong_tag.text)
      postlist.append(strong_tag.text)



De acuerdo con lo señalado por los gremios esta intervención podría poner en riesgo la construcción de proyectos renovables.


La central operará al 20 % de su capacidad instalada. Normalmente produce 7 % de la energía del país, por lo que afectaciones aumentarían los costos.


El fenómeno tendría posibilidad del 86 % de llegar a diciembre, según Ideam. Gobierno evalúa medidas ante la crisis climática.


El presidente Petro propone una senda de alzas para el precio de la gasolina, lo que ayudaría, parcialmente, a solucionar la situación.


Entra en reemplazo en el ente de control y vigilancia de Arley Salazar, quien estuvo al frente de la institución hasta el pasado 9 de septiembre


Se trabajará en los proyectos de ampliación de aeropuertos y en mejoras de los mismos, así como en el creciente tráfico de pasajeros.


El director del Dapre confirmó una adición de $14,1 billones. El jueves 15 de septiembre vence plazo para votar el monto.


Fue el segundo de la región, detrás de México,

In [69]:
postlist

['\nDe acuerdo con lo señalado por los gremios esta intervención podría poner en riesgo la construcción de proyectos renovables.\n',
 '\nLa central operará al 20 % de su capacidad instalada. Normalmente produce 7 % de la energía del país, por lo que afectaciones aumentarían los costos.\n',
 '\nEl fenómeno tendría posibilidad del 86 % de llegar a diciembre, según Ideam. Gobierno evalúa medidas ante la crisis climática.\n',
 '\nEl presidente Petro propone una senda de alzas para el precio de la gasolina, lo que ayudaría, parcialmente, a solucionar la situación.\n',
 '\nEntra en reemplazo en el ente de control y vigilancia de Arley Salazar, quien estuvo al frente de la institución hasta el pasado 9 de septiembre\n',
 '\nSe trabajará en los proyectos de ampliación de aeropuertos y en mejoras de los mismos, así como en el creciente tráfico de pasajeros.\n',
 '\nEl director del Dapre confirmó una adición de $14,1 billones. El jueves 15 de septiembre vence plazo para votar el monto.\n',
 '\nF

¡Genial! Al parecer funciona bien. Ahora, intentemos utilizar algunas de las ventajas que nos brinda Selenium, para obtener los autores de las otras páginas. Para esto, vamos a utilizar un `for` loop.

In [70]:
import numpy as np
arrayDePaginas = np.arange(1, 10)
arrayDePaginas

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
html.findAll("div", {"class": "listing-epigraph"})

In [71]:
import numpy as np

# Este array determina cuantas páginas queremos scrapear
arrayDePaginas = np.arange(1, 10)
# Lista donde guardamos el nombre de los autores
listapost = []

# Con este for extraemos el nombre de los autores de cada página y los guardamos en una variable
for x in arrayDePaginas:
    wd.get("https://www.portafolio.co/page/economia-5.html?page=" + str(x))
    page = BeautifulSoup(wd.page_source)
    for strong_tag in page.findAll("div", {"class": "listing-epigraph"}):
        # Antes de guardar la información en una lista, podés hacer un print para ver si está funcionando bien
        #print(strong_tag.text)
        listapost.append(strong_tag.text)

In [72]:
listapost

['\nLa central operará al 20 % de su capacidad instalada. Normalmente produce 7 % de la energía del país, por lo que afectaciones aumentarían los costos.\n',
 '\nEl fenómeno tendría posibilidad del 86 % de llegar a diciembre, según Ideam. Gobierno evalúa medidas ante la crisis climática.\n',
 '\nEl presidente Petro propone una senda de alzas para el precio de la gasolina, lo que ayudaría, parcialmente, a solucionar la situación.\n',
 '\nEntra en reemplazo en el ente de control y vigilancia de Arley Salazar, quien estuvo al frente de la institución hasta el pasado 9 de septiembre\n',
 '\nSe trabajará en los proyectos de ampliación de aeropuertos y en mejoras de los mismos, así como en el creciente tráfico de pasajeros.\n',
 '\nEl director del Dapre confirmó una adición de $14,1 billones. El jueves 15 de septiembre vence plazo para votar el monto.\n',
 '\nFue el segundo de la región, detrás de México, con mejor rendimiento en los Indicadores Adelantados Compuestos (CLI).\n',
 '\nLas expe

In [82]:
import numpy as np

# Este array determina cuantas páginas queremos scrapear
arrayDePaginas = np.arange(1, 30)
# Lista donde guardamos el nombre de los autores
listcategorias = []

# Con este for extraemos el nombre de los autores de cada página y los guardamos en una variable
for x in arrayDePaginas:
    wd.get("https://www.portafolio.co/page/economia-5.html?page=" + str(x))
    page = BeautifulSoup(wd.page_source)
    for strong_tag in page.findAll("div", {"class": "listing-category"}):
        # Antes de guardar la información en una lista, podés hacer un print para ver si está funcionando bien
        #print(strong_tag.text)
        listcategorias.append(strong_tag.text)

In [83]:
import pandas as pd

# Convertimos lista to numpy array
arraycategorias = np.asarray(listcategorias)
arraycategorias = arraycategorias.reshape(-1, 1) 

# Creamos un dataframe
dfcategorias = pd.DataFrame.from_records(arraycategorias, columns=['categoria'])
dfcategorias

Unnamed: 0,categoria
0,Gobierno\n
1,Infraestructura\n
2,Finanzas\n
3,Finanzas\n
4,Gobierno\n
...,...
94,Economía\n
95,Gobierno\n
96,Gobierno\n
97,Gobierno\n


In [84]:
#vemos la cantidad de categorias
len(dfcategorias.categoria.unique())

7

In [86]:
#vemos cuantas notas tiene cada categoria
dfcategorias.categoria.value_counts()

    Finanzas\n              46
    Gobierno\n              26
    Economía\n              17
    Infraestructura\n        5
    Empleo\n                 3
    Reforma tributaria\n     1
    Impuestos\n              1
Name: categoria, dtype: int64

In [53]:
#cerramos el browser. Si lo cerras, no vas a poder seguir explorando la web o vas a tener que ejecutar todo desde el principio.
wd.close()

Esto es todo lo que vamos a hacer vinculado al scraping en este Notebook. Te invitamos a que juegues y pruebes distintas secciones del diario, cantidad de páginas scrapeadas y si te animás, otros portales.

A continuación, vamos a realizar un breve análisis de la información que recabamos. En este caso vamos a evaluar el género de los autores.

# Analizando los datos obtenidos

Como mencionamos recién, nuestro análisis será breve: queremos determinar el género de los autores. Para eso vamos a utilizar la librería gender-guesser.

In [None]:
dfDeAutores

In [None]:
!pip install gender-guesser


In [54]:
# Para instalar la librería

import gender_guesser.detector as gender

# Creamos el objeto detector
d = gender.Detector()

In [55]:
d.get_gender('Annemieke')

'female'

In [58]:
d.get_gender('Matias')

'male'

In [57]:
d.get_gender('Alan')

'male'

In [59]:
#guardamos en una variable los primeros nombres
primerNombres = []
for i in listaDeAutores:
    nombre = i.split(' ', 1)[0]
    primerNombres.append(nombre)

In [60]:
primerNombres

['Redacción',
 'Redacción',
 'Redacción',
 'Stephanie',
 'Redacción',
 'Redacción',
 'Inma',
 'Redacción',
 'Redacción',
 'Redacción',
 'Redacción',
 'Redacción',
 'Redacción',
 'Redacción',
 'Gerardo',
 'Analía',
 'Redacción',
 'Redacción',
 'Alejandra',
 'Redacción',
 'Redacción',
 'Redacción',
 'Nicole',
 'José',
 'Analía',
 'Daniel',
 'Redacción',
 'Guillermo',
 'Marcos',
 'Daniel',
 'Mar',
 'Redacción',
 'Redacción',
 'Gerardo',
 'Cecilia',
 'Redacción',
 'Redacción',
 'Daniel',
 'Redacción',
 'Redacción',
 'Redacción',
 'Daniel',
 'Redacción',
 'Redacción',
 'Lioman',
 'Redacción',
 'Redacción',
 'Norberto',
 'Redacción',
 'Cecilia',
 'Redacción',
 'Redacción',
 'Redacción',
 'Lioman',
 'Redacción',
 'Cecilia',
 'Alejandra',
 'Lioman',
 'Redacción',
 'Redacción',
 'Marcos',
 'Gerardo',
 'Guillermo',
 'Redacción',
 'Norberto',
 'Daniel',
 'María',
 'Redacción',
 'Norberto',
 'Pablo',
 'Redacción',
 'Marcos',
 'Norberto',
 'Redacción',
 'Matias',
 'Manuel',
 'Pierina',
 'Luis',
 'R

In [61]:
female = 0
male = 0
mostly_male = 0
mostly_female = 0
unknown = 0

for x in primerNombres: 
    genero = d.get_gender(x)
    if genero == "female":
        female += 1
    if genero == "male":
        male += 1
    if genero == "mostly_male":
        mostly_male +=1
    if genero == "mostly_female":
        mostly_female +=1
    if genero == "unknown":
        unknown += 1

In [62]:
#imprimimos en pantalla
print(female)
print(male)
print(mostly_male)
print(mostly_female)
print(unknown)

45
93
0
1
140


Eso es todo por ahora. Hemos visto las bases de dos librerías muy útiles:

*   **Selenium WebDriver**: para navegar en la web.
*   **BeautifulSoup**: para trabajar el html que obtenemos con Selenium.

¡Además aprendiste sobre html! Un conocimiento base que siempre está bueno tener en tecnología.