# Examen 2 - Jorge Florez

Page to be scraped: Alianza Verde

In [1]:
import time

from bs4 import BeautifulSoup

# Solved deprecation warning: https://exerror.com/deprecationwarning-executable_path-has-been-deprecated-please-pass-in-a-service-object/
from selenium import webdriver
from selenium.webdriver.firefox.service import Service

import pandas as pd

from IPython.core.display import display,HTML

In [2]:
# Base URL of the site to be analyzed
SITE_URL = 'https://alianzaverde.org.co/lideres-verdes/congreso-2022/senado-2022'
ROOT_URL = 'https://alianzaverde.org.co'

In [3]:
# Download the driver for you S.O. here: https://github.com/mozilla/geckodriver/releases

# Firefox1 web driver path
s1 = Service('./geckodriver.exe')

In [4]:
def make_request(browser):
    # Making the request and rendering the browser
    browser.get(SITE_URL)
    
    # Simulating vertical scrolling for handling lazy load
    check_height = browser.execute_script('return document.body.scrollHeight;')
    while True:
        browser.execute_script('window.scrollTo(0, document.body.scrollHeight);')
        time.sleep(3)
        height = browser.execute_script('return document.body.scrollHeight;')
        if height == check_height: 
            break 
        check_height = height
    
    # Getting HTML content and passing it to BeautifulSoup for scraping analysis
    return BeautifulSoup(browser.page_source, 'html.parser')

In [5]:
# Creating a firefox window
browser_archive = webdriver.Firefox(service=s1)

# Getting HTML content from page
soup = make_request(browser_archive)

# Finding the section where candidates are contained
sections = soup.find_all(class_ = 'sppb-col-md-3')
#print(len(sections))

# Close the firefox window
browser_archive.close()

In [9]:
# Building a list for the candidates
candidatos = []

# Iterate over each section
for section in sections:

    # Avoiding sections without candidates
    if section.find(class_ = 'person-content-show-on-hover') != None:
        
        #Assign the standar valor of None to all social neworks previous to checking each one
        facebook_link = None
        twitter_link = None
        youTube_link = None
        instagram_link = None
        
        # Checking the social networks for candidate        
        if section.find(class_ = 'sppb-person-social') != None:
            
            social_networks = section.find(class_ = 'sppb-person-social').find_all('a')           
            
        
            #print(social_networks)

            for social_net in social_networks:
                #print(social_net)

                #Get the Facebook url                
                if social_net.attrs['aria-label'] == 'Facebook':
                    facebook_link = social_net.attrs['href']


                #Get the Twitter url
                if social_net.attrs['aria-label'] == 'Twitter':
                    twitter_link = social_net.attrs['href']


                #Get the YouTube url                
                if social_net.attrs['aria-label'] == 'YouTube':
                    youTube_link = social_net.attrs['href']


                #Get the Instagram url                
                if social_net.attrs['aria-label'] == 'Instagram':
                    instagram_link = social_net.attrs['href']



        # Add the items to the list
        candidatos.append({
            #photo
            'foto': ROOT_URL + section.find('img').attrs['src'],

            #description     
            'descripcion': section.find(class_ = 'sppb-person-designation').get_text(),

            #facebook     
            'facebook': facebook_link,

            #twitter     
            'twitter': twitter_link,

            #youtube     
            'youtube': youTube_link,

            #instagram     
            'instagram': instagram_link

        })


#len(candidatos)
candidatos[18]

{'foto': 'https://alianzaverde.org.co/images/Candidatos_2022/senado/40.jpg',
 'descripcion': 'Nacido en Samaná Caldas, estudió economía y comercio exterior en la Universidad de los Libertadores. Empresario enfocado en el sector inmobiliario.  Su apuesta está centrada en el sector campo.',
 'facebook': 'https://www.facebook.com/JorgeELondonoU/',
 'twitter': 'https://twitter.com/JorgeELondonoU',
 'youtube': 'https://youtube.com/user/JorgeLondonoUlloa',
 'instagram': 'http://instagram.com/jorgeelondonou'}

In [10]:
# Transforming extracted data to a tabular format
candidatos_df = pd.DataFrame(candidatos)
display(candidatos_df.loc[18:18])

Unnamed: 0,foto,descripcion,facebook,twitter,youtube,instagram
18,https://alianzaverde.org.co/images/Candidatos_...,"Nacido en Samaná Caldas, estudió economía y co...",https://www.facebook.com/JorgeELondonoU/,https://twitter.com/JorgeELondonoU,https://youtube.com/user/JorgeLondonoUlloa,http://instagram.com/jorgeelondonou


In [11]:
## Create function to show images on data frame
# reference: https://stackoverflow.com/questions/53468558/adding-image-to-pandas-dataframe

# convert your links to html tags 
def path_to_image_html(path):
    return '<img src="'+ path + '" width="100" >'

#Define which columns will be used to convert to html
image_col = ['foto']

# Create the dictionariy to be passed as formatters
format_dict = {}
for image in image_col:
    format_dict[image] = path_to_image_html

display(HTML(candidatos_df.to_html(escape=False ,formatters=format_dict)))

Unnamed: 0,foto,descripcion,facebook,twitter,youtube,instagram
0,,"Abogada y filósofa, con un máster en Ciencias de la Administración Pública, en Alemania. Experta en gestión pública, descentralización, transparencia, buen gobierno, modernización del estado, cultura ciudadana y cooperación internacional, temas en los cuales se ha desempeñado alternativamente como servidora pública, consultora y docente.",https://twitter.com/VivianaBarbere,https://twitter.com/VivianaBarbere,,https://www.instagram.com/barberenaviviana/
1,,"Nacida de seres excepcionales, en tiempos inciertos; es la mujer de retos resueltos. Desde el inicio de su carrera política, su liderazgo se enfoca en mantener la cultura de la equidad, la familia y el fortalecimiento económico, político y social de las regiones en Colombia",https://www.facebook.com/sandraortizsenadora,https://twitter.com/sandraortizn,https://www.youtube.com/channel/UCTwjhE_bLZS72l0RqI_u4OQ/featured,https://www.instagram.com/sandraortizn
2,,"Destacado Senador de la República en el año 2010 fue disciplinado y estricto en el cumplimiento de su función en la producción legislativa y el ejercicio del control político; en particular, participó de forma definitiva en los Proyectos de Ley y de Acto Legislativo trascendentales para el país.",https://www.facebook.com/JorgeELondonoU/,https://twitter.com/JorgeELondonoU,https://youtube.com/user/JorgeLondonoUlloa,http://instagram.com/jorgeelondonou
3,,"Egresado de la Facultad de Derecho de la Pontificia Universidad Javeriana; fue Diputado a la Asamblea de Cundinamarca, Concejal, Representante a la Cámara por Bogotá y Senador, además de ser fundador del Partido Alianza Verde. Correo de contacto",https://www.facebook.com/SenadorIvanName,/ https://twitter.com/IvanNameVasquez,,https://www.instagram.com/ivannamevasquez/
4,,"Como congresista pertenece a la Comisión sexta, la comisión de paz y la Comisión de Derechos Humanos. Ha presentado iniciativas para reformar el sistema general de participaciones y la jornada laboral. Ha presentado proyectos de ley que fortalezcan la nutrición saludable, el internet gratuito, el financiamiento a los cuerpos de bomberos, la creación de las provincias, entre otras.",https://www.facebook.com/Leonfredym,https://twitter.com/LeonFredyM,,https://www.instagram.com/leonfredymunozl
5,,"Ciudadana, activista cívica, abogada y Senadora de 2018 a 2022 por el partido Alianza Verde. Representante a la Cámara por Bogotá en 2014 - 2018. Magíster en Gerencia y Práctica del Desarrollo en la Universidad de los Andes y becaria del Instituto Nacional Demócrata (NDI).",https://www.facebook.com/angelicalozanocorrea/,https://twitter.com/AngelicaLozanoC,https://www.youtube.com/user/bogotaserespeta,https://www.instagram.com/angelicalozano10/
6,,"Nacida en Villa de Leyva Boyacá. Desde su infancia se caracterizó por el amor a su familia, solidaridad y capacidad de asumir retos. Ingeniera Industrial de la Universidad Pedagógica y Tecnológica de Colombia, con una Maestría en en pensamiento estratégico y perspectiva de la Universidad Externado de Colombia.",/ https://www.facebook.com/karolina.jerez,https://twitter.com/CaroEspitiaJ,,https://www.instagram.com/caroespitiaj/
7,,"Profesora universitaria. Autora de varias publicaciones sobre derechos animales y justicia juvenil restaurativa (Beca de Investigación del Grupo Coímbra. Programa de Becas para Jóvenes Profesores e Investigadores de Universidades de América Latina, 2009). Columnista ocasional de varios medios de comunicación.",https://www.facebook.com/andreanimalidad,https://twitter.com/andreanimalidad,https://www.youtube.com/channel/UCnJ85DTEYtqUJ1o9wQLsbyA,https://www.instagram.com/andreanimalidad
8,,"Magíster en Gestión de la Tecnología Educativa. Ex presidente de Sindimaestros en Boyacá. Ex presidente de FECODE y actualmente Ejecutivo (tesorero)Dirigente estudiantil, sindical, social y político desde hace 32 años.",https://www.facebook.com/nelson.alarconsuarez.16,https://twitter.com/Nelsonalarcon74,https://www.youtube.com/channel/UC0yGgG_Jj4cUa8kdv_J5n2w,https://www.instagram.com/nelsonalarcon74/
9,,"Nació en Pereira en 1946, el cuarto de once hermanos, en la época de la Violencia… cuando liberales y conservadores se mataban. Por eso desde pequeño sabe que lo más importante para el país es que las personas aprendamos a convivir, a dignificar la existencia humana.",https://www.facebook.com/IvanMarulandaGomez,https://twitter.com/ivanmarulanda,https://www.youtube.com/c/IvánMarulandaGomezCo,https://www.instagram.com/ivanmarulandagomez/
