# BS4

In [1]:
# Asegúrate de tener instalados tanto beautifulsoup como requests:
#   pip install beautifulsoup4
#   pip install requests

import requests
from bs4 import BeautifulSoup

# Usando el módulo requests, usamos la función "get"
# proporcionada para acceder a la página web indicada
# como argumento en esta función:
result = requests.get("https://es.statista.com/estadisticas/622465/puntos-de-recarga-de-vehiculos-electricos-por-comunidad-autonoma-espana/")

# Para asegurarnos de que el sitio web es accesible,
# podemos verificar que obtengamos una respuesta 200 OK
# que indica que la página está presente:
print(result.status_code)

# Para otros posibles códigos de estado que podrías encontrar,
# consulta la siguiente página de Wikipedia:
# https://es.wikipedia.org/wiki/C%C3%B3digo_de_estado_HTTP

# También podemos revisar el encabezado HTTP del sitio web para
# verificar que realmente hemos accedido a la página correcta:
print(result.headers)

# Para más información sobre los encabezados HTTP y la información
# que se puede obtener de ellos, puedes consultar:
# https://es.wikipedia.org/wiki/Encabezado_HTTP

# Ahora, almacenamos el contenido de la página del sitio web
# que obtuvimos con requests en una variable:
src = result.content

# Ahora que tenemos el código fuente de la página almacenado,
# utilizaremos el módulo BeautifulSoup para analizar y procesar
# el código fuente. Para hacerlo, creamos un objeto BeautifulSoup
# basado en la variable de fuente que creamos arriba:
soup = BeautifulSoup(src, 'lxml')

# Ahora que el código fuente ha sido procesado por BeautifulSoup,
# podemos acceder a información específica directamente desde él.
# Por ejemplo, digamos que queremos ver una lista de todos los
# enlaces de la página:
links = soup.find_all("a")
print(links)
print("\n")

# Tal vez solo queramos extraer el enlace que contenga el texto
# "About" en la página en lugar de todos los enlaces. Podemos usar
# la función incorporada "text" para acceder al contenido de texto
# entre las etiquetas <a> </a>.
for link in links:
    if "About" in link.text:
        link
        print(link.attrs['href'])

200
{'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Sun, 22 Dec 2024 17:57:26 GMT', 'Set-Cookie': 'AWSALBTG=kPiJ+Vqs9pYUGUEeYaiGdAEfXZe6azIDpYUAhiqJbp6Xcm3ggnsWwhHwp1HPrCQ54wyTzTdThMu7989OWmGG7khSWvXb4lbSKx8aBagLdTWRbY+voS0W7zIi9VbaRW+Hx3mo9hGI2jXaiTcxF2Snw6MrhEfXw1ZuvfLPbbph+Zd+nC3xCBw=; Expires=Sun, 29 Dec 2024 17:57:26 GMT; Path=/, AWSALBTGCORS=kPiJ+Vqs9pYUGUEeYaiGdAEfXZe6azIDpYUAhiqJbp6Xcm3ggnsWwhHwp1HPrCQ54wyTzTdThMu7989OWmGG7khSWvXb4lbSKx8aBagLdTWRbY+voS0W7zIi9VbaRW+Hx3mo9hGI2jXaiTcxF2Snw6MrhEfXw1ZuvfLPbbph+Zd+nC3xCBw=; Expires=Sun, 29 Dec 2024 17:57:26 GMT; Path=/; SameSite=None; Secure, STATSESSID=g5roqo8vn89pki64jf57a5enha; expires=Fri, 20-Jun-2025 17:57:26 GMT; Max-Age=15552000; path=/; domain=statista.com; secure; HttpOnly, statistaContentView=1549506576768530631ed79061359865; expires=Tue, 22-Dec-2026 17:57:26 GMT; Max-Age=63072000; path=/; domain=statista.com; secure; httponly', 'Server': 'nginx', 'Cache-Cont

FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

# SELENIUM

In [14]:
from selenium import webdriver
import time

# Configuración de Selenium
driver = webdriver.Chrome()

# Cargar la página
url = "https://es.statista.com/estadisticas/730785/vehiculos-electricos-matriculados-por-comunidad-autonoma-espana/"
driver.get(url)

# Esperar a que se cargue el contenido dinámico
time.sleep(5)

# Buscar la tabla o los datos de vehículos eléctricos
try:
    # Localiza elementos por etiquetas o clases específicas
    table = driver.find_element(By.TAG_NAME, "table")  # Cambiar si es necesario
    rows = table.find_elements(By.TAG_NAME, "tr")
    
    for row in rows:
        columns = row.find_elements(By.TAG_NAME, "td")
        data = [col.text.strip() for col in columns]
        print(data)
except Exception as e:
    print(f"Error al extraer datos: {e}")
finally:
    driver.quit()



ImportError: cannot import name 'deprecated' from 'typing_extensions' (C:\Users\ruben\anaconda3\lib\site-packages\typing_extensions.py)

# API GOOGLE MAPS

In [12]:
!pip uninstall selenium typing_extensions
!pip install selenium typing_extensions


^C
^C


In [6]:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree
from openpyxl import Workbook
from openpyxl.utils import get_column_letter
import time

def scrape_statista_pages(start_page, end_page, delay=5):
    """
    Scrape Statista pages from start_page to end_page.

    Parameters:
    - start_page (int): The first page number to scrape.
    - end_page (int): The last page number to scrape.
    - delay (int): Delay in seconds between requests to avoid being blocked.
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 '
                      '(KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    }

    all_data = {
        'Topics': [],
        'Report Title': [],
        'Description': [],
        'Published Date': [],
        'Image Source': [],
    }

    for page_number in range(start_page, end_page + 1):
        url = f"https://www.statista.com/chartoftheday/ALL/p/{page_number}/"
        page_text = requests.get(url=url, headers=headers).text

        tree = etree.HTML(page_text)
        topics = tree.xpath('//figure/figcaption/div/h3/text()')
        reports_titles = tree.xpath('//figure/img/@title')
        descriptions = tree.xpath('//figure/figcaption/text()')
        published_dates = tree.xpath('//figure/figcaption/div/time/text()')
        img_src = tree.xpath('//figure/img/@src')

        all_data['Topics'].extend(topics)
        all_data['Report Title'].extend(reports_titles)
        all_data['Description'].extend(descriptions)
        all_data['Published Date'].extend(published_dates)
        all_data['Image Source'].extend(img_src)

        print(f"Page {page_number} scraped. Waiting {delay} seconds before next request...")
        time.sleep(delay)  # Delay to avoid being blocked

    return all_data

def upload_data_to_excel_openpyxl(data, excel_filename):
    wb = Workbook()
    ws = wb.active

    max_length = {}
    for col, header in enumerate(data.keys(), start=1):
        ws.cell(row=1, column=col, value=header)
        max_length[col] = len(header)

    for col_index, (key, values) in enumerate(data.items(), start=1):
        for row_index, value in enumerate(values, start=2):
            ws.cell(row=row_index, column=col_index, value=value)
            max_length[col_index] = max(max_length[col_index], len(str(value)))

    for col, length in max_length.items():
        ws.column_dimensions[get_column_letter(col)].width = length

    wb.save(filename=excel_filename)
    print(f"Data successfully saved to {excel_filename}")

if __name__ == "__main__":
    # Scrape pages 2 through 137 with a delay of 5 seconds between each request
    scraped_data = scrape_statista_pages(2, 2, delay=5)

    # Save scraped data to Excel
    excel_filename = 'OneDrive - CENTRO EDUCATIVO FASTA MADRE SACRAMENTOEscritorioCIENCIA DE DATOS2ºATDProyecto_ATD'
    upload_data_to_excel_openpyxl(scraped_data, excel_filename)

Page 2 scraped. Waiting 5 seconds before next request...
Data successfully saved to OneDrive - CENTRO EDUCATIVO FASTA MADRE SACRAMENTOEscritorioCIENCIA DE DATOS2ºATDProyecto_ATD
