# ESCUELA POLITECNICA NACIONAL
- NOMBRE: FREDDY JIMENEZ
- CURSO: GR1CC
- FECHA: 03/01/2025

# REPOSITORIO. -

LINK: https://github.com/freddy1604/RepositorioDeMetodosNumericos/tree/main/%5BActividad%20extracurricular%2012%5D%20web%20scraping

# 1. OBJETIVOS. -
- Comparar dos librerías para web scraping: BeautifulSoup y Scrapy.
- Realizar un scraping de un sitio web para extraer datos útiles (e.g., títulos de artículos, precios de productos, etc.).
- Documentar los resultados y reflexionar sobre las ventajas y limitaciones de cada herramienta.

# 2. INTRODUCCION. -
Web scraping es una técnica de extracción automatizada de datos de sitios web. Se utiliza en diversos campos como análisis de datos, investigación, desarrollo de aplicaciones, entre otros. Herramientas como BeautifulSoup y Scrapy facilitan esta tarea al permitir navegar y extraer información estructurada desde el HTML de las páginas web.

# 3. PROCEDIMIENTO. -
Web Scraping: BeautifulSoup vs Scrapy

**Configuración inicial**

- !pip install requests beautifulsoup4 pandas scrapy


### 3.1. Web Scraping con BeautifulSoup. -

In [7]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL del sitio web
target_url = "https://quotes.toscrape.com"

# Solicitud HTTP
response = requests.get(target_url)
soup = BeautifulSoup(response.text, 'html.parser')

# Extracción de datos: Obtener citas y autores
quotes = [quote.text.strip() for quote in soup.find_all('span', class_='text')]
authors = [author.text.strip() for author in soup.find_all('small', class_='author')]

# Guardar en un DataFrame
data_bs = pd.DataFrame({"Cita": quotes, "Autores": authors})
data_bs.to_csv("beautifulsoup_results.csv", index=False)

print("Datos extraídos con BeautifulSoup:")
print(data_bs.head())

Datos extraídos con BeautifulSoup:
                                                Cita          Autores
0  “The world as we have created it is a process ...  Albert Einstein
1  “It is our choices, Harry, that show what we t...     J.K. Rowling
2  “There are only two ways to live your life. On...  Albert Einstein
3  “The person, be it gentleman or lady, who has ...      Jane Austen
4  “Imperfection is beauty, madness is genius and...   Marilyn Monroe


![](Imagen1.png)

### 3.2. Web Scraping con Scrapy 

In [14]:
scrapy_code = '''
import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['https://quotes.toscrape.com']

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'Quote': quote.css('span.text::text').get(),
                'Author': quote.css('small.author::text').get()
            }
'''

In [17]:
with open("EjemploScrapy.py", "w") as f:
    f.write(scrapy_code)

print("Código para Scrapy guardado en EjemploScrapy.py. Ejecuta el spider con:")
print("scrapy runspider EjemploScrapy.py -o scrapy_results.csv")

Código para Scrapy guardado en EjemploScrapy.py. Ejecuta el spider con:
scrapy runspider EjemploScrapy.py -o scrapy_results.csv


![](Imagen2.png)

# 4. CONCLUSIONES. -
- Ventajas de BeautifulSoup es que tiene simplicidad, ideal para tareas pequeñas.
- Ventajas de Scrapy es que tiene escalabilidad, ideal para proyectos complejos o scraping masivo.
- Las limitaciones son los problemas legales (respeta las políticas de los sitios web), bloqueos, etc. 

# 5. REFERENCIAS BIBLIOGRAFICAS. -
- **Requests:**

Reitz, K. (2023). Requests: HTTP for Humans. Python Software Foundation. Recuperado de https://docs.python-requests.org/en/latest/

- **BeautifulSoup:**

Richardson, L. (2023). Beautiful Soup Documentation. Python Software Foundation. Recuperado de https://www.crummy.com/software/BeautifulSoup/

- **Pandas:**

McKinney, W. (2010). Data Structures for Statistical Computing in Python. In Proceedings of the 9th Python in Science Conference (pp. 51-56). Recuperado de https://pandas.pydata.org/

- **Scrapy:**

Scrapy Developers. (2023). Scrapy Documentation. Recuperado de https://docs.scrapy.org/en/latest/

- **Sitio web objetivo:**

Quotes to Scrape. (s.f.). Recuperado de https://quotes.toscrape.com