# 1. ¿Qué es Web Scraping?

Web scraping es el proceso de extraer datos de sitios web de manera automatizada. Se utilizan scripts o programas para acceder al HTML de una página y extraer información relevante, como texto, imágenes, enlaces, etc.

Aplicaciones comunes:

- Recolección de datos de productos en tiendas en línea.
- Análisis de noticias y artículos.
- Seguimiento de precios.
- Extracción de información de tablas y estadísticas.

# 2. Prueba en Python con Dos Librerías Diferentes
Librerías a usar para scraping:

- BeautifulSoup (bs4) – Para analizar y extraer datos de HTML/XML de forma sencilla.
- Scrapy – Framework avanzado y robusto para scraping a gran escala.

# 3. Realizar una Prueba de Web Scraping

## Objetivo:

- Extraer títulos, enlaces o cualquier información visible de la página principal de K-Pop en Amino.

## Instalacion  BeautifulSoup (bs4)

pip install beautifulsoup4 scrapy requests


In [2]:
import requests
from bs4 import BeautifulSoup

url = 'https://aminoapps.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Extraer todos los títulos <h1>
titles = soup.find_all('h1')
for title in titles:
    print(title.text)


Your Interests...Times Infinity
Go Deep, Geek Out
Go Deep, Geek Out
Unite with Your People
Build Your Own Community


## Instalacion Scrapy
pip install scrapy


En la terminal, ejecutar:

- scrapy startproject scraping_project

Esto creará una carpeta llamada scraping_project con la estructura base de Scrapy.
Moverse al Proyecto

- cd scraping_project
Generar un Spider (Rastreador)

Usa este comando para crear un spider llamado example_spider que rastrará el sitio de Kpop.

- scrapy genspider example_spider https://aminoapps.com/
Esto creará un archivo en scraping_project/spiders/ llamado example_spider.py.

# Abrir y Editar el Spider :
 
 -Spider sin modificar:

In [None]:
import scrapy


class ExampleSpiderSpider(scrapy.Spider):
    name = "example_spider"
    allowed_domains = ["aminoapps.com"]
    start_urls = ["https://aminoapps.com/c/k-pop-es/home/"]

    def parse(self, response):
        pass


-Spider Modificado

In [4]:
import scrapy


class ExampleSpiderSpider(scrapy.Spider):
    name = "example_spider"
    allowed_domains = ["aminoapps.com"]
    start_urls = ["https://aminoapps.com/c/k-pop-es/home/"]

    def parse(self, response):
        # Extraer títulos de publicaciones o secciones
        for post in response.css('h2::text'):
            yield {
                'title': post.get()
            }

        # Extraer enlaces a otras páginas
        for link in response.css('a::attr(href)'):
            yield {
                'link': response.urljoin(link.get())
            }

        # Opción de seguir paginación (si existe)
        next_page = response.css('a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)


# Probar el Spider:
Guarda el archivo y vuelve a la terminal.

Ejecuta el spider:

-scrapy crawl example_spider
Ver los resultados:
Si deseas guardar los resultados en un archivo JSON o CSV:


-scrapy crawl example_spider -o resultados.json
o
-scrapy crawl example_spider -o resultados.csv