Web scrapper

In [1]:
import requests
from bs4 import BeautifulSoup
import os
import time
from urllib.parse import quote

def descargar_imagenes_bing(termino_busqueda, cantidad=100, carpeta_destino="imagenes_hormigas"):
    """
    Descarga imágenes desde Bing Image Search
    
    Args:
        termino_busqueda: Término a buscar (ej: "ant close up macro")
        cantidad: Número de imágenes a descargar
        carpeta_destino: Carpeta donde guardar las imágenes
    """
    
    # Crear carpeta si no existe
    if not os.path.exists(carpeta_destino):
        os.makedirs(carpeta_destino)
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    # URL de búsqueda de Bing Images
    url_busqueda = f"https://www.bing.com/images/search?q={quote(termino_busqueda)}&form=HDRSC2&first=1"
    
    print(f"Buscando imágenes de: {termino_busqueda}")
    
    try:
        response = requests.get(url_busqueda, headers=headers, timeout=10)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Buscar enlaces de imágenes
        img_tags = soup.find_all('a', class_='iusc')
        
        contador = 0
        
        for idx, img_tag in enumerate(img_tags):
            if contador >= cantidad:
                break
                
            try:
                # Extraer URL de la imagen
                m = img_tag.get('m')
                if m:
                    import json
                    img_data = json.loads(m)
                    img_url = img_data.get('murl')
                    
                    if img_url:
                        # Descargar imagen
                        print(f"Descargando imagen {contador + 1}/{cantidad}...")
                        img_response = requests.get(img_url, headers=headers, timeout=10)
                        
                        if img_response.status_code == 200:
                            # Determinar extensión
                            ext = img_url.split('.')[-1].split('?')[0][:4]
                            if ext not in ['jpg', 'jpeg', 'png', 'webp']:
                                ext = 'jpg'
                            
                            # Guardar imagen
                            filename = os.path.join(carpeta_destino, f"hormiga_{contador + 1}.{ext}")
                            with open(filename, 'wb') as f:
                                f.write(img_response.content)
                            
                            contador += 1
                            time.sleep(0.5)  # Pausa para no sobrecargar el servidor
                        
            except Exception as e:
                print(f"Error descargando imagen {idx}: {e}")
                continue
        
        print(f"\n✓ Descarga completada: {contador} imágenes guardadas en '{carpeta_destino}'")
        
    except Exception as e:
        print(f"Error en la búsqueda: {e}")

# Ejemplo de uso
if __name__ == "__main__":
    # Diferentes búsquedas para obtener variedad
    terminos = [
        "ant close up macro photography",
        "ant face macro",
        "ant portrait macro",
        "hormiga macro fotografía"
    ]
    
    # Descargar 250 imágenes de cada término (1000 total)
    for termino in terminos:
        print(f"\n{'='*50}")
        carpeta = f"hormigas_{terminos.index(termino) + 1}"
        descargar_imagenes_bing(termino, cantidad=250, carpeta_destino=carpeta)
        time.sleep(2)  # Pausa entre búsquedas


Buscando imágenes de: ant close up macro photography
Descargando imagen 1/250...
Descargando imagen 2/250...
Descargando imagen 3/250...
Descargando imagen 4/250...
Descargando imagen 5/250...
Descargando imagen 6/250...
Descargando imagen 7/250...
Descargando imagen 8/250...
Descargando imagen 9/250...
Descargando imagen 10/250...
Descargando imagen 11/250...
Descargando imagen 12/250...
Descargando imagen 13/250...
Descargando imagen 14/250...
Descargando imagen 15/250...
Descargando imagen 16/250...
Descargando imagen 17/250...
Descargando imagen 18/250...
Descargando imagen 19/250...
Descargando imagen 20/250...
Descargando imagen 21/250...
Descargando imagen 22/250...
Descargando imagen 23/250...
Descargando imagen 24/250...
Descargando imagen 25/250...
Descargando imagen 26/250...
Descargando imagen 27/250...
Descargando imagen 28/250...
Descargando imagen 29/250...
Descargando imagen 30/250...
Descargando imagen 30/250...
Descargando imagen 31/250...
Descargando imagen 32/250..