# Scraper para Letra Fria

In [19]:
import requests
from bs4 import BeautifulSoup
import csv
import time
import random
from urllib.parse import urljoin
from datetime import datetime

# Configuración
BASE_URL = "https://letrafria.com/"
CATEGORY_URL = "https://letrafria.com/category/region/"
OUTPUT_FILE = f"letra_fria_200_{datetime.now().strftime('%Y%m%d_%H%M%S')}.csv"
DELAY = random.uniform(2, 4)
MAX_PAGES = 200  # Para prueba

# Headers optimizados
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept-Language': 'es-MX,es;q=0.9'
}

def get_soup(url):
    """Obtiene el HTML con manejo robusto de errores"""
    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
        return BeautifulSoup(response.text, 'html.parser')
    except Exception as e:
        print(f"Error al obtener {url}: {str(e)}")
        return None

def clean_text(text):
    """Limpia el texto preservando estructura"""
    if not text:
        return ""
    return ' '.join(text.strip().split())

def extract_article_data(article_url):
    """Extrae datos de artículo con selectores específicos para Letra Fría"""
    print(f"\nExtrayendo: {article_url}")
    soup = get_soup(article_url)
    if not soup:
        return None
    
    try:
        # 1. Extraer título - selector actualizado
        title = clean_text(soup.find('h1', class_='post-title').get_text())
        
        # 2. Extraer fecha - selectores mejorados
        date_elem = (soup.find('time', class_='post-published') or 
                    soup.find('span', class_='post-date') or
                    soup.find('meta', property='article:published_time'))
        
        date = ""
        if date_elem:
            if date_elem.has_attr('datetime'):
                date = date_elem['datetime'].split('T')[0]  # Formato YYYY-MM-DD
            else:
                date = clean_text(date_elem.get_text())
        
        # 3. Extraer autor - selector específico
        author_elem = soup.find('span', class_='post-author-name') or soup.find('a', rel='author')
        author = clean_text(author_elem.get_text()) if author_elem else ""
        
        # 4. Extraer contenido - enfoque mejorado
        content_div = soup.find('div', class_='post-content') or soup.find('div', class_='entry-content')
        paragraphs = []
        
        if content_div:
            # Eliminar elementos específicos de Letra Fría
            unwanted = ['sharedaddy', 'code-block', 'twitter-tweet', 'wp-block-embed', 
                       'post-tags', 'author-box', 'related-posts']
            for element in content_div.find_all(['script', 'style', 'iframe'] + unwanted):
                element.decompose()
            
            for p in content_div.find_all(['p', 'h2', 'h3']):
                text = clean_text(p.get_text())
                if text and len(text.split()) > 2:
                    paragraphs.append(text)
        
        content = '\n\n'.join(paragraphs) if paragraphs else "Contenido no disponible"
        
        print(f"✓ Título: {title}")
        print(f"✓ Fecha: {date}")
        print(f"✓ Autor: {author}")
        print(f"✓ Caracteres: {len(content)}")
        
        return {
            'titulo': title,
            'articulo': content,
            'fecha': date,
            'autor': author,
            'url': article_url,
            'categoria': 'Región'
        }
        
    except Exception as e:
        print(f"Error procesando artículo: {str(e)}")
        return None

def get_article_links(page_url):
    """Obtiene enlaces con selectores robustos para Letra Fría"""
    print(f"\nObteniendo artículos de: {page_url}")
    soup = get_soup(page_url)
    if not soup:
        return []
    
    links = []
    # Selector principal basado en estructura actual
    articles = soup.select('article.item-post, div.post-item, article.post')
    
    for article in articles:
        if a := article.find('a', href=True, class_=lambda x: x != 'more-link'):
            link = urljoin(BASE_URL, a['href'])
            if link not in links:
                links.append(link)
    
    print(f"Encontrados {len(links)} artículos")
    return links

def main():
    """Función principal con paginación mejorada"""
    with open(OUTPUT_FILE, mode='w', encoding='utf-8', newline='') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=['titulo', 'articulo', 'fecha', 'autor', 'url', 'categoria'])
        writer.writeheader()
        
        page_num = 1
        articles_scraped = 0
        
        while page_num <= MAX_PAGES:
            page_url = CATEGORY_URL if page_num == 1 else f"{CATEGORY_URL}page/{page_num}/"
            
            article_links = get_article_links(page_url)
            
            if not article_links:
                print("No se encontraron artículos. Verificando...")
                # Verificación adicional
                soup = get_soup(page_url)
                if soup and soup.find('div', class_='no-results'):
                    print("Confirmado: no hay más artículos.")
                    break
                time.sleep(5)
                continue
            
            for link in article_links:
                article_data = extract_article_data(link)
                if article_data:
                    writer.writerow(article_data)
                    csvfile.flush()
                    articles_scraped += 1
                
                time.sleep(DELAY)
            
            page_num += 1
            time.sleep(DELAY * 1.5)
        
        print(f"\nPrueba completada. Artículos extraídos: {articles_scraped}")
        print(f"Archivo guardado: {OUTPUT_FILE}")

if __name__ == "__main__":
    print("""
    ====================================
    SCRAPER LETRA FRÍA - VERSIÓN FINAL
    Extracción completa garantizada
    ====================================
    """)
    
    start_time = time.time()
    main()
    duration = time.time() - start_time
    print(f"\nTiempo total: {duration//60:.0f}m {duration%60:.0f}s")


    SCRAPER LETRA FRÍA - VERSIÓN FINAL
    Extracción completa garantizada
    

Obteniendo artículos de: https://letrafria.com/category/region/
Encontrados 5 artículos

Extrayendo: https://letrafria.com/prohiben-acceso-de-vehiculos-a-playas-de-melaque/
✓ Título: Prohíben acceso de vehículos a playas de Melaque
✓ Fecha: 
✓ Autor: 
✓ Caracteres: 1075

Extrayendo: https://letrafria.com/abriran-modulo-permanente-de-licencias-de-conducir-en-el-grullo/
✓ Título: Abrirán módulo permanente de licencias de conducir en El Grullo
✓ Fecha: 
✓ Autor: 
✓ Caracteres: 1031

Extrayendo: https://letrafria.com/tras-protestas-acuerdan-mesas-de-trabajo-por-estudiantes-desaparecidos/
✓ Título: Tras protestas, acuerdan mesas de trabajo por estudiantes desaparecidos
✓ Fecha: 
✓ Autor: 
✓ Caracteres: 2700

Extrayendo: https://letrafria.com/encuentro-jovenes-y-agroecologia-en-el-limon-supera-los-600-asistentes/
✓ Título: Encuentro Jóvenes y Agroecología en El Limón supera los 600 asistentes
✓ Fecha: 
✓ Autor: