# Web Scrapping Google

Este código utiliza las bibliotecas requests, BeautifulSoup, y json para buscar enlaces relacionados con "reforma judicial México 2024" en Google y guardarlos en un archivo JSON. 

requests: Se utiliza para hacer solicitudes HTTP y obtener el contenido de una página web.


BeautifulSoup: Es una biblioteca para analizar documentos HTML y extraer información específica.


json: Se usa para trabajar con datos en formato JSON, que permite guardar estructuras como listas o diccionarios en un archivo.


urlparse y parse_qs: Ayudan a analizar y extraer parámetros de las URLs.

In [None]:
import requests
from bs4 import BeautifulSoup
import json
from urllib.parse import urlparse, parse_qs

url: Especifica la URL de búsqueda en Google.


headers: Incluye un encabezado User-Agent para que la solicitud se identifique como proveniente de un navegador y no sea bloqueada por Google.

In [None]:
def obtener_links_reforma_judicial():
    url = 'https://www.google.com/search?q=reforma+judicial+México+2024'
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }

requests.get(url, headers=headers): Realiza una solicitud GET a la URL de búsqueda con los encabezados especificados.


response.status_code: Verifica si la solicitud fue exitosa (código 200) o si hubo un error.


BeautifulSoup(response.text, 'html.parser'): Analiza el contenido HTML devuelto por la respuesta.

In [None]:
response = requests.get(url, headers=headers)
    if response.status_code != 200:
        print("Error al hacer la solicitud, estado:", response.status_code)
        return []
    
    soup = BeautifulSoup(response.text, 'html.parser')

soup.find_all('a', href=True): Busca todas las etiquetas a con un atributo href (enlaces).


'/url?' in href: Filtra los enlaces que son redirecciones de Google.


urlparse(href) y parse_qs(parsed_url.query): Extraen el enlace real de los parámetros de la URL.


links.append(actual_url): Agrega el enlace real a la lista links.


json.dump: Guarda la lista de enlaces en un archivo llamado enlaces_reforma_judicial.json.


Usa ensure_ascii=False para manejar caracteres especiales como tildes y indent=4 para mejorar la legibilidad.


Archivo enlaces_reforma_judicial.json:Contendrá una lista con los enlaces encontrados.

In [None]:
links = []
    for a_tag in soup.find_all('a', href=True):
        href = a_tag['href']
        
        if '/url?' in href:
            parsed_url = urlparse(href)
            params = parse_qs(parsed_url.query)
            actual_url = params.get('url', [None])[0]
            
            if actual_url:
                links.append(actual_url)
    
    if links:
        with open('enlaces_reforma_judicial.json', 'w', encoding='utf-8') as f:
            json.dump(links, f, ensure_ascii=False, indent=4)
        print(f"Se han guardado {len(links)} enlaces en 'enlaces_reforma_judicial.json'")
    else:
        print("No se encontraron enlaces.")
    
    return links

obtener_links_reforma_judicial()
