# Tarea de Scraping Web con Python y Selenium

## Objetivo
Desarrollar habilidades prácticas en scraping web utilizando Python con Selenium y BeautifulSoup. Se espera que manejen el navegador de forma programática para extraer datos dinámicos de un sitio web específico y que realicen un análisis básico de los datos obtenidos.

## Instrucciones
1. Configura tu entorno de desarrollo instalando las librerías necesarias: Selenium, BeautifulSoup, pandas, entre otras que consideres necesarias.
2. Configura un navegador usando Selenium. Debes asegurarte de incluir opciones como el modo incógnito y el modo sin interfaz gráfica (headless).
3. Elige un sitio web que ofrezca datos dinámicos y sea legal para hacer scraping (por ejemplo, datos meteorológicos, precios de productos, cotizaciones de bolsa).
4. Navega al sitio web utilizando Selenium, realiza búsquedas o filtra datos si es necesario utilizando interacciones del navegador.
5. Extrae datos relevantes usando Selenium y BeautifulSoup. Debes obtener al menos tres tipos de datos relacionados (por ejemplo, nombre del producto, precio y categoría).
6. Limpia y organiza los datos extraídos en un DataFrame de pandas.
7. Realiza un análisis básico de los datos: puede ser estadístico descriptivo o alguna visualización simple.
8. Documenta cada paso del proceso con comentarios en el código y celdas Markdown explicando las decisiones y métodos utilizados.

## Criterios de Evaluación
- Correcta configuración y uso de Selenium y BeautifulSoup.
- Capacidad para navegar y extraer datos de forma efectiva y eficiente.
- Limpieza y estructuración adecuada de los datos extraídos.
- Calidad del análisis realizado y claridad en la documentación.

## Entrega
- Debes entregar este cuaderno Jupyter completado con todo el código, análisis y documentación solicitada.

¡Buena suerte y que disfrutes del proceso de aprendizaje y exploración de datos!


In [None]:
# Importar el módulo time para manejar tiempos
import time

# Importar undetected_chromedriver como uc para evitar ser detectado
import undetected_chromedriver as uc

# Importar diferentes clases y métodos de Selenium para la automatización del navegador
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains

# Importar BeautifulSoup (bs) para el análisis del código HTML
from bs4 import BeautifulSoup as bs

# Importar el módulo requests para realizar solicitudes HTTP
import requests


In [None]:
# Crear un objeto ChromeOptions para configurar las opciones del navegador
options = uc.ChromeOptions()

# Configurar el modo headless del navegador (sin interfaz gráfica)
options.headless = True

# Agregar argumentos para abrir una ventana de incógnito
options.add_argument("--incognito")

# Agregar argumentos para deshabilitar las barras de información del navegador
options.add_argument("--disable-infobars")

# Crear una instancia del navegador Chrome con las opciones configuradas
driver = uc.Chrome(options=options)


#options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.79 Safari/537.3")
#driver = webdriver.Chrome(options=options)

In [None]:
# Navegar a la página de MercadoLibre
driver.get("https://listado.mercadolibre.com.mx/")

Decidí hacer un análisis de las laptops que podemos encontrar en MercadoLibre

In [None]:
# Esperar a que el elemento de búsqueda esté disponible y realizar una búsqueda
search_box = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.NAME, "as_word"))
)
search_box.send_keys("laptops")
search_box.send_keys(Keys.RETURN)

In [None]:
# Esperar a que los resultados carguen
time.sleep(5)

In [None]:
# Extraer los datos relevantes usando BeautifulSoup
soup = bs(driver.page_source, "html.parser")

In [None]:
# Extraer información de los productos
productos = soup.find_all("div", {"class": "ui-search-result__content-wrapper"})

In [None]:
# Crear listas para almacenar la información de los productos
nombres_prodcutos = []
precios_prodcutos = []
links_prodcutos = []


In [None]:
# Iterar sobre cada producto y extraer la información
for product in productso:
    # Extraer el nombre del producto
    nombre = product.find("h2", {"class": "ui-search-item__title"})
    if nombre:
        nombres_productos.append(nombre.text)
    
    # Extraer el precio del producto
    precio = product.find("span", {"class": "price-tag-fraction"})
    if precio:
        precios_productos.append(precio.text)
    
    # Extraer el enlace del producto
    link = product.find("a", {"class": "ui-search-link"})
    if link:
        links_productos.append(link['href'])

In [None]:
# Cerrar el navegador
driver.quit()

Ahora trabajamos y analizamos la información obtenida

In [None]:
# Crear un DataFrame de pandas con la información extraída
data = {
    "Product Name": nombres_productos,
    "Price": precios_productos,
    "Link": links_productos
}
df = pd.DataFrame(data)

In [None]:
# Convertir los precios a números
df['Price'] = df['Price'].str.replace(',', '').astype(float)

# Calcular el precio promedio
average_price = df['Price'].mean()
print(f"El precio promedio de las laptops es: {average_price}")


In [None]:

# Crear una gráfica de precios
plt.figure(figsize=(10, 5))
plt.hist(df['Price'], bins=30, color='blue', edgecolor='black')
plt.title('Distribución de Precios de Laptops')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')
plt.axvline(average_price, color='red', linestyle='dashed', linewidth=1, label=f'Promedio: ${average_price:.2f}')
plt.legend()
plt.show()