# Tarea de Scraping Web con Python y Selenium

## Objetivo
Desarrollar habilidades prácticas en scraping web utilizando Python con Selenium y BeautifulSoup. Se espera que manejen el navegador de forma programática para extraer datos dinámicos de un sitio web específico y que realicen un análisis básico de los datos obtenidos.

## Instrucciones
1. Configura tu entorno de desarrollo instalando las librerías necesarias: Selenium, BeautifulSoup, pandas, entre otras que consideres necesarias.
2. Configura un navegador usando Selenium. Debes asegurarte de incluir opciones como el modo incógnito y el modo sin interfaz gráfica (headless).
3. Elige un sitio web que ofrezca datos dinámicos y sea legal para hacer scraping (por ejemplo, datos meteorológicos, precios de productos, cotizaciones de bolsa).
4. Navega al sitio web utilizando Selenium, realiza búsquedas o filtra datos si es necesario utilizando interacciones del navegador.
5. Extrae datos relevantes usando Selenium y BeautifulSoup. Debes obtener al menos tres tipos de datos relacionados (por ejemplo, nombre del producto, precio y categoría).
6. Limpia y organiza los datos extraídos en un DataFrame de pandas.
7. Realiza un análisis básico de los datos: puede ser estadístico descriptivo o alguna visualización simple.
8. Documenta cada paso del proceso con comentarios en el código y celdas Markdown explicando las decisiones y métodos utilizados.

## Criterios de Evaluación
- Correcta configuración y uso de Selenium y BeautifulSoup.
- Capacidad para navegar y extraer datos de forma efectiva y eficiente.
- Limpieza y estructuración adecuada de los datos extraídos.
- Calidad del análisis realizado y claridad en la documentación.

## Entrega
- Debes entregar este cuaderno Jupyter completado con todo el código, análisis y documentación solicitada.

¡Buena suerte y que disfrutes del proceso de aprendizaje y exploración de datos!


In [2]:
# Importar el módulo time para manejar tiempos
import time

# Importar undetected_chromedriver como uc para evitar ser detectado
import undetected_chromedriver as uc

# Importar diferentes clases y métodos de Selenium para la automatización del navegador
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains

# Importar BeautifulSoup (bs) para el análisis del código HTML
from bs4 import BeautifulSoup as bs

# Importar el módulo requests para realizar solicitudes HTTP
import requests


In [6]:
# Crear un objeto ChromeOptions para configurar las opciones del navegador
options = uc.ChromeOptions()

# Configurar el modo headless del navegador (sin interfaz gráfica)
options.headless = True

# Agregar argumentos para abrir una ventana de incógnito
options.add_argument("--incognito")

# Agregar argumentos para deshabilitar las barras de información del navegador
options.add_argument("--disable-infobars")

# Crear una instancia del navegador Chrome con las opciones configuradas
driver = uc.Chrome(options=options)


#options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.79 Safari/537.3")
#driver = webdriver.Chrome(options=options)

WebDriverException: Message: Service /usr/bin/safaridriver unexpectedly exited. Status code was: 1


In [None]:
## Paso 3: Navegar al sitio web de Yahoo Finance
url = 'https://finance.yahoo.com/quote/AAPL?p=AAPL'
driver.get(url)
time.sleep(3)  # Esperar a que la página cargue

In [None]:
## Paso 4: Extraer datos relevantes usando Selenium y BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# Extraer datos: nombre del símbolo, precio actual y cambio porcentual
nombre = soup.find('h1', {'data-reactid': '7'}).text
precio_actual = soup.find('span', {'data-reactid': '32'}).text
cambio_porcentual = soup.find('span', {'data-reactid': '33'}).text

# Cerrar el navegador
driver.quit()


In [None]:

## Paso 5: Limpiar y organizar los datos en un DataFrame de pandas
data = {
    'Nombre': [nombre],
    'Precio Actual': [precio_actual],
    'Cambio Porcentual': [cambio_porcentual]
}
df = pd.DataFrame(data)


In [None]:
## Paso 6: Análisis básico de los datos
# Descripción básica de los datos
print(df.describe())

# Visualización simple (si es necesario, instalar matplotlib: pip install matplotlib)
import matplotlib.pyplot as plt

# Gráfica del precio actual (aunque solo tenemos un dato, es solo una demostración)
plt.figure(figsize=(10, 5))
plt.bar(df['Nombre'], df['Precio Actual'], color='blue')
plt.xlabel('Nombre del Símbolo')
plt.ylabel('Precio Actual')
plt.title('Precio Actual de AAPL en Yahoo Finance')
plt.show()

## Paso 7: Documentación y comentarios

"""
### Documentación del Proceso

1. **Importación de Bibliotecas**: Se importaron las bibliotecas necesarias para la automatización del navegador, análisis de datos y visualización.
2. **Configuración del Navegador**: Se configuró el navegador Chrome en modo incógnito y sin interfaz gráfica (headless) para realizar el scraping de manera más eficiente y sin intervención del usuario.
3. **Navegación al Sitio Web**: Utilizando Selenium, se navegó a la página de Yahoo Finance para obtener datos del símbolo de Apple (AAPL).
4. **Extracción de Datos**: Se utilizó BeautifulSoup para analizar el HTML de la página y extraer el nombre del símbolo, el precio actual y el cambio porcentual.
5. **Organización de Datos**: Los datos extraídos se almacenaron en un DataFrame de pandas para su posterior análisis.
6. **Análisis Básico**: Se realizó un análisis descriptivo básico y una visualización simple del precio actual.

### Decisiones y Métodos Utilizados

- Se decidió utilizar Selenium debido a la naturaleza dinámica del contenido en Yahoo Finance.
- BeautifulSoup se utilizó para facilitar la extracción de datos específicos del HTML.
- Se incluyó una visualización simple para demostrar cómo se pueden representar los datos extraídos.

### Conclusión

Este ejercicio demuestra cómo se pueden combinar Selenium y BeautifulSoup para realizar scraping web de sitios con contenido dinámico, organizar los datos con pandas y realizar análisis básicos.

"""
