<font size=6 color=red>30 días de Python: Día 27 - Web Scraping</font>

---

# Python Web Scraping

¿Que es Web Scraping?

En la era de la información, acceder a datos precisos y actualizados es fundamental para tomar decisiones estratégicas en el ámbito 
empresarial. Es aquí donde el Web Scraping, una técnica avanzada de extracción de datos, se presenta como una poderosa herramienta 
para obtener información relevante de fuentes en línea de manera automatizada.

El Web Scraping, también conocido como web data mining, implica la extracción sistemática y estructurada de datos de páginas web 
mediante el uso de algoritmos y scripts personalizados. Esta técnica permite obtener información como precios de productos, reseñas de 
clientes, datos de competidores y más, para analizar y aprovechar en la toma de decisiones empresariales.

Al automatizar el proceso de recopilación de datos, el Web Scraping ahorra tiempo valioso y mejora la eficiencia en la obtención de 
información. Además, al proporcionar datos actualizados en tiempo real, esta técnica permite una visión más precisa y actualizada del 
mercado, lo que es fundamental para adaptarse rápidamente a las demandas y tendencias cambiantes.

Internet está lleno de una gran cantidad de datos que se pueden utilizar para diferentes propósitos. Para recopilar estos datos, 
necesitamos saber cómo extraer datos de un sitio web.

El Web Scraping es el proceso de extraer y recopilar datos de sitios web y almacenarlos en una máquina local o en una base de datos.

En esta sección, usaremos beautifulsoup y Requests Package para extraer datos. La versión del paquete que estamos usando es 
beautifulsoup4.

Para comenzar a rastrear sitios web, necesita requests, beautifoulSoup4 y un sitio web.

```bash
pip install requests
pip install beautifulsoup4
```

Para extraer datos de sitios web, se necesita una comprensión básica de las etiquetas HTML y los selectores CSS. Nos dirigimos 
al contenido de un sitio web mediante etiquetas HTML, clases o identificadores. Importemos las solicitudes y el módulo BeautifulSoup.

Es recomendable buscar elementos dentro del codigo HTML en este orden:

1. ID
2. Class name
3. Tag name, CSS Selector
4. Xpath

```python
import requests
from bs4 import BeautifulSoup
```

Declaremos la variable url para el sitio web que vamos a raspar.


In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://archive.ics.uci.edu/ml/datasets.php'

# Usemos el método de obtención de solicitudes para obtener los datos de la URL
response = requests.get(url)
# Vamos a comprobar el estado
status = response.status_code
print(status)  # 200 significa que la búsqueda fue exitosa


---

## Usando beautifulSoup para analizar el contenido de la página.


In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://archive.ics.uci.edu/ml/datasets.php'

response = requests.get(url)
content = response.content  # Obtenemos todo el contenido del sitio web
# beautiful soup dará la oportunidad de analizar
soup = BeautifulSoup(content, 'html.parser')
print(soup.title)  # <title>UCI Machine Learning Repository: Data Sets</title>
print(soup.title.get_text())  # UCI Machine Learning Repository: Data Sets
print(soup.body)  # Da toda la página del sitio web
print(response.status_code)

tables = soup.find_all('table', {'cellpadding': '3'})
# Estamos apuntando a la tabla con el atributo cellpadding con el valor de 3
# Podemos seleccionar usando id, clase o etiqueta HTML, para obtener más información, consulte el documento beautifulsoup
table = tables[0]  # El resultado es una lista, estamos sacando datos de ella
for td in table.find('tr').find_all('td'):
    print(td.text)

Si ejecuta este código, puede ver que la extracción está a la mitad. Puede continuar haciéndolo porque es parte del ejercicio 1. 
Para referencia, consulte la documentación de beautifulsoup:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#quick-start


---

# Estas son algunas de las mejores herramientas para realizar web scraping en Python:

1. **Beautiful Soup**: Es una biblioteca muy popular que facilita la extracción de información de HTML y XML. Permite analizar y navegar por el árbol de un documento web, lo que la hace ideal para el scraping.

2. **Requests**: Aunque no es exclusivamente para scraping, la biblioteca `requests` es fundamental para realizar peticiones HTTP y obtener el contenido de una página web. Se utiliza comúnmente junto con Beautiful Soup.

3. **Scrapy**: Es un framework de scraping más avanzado que ofrece muchas funcionalidades, como el manejo de solicitudes y la extracción de datos en un proceso más estructurado y escalable.

4. **Selenium**: A diferencia de las anteriores, Selenium es una herramienta que permite automatizar navegadores web. Es útil cuando el contenido se genera de manera dinámica mediante JavaScript.

5. **PyQuery**: Similar a jQuery, PyQuery proporciona una interfaz similar para seleccionar elementos en un documento HTML usando expresiones CSS y manipular los datos.

6. **LXML**: Esta biblioteca es eficiente para analizar documentos XML y HTML, y es compatible con XPath, lo que facilita la navegación por la estructura del documento.

7. **MechanicalSoup**: Esta biblioteca combina la funcionalidad de `requests` con Beautiful Soup, lo que permite enviar formularios y gestionar sesiones web como un navegador.

8. **Pandas**: Si deseas manipular y analizar los datos después de extraerlos, Pandas puede ser útil. Permite trabajar con los datos extraídos en un formato tabular conveniente.

Recuerda que, mientras que el web scraping puede ser una herramienta poderosa, también debes asegurarte de que estás cumpliendo con 
las normativas de uso ético y legal, así como con los términos de servicio de los sitios web que estás rastreando.
