# Web Scraping

## ¿Qué es el Web Scraping?

El Scraping es una técnica utilizada para extraer información de sitios web de manera automatizada. En lugar de copiar y pegar manualmente los datos, se utilizan programas, o código, para recopilar grandes cantidades de información de forma eficiente.

## Herramientas Comunes en Python

* BeautifulSoup: Para analizar y extraer información del HTML.

* Scrapy: Un framework avanzado para web scraping.

In [33]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [21]:
# URL del sitio web a extraer
url = 'http://books.toscrape.com/'

# Realizar la solicitud GET
response = requests.get(url)

# Verificar el estado de la respuesta
if response.status_code == 200:
    print('Solicitud exitosa!')
else:
    print('Error en la solicitud:', response.status_code)


Solicitud exitosa!


In [23]:
# Crear objeto BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Visualizar el título de la página
titulo_pagina = soup.title.string
print('Título de la página:', titulo_pagina)


Título de la página: 
    All products | Books to Scrape - Sandbox



In [25]:
# Encontrar todos los artículos de libros
articulos = soup.find_all('article', class_='product_pod')

# Lista para almacenar los datos
datos_libros = []

for articulo in articulos:
    # Extraer el título del libro
    titulo = articulo.h3.a['title']
    
    # Extraer el precio del libro
    precio = articulo.find('p', class_='price_color').text
    precio = float(precio.replace('£', ''))
    
    # Extraer disponibilidad
    disponibilidad = articulo.find('p', class_='instock availability').text.strip()
    
    # Agregar los datos a la lista
    datos_libros.append({
        'Título': titulo,
        'Precio (£)': precio,
        'Disponibilidad': disponibilidad
    })

# Mostrar los datos extraídos
for libro in datos_libros:
    print(libro)


{'Título': 'A Light in the Attic', 'Precio (£)': 51.77, 'Disponibilidad': 'In stock'}
{'Título': 'Tipping the Velvet', 'Precio (£)': 53.74, 'Disponibilidad': 'In stock'}
{'Título': 'Soumission', 'Precio (£)': 50.1, 'Disponibilidad': 'In stock'}
{'Título': 'Sharp Objects', 'Precio (£)': 47.82, 'Disponibilidad': 'In stock'}
{'Título': 'Sapiens: A Brief History of Humankind', 'Precio (£)': 54.23, 'Disponibilidad': 'In stock'}
{'Título': 'The Requiem Red', 'Precio (£)': 22.65, 'Disponibilidad': 'In stock'}
{'Título': 'The Dirty Little Secrets of Getting Your Dream Job', 'Precio (£)': 33.34, 'Disponibilidad': 'In stock'}
{'Título': 'The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull', 'Precio (£)': 17.93, 'Disponibilidad': 'In stock'}
{'Título': 'The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics', 'Precio (£)': 22.6, 'Disponibilidad': 'In stock'}
{'Título': 'The Black Maria', 'Precio (£)': 52.15, 'Disponibilid

In [31]:
df = pd.DataFrame(datos_libros)
df

Unnamed: 0,Título,Precio (£),Disponibilidad
0,A Light in the Attic,51.77,In stock
1,Tipping the Velvet,53.74,In stock
2,Soumission,50.1,In stock
3,Sharp Objects,47.82,In stock
4,Sapiens: A Brief History of Humankind,54.23,In stock
5,The Requiem Red,22.65,In stock
6,The Dirty Little Secrets of Getting Your Dream...,33.34,In stock
7,The Coming Woman: A Novel Based on the Life of...,17.93,In stock
8,The Boys in the Boat: Nine Americans and Their...,22.6,In stock
9,The Black Maria,52.15,In stock


# Datetime

## ¿Qué es datetime?

El módulo datetime de Python proporciona clases para manipular fechas y horas de manera sencilla y eficiente.

* datetime.date: Manejo de fechas (año, mes, día).
* datetime.time: Manejo de horas (hora, minuto, segundo, microsegundo).
* datetime.datetime: Combina fecha y hora.
* datetime.timedelta: Representa una duración.

# ¿Por qué datetime?

* Cálculos Temporales: Diferencias entre fechas, agregar o restar tiempos.
* Formateo: Convertir fechas y horas a cadenas de texto y viceversa.
* Zonas Horarias: Manejar diferentes zonas horarias (con ayuda de librerías adicionales).


In [39]:
from datetime import datetime, timedelta

In [41]:
# Obtener la fecha y hora actuales
ahora = datetime.now()
print('Fecha y hora actuales:', ahora)

Fecha y hora actuales: 2024-10-02 00:06:45.815664


In [43]:
# Crear una fecha específica
mi_fecha = date(2023, 10, 1)
print('Mi fecha:', mi_fecha)

# Crear una hora específica
mi_hora = time(14, 30)
print('Mi hora:', mi_hora)

# Combinar fecha y hora
mi_datetime = datetime.combine(mi_fecha, mi_hora)
print('Mi datetime:', mi_datetime)


Mi fecha: 2023-10-01
Mi hora: 14:30:00
Mi datetime: 2023-10-01 14:30:00


In [45]:
# Formatear datetime a cadena
formato_personalizado = ahora.strftime('%d/%m/%Y %H:%M:%S')
print('Fecha y hora formateadas:', formato_personalizado)

# Convertir cadena a datetime
cadena_fecha = '01/10/2023 14:30:00'
fecha_convertida = datetime.strptime(cadena_fecha, '%d/%m/%Y %H:%M:%S')
print('Cadena convertida a datetime:', fecha_convertida)


Fecha y hora formateadas: 02/10/2024 00:06:45
Cadena convertida a datetime: 2023-10-01 14:30:00


In [47]:
# Calcular diferencias entre fechas
fecha1 = date(2023, 10, 1)
fecha2 = date(2023, 10, 15)
diferencia = fecha2 - fecha1
print('Días de diferencia:', diferencia.days)

# Agregar tiempo a una fecha
nueva_fecha = fecha1 + timedelta(days=10)
print('Nueva fecha:', nueva_fecha)


Días de diferencia: 14
Nueva fecha: 2023-10-11
