# **INICIALIZAR AMBIENTE**

In [1]:
# Importar librería de análisis de datos
import pandas as pd

In [2]:
# Importar librería de solicitudes
import requests

In [3]:
# Importar librería de web scraping
from bs4 import BeautifulSoup

# **REQUESTS**

`requests` es una librería de Python que facilita la realización de solicitudes HTTP de manera simple y amigable. Se utiliza para interactuar con APIs o sitios web, permitiendo enviar peticiones (como GET, POST, PUT, DELETE) y recibir respuestas de servidores. Con requests se pueden obtener datos de una URL, enviar datos a través de formularios, manejar cookies, autenticación, y mucho más, todo sin la complejidad de gestionar directamente los detalles del protocolo HTTP. Es ampliamente usada por su simplicidad y potencia en aplicaciones web y APIs.

## **ESTADOS DE RESPUESTA MÁS COMUNES**

* `200 OK` ~ La solicitud ha tenido éxito. El significado de un éxito varía dependiendo del método HTTP:

In [4]:
requests.get('https://httpbin.org/status/200')

<Response [200]>

* `201 Created` ~ La solicitud ha tenido éxito y se ha creado un nuevo recurso como resultado de ello. Ésta es típicamente la respuesta enviada después de una petición PUT:

In [5]:
requests.post('https://httpbin.org/status/201')

<Response [201]>

* `400 Bad Request` ~ Esta respuesta significa que el servidor no pudo interpretar la solicitud dada una sintaxis inválida:

In [6]:
requests.get('https://httpbin.org/status/400')

<Response [400]>

* `401 Unauthorized` ~ Es necesario autenticar para obtener la respuesta solicitada. Esta es similar a 403, pero en este caso, la autenticación es posible:

In [7]:
requests.get('https://httpbin.org/status/401')

<Response [401]>

* `403 Forbidden` ~ El cliente no posee los permisos necesarios para cierto contenido, por lo que el servidor está rechazando otorgar una respuesta apropiada:

In [8]:
requests.get('https://httpbin.org/status/403')

<Response [403]>

* `404 Not Found` ~ El servidor no pudo encontrar el contenido solicitado. Este código de respuesta es uno de los más famosos dada su alta ocurrencia en la web:

In [9]:
requests.get('https://httpbin.org/status/404')

<Response [404]>

* `500 Internal Server Error` ~ El servidor ha encontrado una situación que no sabe cómo manejarla:

In [10]:
requests.get('https://httpbin.org/status/500')

<Response [500]>

## **OPCIONES ALTERNATIVAS**

Aparte de la librería `requests` también es posible extraer datos de la web por medio de la librería pandas simplemente consumiendo el API de la página ya sea por medio de la función `read_csv` o `read_json`:

In [11]:
pd.read_csv('https://www.datos.gov.co/resource/a8xr-en99.csv?$limit=15435')

Unnamed: 0,estu_tipodocumento,estu_nacionalidad,estu_genero,estu_fechanacimiento,periodo,estu_consecutivo,estu_estudiante,estu_pais_reside,estu_tieneetnia,estu_depto_reside,...,punt_sociales_ciudadanas,percentil_sociales_ciudadanas,desemp_sociales_ciudadanas,punt_ingles,percentil_ingles,desemp_ingles,punt_global,percentil_global,estu_estadoinvestigacion,estu_generacion_e
0,CC,COLOMBIA,F,1985-01-01T00:00:00.000,20201,SB11202010045555,ESTUDIANTE,COLOMBIA,No,CESAR,...,24,1,1,36.0,7,A-,164,2.0,VALIDEZ OFICINA JURÍDICA,GENERACION E - GRATUIDAD
1,CC,COLOMBIA,F,1995-01-01T00:00:00.000,20201,SB11202010045719,ESTUDIANTE,COLOMBIA,No,NARIÑO,...,44,23,2,30.0,3,A-,202,10.0,PUBLICAR,GENERACION E - GRATUIDAD
2,CC,COLOMBIA,F,1997-01-01T00:00:00.000,20201,SB11202010070662,ESTUDIANTE,COLOMBIA,Si,CAUCA,...,24,1,1,30.0,3,A-,162,2.0,PUBLICAR,GENERACION E - GRATUIDAD
3,CC,COLOMBIA,F,2001-01-01T00:00:00.000,20201,SB11202010069926,ESTUDIANTE,COLOMBIA,No,PUTUMAYO,...,33,7,1,37.0,8,A-,188,6.0,PUBLICAR,NO
4,CC,COLOMBIA,F,2001-02-01T00:00:00.000,20201,SB11202010023181,ESTUDIANTE,COLOMBIA,No,RISARALDA,...,53,42,2,80.0,80,B+,274,39.0,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15430,TI,ITALIA,F,0003-08-24T00:00:00.000,20201,SB11202010002849,ESTUDIANTE,ITALIA,No,VALLE,...,60,60,3,73.0,62,B1,303,54.0,PUBLICAR,NO
15431,TI,PAÍSES BAJOS - HOLANDA,F,2002-05-21T00:00:00.000,20201,SB11202010004430,ESTUDIANTE,PAÍSES BAJOS - HOLANDA,No,VALLE,...,70,86,3,100.0,100,B+,366,91.0,PUBLICAR,NO
15432,TI,VENEZUELA,F,2001-12-07T00:00:00.000,20201,SB11202010008503,ESTUDIANTE,VENEZUELA,No,BOGOTÁ,...,64,69,3,79.0,77,B+,337,76.0,PUBLICAR,NO
15433,TI,VENEZUELA,F,2003-04-25T00:00:00.000,20201,SB11202010072919,ESTUDIANTE,VENEZUELA,No,NORTE SANTANDER,...,47,30,2,40.0,11,A-,253,28.0,PUBLICAR,GENERACION E - GRATUIDAD


In [12]:
pd.read_json('https://www.datos.gov.co/resource/a8xr-en99.json?$limit=15435')

Unnamed: 0,estu_tipodocumento,estu_nacionalidad,estu_genero,estu_fechanacimiento,periodo,estu_consecutivo,estu_estudiante,estu_pais_reside,estu_tieneetnia,estu_depto_reside,...,punt_sociales_ciudadanas,percentil_sociales_ciudadanas,desemp_sociales_ciudadanas,punt_ingles,percentil_ingles,desemp_ingles,punt_global,percentil_global,estu_estadoinvestigacion,estu_generacion_e
0,CC,COLOMBIA,F,1985-01-01T00:00:00.000,20201,SB11202010045555,ESTUDIANTE,COLOMBIA,No,CESAR,...,24,1,1,36.0,7,A-,164,2.0,VALIDEZ OFICINA JURÍDICA,GENERACION E - GRATUIDAD
1,CC,COLOMBIA,F,1995-01-01T00:00:00.000,20201,SB11202010045719,ESTUDIANTE,COLOMBIA,No,NARIÑO,...,44,23,2,30.0,3,A-,202,10.0,PUBLICAR,GENERACION E - GRATUIDAD
2,CC,COLOMBIA,F,1997-01-01T00:00:00.000,20201,SB11202010070662,ESTUDIANTE,COLOMBIA,Si,CAUCA,...,24,1,1,30.0,3,A-,162,2.0,PUBLICAR,GENERACION E - GRATUIDAD
3,CC,COLOMBIA,F,2001-01-01T00:00:00.000,20201,SB11202010069926,ESTUDIANTE,COLOMBIA,No,PUTUMAYO,...,33,7,1,37.0,8,A-,188,6.0,PUBLICAR,NO
4,CC,COLOMBIA,F,2001-02-01T00:00:00.000,20201,SB11202010023181,ESTUDIANTE,COLOMBIA,No,RISARALDA,...,53,42,2,80.0,80,B+,274,39.0,PUBLICAR,NO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15430,TI,ITALIA,F,0003-08-24T00:00:00.000,20201,SB11202010002849,ESTUDIANTE,ITALIA,No,VALLE,...,60,60,3,73.0,62,B1,303,54.0,PUBLICAR,NO
15431,TI,PAÍSES BAJOS - HOLANDA,F,2002-05-21T00:00:00.000,20201,SB11202010004430,ESTUDIANTE,PAÍSES BAJOS - HOLANDA,No,VALLE,...,70,86,3,100.0,100,B+,366,91.0,PUBLICAR,NO
15432,TI,VENEZUELA,F,2001-12-07T00:00:00.000,20201,SB11202010008503,ESTUDIANTE,VENEZUELA,No,BOGOTÁ,...,64,69,3,79.0,77,B+,337,76.0,PUBLICAR,NO
15433,TI,VENEZUELA,F,2003-04-25T00:00:00.000,20201,SB11202010072919,ESTUDIANTE,VENEZUELA,No,NORTE SANTANDER,...,47,30,2,40.0,11,A-,253,28.0,PUBLICAR,GENERACION E - GRATUIDAD


# **BEAUTIFUL SOUP**

## **INTRODUCCIÓN**

In [13]:
html = "<html><head><title>Ejemplo</title></head><body><p>¡Hola, mundo!</p></body></html>"
soup = BeautifulSoup(html, 'html.parser')

print('•', soup)    # Retorna el HTML completo
print('•', soup.head)   # Retorna el HTML del atributo nombrado
print('•', soup.p.get_text())   # Retorna el texto dentro del atributo del HTML

• <html><head><title>Ejemplo</title></head><body><p>¡Hola, mundo!</p></body></html>
• <head><title>Ejemplo</title></head>
• ¡Hola, mundo!


In [14]:
# Ejemplo a una página web real
url = 'https://books.toscrape.com/'     # Página a "scrapear"
response = requests.get(url)    # Realizar la solicitud HTTP
BeautifulSoup(response.content, 'html.parser')    # Obtener el HTML completo de la página

<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    All products | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="" name="description"/>
<meta content="width=device-width" name="viewport"/>
<meta content="NOARCHIVE,NOCACHE" name="robots"/>
<!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
<!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
<link href="static/oscar/favicon.ico" rel="shortcut icon"/>
<link href="static/oscar/css/styles.css" rel="stylesheet" type="text/css"/>
<link href="s

In [15]:
# OBTENER LAS CATEGORÍAS DE LA PÁGINA 'https://books.toscrape.com/'

# Obtener el HTML completo de la página
soup = BeautifulSoup(response.content, 'html.parser')

# Del HTML completo retorna todos aquellos elementos del HTML que esten dentro de la etiqueta y clase mencionada, es decir, los elementos dentro de: '<div class="side_categories">'
lista = soup.find_all('div', class_='side_categories')

# Iterar por cada elemento encontrado en la lista creada previamente
for item in lista:

    # Encuentra todos los elementos '<li>'
    categorias = item.find_all('li')

    # Nuevamente se itera por cada elemento encontrado dentro de '<li>'
    for categoria in categorias:

        # Retorna el texto dentro de la etiqueta '<a>' y por medio de 'strip=True' remueve los espacios en blanco
        print('•', categoria.find('a').get_text(strip=True))

• Books
• Travel
• Mystery
• Historical Fiction
• Sequential Art
• Classics
• Philosophy
• Romance
• Womens Fiction
• Fiction
• Childrens
• Religion
• Nonfiction
• Music
• Default
• Science Fiction
• Sports and Games
• Add a comment
• Fantasy
• New Adult
• Young Adult
• Science
• Poetry
• Paranormal
• Art
• Psychology
• Autobiography
• Parenting
• Adult Fiction
• Humor
• Horror
• History
• Food and Drink
• Christian Fiction
• Business
• Biography
• Thriller
• Contemporary
• Spirituality
• Academic
• Self Help
• Historical
• Christian
• Suspense
• Short Stories
• Novels
• Health
• Politics
• Cultural
• Erotica
• Crime


In [16]:
# OBTENER LOS LIBROS Y ALGUNAS DE SUS CARACTERÍSTICAS DE LA PÁGINA 'https://books.toscrape.com/'

# Obtener el HTML completo de la página
soup = BeautifulSoup(response.content, 'html.parser')

# Obtener los elementos dentro de: '<article class="product_pod">'
books = soup.find_all('article', class_='product_pod')
book_titles = []

# Iterar por cada elemento encontrado dentro de '<article>'
for book in books:

    # Encontrar los atributos de los elementos que se requieran extraer de '<article>'

    title = book.h3.a['title']  # Busca la etiqueta '<h3>', luego la etiqueta '<a>' dentro de esta, sin embargo no retorna el texto sino el atributo de esta: '<a href="index.html" title="TEXTO_EXTRAER">'
    price = book.find('p', class_='price_color').text   # Busca la etiqueta '<p>' y extrae el texto de esta: <p>TEXTO_EXTRAER</p>
    rating = book.find('p', class_='star-rating')['class'][1]   # Busca la etiqueta '<p>' y extrae el segundo elemento de su atributo 'clase', es decir: '<p class="star-rating TEXTO_EXTRAER">'
    stock = book.find('p', class_='instock availability').get_text(strip=True)  # Busca la etiqueta '<p>' y extrae el texto de esta eliminando los espacios en blanco: <p>\n   TEXTO_EXTRAER    </p>

    # Agregar los elementos convertidos en una lista
    book_titles.append([title, price, rating, stock])

In [17]:
# Visualizar lo extraído previamente de una forma más amigable por medio de un Dataframe
pd.DataFrame(book_titles, columns=['Title', 'Price', 'Rating', 'Stock'])

Unnamed: 0,Title,Price,Rating,Stock
0,A Light in the Attic,£51.77,Three,In stock
1,Tipping the Velvet,£53.74,One,In stock
2,Soumission,£50.10,One,In stock
3,Sharp Objects,£47.82,Four,In stock
4,Sapiens: A Brief History of Humankind,£54.23,Five,In stock
5,The Requiem Red,£22.65,One,In stock
6,The Dirty Little Secrets of Getting Your Dream...,£33.34,Four,In stock
7,The Coming Woman: A Novel Based on the Life of...,£17.93,Three,In stock
8,The Boys in the Boat: Nine Americans and Their...,£22.60,Four,In stock
9,The Black Maria,£52.15,One,In stock


## **PUESTA EN PRÁCTICA**

### **"SCRAPEAR" TODOS LOS LIBROS**

In [18]:
def obtener_libros(soup, datos_libros):
    books = soup.find_all('article', class_='product_pod')

    for book in books:
        title = book.h3.a['title']
        price = book.find('p', class_='price_color').text
        rating = book.find('p', class_='star-rating')['class'][1]
        stock = book.find('p', class_='instock availability').get_text(strip=True)

        datos_libros.append([title, price, rating, stock])

In [19]:
url_principal = 'https://books.toscrape.com/'
response = requests.get(url_principal)
soup = BeautifulSoup(response.content, 'html.parser')
datos_libros = []

for i in range(1, 51):

    url = f'https://books.toscrape.com/catalogue/page-{i}.html'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    obtener_libros(soup, datos_libros)

In [20]:
datos_A = pd.DataFrame(datos_libros, columns=['Title', 'Price', 'Rating', 'Stock'])

In [21]:
datos_A

Unnamed: 0,Title,Price,Rating,Stock
0,A Light in the Attic,£51.77,Three,In stock
1,Tipping the Velvet,£53.74,One,In stock
2,Soumission,£50.10,One,In stock
3,Sharp Objects,£47.82,Four,In stock
4,Sapiens: A Brief History of Humankind,£54.23,Five,In stock
...,...,...,...,...
995,Alice in Wonderland (Alice's Adventures in Won...,£55.53,One,In stock
996,"Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)",£57.06,Four,In stock
997,A Spy's Devotion (The Regency Spies of London #1),£16.97,Five,In stock
998,1st to Die (Women's Murder Club #1),£53.98,One,In stock


### **"SCRAPEAR" TODOS LOS LIBROS POR SU CATEGORÍA**

In [28]:
def iterar_paginas(paginas_extra, url, categoria, datos_libros):

    for i in range(2, (2+paginas_extra)):
        reemplazo = f'page-{i}'
        url_nueva = url.replace('index', reemplazo)

        response = requests.get(url_nueva)
        soup = BeautifulSoup(response.content, 'html.parser')

        obtener_libros(soup, categoria, datos_libros)

In [29]:
def obtener_enlaces(soup):
    enlaces = soup.find_all('div', class_='side_categories')
    lista_de_enlaces = []

    for item in lista:
        categorias = item.find_all('li')

        for categoria in categorias:
            enlace = categoria.find('a')['href']
            lista_de_enlaces.append(enlace)

    return lista_de_enlaces[1:]

In [30]:
def obtener_libros(soup, categoria, datos_libros):
    books = soup.find_all('article', class_='product_pod')

    for book in books:
        title = book.h3.a['title']
        price = book.find('p', class_='price_color').text
        rating = book.find('p', class_='star-rating')['class'][1]
        stock = book.find('p', class_='instock availability').get_text(strip=True)

        datos_libros.append([title, price, rating, stock, categoria])

In [31]:
url_principal = 'https://books.toscrape.com/'
response = requests.get(url_principal)
soup = BeautifulSoup(response.content, 'html.parser')
datos_libros = []

enlaces = obtener_enlaces(soup)

for enlace in enlaces:

    url = f'https://books.toscrape.com/{enlace}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    categoria = soup.find('h1').get_text()

    numero_paginas = int(soup.find_all('strong')[1].get_text())
    paginas_extra = (numero_paginas-1)//20

    if paginas_extra > 0:
        obtener_libros(soup, categoria, datos_libros)
        iterar_paginas(paginas_extra, url, categoria, datos_libros)
    else:
        obtener_libros(soup, categoria, datos_libros)

In [32]:
datos_B = pd.DataFrame(datos_libros, columns=['Title', 'Price', 'Rating', 'Stock', 'Category'])

In [33]:
datos_B

Unnamed: 0,Title,Price,Rating,Stock,Category
0,It's Only the Himalayas,£45.17,Two,In stock,Travel
1,Full Moon over Noah’s Ark: An Odyssey to Mount...,£49.43,Four,In stock,Travel
2,See America: A Celebration of Our National Par...,£48.87,Three,In stock,Travel
3,Vagabonding: An Uncommon Guide to the Art of L...,£36.94,Two,In stock,Travel
4,Under the Tuscan Sun,£37.33,Three,In stock,Travel
...,...,...,...,...,...
995,Why the Right Went Wrong: Conservatism--From G...,£52.65,Four,In stock,Politics
996,Equal Is Unfair: America's Misguided Fight Aga...,£56.86,One,In stock,Politics
997,Amid the Chaos,£36.58,One,In stock,Cultural
998,Dark Notes,£19.19,Five,In stock,Erotica


### **"SCRAPEAR" CADA LIBRO INDIVIDUALMENTE**

In [34]:
def obtener_enlaces(soup):

    lista_de_enlaces = []

    for i in range(1, 51):

        url = f'https://books.toscrape.com/catalogue/page-{i}.html'
        response = requests.get(url)
        soup = BeautifulSoup(response.content, 'html.parser')

        books = soup.find_all('article', class_='product_pod')

        for book in books:
            enlace = book.h3.a['href']
            lista_de_enlaces.append(enlace)

    return lista_de_enlaces

In [35]:
def obtener_libros(soup, datos_libros):

    texto = soup.find('p', class_='instock availability').get_text()
    texto = texto[texto.find("(")+1 : texto.find(")")]

    description = soup.find_all('p')[3].get_text()[:-8]

    datos_libros.append([texto, description])

In [36]:
url_principal = 'https://books.toscrape.com/'
response = requests.get(url_principal)
soup = BeautifulSoup(response.content, 'html.parser')
datos_libros = []

enlaces = obtener_enlaces(soup)

for enlace in enlaces:

    url = f'https://books.toscrape.com/catalogue/{enlace}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    obtener_libros(soup, datos_libros)

In [37]:
datos_C = pd.DataFrame(datos_libros, columns=['Availability', 'Description'])

In [38]:
datos_C

Unnamed: 0,Availability,Description
0,22 available,It's hard to imagine a world without A Light i...
1,20 available,"""Erotic and absorbing...Written with starling ..."
2,20 available,"Dans une France assez proche de la nôtre, un h..."
3,20 available,"WICKED above her hipbone, GIRL across her hear..."
4,20 available,From a renowned historian comes a groundbreaki...
...,...,...
995,1 available,
996,1 available,High school student Kei Nagai is struck dead i...
997,1 available,"In England’s Regency era, manners and elegance..."
998,1 available,"James Patterson, bestselling author of the Ale..."
