# Parsing mistakes

Más que nada es una lista de consejos

### CSS Selectors

XPath es bueno, pero enredado, es mejor usar CSS selectors, se pueden encadenar, son leibles y mejores que otras formas como el mismo XPath o BS4 selectors

In [1]:
from bs4 import BeautifulSoup
import requests

In [5]:
url = "https://books.toscrape.com"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'html.parser')
books = soup.find_all("article", {"class":"product_pod"})


Mejor hacerlo así

In [7]:
books = soup.select("article.product_pod")
for book in books:
    print (book.select_one("h3 a"))

<a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a>
<a href="catalogue/tipping-the-velvet_999/index.html" title="Tipping the Velvet">Tipping the Velvet</a>
<a href="catalogue/soumission_998/index.html" title="Soumission">Soumission</a>
<a href="catalogue/sharp-objects_997/index.html" title="Sharp Objects">Sharp Objects</a>
<a href="catalogue/sapiens-a-brief-history-of-humankind_996/index.html" title="Sapiens: A Brief History of Humankind">Sapiens: A Brief History ...</a>
<a href="catalogue/the-requiem-red_995/index.html" title="The Requiem Red">The Requiem Red</a>
<a href="catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html" title="The Dirty Little Secrets of Getting Your Dream Job">The Dirty Little Secrets ...</a>
<a href="catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html" title="The Coming Woman: A Novel Based on the Life of the Infamous Femini

### Buscar en el código fuente más que en el inspector
El problema del inspector es que mira el DOM del documento y parte de eso puede haber sido hecho por 
javascript, en el código fuente (*source*) aparece el HTML puro y duro

Después de ver el HTML puro y entenderlo se puede ver el inspector

Así es más fácil obtener la información y si está en javascript se puede buscar en `<script>`, no es facil en todo caso

### Buscar contruyendo con el árbol

Buscar la rama madre, como en el ejemplo de arriba, se busca `article.product_pod` y después `h3` y después `a`

In [10]:
books = soup.select("article.product_pod")
for book in books:
    print (book.select_one("h3 a").attrs['title'])

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


### Select all / find all 

Hay que hacer bien uso porque genera una lista, toma todo elemento que hace match y da una lista

Es típico usarlo cuando el HTML no está bien identificado con div o classes, por ejemplo puros table en pelota

In [14]:
books = soup.select("article.product_pod")

book_list = list()

for book in books:
    title = book.select_one("h3 a").attrs['title']
    link = book.select_one("h3 a").attrs['href']
    price = book.select_one("p.price_color").text.replace("Â","")
    book_list.append((title, link, price))
    
print (book_list)
    

[('A Light in the Attic', 'catalogue/a-light-in-the-attic_1000/index.html', '£51.77'), ('Tipping the Velvet', 'catalogue/tipping-the-velvet_999/index.html', '£53.74'), ('Soumission', 'catalogue/soumission_998/index.html', '£50.10'), ('Sharp Objects', 'catalogue/sharp-objects_997/index.html', '£47.82'), ('Sapiens: A Brief History of Humankind', 'catalogue/sapiens-a-brief-history-of-humankind_996/index.html', '£54.23'), ('The Requiem Red', 'catalogue/the-requiem-red_995/index.html', '£22.65'), ('The Dirty Little Secrets of Getting Your Dream Job', 'catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html', '£33.34'), ('The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull', 'catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html', '£17.93'), ('The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics', 'catalogue/the-boys-in-the-boat-nine-ameri

### Make use attrs
Mirar donde está la info, y usar `href`, `title`, etc, si existen, como en el ejemplo anterior