# SELECTORES: XPATH

Cuando se requiere realizar la extracción de datos web, la tarea más común es la extracción de esta data a partir del árbol HTML de la página web. Para poder realizar ello se requieren de los <b>selectores, los cuales se encargarán de obtener las partes del documento HTML que querramos recuperar</b>

## 1. XPATH SELECTOR
   XPath es un lenguaje de <b>selección de nodos en documentos XML</b> (Lenguaje de Marcas Extensible), los cuales son usados también con documentos HTML


#### Utilizando selectores XPATH

In [1]:
import requests
from scrapy.selector import Selector

In [21]:
def leer(html_path):
    """
    Read html document
    
    Parameters
    ----------
    html_path : str
    """
    with open(html_path) as f:
        data = f.read()
    return data

In [22]:
html_path = './src/selectores.html'
# Cargamos documento html
html_doc = leer(html_path)
print(html_doc)

<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>
 </body>
</html>


In [23]:
#pasando el codigo html de la página
response=Selector(text=html_doc)

El objeto <code>response </code> nos ayudará a movilizarnos por medio del HTML de la página web

### Métodos de selección XPATH

- **Slashes y Corchetes**
    - Un Slash <code>/</code> se encarga de navegar a través de una generación de código
    - Doble Slash <code>//</code> implica la navegación de un elemento a todas las generaciones de elementos futuras
    - Corchetes <code>[]</code> nos ayuda a posicionarnos en un elemento en específico del árbol HTML

In [36]:
# Utilizando / para la navegación
xpath_string = '/html/head/title'  # me permite navegar de forma ordenada en el html de la página
response.xpath(xpath_string)

[<Selector xpath='/html/head/title' data='<title>Example website</title>'>]

In [38]:
# Utilizando // para la navegación

xpath_string = '//a'  # permite seleccionar elementos coincidentes según el valor indicado
response.xpath(xpath_string)


[<Selector xpath='//a' data='<a href="image1.html">Name: My image ...'>,
 <Selector xpath='//a' data='<a href="image2.html">Name: My image ...'>,
 <Selector xpath='//a' data='<a href="image3.html">Name: My image ...'>,
 <Selector xpath='//a' data='<a href="image4.html">Name: My image ...'>,
 <Selector xpath='//a' data='<a href="image5.html">Name: My image ...'>]

In [40]:
# Utilizando [] para la navegación

xpath_string = '//a[1]'  # [] -> me ayuda a controlar cual de los elementos obtenidos se desea tener
response.xpath(xpath_string)


[<Selector xpath='//a[1]' data='<a href="image1.html">Name: My image ...'>]

- **Comodín <code>*</code>**

In [45]:
# Utilizando * para la navegación

xpath_string = '//div/*'  # * -> me ayuda a seleccionar cualquier elemento en particular que se tenga
response.xpath(xpath_string)

[<Selector xpath='//div/*' data='<a href="image1.html">Name: My image ...'>,
 <Selector xpath='//div/*' data='<a href="image2.html">Name: My image ...'>,
 <Selector xpath='//div/*' data='<a href="image3.html">Name: My image ...'>,
 <Selector xpath='//div/*' data='<a href="image4.html">Name: My image ...'>,
 <Selector xpath='//div/*' data='<a href="image5.html">Name: My image ...'>]

- **Atributos @**:
    - <code>@class</code> : selección de elemento por nombre de clase
    - <code>@id</code> : seleccion de elemento por id
    - <code>@href</code> : selección de elemento según su href

In [None]:
# Utilizando @class para la navegación

xpath_string = '//div/*'  # * -> me ayuda a seleccionar cualquier elemento en particular que se tenga
response.xpath(xpath_string)

In [47]:
# Utilizando @id para la navegación

xpath_string = '//div[@id="images"]'  # @id -> me permite seleccionar un elemento por su id
response.xpath(xpath_string)

[<Selector xpath='//div[@id="images"]' data='<div id="images">\n   <a href="image1....'>]

In [55]:
# Utilizando @id para la navegación

xpath_string = '//div/a[@href="image2.html"]'  # @id -> me permite seleccionar un elemento por su id
response.xpath(xpath_string)

[<Selector xpath='//div/a[@href="image2.html"]' data='<a href="image2.html">Name: My image ...'>]

In [54]:
xpath_string = '//div/a/@href'  # @id -> me permite seleccionar un elemento por su id
response.xpath(xpath_string)

[<Selector xpath='//div/a/@href' data='image1.html'>,
 <Selector xpath='//div/a/@href' data='image2.html'>,
 <Selector xpath='//div/a/@href' data='image3.html'>,
 <Selector xpath='//div/a/@href' data='image4.html'>,
 <Selector xpath='//div/a/@href' data='image5.html'>]

In [24]:
#obteniendo el título de la página web
response.xpath('//head/title/text()').get()

'Example website'

In [25]:
#obteniendo de los elementos a
response.xpath('//div/a/text()').getall()

['Name: My image 1 ',
 'Name: My image 2 ',
 'Name: My image 3 ',
 'Name: My image 4 ',
 'Name: My image 5 ']

In [53]:
#obteniendo de los elementos href dentro de a
response.xpath('//div/a/@href').getall()

['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

## Ejemplo 1

In [17]:
# url = 'https://www.datacamp.com/courses/all'
# html = requests.get( url ).content