# Ejercicios 1. XPath

En estos ejercicios navegaremos hasta un elemento específico utilizando el conocimiento de XPath.

## Selector

Para prácticar el uso de XPath utilizaremos la clase `Selector` contenida dentro del modulo [`scrapy`](https://scrapy.org).

Intalación:

```terminal
conda install scrapy
```

Para poner a prueba la notación XPath utilizaremos un objeto de tipo `Selector`.

Considerar el siguiente código HTML:

In [1]:
html = '''
<html>
  <body>
    <div>
      <p>Universidad Tecnológica de la Mixteca</p>
      <p>Maestría en Ciencia de Datos.</p>
    </div>
    <div>
      <p>Proyecto Aplicado I</p>
    </div>
  </body>
</html>  
'''

A continuación creamos un objeto identificado como `sel` de tipo `Selector`, indicando como parámetro `text` el código HTML contenido en la variable `html`.

In [2]:
from scrapy import Selector

sel = Selector(text=html)

Mediante el método `xpath()` podemos probar nuestros xpath que construyamos. Consider que deseamos extraer el párrafo que contiene el texto: "Proyecto Aplicado I".

El método `xpath()` de `Selector` nos permitirá realizar la obtención del elemento indicado en la ruta XPath.

## Uso de XPath y Selector

In [3]:
sel.xpath('/html/body/div[2]/p')

[<Selector query='/html/body/div[2]/p' data='<p>Proyecto Aplicado I</p>'>]

El resultado del método `xpath` es un objeto de tipo `SelectorList`, que incluye tanto el xpath que especificamos y el resultado. Para obtener solo el dato que nos interesa, se utiliza el método `extract()`.

In [4]:
sel.xpath('/html/body/div[2]/p').extract()

['<p>Proyecto Aplicado I</p>']

El método extract es muy util, sin embargo, es muy común que el elemento que nos interesa inspeccionar del `SelectorList` es el primero, por lo que en adición, se dispone del método `extract_first()` 

In [5]:
sel.xpath('/html/body/div[2]/p').extract_first()

'<p>Proyecto Aplicado I</p>'

## Uso de `//`

Mediante `//`  podemos navegar a las futuras generaciones. A continuación extraeros todos los párrafos `p` dentro del HTML.

In [6]:
sel.xpath('//p').extract()

['<p>Universidad Tecnológica de la Mixteca</p>',
 '<p>Maestría en Ciencia de Datos.</p>',
 '<p>Proyecto Aplicado I</p>']

En el caso que nos interese obtener el primer elemento obtendio por el XPath, hacemos uso del método `extract_first()`

In [15]:
sel.xpath('//p').extract_first()

'<p>Universidad Tecnológica de la Mixteca</p>'

Al considerar que el resultado es un objeto `SelectorList` podemos acceder a sus elementos medinte el uso de índices, como se realiza en una objeto de tipo `List`.


In [16]:
ps = sel.xpath('//p').extract()
ps[2]

'<p>Proyecto Aplicado I</p>'

## Uso de `[]`

Para obtener un elemento el cual comparte el mismo nivel con otros nodos hermanos, utilizamos `[]` para incar el elemento a extraer. En muestro ejemplo de HTML las cadenas: "Universidad Tecnológica de la Mixteca" y "Maestría en Ciencia de Datos" ambas se encuentran contenidas en etiquetas `p` dentro de una etiqueta `div`, por lo que son nodos hermanos.

Considermos los siguientes ejemplos:

In [7]:
sel.xpath('/html/body/div/p').extract()

['<p>Universidad Tecnológica de la Mixteca</p>',
 '<p>Maestría en Ciencia de Datos.</p>',
 '<p>Proyecto Aplicado I</p>']

En el ejemplo de XPath anterior, el resultado nos devuelve tres etiquetas, y es que, si verificamos la ruta indicada nos puede llevar a cualquier de los párrafos devueltos.

In [8]:
sel.xpath('/html/body/div[1]/p').extract()

['<p>Universidad Tecnológica de la Mixteca</p>',
 '<p>Maestría en Ciencia de Datos.</p>']

En este segundo ejemplo, se ha específicado que considere el `div[1]` por lo que las etiquetas que cumplen con la ruta son dos.

In [9]:
sel.xpath('/html/body/div[1]/p[2]').extract()

['<p>Maestría en Ciencia de Datos.</p>']

En este último ejemplo, se ha específicado el div de interes `div[1]` y en adición, el párrafo de interes `p[2]`. Por lo que, el resultado obtenido solo muestra un elemento que cumple con tal ruta.

## Distintas formas de indicar la misma ruta

Si consideramos los resultados de la sección anterio y con los que se muetran a continuación. ¿Qué podemos concluir?

In [10]:
sel.xpath('//p').extract()

['<p>Universidad Tecnológica de la Mixteca</p>',
 '<p>Maestría en Ciencia de Datos.</p>',
 '<p>Proyecto Aplicado I</p>']

In [11]:
sel.xpath('//p[1]').extract()

['<p>Universidad Tecnológica de la Mixteca</p>', '<p>Proyecto Aplicado I</p>']

In [12]:
sel.xpath('//p[2]').extract()

['<p>Maestría en Ciencia de Datos.</p>']

## Uso del comodín `*`

En la notación de XPath el símbolo `*` indica que se desea navegar en el futuro inmediato sin importar el tipo de etiqueta que encuentre. Por ejemplo, considerar la siguente estructura de código HTML:

In [13]:
html = '''
<html>
  <body>
    <div>
      <p>Universidad Tecnológica de la Mixteca</p>
      <p>Maestría en Ciencia de Datos.</p>
    </div>
    <p>Proyecto Aplicado I</p>
  </body>
</html>  
'''

sel = Selector(text=html)

In [14]:
sel.xpath('/html/body/*').extract()

['<div>\n      <p>Universidad Tecnológica de la Mixteca</p>\n      <p>Maestría en Ciencia de Datos.</p>\n    </div>',
 '<p>Proyecto Aplicado I</p>']

En este ejemplo, fueron seleccionados los dos elementos descendientes de `body` sin importar que una fuera un `div` y el otro `p`.