# SELECTORES: CSS

Cuando se requiere realizar la extracción de datos web, la tarea más común es la extracción de esta data a partir del árbol HTML de la página web. Para poder realizar ello se requieren de los <b>selectores, los cuales se encargarán de obtener las partes del documento HTML que querramos recuperar</b>

## 2. CSS SELECTOR
CSS (Cascading Style Sheets) es un <b>lenguaje para describir la representación de documentos HTML y XML </b>en pantalla, papel, voz, etc. CSS utiliza selectores para vincular propiedades de estilo a elementos en el documento web. En líneas generales la selección de elementos CSS se realiza a partir de la selección de los atributos contenidos en el documento web.

#### Utilizando selectores CSS

In [2]:
import requests
from scrapy.selector import Selector

In [3]:
def leer(html_path):
    """
    Read html document
    
    Parameters
    ----------
    html_path : str
    """
    with open(html_path) as f:
        data = f.read()
    return data

In [30]:
html_path = './src/selectores.html'
# Cargamos documento html
html_doc = leer(html_path)
print(html_doc)

<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>

  <p id="p-example">
      Hello World!
      Try <a href="www.example.com">Click Here</a> Today!
  </p>

 </body>
</html>


In [31]:
response=Selector(text=html_doc)

### Métodos de selección CSS

- Reemplaza <code>/</code> por <code>></code> (con excepción del primer caracter)
    - **XPATH**: <code>/html/body/div</code>
    - **CSS**: <code>html >body > div</code>
- Reemplaza <code>//</code> por espacio en blanco (con excepción del primer caracter)
    - **XPATH**: <code>//div/span//p</code>
    - **CSS**: <code>html >div > span p</code>
- Reemplaza <code>[N]</code> por <code>:nth-of-type(N)</code>
    - **XPATH**: <code>//div/p[2]</code>
    - **CSS**: <code>html >div > p:nth-of-type(2)</code>

In [6]:
# utilizando metódos css de extracción

css_string = 'body > div > a:nth-of-type(2)'
response.css(css_string).getall()

['<a href="image2.html">Name: My image 2 <br><img src="image2_thumb.jpg"></a>']

**Atributos en CSS**
- Para encontrar un elemento por **clase** utilizaremos <code>.</code>
    - Ejemplo: <code>p.class-1</code> seleccionará todos los elementos cuyo nombre de clase sea **class-1**
- Para encontrar elementos por **id** utilizaremos <code>#</code>
    - Ejemplo: <code>div#uid</code> seleccionará aquellos **div** cuyo **id** sea igual a **uid**

In [7]:
response.css('div#images > a::text').getall()

['Name: My image 1 ',
 'Name: My image 2 ',
 'Name: My image 3 ',
 'Name: My image 4 ',
 'Name: My image 5 ']

**Nota**
--------------
Al  realizar la selección del atributo; si este posee un nombre largo y con especios, mejor utilizar xpath y contains para asegurarnos de obtener todas las casuhísticas

<img src='./img/css_selector.PNG' alt="css" width="500" height="700">

## Atributos y selección de Texto

Usar la siguiente formula <code>`<css-to-element>`::attr(attr-name)</code>

In [16]:
css_string = 'div#images > a::attr(href)'
response.css(css_string).getall()

['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [17]:
xpath_string ='//div[@id="images"]/a/@href'

response.xpath(xpath_string).getall()

['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [49]:
# obteniendo imagenes
response.css('img::attr(src)').getall()

['image1_thumb.jpg',
 'image2_thumb.jpg',
 'image3_thumb.jpg',
 'image4_thumb.jpg',
 'image5_thumb.jpg']

In [50]:
# obteniendo dirección web de imagenes
response.css('div#images > a::attr(href)').getall()

['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

- Extracción de Texto
    - Pata CSS use <code>::text</code>

In [19]:
# Usando ::text
response.css('title::text').get()

'Example website'

Para casos en que se tenga texto en una etiqueta **a**

In [45]:
response.css('p#p-example::text').getall()

['\n      Hello World!\n      Try ', ' Today!\n  ']

In [47]:
response.css('p#p-example ::text').getall()

['\n      Hello World!\n      Try ', 'Click Here', ' Today!\n  ']

## Combinando Elementos Selectores Xpath y CSS

Podemos realizar una combinación de métodos CSS y Xpath según la conveniencia

In [61]:
# Solo con CSS
css_string = 'body > div > a:nth-of-type(2)::text'
response.css(css_string).get()

'Name: My image 2 '

In [62]:
# Usando un método combinado
response.css('div').xpath('a[2]/text()').get()

'Name: My image 2 '

# EJERCICIOS

Ingresar a la siguiente página para iniciar scrapeo: 
https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses


In [64]:
import requests
from scrapy.selector import Selector

In [68]:
url = ' https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses'

response = requests.get(url)
