# CSS Locator


La forma de utilizar CSS Locator en conjunto con un `Selector` es utilizar el método `css` en el lugar de `xpath`. 

Consideremos el siguiente ejemplo:

In [3]:
from scrapy import Selector

html = '''
<html>
	<body>
		<div class="hello MCD">
			<p>Hello world!</p>
		</div>
			<p>Enjoy this lesson!</p>
	</body>
</html>
'''

sel = Selector(text=html)

Extraeremos de todos los `div` los párrafos `p`.

In [4]:
sel.css("div > p")

[<Selector query='descendant-or-self::div/p' data='<p>Hello world!</p>'>]

En el caso de querer extrar la selección del CSS Locator, utilizar el método `extract()`. Recuerda que independiente, del uso de los métodos `xpath` o `css` tienes la posibilidad de utilizar `extract()` o `extract_first()`. En adición, acceder a los elementos `LocatorList` mediante los indices.

In [5]:
sel.css("div > p").extract()

['<p>Hello world!</p>']

## De XPath a CSS Locator

Realizemos las siguientes conversiones:

In [54]:
from scrapy import Selector
import requests

url = "http://virtual.utm.mx"

html = requests.get(url).content

sel = Selector(text=html)

1. Considear el siguente XPath

In [55]:
xpath = '//div[contains(@class, "col-md-4")][1]//a'

sel.xpath(xpath).extract()

['<a href="licenciatura_estudios_mexicanos.html">\n                        <div class="d-flex flex-column align-items-center">\n\n                            <div class="courses-item pb-3">\n                                <div class="item-img mr-2 row">\n                                    <img src="assets/img/school-2.jpg" class="img-fluid" style="max-height:30vw; min-width: 32vw; ">\n                                </div>\n                                <div class="d-flex flex-column align-items-center py-3">\n\n                               <strong> Licenciatura en Estudios Mexicanos</strong>\n                                </div>\n                                </div>\n\n                        </div>\n                     </a>']

Crear la cadena CSS Locator equivalente al XPath: `xpath = '//div[contains(@class, "col-md-4")][1]//a'`

In [None]:
css_locator = '________________'
sel.css(css_locator).extract()

2. Considerar el sigueinte CSS Locator

In [56]:
css_locator = 'div#courses>div>h1'
sel.css(css_locator).extract()

['<h1>Oferta Educativa</h1>']

Crear la cadena CSS Locator equivalente al XPath: `css_locator = 'div#courses>div>h1'`

In [None]:
# Crear la cadena XPath equivalente al CSS Locator anterior
xpath = '__________'

sel.xpath(xpath).extract()

## Uso de CSS Locator

A continuación se obtienen el documento HTML con la ayuda de `request`

In [60]:
url = 'https://www.utm.mx/ensenanza.html#oferta'
html = requests.get(url, verify=False).content

sel = Selector(text=html)



En un siguiente paso, deseamos construir una cadena CSS Locator la cual seleccione cierta colección de elementos:
- Seleccionar los hipervínculos (elementos `a`) hijos del primer elemetento `div` que pertenece a la clase `fijo`, el cual es hijo de todos los elementos `div` que pertenecen al identificador (`id`): "expandir". 

In [61]:
css_locator = '___________'

Ejecuta la función `how_many_elements` es número debe ser 30.

In [62]:
def how_many_elements(css_locator):
    return(len(sel.css(css_locator)))

how_many_elements(css_locator)

30

# El comodín de CSS

Se puede utilizar el comodón `*`  en CSS Locators. Incluso, se utiliza de forma similar como cuando se desea ignorar el tipo de etiqueta. Por ejemplo:

- La cadena CSS Locator: `'*'` selecciona todos los elementos del documento HTML.
- La cadena CSS Locator: `'*.class-1'` selecciona todos los elementos los cuales pertenecen a  class-1, pero esto puede ser innecesario dado que la cadena `'.class-1'` significa lo mismo.

- La cadena CSS Locator: `'*#uid'` selecciona el elemento con el atributo id igual a uid, pero es inncesario dado que la cadena `'#uid'` significa lo mismo.


## Atributos CSS y selección de texto

En el ejericio previo, creamos un CSS Locator para seleccionar todos los hipervínculos (elementos `a`) hijos del primer elemetento `div` que pertenece a la clase `fijo`, el cual es hijo de todos los elementos `div` que que pertenecen al identificador (`id`): "expandir". 

Ahora se quiere extraer los valores de los atributos `href` de estos elementos. 


In [None]:
carrers_as = sel.css(css_locator)

hrefs_from_css = carrers_as.css('::attr(href)')

Realizar la conversión de la última instrucción a XPath.

In [None]:
hrefs_from_xpath = carrers_as.xpath( '____' )

Considerar el siguiente código HTML

In [64]:
html = '''
<html> 
    <body>
        <div id="this-div">
            <p id="p1" class="class-1">This is not the element you are looking for</p>
            <p id="p2" class="class-12">
                <a href="https://www.google.com">Google</a> is linked to here, but this isn\'t the link you are looking for.
            </p>
            <p id="p3" class="class-1 class-12">
                Here is the <a href="https://www.datacamp.com" id="a-exercise">DataCamp</a> link you want!
            </p>
        </div>
    </body>
</html>'
'''

sel = Selector(text=html)

In [65]:
def print_results(xpath, css_locator):
    print('Your XPath extracts to following:')
    print(sel.xpath(xpath).extract())
    print('-'*10)
    print('Your CSS Locator extracts the following:')
    print(sel.css(css_locator).extract())

Al igual que en el ejemplo anterior, pero se requiere seleccionar texto de multiples generaciones de elementos específicos.

Escribir las cadenas de XPath y CSS Locator para dirigir al texto de un específico párrafo de elemento `p`. El elemento `p` en el HTML esta definido de manera única con su atributo, el cual es "p3". El cual contiene cierta información.

En este ejercicio, seleccionaras solo el texto dentro del elemento el cual incluye todo el texto de futuras generaciones. 

- Asignar a la variable `xpath` una cadena XPath que direccione al texto dentro del parrafo del elemento p conde el id es igual a p3, el cual no incluye el texto de futuras generaciones de este elemento `p`.
- Asginar a la variable `css_locator` a una cadena CSS Locator al mismo texto.

In [None]:
# Create an XPath string to the desired text.
xpath = '____'

# Create a CSS Locator string to the desired text.
css_locator = '____'

# Print the text from our selections
print_results( xpath, css_locator )

Repetir las mismas selecciones, exepto por que ahora si se desea incluir el texto de futuras generaciones.

In [None]:
# Create an XPath string to the desired text.
xpath = '_______'

# Create a CSS Locator string to the desired text.
css_locator = '____'

# Print the text from our selections
print_results( xpath, css_locator )