# Spider

## Response por favor!!

Antes de entrar a ejemplificar la implementación de un spider, revisemos el concepto de `Response`. 

**Selector VS Response**

- `Response` tiene todas las herramientas que hemos aprendido con los `Selector`s
  - Los métodos `xpath` y `css`  seguidos de los métodos `extract`y `extract_first`.
- Los `Response` también mantienen un rastro de la url donde el código HTML fue cargado. 
- Los `Response` ayudan a moverse de un sitio a otro, así que se puede rastrear la web mientras se realizar el scraping.

**Ejemplo de como funciona lo que ya hemos aprendido con `xpath` y `css`.**

- El método `xpath`funciona con en un `Selector`
```python
response.xpath('//div/span/[@class="bio"]')
```
- El método `css`funciona como en un `Selector`
```python
response.css('div > span.bio')
```
- El encadenamiento funciona como en un Selector
```python
response.xpath('//div').css('span.bio')
```
- La extracción de datos funciona como en un Selector
```python
response.xpath('//div').class('span.bio').extract()
response.xpath('//div').class('span.bio').extract_first()
```
- Las `response`mantiene el rastro de las URL con la variable url response
```python
response.url
```
- La `response` nos permite "seguir" un nuevo link con el método `follow()`
  
```python
# nex_url es la cadena de la ruta de la próxima url que queremos raspar
response.follow(next_url)
```

## Implementación Spider

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class UTMspider(scrapy.Spider):
	name = 'utm_spider'

	def start_requests(self):
		urls = ['https://www.utm.mx/ensenanza.html#oferta']
		for url in urls:
			yield scrapy.Request(url = url, callback = self.parse)

	def parse(self, response):
		# simple example: write out the html
		html_file = 'utm_carrers.html'
		with open(html_file, 'wb') as fout:
			fout.write(response.body)

process = CrawlerProcess()
process.crawl(UTMspider)
process.start()

2024-12-20 15:58:55 [scrapy.utils.log] INFO: Scrapy 2.12.0 started (bot: scrapybot)
2024-12-20 15:58:55 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13.5, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 24.11.0, Python 3.13.0 | packaged by Anaconda, Inc. | (main, Oct  7 2024, 16:25:56) [Clang 14.0.6 ], pyOpenSSL 24.2.1 (OpenSSL 3.4.0 22 Oct 2024), cryptography 43.0.3, Platform macOS-15.1-arm64-arm-64bit-Mach-O
2024-12-20 15:58:55 [scrapy.addons] INFO: Enabled addons:
[]
2024-12-20 15:58:55 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2024-12-20 15:58:55 [scrapy.extensions.telnet] INFO: Telnet Password: 21013563afa1ba93
2024-12-20 15:58:55 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2024-12-20 15:58:55 [scrapy.crawler] INFO: Overridden settings:
{}
2024-12-20 15

# Spider Versión 2.

En la siguiente versión extraemos la lista de urls de las páginas de interes. En esta ocasión en el método `parse` utilizamos un `response.css` para obener los valores de los atributos `href` de las etiquetas `a` de interes.

Si revisamos el resultado del archivo `UTM_links.csv` podemos observar que hemos recuperado 30 urls.

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class UTMspider(scrapy.Spider):
	name = 'utm_spider'

	def start_requests(self):
		urls = ['https://www.utm.mx/ensenanza.html#oferta']
		for url in urls:
			yield scrapy.Request(url = url, callback = self.parse)
			
	def parse(self, response):
		links = response.css('div#expandir div.fijo:nth-of-type(1) a::attr(href)').extract()
		filepath = 'UTM_links.csv'
		with open( filepath, 'w') as f:
			f.write('\n'.join(link for link in links))

process = CrawlerProcess()
process.crawl(UTMspider)
process.start()

2024-12-20 16:08:36 [scrapy.utils.log] INFO: Scrapy 2.12.0 started (bot: scrapybot)
2024-12-20 16:08:36 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13.5, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 24.11.0, Python 3.13.0 | packaged by Anaconda, Inc. | (main, Oct  7 2024, 16:25:56) [Clang 14.0.6 ], pyOpenSSL 24.2.1 (OpenSSL 3.4.0 22 Oct 2024), cryptography 43.0.3, Platform macOS-15.1-arm64-arm-64bit-Mach-O
2024-12-20 16:08:36 [scrapy.addons] INFO: Enabled addons:
[]
2024-12-20 16:08:36 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2024-12-20 16:08:36 [scrapy.extensions.telnet] INFO: Telnet Password: 220b3ea71c7b089a
2024-12-20 16:08:36 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2024-12-20 16:08:36 [scrapy.crawler] INFO: Overridden settings:
{}
2024-12-20 16

['ing_computacion.html', 'ing_electronica.html', 'ing_diseno.html', 'lic_ciencias_empresariales.html', 'lic_mate_aplicadas.html', 'ing_alimentos.html', 'ing_industrial.html', 'http://virtual.utm.mx/licenciatura_estudios_mexicanos.html', 'ing_mecatronica.html', 'ing_fisica_aplicada.html', 'ing_mecanica_automotriz.html', 'ing_civil.html', 'ing_quimica_procesos_sostenible.html', 'm_admon_negocios.html', 'mc_materiales.html', 'm_prod_nat_alim.html', 'm_diseno_muebles.html', 'm_electronica_sia.html', 'm_ing_sw.html', 'https://www.utm.mx/m_inteligencia_artificial.html', 'm_medios_interactivos.html', 'm_modelacion_matematica.html', 'm_robotica.html', 'm_tec_avanz-manuf.html', ' http://virtual.utm.mx/maestria_ciencia_datos.html', 'https://www.utm.mx/dr_prod_nat_alim.html', 'dr_electronica_sia.html', 'https://www.utm.mx/dr_inteligencia_artificial.html', 'dr_modelacion_matematica.html', 'dr_robotica.html']


# Spider versión 3

Realmente el objetivo del scraping es obtener datos y no solo las urls, por que necesimos construir una nueva versión que nos permita realizar el raspado de estas urls.

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class UTMspider(scrapy.Spider):
	name = 'utm_spider'

	def start_requests(self):
		urls = ['https://www.utm.mx/ensenanza.html#oferta']
		for url in urls:
			yield scrapy.Request(url = url, callback = self.parse_front)
			
	def parse_front(self, response):
		links = response.css('div#expandir div.fijo:nth-of-type(1) a::attr(href)').extract()
		for link in links:
			if "http" not in link:
				link = "https://www.utm.mx/" + link
			yield response.follow(url = link, callback = self.parse_pages)
			
	def parse_pages(self, response):
		cr_title = response.xpath('//div[@class="Titulo"]/text()').extract()
		utm.append(cr_title)
		

utm = list()

process = CrawlerProcess()
process.crawl(UTMspider)
process.start()
 
print(utm)

process.stop

2024-12-22 20:28:14 [scrapy.utils.log] INFO: Scrapy 2.12.0 started (bot: scrapybot)
2024-12-22 20:28:14 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13.5, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 24.11.0, Python 3.13.0 | packaged by Anaconda, Inc. | (main, Oct  7 2024, 16:25:56) [Clang 14.0.6 ], pyOpenSSL 24.2.1 (OpenSSL 3.4.0 22 Oct 2024), cryptography 43.0.3, Platform macOS-15.1-arm64-arm-64bit-Mach-O
2024-12-22 20:28:14 [scrapy.addons] INFO: Enabled addons:
[]
2024-12-22 20:28:14 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2024-12-22 20:28:14 [scrapy.extensions.telnet] INFO: Telnet Password: 02e6a709c4428a6e
2024-12-22 20:28:14 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2024-12-22 20:28:14 [scrapy.crawler] INFO: Overridden settings:
{}
2024-12-22 20

[[], [], [], [], [], [], [], [], [], [], [], [], [], [], [], ['INGENIERÍA QUÍMICA EN PROCESOS SOSTENIBLES'], ['INGENIERÍA CIVIL'], [], [], [], ['INGENIERÍA MECÁNICA AUTOMOTRIZ'], ['INGENIERÍA \r\n              EN FÍSICA APLICADA'], ['INGENIERÍA INDUSTRIAL'], ['INGENIERÍA \r\n              EN MECATRÓNICA'], ['INGENIERÍA EN ALIMENTOS'], ['LICENCIATURA \n              EN MATEMÁTICAS APLICADAS'], ['INGENIERÍA \n              EN DISEÑO'], ['INGENIERÍA \r\n              EN ELECTRÓNICA'], ['LICENCIATURA \r\n              EN CIENCIAS EMPRESARIALES'], ['INGENIERÍA \r\n              EN COMPUTACIÓN']]


<bound method CrawlerRunner.stop of <scrapy.crawler.CrawlerProcess object at 0x10964b770>>