# <img aligned="center" src="https://ihum.ai/static/logos/ISOTIPO.png" alt="Curso scraping" width="25"> Ciclo de talleres del Instituto Humai


[Humai](https://ihum.ai/) es una organización independiente que busca desarrollar los últimos avances en Inteligencia Artificial y Ciencia de Datos en Argentina y América Latina. El objetivo es abrir el camino hacia la democratización de la tecnología por medio de una educación especializada y accesible. Buscamos colocar las nuevas tecnologías en función de un avance social por medio de la formación, investigación y divulgación colaborativa.





# 🤖 Taller de Automatización
Por [Mathias Gatti](http://mathigatti.com/)

En este taller veremos cómo desarrollar un pequeño bot encargado de navegar por internet buscando novedades de nuestro interés. Aprenderemos cómo hacer que busque y nos notifique al encontrar información sobre, entre otras cosas, eventos, puestos de trabajo prometedores o alquileres económicos.

Este evento es parte del [curso de Automatización](https://ihum.ai/cursos/auto) brindado por el Instituto Humai

# 🎟️ ¿Cómo consigo entradas antes de que se agoten?

A veces querés conseguir entradas para ir a un show que te gusta pero cuando vas a reservar tu lugar ya no quedan entradas.

La solución puede ser entrar todos los días al sitio web para enterarte de las novedades, pero esto es proclive a fallos si no tenés tiempo o se te olvida.

Veamos como automatizar esta tarea.

## ✨ Paso 1: Conseguir los datos 


Para este ejemplo intentaremos descargar los detalles sobre los shows disponibles en el [Centro Cultural Kirchner](https://cck.gob.ar/agenda/)

In [None]:
from requests import get
import bs4 as bs

# Descargo el codigo HTML
result = get("https://cck.gob.ar/agenda/")

# Hago que la computadora lo vea y lo interprete para luego poder navegarlo facilmente
soup = bs.BeautifulSoup(result.content,'html.parser')


# Extraigo los valores que me interesan
values = soup.find_all("div",{"class":"mec-event-content"})

# Extraigo el texto de cada elemento
shows = [value.text for value in values]

# El comando set borra los titulos repetidos de la lista
shows = set(shows)

# Imprimo los resultados obtenidos
for show in shows:
  print(show)

## ✨ Paso 2: Crear un robot notificador

Por su facilidad de uso vamos a utilizar [Telegram](https://telegram.org/) para esto, es un servicio de mensajeria similar a Whatsapp pero con un sistema de creación de bots mas amigable

#### 🛠️ Creación y configuración del bot

Podés encontrar en internet varias guías como [esta](https://www.adslzone.net/como-se-hace/telegram/crear-bot/) para aprender a crear facilmente tu bot.

Queremos que el bot nos envie mensajes, para hacer esto es necesario hablarle al bot (Ellos no pueden hablar si un humano no les habla primero). Luego, ejecutando el siguiente codigo visualizaremos todos los mensajes recibidos por el bot. Allí podremos encontrar el numero identificador (_ID_) de nuestro chat, lo cual será necesario para indicarle al bot a que chat enviar los mensajes.

In [None]:
from requests import get

bot_token = "COMPLETAR"
url = f"https://api.telegram.org/bot{bot_token}/getUpdates"
resultado = get(url)
mensajes = resultado.json()
mensajes

{'ok': True,
 'result': [{'message': {'chat': {'first_name': 'Mathias',
     'id': 267866912,
     'last_name': 'Gatti',
     'type': 'private',
     'username': 'mathigatti'},
    'date': 1632950873,
    'entities': [{'length': 6, 'offset': 0, 'type': 'bot_command'}],
    'from': {'first_name': 'Mathias',
     'id': 267866912,
     'is_bot': False,
     'language_code': 'es',
     'last_name': 'Gatti',
     'username': 'mathigatti'},
    'message_id': 3,
    'text': '/start'},
   'update_id': 546355193}]}

#### 📨 Todo listo para enviar mensajes!

In [None]:
from requests import post

def send_msg(msg, chat_id, bot_token):
    resp = post(
        f"https://api.telegram.org/bot{bot_token}/sendMessage?"
        f"chat_id={chat_id}&parse_mode=Markdown&text={msg}"
    )
    return resp.json()

chat_id = 1234567 # COMPLETAR
send_msg("hola!", chat_id, bot_token)

{'ok': True,
 'result': {'chat': {'first_name': 'Mathias',
   'id': 267866912,
   'last_name': 'Gatti',
   'type': 'private',
   'username': 'mathigatti'},
  'date': 1632950980,
  'from': {'first_name': 'humaitest1',
   'id': 1979424553,
   'is_bot': True,
   'username': 'humaitest1bot'},
  'message_id': 5,
  'text': 'todo bien, vos?'}}

In [None]:
# Envio los shows encontrados
for show in shows:
  send_msg(show, chat_id, bot_token)

## ✨ Paso 3: Ponemos todo junto

In [None]:
from time import sleep

from requests import get, post
import bs4 as bs

def send_msg(msg, chat_id, bot_token):
    resp = post(
        f"https://api.telegram.org/bot{bot_token}/sendMessage?"
        f"chat_id={chat_id}&parse_mode=Markdown&text={msg}"
    )
    return resp.json()

bot_token = "COMPLETAR"
chat_id = 1234567 # COMPLETAR

while True: # Repetir esto por siempre:

  # Descargo el codigo HTML
  result = get("https://cck.gob.ar/agenda/")

  # Hago que la computadora lo vea y lo interprete para luego poder navegarlo facilmente
  soup = bs.BeautifulSoup(result.content,'html.parser')

  # Extraigo los valores que me interesan
  values = soup.find_all("div",{"class":"mec-event-content"})

  # Extraigo el texto de cada elemento
  shows = [value.text for value in values]

  # El comando set borra los titulos repetidos de la lista
  shows = set(shows)

  # Envio los shows encontrados
  for show in shows:
    send_msg(show, chat_id, bot_token)

  sleep(24*60*60) # Dormi 24 horas

# 🏘️ ¿Cómo consigo alquileres económicos?

Intenemos replicar lo que hicimos con otro ejemplo. Ahora con alquileres de departamentos. En particular utilizando el sitio [mercadolibre.com.ar](https://mercadolibre.com.ar)


In [None]:
# COMPLETAR

In [None]:
#@title SOLUCIÓN
#@markdown Doble click para verla

from requests import get
import bs4 as bs

result = get("https://inmuebles.mercadolibre.com.ar/departamentos/alquiler/sin-dormitorios/capital-federal/villa-urquiza/dueno-directo/departamento-alquiler_NoIndex_True#applied_filter_id%3DBEDROOMS%26applied_filter_name%3DDormitorios%26applied_filter_order%3D4%26applied_value_id%3D%5B0-0%5D%26applied_value_name%3DMonoambiente%26applied_value_order%3D1%26applied_value_results%3D10%26is_custom%3Dfalse")
soup = bs.BeautifulSoup(result.content,'lxml')

apartments = [apartment.text for apartment in soup.find_all('div',{"class":"ui-search-result__content-wrapper"})]
apartments

['31000 pesos$31.00035 mÂ² cubiertos1 amb.Departamento en alquilerHermoso Monoambiente En Excelente Zona, Super LuminosoDr.pedro Ignacio Rivera 4800, Villa Urquiza, Capital Federal',
 '30000 pesos$30.00030 mÂ² cubiertos1 amb.Departamento en alquilerS/piso 1 Ambiente Cfrte  Prox Subt Y TrenCullen  5200, Villa Urquiza, Capital Federal',
 '32000 pesos$32.00032 mÂ² cubiertos1 amb.Departamento en alquilerDepartamento 1 AmbienteEcheverria 4700, Villa Urquiza, Capital Federal',
 '32000 pesos$32.00038 mÂ² cubiertos1 amb.Departamento en alquilerAlquiler Ph 1 Ambiente Div. C/balcÃ³n S/expensas V. UrquizaMariano Acha 1500, Villa Urquiza, Capital Federal',
 '25000 pesos$25.00026 mÂ² cubiertos1 amb.Departamento en alquilerAmbiente,26 M2 Luminoso Sobre Av,cerca Del SubteAv De Los Incas 5030, Villa Urquiza, Capital Federal',
 '31000 pesos$31.00033 mÂ² cubiertos1 amb.Departamento en alquilerAlquiler Monoambiente Amplio Divisible Villa UrquizaCullen 5000, Villa Urquiza, Capital Federal',
 '28000 pesos$

# 💼 ¿Cómo consigo trabajo?

Intenemos replicar lo que hicimos con otro ejemplo. Ahora con ofertas laborales. En particular utilizando el sitio [actopublico.bue.edu.ar](https://actopublico.bue.edu.ar/) donde se publican suplencias escolares de la Ciudad de Buenos Aires.

In [None]:
# COMPLETAR

In [None]:
#@title SOLUCIÓN
#@markdown Doble click para verla

from requests import get
import bs4 as bs

result = get("https://actopublico.bue.edu.ar/")
soup = bs.BeautifulSoup(result.content,'lxml')

jobs = [job for job in soup.find_all('div',{"class":"card-flex"})]
details_list = [job.text for job in jobs]
details_list

['\n\nASISTENTE SOCIAL SER.PROF.\n\nSERVICIOS PROFESIONALES\nInterinatos y Suplencias\n\n\n\n\nVOLANTE EN DE 5\n\n\n\n\n                                                    Estado: \n                                                    \n\n                                                                                                                            Publicada\n                                                                                                                    \n\n\n\n\n\n\n                                                        Tipo de acto: \n                                                        Interinatos y Suplencias\n\n\n\n\n\n                                                        Establecimiento del Cargo: \n                                                        Eoe 5\n\n\n\n\n\n                                                        Carácter: \n                                                        Suplente\n\n\n\n\n\n                               

Para lxs curiosxs, [acá](https://colab.research.google.com/drive/1ceD35yErzNHdtGqsq6aQI7NEZjhbN1dl#scrollTo=pZizqB1IQ6G_) hay un scraper del sitio que incorpora algunas funcionalidades extras

# Mas ideas!
- https://subastas.bancociudad.com.ar/
- https://www.aysa.com.ar/Que-Hacemos/estaciones-meteorologicas/datos


Si te quedaste con ganas de aprender más anotate en el [curso de automatización](https://ihum.ai/cursos/auto)


También podes:
- Realizar consultas en el [slack](https://join.slack.com/t/ihumai/shared_invite/zt-fr1gdg51-VOrVPEJHEbCyi2VkSX727Q) abierto y gratuito de la comunidad
- Ver nuestros demas [talleres](https://github.com/institutohumai/talleres)