<a href="https://colab.research.google.com/github/GEJ1/cursos-python/blob/master/2021_web_scraping_http_inicial_solucion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Web Scraping: Extrayendo datos de Internet**

## **¬øQu√© es el web scraping?**  ü§î

*La pr√°ctica de **recopilar datos** a trav√©s de cualquier medio que no sea un programa que interact√∫a con una API o un humano que usa un navegador web. **Normalmente mediante un programa automatizado** que consulta un servidor web, solicita datos (generalmente en forma de HTML y otros archivos que componen las p√°ginas web) y luego analiza esos datos para extraer la informaci√≥n necesaria.*

<br>

<center>
<img src="https://images-na.ssl-images-amazon.com/images/I/517z2NUzcEL._SX198_BO1,204,203,200_QL40_ML2_.jpg">
</center>

<br>

*Por otro lado, el **web crawling o indexaci√≥n** se utiliza para indexar la informaci√≥n de la p√°gina mediante bots tambi√©n conocidos como crawlers (lo que hacen los motores de b√∫squeda). Se trata de ver una p√°gina como un todo e indexarla. Cuando un bot rastrea un sitio web, **recorre todas las p√°ginas y todos los enlaces**, hasta la √∫ltima l√≠nea del sitio web, en busca de **CUALQUIER informaci√≥n**.*

## **Antes de empezar** ‚ö†Ô∏è

1. *Aspectos √©ticos y legales del web scraping*
  * El web scraping es una forma autom√°tica de guardar informaci√≥n que se presenta en nuestro navegador muy utilizada tanto en la industria como en la academia, sus aspectos legales depender√°n de cada sitio y de cada estado. Respecto a la √©tica es importante que nos detengamos a pensar si estamos o no generando algun perjuicio. En ambos casos el debate est√° abierto y hay mucha bibliograf√≠a al respecto como por ejemplo [este trabajo](https://www.researchgate.net/profile/Vlad-Krotov/publication/324907302_Legality_and_Ethics_of_Web_Scraping/links/5aea622345851588dd8287dc/Legality-and-Ethics-of-Web-Scraping.pdf)

2. *No reinventar la rueda*
  * Emprender un proyecto de web scraping a veces es rapido y sencillo, pero normalmente requiere tiempo y esfuerzo. Siempre es aconsejable asegurarse de que valga la pena y antes iniciar hacerse algunas preguntas:<br>
    - ¬øLa informacion que necesito ya se encuentra disponible? (ej: APIs)
    - ¬øVale la pena automatizarlo o es algo que lleva poco trabajo a mano?





## **Conceptos b√°sicos sobre la web** 

#### HTML, CSS y JavaScript son los tres lenguajes principales con los que est√° hecho la parte de la web que vemos (*front-end*).

<center>
<img src="https://www.nicepng.com/png/detail/142-1423886_html5-css3-js-html-css-javascript.png" width="400">

<img src="https://geekflare.com/wp-content/uploads/2019/12/css-gif.gif" width="243">


</center>

<br>
<br>

| ESTRUCTURA  | ESTILO | FUNCIONALIDAD|
|-----|----------------| ---------- |
|HTML| CSS | JAVASCRIPT|

<font color="gray">
Fuente de las im√°genes: <br>
https://geekflare.com/es/css-formatting-optimization-tools/ <br>
https://www.nicepng.com/ourpic/u2q8i1o0e6q8r5t4_html5-css3-js-html-css-javascript/
</font>



## Introducci√≥n a HTML

El lenguaje principal de la internet es HTML, cuando nosotros vemos algo as√≠:

![](https://github.com/institutohumai/cursos-python/blob/master/Scraping/1_HTTP_Inicial/multimedia/hello-world.jpeg?raw=1)

Eso se genera a partir de una c√≥digo que luce as√≠

```html
<html>
  <header>
    <title>Web Scraping - Instituto Humai</title>
  </header>
  <body>
    <h1>¬°Hola!</h1>
    <p>Esto es un sitio web</p>
  </body>
</html>
```

**_Nota_**: Para saber m√°s sobre HTML pod√©s consultar [ac√°](https://www.w3schools.com/TAGS/default.ASP) la lista de etiquetas de este lenguaje.


```html
  <head>
    <title>Mi primer pagina</title>
  </head>
  <body>
    <h1 id='titulo'>Hola</h1>
    <h2 style='color:red;'>Subtitulo en rojo</h2>
    <p>Primer parrafo</p>
    <hr>
    <img src="https://i.pinimg.com/564x/8f/14/25/8f142555ef5006abd82d8c5c7f9f8570.jpg" alt="gato" width=400>
  </body>
```
<center>
<img src="https://i.ibb.co/9pqvGSv/HTML-gatito.png"  width=800> <br>
<h3>Probar el c√≥digo: <a>https://codepen.io/GEJ1/pen/GRmVNPb</a></h3>
</center>


## DOM (Document Object Model)


Interfaz independiente del lenguaje que trata un documento XML o HTML como una estructura de tipo **√°rbol**
<figure>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/DOM-model.svg/330px-DOM-model.svg.png" width="400">

```html
<html>
  <head>
    <title>My title</title>
  </head>
  <body>
    <h1>A heading</h1>
    <a href>Link text</a>
  </body>
</html>
```
</figure>

<font color="gray"> Fuente: https://en.wikipedia.org/wiki/Document_Object_Model
<br>Autor: Birger Eriksson
</font>


## ¬øC√≥mo consigo el c√≥digo HTML?

Ahora que sabemos cu√°l es el componente principal de los sitios webs podemos intentar programar a nuestra computadora para leer HTML y extraer informaci√≥n √∫til.

Para conseguir el c√≥digo de un sitio web podemos presionar `ctrl+u` en el navegador.

Para hacer lo mismo desde Python podemos hacer lo siguiente:

In [None]:
#Importamos la libreria necesaria
import requests

un_sitio_web = "https://es.wikipedia.org/wiki/HTML"

# esto descarga la informaci√≥n del sitio web
# Es similar a lo que hace un navegador web antes de mostrar el contenido de forma amigable para un humano
resultado = requests.get(un_sitio_web)

# accedemos al c√≥digo a trav√©s del atributo "text" del resultado
codigo_html = resultado.text
codigo_html

'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>HTML - Wikipedia, la enciclopedia libre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"8b90dcd4-a52b-46c7-ba9d-f997c1f6ddc3","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"HTML","wgTitle":"HTML","wgCurRevisionId":138298734,"wgRevisionId":138298734,"wgArticleId":1366,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Wikipedia:Art√≠culos con datos por trasladar a Wikidata","Wikipedia:Art√≠culos con identificadores BNE","Wikipedia:Art√≠culos con identificadores BNF","Wi

### ¬øQu√© acabamos de hacer?

Veamos algunos detalles m√°s sobre c√≥mo descargar el contenido de un sitio web (O c√≥mo se le suele decir en la jerga de la programaci√≥n _realizar un request_). Como dijimos, en python se puede utilizar la funci√≥n get de la libreria requests para hacer esto, veamos con mayor profundidad c√≥mo se utiliza.

In [None]:
url = 'http://www.laprensa.com.ar/'

headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
resp = requests.get(url, headers = headers)

A parte de la _url_, muchas veces se especifican los _headers_, estos son objetos que proveen datos sobre nuestro _request_, por ejemplo en el campo user-agent brindamos detalles sobre quienes somos (Nuestro sistema operativo, navegador web y dem√°s). En este caso, como no estamos usando un navegador sino que hacemos el _request_ desde Python normalmente se omite este campo, o en caso de ser obligatorio se puede inventar, ya que algunos sitios nos van a ignorar a menos que especifiquemos este campo.

- Consultas
    - ¬øPor qu√© los sitios te podr√≠an bloquear/ignorar?
    - ¬øDe donde saco un user-agent?


Como vimos antes la funci√≥n get retorna un objeto, el cual llamamos _resp_, este es un elemento de la clase _Response_ y tiene distintos atributos a los que podemos acceder.

Uno de ellos es el c√≥digo de status (*status code*) el cual nos informa del estado de nuestra *request*

<center>
<img alt="http-status-codes" src="https://miro.medium.com/max/1400/1*w_iicbG7L3xEQTArjHUS6g.jpeg" width="500"> <br>
<font color='gray'>Fuente: https://www.youtube.com/watch?v=LtNSd_4txVc
</font>
</center>

In [None]:
#Vemos el c√≥digo de estado
# 200 es que esta todo bien, 5xx o 4xx es que esta todo mal (Por ejemplo el clasico 404)
resp.status_code

200

In [None]:
#Vemos los headers que enviamos
resp.request.headers

{'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

El atributo que nos interesa particularmente es resp.text, que guardan el contenido de la p√°gina.

Como vamos a descargar el codigo de un sitio frecuentemente armamos una funcion para no reescribir lo mismo muchas veces

In [None]:
def codigo_html(url):
    headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
    resp = requests.get(url, headers = headers)
    return resp.text

In [None]:
# Tambien podemos scrapear otro tipo de a que no sea texto
import requests

# defino la URL
image_url = 'https://www.octoparse.com/media/7179/find-data.jpg'

# Hago una peticion y guardo la respuesta
image_response = requests.get(image_url)

# Accedemos al contenido de la imagen en bytes
image_response_content = image_response.content

print(f'Este es el contenido en bytes: \n {image_response_content}')

Este es el contenido en bytes: 
 b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C\x00\n\x07\x07\x08\x07\x06\n\x08\x08\x08\x0b\n\n\x0b\x0e\x18\x10\x0e\r\r\x0e\x1d\x15\x16\x11\x18#\x1f%$"\x1f"!&+7/&)4)!"0A149;>>>%.DIC<H7=>;\xff\xdb\x00C\x01\n\x0b\x0b\x0e\r\x0e\x1c\x10\x10\x1c;("(;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;\xff\xc2\x00\x11\x08\x01\x90\x02&\x03\x01\x11\x00\x02\x11\x01\x03\x11\x01\xff\xc4\x00\x1c\x00\x00\x01\x04\x03\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x02\x03\x05\x04\x06\x07\x08\xff\xc4\x00\x19\x01\x01\x01\x01\x01\x01\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x02\x03\x04\x05\xff\xda\x00\x0c\x03\x01\x00\x02\x10\x03\x10\x00\x00\x00\xd2\xf9D\x11\x01u\xa0L\xe4\x12\r\x81!\xcc\x82*\x88\x80\xaa\x82\x8b\x04\x89\xd0\xb0\x0b\x04\n\xa1\xa8\xb8\x1a\x8bJ$9\xa2\x80\x0c\x85h\x0bt\x90L\x82\x056h\nA\xb3H+(*\xa0\xa2\r\x01\x11\x04i\x08\xab9\x90TD\xc3\xba\x86\xb2\x11\x84BQ\x00R\x0e\x84\n\xca1a\xe5\x8ePi\x86\x85-\xa0\x99\x8a

In [None]:
# Importamos librerias para manejar imagenes (no tienen nada que ver con el scrapeo)
from PIL import Image
from io import BytesIO

# Mostramos la imagen
image_from_url = Image.open(BytesIO(image_response_content))
print('Esta imagen la bajamos de internet usando Python! \n ')
image_from_url

### Documentaci√≥n
La funci√≥n get y la clase Response fueron desarrolladas por lxs programadores que crearon la librer√≠a requests. Si quieren saber mas sobre alg√∫n detalle siempre es recomendable buscar en la [documentaci√≥n oficial de la librer√≠a](https://docs.python-requests.org/en/latest/).

## ¬øC√≥mo extraigo datos √∫tiles del c√≥digo HTML?

- Veamos un ejemplo inspeccionando con chrome un sitio web:
1. Nos posicionamos sobre el elemento que nos interesa.
2. Presionamos click derecho -> *inspeccionar elemento* para abrir las *herramientas de desarrollo* (o presionando `CTRL + SHIFT + I`)
4. Esto nos da acceso al codigo de HTML correspondiente al elemento de la pagina que nos interesa.

<img src="https://i.ibb.co/1RSNcs5/inspect.png" alt="inspect" width="1100">


### **M√©todo 1: Expresiones regulares**

RegEx para los amigos. Son un mini lenguaje de programaci√≥n dise√±ado para realizar b√∫squedas en strings.

Las funciones principales de la librer√≠a re son:
- re.findall(pattern, string) para encontrar todos los resultados de una b√∫squeda
- re.search(pattern, string) para encontrar el primer resultado que coincida
- re.sub(pattern, replace, string) para substituir un texto por otro

#### Recursos √∫tiles

- [Testeo de regex online](https://regex101.com/)
- [CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)



<h2><center>Sintaxis para construir regex</center></h2>


<h3><center>Grupos de captura</center></h3>


|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |

<h3><center>Tipos de datos</center></h3>


|     |                      |          |                         |
|----|-----------------------|----------|-------------------------|
| \w | caracter alfanum√©rico | .        | cualquier cosa menos \n |
| \d | d√≠gito                | \|       | operador "or"           |
| \s | espacio en blanco     | [m-z3-9] | rangos                  |

<h3><center>Operadores</center></h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| []      | conjunto             |
|[m-z3-9] | rangos               |


<h3><center>Cuantificadores</center></h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o m√°s del elemento anterior              |
| *    | Cero o m√°s del elemento anterior             |
| {4,} | Cuatro o m√°s del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

#### ¬øC√≥mo se usa eso? Veamos ejemplos

In [None]:
# Libreria para expresiones regulares en Python
import re

# a- extraer n√∫meros de una oraci√≥n.

texto = "Mi nombre es Mathias y mi tel√©fono es 1564232324"
regla_de_busqueda = "15\d+"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos no son cualquier seguidilla de numeros
# suelen tener entre 6 y 8 numeros despues del 15
texto = "Mi nombre es Mar√≠a y mi tel√©fono es 1564232324"
regla_de_busqueda = "15\d{6,8}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos no arrancan siempre con 15
# capaz empiezan con 11 si son de buenos aires por ejemplo
texto = "Mi nombre es Carlos y mi tel√©fono es 1164232324"
regla_de_busqueda = "(?:15|11)\d{6,8}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# En realidad los telefonos pueden tener un gui√≥n o espacio a parte de n√∫meros
texto = "Mi nombre es asfasfeaf33 y mi tel√©fono es 11 6423-2324"
regla_de_busqueda = "(?:15|11)[0-9\s-]{6,10}"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

# b- Como extraer el mes de un texto
texto = "REPORTE DE PERFOMANCE - MES DE JUNIO"
regla_de_busqueda = "(MES DE (?:JULIO|AGOSTO|JUNIO))"
print('')
print(texto)
print(re.findall(regla_de_busqueda,texto))

In [None]:
# ¬øC√≥mo hago que pare de buscar el operador * ?
text = "me llamo pedro. me gusta el rock."
regla_de_busqueda_no_greedy = "(.*?)\."
regla_de_busqueda_greedy = "(.*)\."
print(re.findall(regla_de_busqueda_no_greedy,text))
print(re.findall(regla_de_busqueda_greedy,text))

In [None]:
# python utiliza la libreria llamada re para todo lo relacionado a regular expressions
import re

comentario_de_mercadolibre = 'hola soy @mariadominguez, me interesa el producto, te dejo mi celu 1565525233, saludos'

def encontrar_telefonos(texto):
    regla_de_busqueda = r'(15[0-9]{8})'
    return re.findall(regla_de_busqueda, texto)

def encontrar_usuarios(texto):
    regla_de_busqueda = r'@([a-zA-Z]+)'
    return re.findall(regla_de_busqueda, texto)

print(encontrar_telefonos(comentario_de_mercadolibre))
print(encontrar_usuarios(comentario_de_mercadolibre))

#### <font color="red"> Ejercicio </font>

Usa regex para hacer una funci√≥n que busque todos los emails en un texto

In [None]:
# Resoluci√≥n 

def encontrar_emails(texto):
    regla_de_busqueda = r"([a-z0-9_]+@[a-z]+\.[a-z]+)"
    return re.findall(regla_de_busqueda,texto)

texto = "Hola te paso mi mail python@hotmail.com, saludos. Si no te funciona mandame a este otro, pedro_2010@yahoo.com"
encontrar_emails(texto)

#### Aplicandolo a la web
##### Ejemplo 1: Usamos regex para extraer los t√≠tulos del diario La Prensa.


```html
<h2 class="entry__title"><a href="http://www.laprensa.com.ar/491843-Dilemas-de-la-batalla-cultural-I.note.aspx" target="_self" onclick="javascript:if(typeof(_gaq)!='undefined'){_gaq.push(['_trackEvent', 'Notas', 'Cultura', 'Dilemas de la batalla cultural (I)'])};">Dilemas de la batalla cultural (I)</a></h2>
```


In [None]:
#Usamos el navegador para identificar la estructura de los datos que queremos extraer y creamos el patr√≥n de b√∫squeda
regla_de_busqueda = r'_self">(.+)</a></h2>'

In [None]:
#Usamos findall para encontrar todas las coincidencias
import re
import requests
titles = [m for m in re.findall(regla_de_busqueda, codigo_html("http://www.laprensa.com.ar/"))]

In [None]:
print(titles)

['Vidal cuestion√≥ los "parches y manotazos de ahogado" del Gobierno ', 'Tres gobiernos, ning√∫n gobierno', 'Insultaron y agredieron a Leandro Santoro en un caf√© cerca del Cabildo', 'El Gobierno elimina las retenciones a las exportaciones de servicios a partir de 2022', 'Libros aburridos', 'El ataque al Convento de las Catalinas']


####  <font color='red'> Ejercicio </font>

####  Modifiquen la regla de b√∫squeda para que descargue los links a las notas en vez del t√≠tulo

In [None]:
# Resoluci√≥n

#Usamos el navegador para identificar la estructura de los datos que queremos extraer y creamos el patr√≥n de b√∫squeda
regla_de_busqueda = r'<a href="(.+)" target="_self">'

links = [link for link in re.findall(regla_de_busqueda, codigo_html("http://www.laprensa.com.ar/"))]
print(links)


['https://www.laprensa.com.ar/507044-Vidal-cuestiono-los-parches-y-manotazos-de-ahogado-del-Gobierno-.note.aspx', 'https://www.laprensa.com.ar/507044-Vidal-cuestiono-los-parches-y-manotazos-de-ahogado-del-Gobierno-.note.aspx', 'https://www.laprensa.com.ar/507043-Tres-gobiernos-ningun-gobierno.note.aspx" class="thumb-url', 'https://www.laprensa.com.ar/507043-Tres-gobiernos-ningun-gobierno.note.aspx', 'https://www.laprensa.com.ar/507045-Insultaron-y-agredieron-a-Leandro-Santoro-en-un-cafe-cerca-del-Cabildo.note.aspx" class="thumb-url', 'https://www.laprensa.com.ar/507045-Insultaron-y-agredieron-a-Leandro-Santoro-en-un-cafe-cerca-del-Cabildo.note.aspx', 'https://www.laprensa.com.ar/507025-El-Gobierno-elimina-las-retenciones-a-las-exportaciones-de-servicios-a-partir-de-2022.note.aspx" class="thumb-url', 'https://www.laprensa.com.ar/507025-El-Gobierno-elimina-las-retenciones-a-las-exportaciones-de-servicios-a-partir-de-2022.note.aspx', 'https://www.laprensa.com.ar/506993-Segundo-tiempo-con-

### **M√©todo 2: BeautifulSoup**
* Esta librer√≠a provee un *parser* de html, o sea un programa que entiende el c√≥digo, permitiendonos hacer consultas m√°s sofisticadas de forma simple, por ejemplo "buscame todos los titulos h2 del sitio".


* Se usa para extraer los datos de archivos HTML. Crea un √°rbol de an√°lisis a partir del c√≥digo fuente de la p√°gina que se puede utilizar para extraer datos de forma jer√°rquica y m√°s legible.

<center>
<img alt="" width="700" role="presentation" src="https://miro.medium.com/max/700/0*ETFzXPCNHkPpqNv_.png"> <br>

<font color="gray">
Fuente: https://medium.com/milooproject/python-simple-crawling-using-beautifulsoup-8247657c2de5
<font>
</center>

## Generalidades

In [None]:
from bs4 import BeautifulSoup
import requests

# Vamos a jugar un poco con la pagina de Exactas
url_base = 'https://exactas.uba.ar/'
endpoint_calendario = 'calendario-academico/'
html_obtenido = requests.get(url_base + endpoint_calendario)
soup = BeautifulSoup(html_obtenido.text, "html.parser")
print(soup)
# print(type(soup))
# print(soup.prettify())

In [None]:
# Si queremos quedarnos con un tag

# El m√©todo "find" busca el primer elemento de la pagina con ese tag
primer_h3 = soup.find('h3')
print(primer_h3)

# equivalente a:
# print(soup.h3.text)

<h3>CURSO DE VERANO 2021 (7 semanas)</h3>


In [None]:
# El m√©todo "find_all" busca TODOS los elementos de la pagina con ese tag y devuelve una lista que los contiene (en realidad devuelve un objeto de la clase "bs4.element.ResultSet")
h3_todos = soup.find_all('h3')
print(h3_todos)

# Si usamos el parametro limit = 1, emulamos al metodo find:
# h3_uno_solo = soup.find_all('h3',limit=1)
# print(h3_uno_solo)

[<h3>CURSO DE VERANO 2021 (7 semanas)</h3>, <h3>INSCRIPCI√ìN PRIMER CUATRIMESTRE 2021</h3>, <h3>EX√ÅMENES DE FEBRERO-MARZO 2021</h3>, <h3>PRIMER BIMESTRE 2021 (8 semanas)</h3>, <h3>SEGUNDO BIMESTRE 2021 (8 semanas)</h3>, <h3>CURSO DE INVIERNO 2021</h3>, <h3>INSCRIPCI√ìN SEGUNDO CUATRIMESTRE 2021</h3>, <h3>INSCRIPCI√ìN A DOCTORADO 2021</h3>, <h3>SEMANAS DE LAS CIENCIAS</h3>, <h3>ACTOS DE COLACI√ìN DE GRADO Y POSGRADO</h3>, <h3><strong>FERIADOS</strong></h3>, <h3 class="widget-title"><a href="https://exactas.uba.ar/agenda/">Agenda ‚Üí</a></h3>]


In [None]:
# podemos iterar sobre el objeto
for fecha in h3_todos[:-1]:
  # Extraemos el texto que se encuentra dentro del tag
  print(fecha.text)

CURSO DE VERANO 2021 (7 semanas)
INSCRIPCI√ìN PRIMER CUATRIMESTRE 2021
EX√ÅMENES DE FEBRERO-MARZO 2021
PRIMER BIMESTRE 2021 (8 semanas)
SEGUNDO BIMESTRE 2021 (8 semanas)
CURSO DE INVIERNO 2021
INSCRIPCI√ìN SEGUNDO CUATRIMESTRE 2021
INSCRIPCI√ìN A DOCTORADO 2021
SEMANAS DE LAS CIENCIAS
ACTOS DE COLACI√ìN DE GRADO Y POSGRADO
FERIADOS


In [None]:
# Busco por clase, escribo class_ porque "class" es una palabra reservada en Python
eventos_proximos = soup.find('aside', class_ = 'widget_my_calendar_upcoming_widget')
for evento in eventos_proximos:
  print(evento.text)

Agenda ‚Üí

24 septiembre, 2021,  : Cronograma electoral 2021  | + INFO
24 septiembre, 2021,  : Llamado a concurso para Beca Inicial  | + INFO
27 septiembre, 2021,  : Meteorolog√≠a del Espacio  | + INFO
27 septiembre, 2021, 15.00: Charlas virtuales de carrera de septiembre-octubre  | + INFO
28 septiembre, 2021,  : "Curso de Capacitaci√≥n para el Uso de Animales en Experimentaci√≥n" (CCUAE)  | + INFO
30 septiembre, 2021,  : Becas de ayuda econ√≥mica Sarmiento  | + INFO




In [None]:
# Todos los links. Esto podr√≠a ser √∫til para seguir scrapeando todo el sitio haciendo requests en ellos
a_todos = soup.find_all('a', href=True)
for a in a_todos:
  print(f"{a.text}: {a['href']}")

In [None]:
# Podemos tambien scrapear un tabla y traernos los feriados
tabla_feriados = soup.find_all('td')

# Con 'attr' podemos acceder a cualquier atributo de a etiqueta usando un diccionario
dias = soup.find_all('td', attrs={'style':'width: 74px;'}) 
fechas = soup.find_all('td', attrs={'style':'width: 127px;'}) 
eventos = soup.find_all('td', attrs={'style':'width: 438px;'}) 
# print(tabla_feriados)

for pos in range(len(dias)):
  print(f" Dia: {dias[pos].text.strip()} | fecha: {fechas[pos].text.strip()} | evento: {eventos[pos].text.strip()} ")

 Dia: Viernes | fecha: 1 de enero | evento: A√±o Nuevo 
 Dia: Lunes | fecha: 15 de febrero | evento: Carnaval 
 Dia: Martes | fecha: 16 de febrero | evento: Carnaval 
 Dia: Mi√©rcoles | fecha: 24 de marzo | evento: D√≠a Nacional de la Memoria por la Verdad y la Justicia 
 Dia: Domingo | fecha: 28 de marzo | evento: Pascua Jud√≠a 
 Dia: Lunes | fecha: 29 de marzo | evento: Pascua Jud√≠a 
 Dia: Jueves | fecha: 1 de abril | evento: Jueves Santo 
 Dia: Viernes | fecha: 2 de abril | evento: Viernes Santo y D√≠a del Veterano y de los Ca√≠dos en la Guerra de Malvinas 
 Dia: S√°bado | fecha: 3 de abril | evento: Pascua Jud√≠a 
 Dia: Domingo | fecha: 4 de abril | evento: Pascua Jud√≠a 
 Dia: S√°bado | fecha: 24 de abril | evento: D√≠a de Acci√≥n por la Tolerancia y el Respeto entre los Pueblos 
 Dia: S√°bado | fecha: 1 de mayo | evento: D√≠a del Trabajador 
 Dia: Jueves | fecha: 13 de mayo | evento: Fiesta de la Ruptura del Ayuno del Sagrado Mes de Ramad√°n 
 Dia: Lunes | fecha: 24 de mayo | ev

In [None]:
# Obtener la √∫ltima actualizaci√≥n

# Para exprresiones regulares
import re
# Para manejo de fechas
from datetime import datetime

def calendario_ultima_actualizacion():
  ultima_actualizacion = soup.select('#post-256') 
  ultima_actualizacion= ultima_actualizacion[0].text
  # Expresion que busca algo del estilo x/x/xxxx (donde x es un n√∫mero)
  match = re.search(r'\d{1}/\d{1}/\d{4}', ultima_actualizacion)
  fecha = match.group()
  fecha_datetime = datetime.strptime(fecha, '%d/%m/%Y').date()
  return fecha_datetime

fecha_datetime = calendario_ultima_actualizacion()
print(f"√öltima actualizaci√≥n: {fecha_datetime.day}/{fecha_datetime.month}/{fecha_datetime.year} ")

# Ahora podemos crear un programa que nos avise si se actualiza el calendario

def avisame_si_actualizaron(fecha_previa):
  # Esto esta solo para cortar el while
  contador_anti_explosion = 0
  fecha_datetime = calendario_ultima_actualizacion()
  fecha_previa = f'{fecha_previa.day}/{fecha_previa.month}/{fecha_previa.year}'

  while True:
    fecha_actual = f'{fecha_datetime.day}/{fecha_datetime.month}/{fecha_datetime.year}'

    if fecha_actual == fecha_previa and contador_anti_explosion < 5:
      url_base = 'https://exactas.uba.ar/'
      endpoint_calendario = 'calendario-academico/'
      html_obtenido = requests.get(url_base + endpoint_calendario)
      soup = BeautifulSoup(html_obtenido.text, "html.parser")
      fecha_datetime = calendario_ultima_actualizacion()
      print('igual')
      contador_anti_explosion += 1

    else:
      print('Actualizaron!! \n')
      from google.colab import output
      print(f'Se actualizo el: {fecha_datetime.day}/{fecha_datetime.month}/{fecha_datetime.year}')
      # Para que ladre un perro avisandonos 
      output.eval_js('new Audio("https://assets.mixkit.co/sfx/preview/mixkit-dog-barking-twice-1.mp3").play()')
      break
fecha_previa = calendario_ultima_actualizacion()
avisame_si_actualizaron(fecha_previa)



√öltima actualizaci√≥n: 3/6/2021 
igual
igual
igual
igual
igual
Actualizaron!! 

Se actualizo el: 3/6/2021


<font color='red'>Ejercicio</font>

* Generar diccionario cuyas claves sean los nombres de las carreras de grado vigentes en Exactas y sus valores el link asociado a cada una de ellas. https://exactas.uba.ar/ensenanza/carreras-de-grado/

**¬°A trabajar!**

<img src="https://img.icons8.com/ios/452/spade.png" width="80" height="auto"/>


In [None]:
# Resoluci√≥n

url = 'https://exactas.uba.ar/ensenanza/carreras-de-grado/'

html_obtenido = requests.get(url)
soup = BeautifulSoup(html_obtenido.text, "html.parser")

titulos = soup.find_all('h2', class_ = 'titulo')
uls = soup.find('ul', class_='listado carreras grado')
lis = uls.find_all('li')

lista_titulos = []
lista_paginas = []

for li in lis:
  a = li.find('a', href=True)
  lista_paginas.append(a['href'])
  titulo = li.find('h2')
  lista_titulos.append(titulo.text)

diccionario_exactas = dict(zip(lista_titulos, lista_paginas))
display(diccionario_exactas)

import pandas as pd
df = pd.DataFrame(diccionario_exactas.values(), index=list(diccionario_exactas.keys()), columns=['url'])
display(df)

#### Ejemplo 2: Cortazar

In [None]:
# Creo carpeta donde voy a guardar los cuentos
!mkdir -p multimedia/cortazar/

import re
codigo_html_crudo = codigo_html('http://ciudadseva.com/autor/julio-cortazar/cuentos/')

regla_para_url_de_un_cuento = r'(https://ciudadseva.com/texto/.+/)'

for url_de_un_cuento in re.findall(regla_para_url_de_un_cuento, codigo_html_crudo):
    codigo_html_interpretado = BeautifulSoup(codigo_html(url_de_un_cuento), 'html.parser')
    elem = codigo_html_interpretado.find("div", { "class" : "text-justify" })
    cuento = elem.text
    
    # Asi podemos guardar los resultados
    nombre_del_archivo = url_de_un_cuento.split('/')[-2]
    with open (f"multimedia/cortazar/{nombre_del_archivo}.txt", 'w') as out:
        print(f'Guardando {nombre_del_archivo}')
        out.write(cuento)

## Pr√°ctica: Mercadolibre

<font color='red'> Ejercicio </font>

Descarg√° y calcul√° el promedio de los precios que aparecen en la primer p√°gina de mercado libre al buscar gibson

In [None]:
# Resoluci√≥n

import requests
import re

def precios_gibson():
    url = "https://listado.mercadolibre.com.ar/gibson"
    soup = BeautifulSoup(codigo_html(url), 'html.parser')
    prices = []
    # COMPLETAR
    for precio in soup.find_all('span', class_ = 'price-tag-fraction'):
      precio = precio.text
      print(precio)
      prices.append(int(precio.replace('.','')))

    return prices

precios = precios_gibson()
print(precios)
import numpy as np
print(f"El precio promedio es {int(np.nanmean(precios))}")

## ¬øEntonces me puedo descargar todo internet?

En la pr√≥ximas clases veremos algunas limitaciones de este m√©todo y sus alternativas. Mas all√° de eso es importante ponerse de vez en cuando en el lugar del sitio del cual estamos descargando datos.


Muchas veces las p√°ginas web obtienen sus ingresos a partir del uso de usuarios tradicionales (humanos) pero no de los scrapers (m√°quinas). Por lo que estos no generan ganancias al sitio y encima pueden causar congesti√≥n en los servidores (Pudiendo causar incluso la rotura del sitio similar a lo que pasa con los [ataques DDOS](https://es.wikipedia.org/wiki/Ataque_de_denegaci%C3%B3n_de_servicio)).

Por esta raz√≥n los sitios webs suelen tener una pagina [/robots.txt](https://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots) donde especifican que tipo de scrapeo prefieren evitar para poder mantener su sitio funcionando correctamente sin problemas.

Pueden ver, como ejemplos:

- https://www.google.com/robots.txt
- https://en.wikipedia.org/robots.txt