<a href="https://colab.research.google.com/github/fluchetti/Web-Scraping/blob/main/ScrapeoExactas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Notebook para practicar web scraping.

Primero escrapeo las carreras de grado que se dictan en la FCEyN UBA, luego las materias que dicta el DM en el cuatrimestre indicado.

In [78]:
import requests
from bs4 import BeautifulSoup

In [79]:
url = "https://exactas.uba.ar/ensenanza/carreras-de-grado/"

web = requests.get(url)
if web.status_code == 200:
  soup = BeautifulSoup(web.text, "html.parser")
  print("Exito.")
else:
  print("Error al realizar la peticion.")

Exito.


Las carreras se guardan en una lista desordenada (ul), cada una es un elemento de la lista (li).

In [80]:
listado = soup.find(name = "ul" , class_ = "listado carreras grado") 

In [81]:
carreras = listado.find_all(name = "li")

In [82]:
carreras[0:2]

[<li class="list-carrera ciencias-biologicas">
 <a href="https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-biologicas/" rel="bookmark" title="Ciencias Biológicas">
 <div class="thumbnail"><img alt="" class="attachment-medium size-medium wp-post-image" height="166" src="https://exactas.uba.ar/wp-content/uploads/2017/05/biologia-384x213.jpg" width="300"/></div>
 <h2 class="titulo">Ciencias Biológicas</h2>
 <div class="desc"></div>
 </a>
 </li>, <li class="list-carrera ciencias-de-datos">
 <a href="https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-de-datos/" rel="bookmark" title="Ciencias de Datos">
 <div class="thumbnail"><img alt="" class="attachment-medium size-medium wp-post-image" height="166" loading="lazy" src="https://exactas.uba.ar/wp-content/uploads/2020/08/lcd-384x213.png" width="300"/></div>
 <h2 class="titulo">Ciencias de Datos</h2>
 <div class="desc"></div>
 </a>
 </li>]

Los links de las paginas de las carreras vienen en los anchor y sus nombres se almacenan en titulos h2.

In [83]:
dic = dict()
for carrera in carreras:
  dic[carrera.h2.text] = carrera.a["href"]

In [84]:
for carrera in dic.items():
  print(carrera[0] + ": " + carrera[1])

Ciencias Biológicas: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-biologicas/
Ciencias de Datos: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-de-datos/
Ciencias de la Atmósfera: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-de-la-atmosfera/
Ciencias de la Computación: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-de-la-computacion/
Ciencias Físicas: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-fisicas/
Ciencias Geológicas: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-geologicas/
Ciencias Matemáticas: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-matematicas/
Ciencias Químicas: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencias-quimicas/
Ciencia y Tecnología de Alimentos: https://exactas.uba.ar/ensenanza/carreras-de-grado/ciencia-y-tecnologia-de-alimentos/
Oceanografía: https://exactas.uba.ar/ensenanza/carreras-de-grado/oceanografia/
Paleontología: https://exactas.uba.ar/ensena

Ahora voy a scrapear las materias que dicta el DM en el cuatrimestre indicado

In [85]:
url_base = "https://cms.dm.uba.ar/academico/materias/"
cuatrimestre = "2docuat2022/"  # esto es lo que hay que cambiar dependiendo el cuatrimestre que se busque

In [86]:
web = requests.get(url_base+cuatrimestre)
if web.status_code == 200:
  soup = BeautifulSoup(web.text, "html.parser")
  print("Exito.")
else:
  print("Ocurrio un error al solicitar los datos.")

Exito.


Las materias se guardan dentro de una lista descriptiva (dl) y cada materia será un termino (dt = description term) de la lista.

In [92]:
contenido = soup.find(name="dl")
contenido

<dl>
<dt>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/Algebra%20I/">
<img alt="Segundo cuatrimestre 2022" src="https://cms.dm.uba.ar/Workgroup.gif"/>
</a>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/Algebra%20I/">Álgebra I</a>
</dt>
<dd>
<span>Segundo Cuatrimestre 2022</span>
</dd>
<dt>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/Algebra%20II/">
<img alt="Segundo cuatrimestre 2022" src="https://cms.dm.uba.ar/Workgroup.gif"/>
</a>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/Algebra%20II/">Álgebra II (Licenciatura) Tópicos de álgebra II (Doctorado)</a>
</dt>
<dd>
<span>Segundo Cuatrimestre 2022</span>
</dd>
<dt>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/algebra_III/">
<img alt="Segundo cuatrimestre 2022" src="https://cms.dm.uba.ar/Workgroup.gif"/>
</a>
<a href="https://cms.dm.uba.ar/academico/materias/2docuat2022/algebra_III/">Álgebra III</a>
</dt>
<dd>
<span>Segundo cuatrimestre 2022</span>
</dd>

Se ve que por materia hay dos etiquetas anchor, la primera es para el icono a la izquierda del nombre. Ambas conectan a la pagina de la materia pero solo la segunda almacena el nombre.

In [88]:
cuatrimestre = contenido.find("span").text
materias = contenido.find_all("a")[1::2] # Esto es para quedarme solo con los nombres de las materias.

In [89]:
print("\t"+cuatrimestre)
for materia in materias:
  print(materia.text)

	Segundo Cuatrimestre 2022
Álgebra I
Álgebra II (Licenciatura) Tópicos de álgebra II (Doctorado)
Álgebra III
Álgebra Lineal
Algebra Lineal Computacional
Análisis I - Análisis Matemático I - Matemática 1 - Análisis II (C)
Análisis 1 para la Licenciatura en Alimentos
Análisis Avanzado
Análisis  II - Análisis Matemático II -  Matemática 3
Análisis Complejo
Aritmética de curvas elípticas (Lic) - Tópicos de curvas elípticas (Doc)
Análisis Multivariado II
Cálculo Avanzado
Elementos de Cálculo Numérico - Cálculo Numérico
Estadística (LIC) - Intr. a la Estadística y C¡encia de Datos (LCD) - Tópicos de Estadística (DOC)
Geometría Algebraica
Geometría Proyectiva (Lic) Tópicos de Geometría Proyectiva (Doc)
Historia de la Ciencia
Homología Cíclica
Investigación operativa (LIC) - Intr. a la Inv. Operativa y Optimización (LCD) - Tópicos de Inv. Operativa (DOC)
Introducción al Modelado Continuo
Matemática I (Biología)
Matemática II (Biología)
Matemática 2 
Matemática 4 - Análisis matemático III
Intro