## Degrees

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
BASE_URL = 'https://www.um.es{0}'
DEGREES_URL = 'https://www.um.es/web/estudios/grados'
DEGREE_URL = 'https://www.um.es/web/{0}/contenido/estudios/grados/{0}'
UNIVERSITY_NAME = 'universidad-de-murcia'

SUBJECT_COLUMNS = [
    'code',
    'name',
    'url',
    'subject_type',
    'credits',
    'period',
    'course_number'
]

DEGREE_COLUMNS = [
    'code',
    'name',
    'university',
    'area',
    'faculty',
    'url',
    'price 1',
    'price 2',
    'price 3',
    'price 4+',
    'content',
    'skills',
    'profile',
    'opportunities',
    'num_subjects'
]

In [None]:
# https://www.um.es/web/estudios/normativa/tasas
PRICES = {
    'Grado en Arquitectura': [16.78, 33.56, 72.71, 100.68],
    'Grado en Fundamentos de Arquitectura': [16.78, 33.56, 72.71, 100.68],
    'Grado en Arquitectura Naval e Ingeniería de Sistemas Marinos': [16.78, 33.56, 72.71, 100.68],
    'Grado en Bellas Artes': [16.78, 33.56, 72.71, 100.68],
    'Grado en Biología': [16.78, 33.56, 72.71, 100.68],
    'Grado en Bioquímica': [16.78, 33.56, 72.71, 100.68],
    'Grado en Biotecnología': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ciencia y Tecnología de los Alimentos': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ciencias Ambientales': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ciencias de la Actividad Física y del Deporte': [16.78, 33.56, 72.71, 100.68],
    'Grado en Enfermería': [16.78, 33.56, 72.71, 100.68],
    'Grado en Farmacia': [16.78, 33.56, 72.71, 100.68],
    'Grado en Física': [16.78, 33.56, 72.71, 100.68],
    'Grado en Fisioterapia': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Electrónica Industrial y Automática': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Agroalimentaria y de Sistemas Biológicos': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Civil': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería de Edificación': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería de la Hortofruticultura y Jardinería': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería de las Industrias Agroalimentarias': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería de Organización Industrial': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería de Recursos Minerales y Energía': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Eléctrica': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería en Sistemas de Telecomunicación': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería en Tecnologías Industriales': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Informática': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Mecánica': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Química': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Química Industrial': [16.78, 33.56, 72.71, 100.68],
    'Grado en Ingeniería Telemática': [16.78, 33.56, 72.71, 100.68],
    'Grado en Logopedia': [16.78, 33.56, 72.71, 100.68],
    'Grado en Medicina': [16.78, 33.56, 72.71, 100.68],
    'Grado en Nutrición Humana y Dietética': [16.78, 33.56, 72.71, 100.68],
    'Grado en Odontología': [16.78, 33.56, 72.71, 100.68],
    'Grado en Óptica y Optometría': [16.78, 33.56, 72.71, 100.68],
    'Grado en Psicología': [16.78, 33.56, 72.71, 100.68],
    'Grado en Química': [16.78, 33.56, 72.71, 100.68],
    'Grado en Veterinaria ': [16.78, 33.56, 72.71, 100.68],
    'Grado en Administración y Dirección de Empresas': [14.38, 28.77, 62,32, 86.30],
    'Grado en Ciencias Políticas, Gobierno y Administración Pública': [14.38, 28.77, 62,32, 86.30],
    'Grado en Comunicación Audiovisual': [14.38, 28.77, 62,32, 86.30],
    'Grado en Criminología': [14.38, 28.77, 62,32, 86.30],
    'Grado en Derecho': [14.38, 28.77, 62,32, 86.30],
    'Grado en Economía': [14.38, 28.77, 62,32, 86.30],
    'Grado en Educación Infantil': [14.38, 28.77, 62,32, 86.30],
    'Grado en Educación Primaria': [14.38, 28.77, 62,32, 86.30],
    'Grado en Educación Social': [14.38, 28.77, 62,32, 86.30],
    'Grado en Estudios Franceses': [14.38, 28.77, 62,32, 86.30],
    'Grado en Estudios Ingleses': [14.38, 28.77, 62,32, 86.30],
    'Grado en Filología Clásica': [14.38, 28.77, 62,32, 86.30],
    'Grado en Filosofía': [14.38, 28.77, 62,32, 86.30],
    'Grado en Geografía y Ordenación del Territorio': [14.38, 28.77, 62,32, 86.30],
    'Grado en Historia': [14.38, 28.77, 62,32, 86.30],
    'Grado en Historia del Arte': [14.38, 28.77, 62,32, 86.30],
    'Grado en Información y Documentación': [14.38, 28.77, 62,32, 86.30],
    'Grado en Lengua y Literatura Españolas': [14.38, 28.77, 62,32, 86.30],
    'Grado en Marketing': [14.38, 28.77, 62,32, 86.30],
    'Grado en Matemáticas': [14.38, 28.77, 62,32, 86.30],
    'Grado en Pedagogía': [14.38, 28.77, 62,32, 86.30],
    'Grado en Periodismo': [14.38, 28.77, 62,32, 86.30],
    'Grado en Publicidad y Relaciones Públicas': [14.38, 28.77, 62,32, 86.30],
    'Grado en Relaciones Internacionales': [14.38, 28.77, 62,32, 86.30],
    'Grado en Relaciones Laborales y Recursos Humanos': [14.38, 28.77, 62,32, 86.30],
    'Grado en Seguridad': [14.38, 28.77, 62,32, 86.30],
    'Grado en Sociología': [14.38, 28.77, 62,32, 86.30],
    'Grado en Trabajo Social': [14.38, 28.77, 62,32, 86.30],
    'Grado en Traducción e Interpretación': [14.38, 28.77, 62,32, 86.30],
    'Grado en Turismo ': [14.38, 28.77, 62,32, 86.30]
}

In [None]:
page = requests.get(DEGREES_URL)
soup = BeautifulSoup(page.content, 'html.parser')

In [None]:
def get_degree_list(soup):
    degree_areas = list(map(lambda x: x.getText(), soup.select('.journal-content-article > h2')))
    degree_tables = soup.select('.enlaces_titulaciones')
    degree_list = []

    for index, degree_table in enumerate(degree_tables):
        area = degree_areas[index]

        for degree_list_item in degree_table.select('li > a'):
            name = degree_list_item.get_text()
            degree_url = degree_list_item.get('href')
            url = degree_url if 'http' in degree_url else BASE_URL.format(degree_url)

            data = [name, url]

            degree_list.append(data)

    return degree_list

In [None]:
def get_degree_soups(degree_list):
    degree_soups = []

    for degree in degree_list:
        page = requests.get(degree[1])
        degree_soups.append(BeautifulSoup(page.content, 'html.parser'))
    
    return degree_soups

In [None]:
def get_degree_content(soup, url):
    page = requests.get('{0}/description'.format(url))
    content = BeautifulSoup(page.content, 'html.parser')
    
    

In [None]:
def get_degree_links(soup):
    links = {}

    links['description_url'] = set_url_base(info_links[2].get('href'));
    links['profile_url'] = set_url_base(info_links[3].get('href'));
    links['opportunities_url'] = set_url_base(info_links[5].get('href'));
    links['subjects_url'] = set_url_base(data_links[1].get('href'));

    return links

In [None]:
def save_degree(degree_soups, degree_list):
    for index, soup in enumerate(degree_soups):
        links = get_degree_links(soup)
        content = get_degree_content(soup)
        skills = get_degree_skills(links)
        profile = get_degree_profile(links)
        opportunities = get_degree_opportunities(links)
        subjects = get_degree_subjects(links)

        degree_list[index].append(content)
        degree_list[index].append(skills)
        degree_list[index].append(profile)
        degree_list[index].append(opportunities)
        degree_list[index].append(len(subjects))

        degree_subjects_df = pd.DataFrame(subjects, columns=SUBJECT_COLUMNS)
        degree_subjects_df.to_csv('{0}-degree-{1}.csv'.format(UNIVERSITY_NAME, degree_list[index][0]))

    degrees_df = pd.DataFrame(degree_list, columns=DEGREE_COLUMNS)
    degrees_df.to_csv('{0}.csv'.format(UNIVERSITY_NAME))

In [None]:
degree_list = get_degree_list(soup)
degree_soups = get_degree_soups(degree_list)

In [None]:
save_degree(degree_soups, degree_list)