In [1]:
DEGREE_NAME = 'grado_en_ingenieria_informatica'
UNIVERSITY_NAME = 'universidad_carlos_iii_de_madrid'
DEGREE_CODE = 218
SUBJECT_COLUMNS = ['code', 'degree_code', 'name', 'subject_type', 'num_credits', 'period', 'course', 'language', 'content', 'mention', 'url', 'bibliography']

In [2]:
DEGREE_COLUMNS = ['code',
'university',
'name',
'summary',
'area',
'years',
'num_credits',
'num_places',
'faculty',
'url',
'price_1',
'price_2',
'price_3',
'price_4',
'total_min_price',
'admission_mark',
'profile',
'opportunities',
'learning_mode',
'mobility_program',
'working_practices',
'basic_skills',
'specific_skills',
'transversal_skills',
'double_degree',
'schedule',
'subjects',
'languages',
'mentions'
]

In [3]:
DEGREE_DATA = {
    'code': DEGREE_CODE,
    'university': 'Universidad Carlos III de Madrid',
    'name': 'Grado en Ingeniería Informática',
    'summary': '''
        El Grado en Ingeniería Informática tiene como objetivo la formación en un conjunto de conocimientos científicos y técnicos que hacen posible la adquisición, representación, tratamiento y transmisión de la información por medio de computadoras.
        El plan de estudios permite profundizar en distintos ámbitos: la Computación orientada a la Inteligencia Artificial; la Ingeniería de Computadoras dirigida al desarrollo de hardware y software distribuido; y los Sistemas de Información referidos al tratamiento de datos e integración del software empresarial. Puede cursarse en modalidad bilingüe y cuenta con el sello EUR-ACE.
        Este grado ofrece una sólida formación en materias básicas como matemáticas o estadística; así como en materias tecnológicas como I.A., ingeniería del software, ciberseguridad o sistemas operativos, entre otras. Se trata de una titulación muy demandada por las empresas con una tasa de empleabilidad del 100%.
    ''',
    'area': 'Campus de Leganés, Campus de Colmenarejo',
    'years': 4,
    'num_credits': 240,
    'num_places': 200,
    'faculty': 'Escuela Politécnica Superior',
    'url': '',
    'price_1': 24.55,
    'price_2': 45.25,
    'price_3': 92.86,
    'price_4': 128.57,
    'total_min_price': 240 * 24.55,
    'admission_mark': 7.990,
    'profile': '''
        El perfil del egresado del Grado en Ingeniería Informática se configura con los resultados del aprendizaje obtenidos en este Grado, que incluyen, en primer lugar, los conocimientos y la comprensión de los fundamentos básicos generales de la ingeniería, así como en particular, los de los Ingeniería Informática. Los egresados serán capaces de llevar a cabo un proceso de análisis para resolver problemas de informática y además, serán competentes para realizar diseños de ingeniería en su ámbito, trabajando en equipo. Asimismo, los titulados serán capaces de realizar investigación y llevar a cabo aportaciones innovadores en los sistemas informáticos, lo que justifica el interés científico de este Grado, que se aborda después.
        Finalmente, los egresados serán competentes para aplicar sus conocimientos para resolver problemas y diseñar productos, servicios y sistemas informáticos las implicaciones medio ambientales, comerciales, de seguridad e industriales que tiene la práctica de la ingeniería; Además, de la formación puramente técnica, el egresado habrá recibido formación en destrezas de comunicación, humanidades e idiomas, lo que reforzará sus aspectos competitivos a nivel de comunicación personal y de eficiencia de transmisión de sus conocimientos y facilidad de inserción en equipos nacionales e internacionales
    ''',
    'opportunities': '',
    'learning_mode': 'Presencial',
    'mobility_program': '''
        El programa Erasmus permite a estudiantes de la UC3M de Grado y Postgrado, cursar uno o varios cuatrimestres en una de las universidades europeas con las que la UC3M tiene acuerdos o realizar un Erasmus Placement, es decir, una estancia en prácticas en alguna empresa de la UE. Estos intercambios cuentan con dotación económica  gracias a las Becas Erasmus que proporcionan la UE y el Ministerio de Educación español.
        Por su parte, el programa de Movilidad No Europea permite a los estudiantes de Grado de la UC3M cursar uno o varios cuatrimestres en una de las universidades internacionales con las que la universidad mantiene acuerdos. Además cuenta con dotación económica  proporcionada por el Banco Santander y la UC3M.
        En ambos casos, las plazas se ofrecen en convocatoria pública y son adjudicadas a los estudiantes con mejor expediente que han superado el umbral de idioma (inglés, francés, alemán…) exigido por la universidad socia.
    ''',
    'working_practices': '''
        Están incluidas en los planes de estudio como asignatura obligatoria u optativa que, en la mayoría de los casos, podrá matricularse de forma ordinaria o extraordinaria.
        Su duración vendrá determinada en función de los créditos que contempla el plan de estudios.
        Podrán realizarse a lo largo de todo el curso, incluidos los periodos no lectivos.
    ''',
    'basic_skills': '''
    ''',
    'specific_skills': '''
    ''',
    'transversal_skills': '''
    ''',
    'double_degree': False,
    'schedule': 'Mañana y tarde',
    'subjects': '',
    'languages': 'Español, Inglés',
    'mentions': '''
        Computación, Ingeniería de Computadores y Sistemas de Información.
    '''
}

In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

SUBJECT_TYPE = {
    'FB': 'Formación Básica',
    'O': 'Obligatoria',
    'P': 'Optativa',
    'O-P': 'Optativa, Obligatoria',
    'TFG': 'Trabajo Fin de Grado'
}

subjects_list = []

In [5]:
degree_df = pd.DataFrame([DEGREE_DATA], columns=DEGREE_COLUMNS)
degree_df.to_csv('{}.csv'.format(DEGREE_NAME),  index=False)

In [6]:
def get_subject(url):
    page = requests.get(url, verify=False)
    soup = BeautifulSoup(page.content, 'html.parser')
    
    name = soup.select('.asignatura')[0].getText(strip=True)
    code = soup.select('.asignatura')[1].getText().replace('(', '').replace(')', '')
    subject_type = soup.select('.container-fluid > div > .col.izquierda')[0].getText(strip=True).replace('Tipo:', '')
    num_credits = float(soup.select('.container-fluid > div > .col.izquierda')[1].getText(strip=True).replace('Créditos:', '').replace('ECTS', ''))

    period = 0
    course = 0

    try:
        course_str = soup.select('.container-fluid > div > .col.izquierda')[2].getText(strip=True)
        course = int(course_str.replace('Curso:', '').replace('º', ''))
    except ValueError:
        print('course')
        print(course_str)

    try:
        period_str = soup.select('.container-fluid > div > .col.izquierda')[3].getText(strip=True)
        period = period_str.replace('Cuatrimestre:', '').replace('º', '')

        if period:
            period = int(period)

    except ValueError:
        print('period')
        print(period_str)

    languages = [] # TODO
    language = 'Español'

    panels = soup.select('.panel-heading')
    panels_body = soup.select('.panel-body')
    bibliography = ''
    content = ''

    for i in range(len(panels)):
        panel_text = panels[i].getText()
        if 'Bibliografía' in panel_text:
            bibliography = panel_text.encode()
        elif 'contenidos' in panel_text:
            content = panel_text.encode()
    
    subject_data = {
     'code': code,
     'degree_code': DEGREE_CODE,
     'name': name,
     'subject_type': subject_type,
     'num_credits': num_credits,
     'period': period,
     'course': course,
     'language': language,
     'content': content,
     'mention': '',
     'url': url,
     'bibliography': bibliography
    }
    
    subjects_list.append(subject_data)

In [7]:
def get_subjects(url):
    page = requests.get(url)
    soup = BeautifulSoup(page.content, 'html.parser')

    subjects = soup.select('td[data-label="Asignatura"] > a')

    for subject in subjects:
        subject_url = subject.get('href')
        name = subject.getText(strip=True)

        if 'Habilidades' not in name:
            get_subject(subject_url)

In [8]:
url = 'https://www.uc3m.es/grado/informatica#programa'

get_subjects(url)

















course
Curso:XXº




course
Curso:XXº




course
Curso:XXº


In [9]:
subjects_list

[{'code': '13866',
  'degree_code': 218,
  'name': 'Cálculo',
  'subject_type': 'Formación básica',
  'num_credits': 6.0,
  'period': 1,
  'course': 1,
  'language': 'Español',
  'content': b'Descripci\xc3\xb3n de contenidos: Programa',
  'mention': '',
  'url': 'https://aplicaciones.uc3m.es/cpa/generaFicha?est=218&plan=431&asig=13866&idioma=1',
  'bibliography': b'Bibliograf\xc3\xada complementaria'},
 {'code': '13867',
  'degree_code': 218,
  'name': 'Física',
  'subject_type': 'Formación básica',
  'num_credits': 6.0,
  'period': 1,
  'course': 1,
  'language': 'Español',
  'content': b'Descripci\xc3\xb3n de contenidos: Programa',
  'mention': '',
  'url': 'https://aplicaciones.uc3m.es/cpa/generaFicha?est=218&plan=431&asig=13867&idioma=1',
  'bibliography': b'Bibliograf\xc3\xada complementaria'},
 {'code': '13868',
  'degree_code': 218,
  'name': 'Programación',
  'subject_type': 'Formación básica',
  'num_credits': 6.0,
  'period': 1,
  'course': 1,
  'language': 'Español',
  'cont

In [10]:
SUBJECT_COLUMNS = ['code', 'name', 'subject_type', 'num_credits', 'period', 'course', 'language', 'content', 'mention', 'url', 'bibliography']



In [11]:
df = pd.DataFrame(subjects_list, columns=SUBJECT_COLUMNS)

In [12]:
df.head()

Unnamed: 0,code,name,subject_type,num_credits,period,course,language,content,mention,url,bibliography
0,13866,Cálculo,Formación básica,6.0,1,1,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
1,13867,Física,Formación básica,6.0,1,1,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
2,13868,Programación,Formación básica,6.0,1,1,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada b\xc3\xa1sica'
3,13870,Álgebra Lineal,Formación básica,6.0,1,1,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
4,14360,Técnicas de expresión oral y escrita,Obligatoria,3.0,1,1,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'


In [13]:
df.to_csv('{}_subjects.csv'.format(DEGREE_NAME),  index=False)

In [14]:
df.tail()

Unnamed: 0,code,name,subject_type,num_credits,period,course,language,content,mention,url,bibliography
171,15761,Seguridad en dispositivos móviles,Obligatoria,6.0,2.0,4,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
172,13895,Trabajo Fin de Grado,Trabajo fin de Grado,12.0,,0,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
173,15809,Diseño y administración de bases de datos,Obligatoria,6.0,2.0,4,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
174,15760,Recuperación y acceso a la información,Obligatoria,6.0,2.0,4,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
175,13895,Trabajo Fin de Grado,Trabajo fin de Grado,12.0,,0,Español,b'Descripci\xc3\xb3n de contenidos: Programa',,https://aplicaciones.uc3m.es/cpa/generaFicha?e...,b'Bibliograf\xc3\xada complementaria'
