In [1]:
from requests import get
from bs4 import BeautifulSoup
import urllib.request as urllib
import re

In [2]:
def clean_answer(input_text):
    """function that cleans the answer texts"""  
    answer = input_text.strip('\n')
    answer = answer.replace('\n',' ')
    return answer  

In [3]:
def clean_links(link_list):
    '''function that cleans links depending on their target location'''
    clean_links = []
    
    for link in link_list:
        if link == None: # no link in answer
            clean_links.append(None)
            pass
        
        else:
            link = link['href']
            if link[0] == '?': # target is sub page of the faq
                f_link = 'https://www.rug.nl/education/faq/' + link
                clean_links.append(f_link)
            
            elif link[0] == '/': # target is sub page of the rug site
                f_link = 'https://www.rug.nl' + link
                #print(f_link)
                clean_links.append(f_link)
            
            else: # target is a different link
                clean_links.append(link)
                #print(link)

    return clean_links

In [4]:
def retrieve_data(question_list, answer_list, link_list, url, heading_list):
    """function retrieves questions and answers from the specific RUG pages"""
    response = get(url)
    html_soup = BeautifulSoup(response.text, 'html.parser')
    data = html_soup.findAll('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
    
    for links in data:
        link = links.findAll('a')
        
        for a in link:
            if a['href'][0] == "?": #check if link is an internal one
                current_url = 'https://www.rug.nl/education/faq/'+a['href']
                response = get(current_url)
                html_soup = BeautifulSoup(response.text, 'html.parser')
                questions = html_soup.find_all(['h2'])
                content = html_soup.findAll('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
                s_content = html_soup.find('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
                
                if len(content) == len(questions): #check structure of current questions and answers
                    for question, answer in zip(questions, content):      
                        if question.text in heading_list: #check if question contains sub questions
                            links = answer.find_all('a')

                            #access the subquestions
                            for a in links:
                                q = a.text
                                
                                if a['href'][0] == "?":
                                    current_url = 'https://www.rug.nl/education/faq/'+a['href']
                                else: 
                                    current_url = a['href']

                                response = get(current_url)
                                html_soup = BeautifulSoup(response.text, 'html.parser')
                                ans = html_soup.find('div',{'class':'rug-clearfix rug-theme--content rug-mb'})

                                #catch errors when external page is formatted differently
                                try:
                                    answer = clean_answer(ans.text)
                                    ans_link = ans.a
                                    link_list.append(ans_link)
                                    answer_list.append(answer)
                                    question_list.append(q)
                                
                                #Structure of external url is different
                                except(AttributeError, KeyError) as error: 
                                    ans = html_soup.find(['p'])
                                    ans_link = ans.a
                                    link_list.append(ans_link)
                                    answer = clean_answer(ans.text)
                                    answer_list.append(answer)
                                    question_list.append(q)
                        else:      
                            question_list.append(question.text)
                            ans_link = answer.a
                            link_list.append(ans_link)
                            answer = clean_answer(answer.text)
                            answer_list.append(answer)   
                            
                else:
                    question = html_soup.find(['h1'])
                    question_list.append(question.text)
                    ans_link = s_content.a
                    link_list.append(ans_link)
                    answer = clean_answer(s_content.text)
                    answer_list.append(answer)
                    
            else:
                question = a.text
                ans_link = links.a
                link_list.append(ans_link)
                answer = clean_answer(links.text)
                question_list.append(question)
                answer_list.append(answer)
        
    return question_list, answer_list, link_list


In [5]:
def write_aiml_file(question_list, answer_list, clean_links):
    '''function that automatically generates aiml file from questions, answers and links in answers'''
    
    with open('aiml_base_kar.aiml', 'w') as f:
        for vraag, antwoord, link in zip(question_list, answer_list, clean_links):

            if link is not None: # there is a link in the answer
                f.write('<category>'+'\n'+ '<pattern>'+ '\n'+ vraag+ '\n'+ '</pattern>'+'\n'+
                '<template>'+ '\n'+ antwoord + '\n'+ '<button>' + '\n' + '<text>' + '\n'+ 'Klik hier' 
                + '\n' + '</text>' + '\n' + '<url>'+ '\n' +link+ '\n' + '</url>' + '\n' + '</button>' + '\n' '</template>'+'\n'+'</category>'+'\n'+'\n')

            else:
                f.write('<category>'+'\n'+
              '<pattern>'+ '\n'+ vraag+ '\n'+ '</pattern>'+'\n'+
              '<template>'+ '\n'+ antwoord+ '\n'+ '</template>'+'\n'+
              '</category>'+'\n')
    f.close()

In [6]:
url_list = ['https://www.rug.nl/education/faq/?tcid=verint_3_7394_7394',
            'https://www.rug.nl/education/faq/?tcid=verint_3_7395_7395',
            'https://www.rug.nl/education/faq/?tcid=verint_10_7396_7396']

heading_list = []

for url in url_list:
    html_page = urllib.urlopen(url)
    soup = BeautifulSoup(html_page,'html.parser')
    for h in soup.findAll('h2'):
        heading_list.append(h.text)

print(heading_list)

['Aanmelding en toelating', 'Inschrijven', 'Herinschrijven', 'Uitschrijven', 'Studielink', 'Meer informatie ...', 'Collegegeld', 'Financiële ondersteuning', 'Profileringsfonds', 'Studiefinanciering (DUO)', 'Studiebeurzen', 'Studiekosten', 'Bachelor studenten', 'Master studenten', 'Exchange studenten']


In [7]:
question_list = []
answer_list = []
link_list = []

for url in url_list:
    question_list, answer_list, link_list = retrieve_data(question_list, answer_list, link_list, url, heading_list)


In [8]:
clean_links = clean_links(link_list)
write_aiml_file(question_list, answer_list, clean_links)

In [28]:
for vraag in question_list:
    question_list[question_list.index(vraag)] = vraag.replace('?', '')    

['Wat is het verschil tussen aanmelden en inschrijven', 'Hoe meld ik me aan voor een bacheloropleiding', 'Hoe meld ik me aan voor een masteropleiding', 'Ik heb me aangemeld via Studielink. Wat moet ik nu doen', 'Wat moet ik doen als mijn persoonsgegevens volgens Studielink niet gecontroleerd kunnen worden', 'Wat moet ik doen als er iets mis gaat met mijn aanmelding via Studielink', 'Welke opleidingen geven rechtstreeks toelating tot de universiteit', 'VWO vooropleiding', 'HBO vooropleiding (bachelor en propedeuse)', 'Buitenlandse vooropleiding', 'Andere vooropleiding', 'Universitaire bachelor', 'Wat is een numerus fixusopleiding', 'Voor welke opleidingen aan de Rijksuniversiteit Groningen is er een selectie', 'Hoe zit het met de matching', 'Aanmelden numerus fixusopleiding', 'Selectiepogingen', 'Voor welke datum moet ik mij aanmelden in Studielink', 'Uitslag en bewijs van toelating', 'Waar vind ik meer informatie over de selectie', 'Hoe kan ik bezwaar aantekenen', 'Wat is matching en w

In [49]:
for antwoord in answer_list:
    if re.search('Stel je vraag', antwoord):
        answer_list[answer_list.index(antwoord)] = re.sub('\Stel je vraag$', '', antwoord)
    else:
        pass


yes
yes
["Aanmelden en inschrijven zijn twee verschillende acties. Je meldt je via Studielink aan voor een opleiding. Je wordt pas ingeschreven als je alle stappen van de inschrijfprocedure hebt doorlopen.  Informatie over de inschrijfprocedures voor Nederlandse studenten vind je op de onderstaande pagina's op onze website:   Bachelor aanmelding en inschrijving   Master aanmelding en inschrijving      ", 'Informatie over de inschrijfprocedure voor Nederlandse studenten vind je op de pagina Inschrijfprocedure bacheloropleiding op onze website.  Informatie over de inschrijfprocedure voor internationale studenten\xa0en Nederlandse studenten met een buitenlandse vooropleiding vind je op de pagina Admissions guide op onze website.    ', 'Informatie over de inschrijfprocedure voor Nederlandse studenten vind je op de pagina Inschrijfprocedure masteropleiding op onze website.  Informatie over de inschrijfprocedure voor internationale studenten\xa0en Nederlandse studenten met een buitenlandse v

In [9]:
#inspect questions and answers
for vraag, antwoord in zip(question_list, answer_list):
    print(vraag,antwoord,'\n')

Wat is het verschil tussen aanmelden en inschrijven? Aanmelden en inschrijven zijn twee verschillende acties. Je meldt je via Studielink aan voor een opleiding. Je wordt pas ingeschreven als je alle stappen van de inschrijfprocedure hebt doorlopen.  Informatie over de inschrijfprocedures voor Nederlandse studenten vind je op de onderstaande pagina's op onze website:   Bachelor aanmelding en inschrijving   Master aanmelding en inschrijving      Stel je vraag 

Hoe meld ik me aan voor een bacheloropleiding? Informatie over de inschrijfprocedure voor Nederlandse studenten vind je op de pagina Inschrijfprocedure bacheloropleiding op onze website.  Informatie over de inschrijfprocedure voor internationale studenten en Nederlandse studenten met een buitenlandse vooropleiding vind je op de pagina Admissions guide op onze website.    Stel je vraag 

Hoe meld ik me aan voor een masteropleiding? Informatie over de inschrijfprocedure voor Nederlandse studenten vind je op de pagina Inschrijfproced

In [None]:
#Gijs

#add headings which contain sub_links to this list
heading_list = ["Aanmelding- en selectieprocedure","Onderwijs - honoursprogramma","Bindend Studieadvies (BSA)", 
                "Studeren met een functiebeperking", "Studiedips en andere studieproblemen.", "Studiekeuze", 
                "Studievertraging", "Honours College", "Academische ontwikkeling", "Titulatuur / graden", "Alumni"] 

#currently contains 3 start pages: Aanmelden, in en uit-schrijven; geldzaken and immigratie 
url_list = ['https://www.rug.nl/education/faq/?tcid=verint_3_7394_7394', 'https://www.rug.nl/education/faq/?tcid=verint_3_7395_7395', 
            'https://www.rug.nl/education/faq/?tcid=verint_10_7396_7396']


In [None]:
# Iris

url_list = ['https://www.rug.nl/education/faq/?tcid=verint_3_7400_7400',
            'https://www.rug.nl/education/faq/?tcid=verint_3_7402_7402', 
            'https://www.rug.nl/education/faq/?tcid=verint_3_7401_7401']

heading_list =['Adressen en openingstijden', 'Voorzieningen', 'Formulieren (overzicht)', 
                'Aanvragen verklaringen (student)', 'Regelingen (overzicht)', 'Handleidingen (overzicht)']

In [None]:
#inspect questions and answers
for vraag, antwoord in zip(question_list, answer_list):
    print(vraag,antwoord,'\n')

In [None]:
#inspect questions and answers
for vraag, antwoord in zip(question_list, answer_list):
    print('<category>'+'\n'+
          '<pattern>'+ '\n'+ vraag+ '\n'+ '</pattern>'+'\n'+
          '<template>'+ '\n'+ antwoord+ '\n'+ '</template>'+'\n'+
          '</category>'+'\n')
    #print(aiml)

#total_aiml ='<?xml version="1.0" encoding="UTF-8"?>', '\nl','<aiml version="2.0">', '\n', aiml, '\n','</aiml>'
#print(total_aiml)
    

In [None]:
html_page = urllib.urlopen("https://www.rug.nl/education/faq/")
soup = BeautifulSoup(html_page,'html.parser')
#print(soup.prettify())
                       
#link = soup.findAll("a", {"class": re.compile("rug-link--caret")})

#https://www.rug.nl/education/faq/?tcid=verint_3_7394_7526
new_url = []

#soup = BeautifulSoup(html_page)
for link in soup.findAll('a', {'class': "rug-link--caret"}):
    if len(link.get('class')) == 1:
        new_url.append(link.get('href'))

new_url

In [None]:
address = "https://www.rug.nl/education/faq/" + link_vraag[0]
html_page = urllib.urlopen(address)
soup = BeautifulSoup(html_page,'html.parser')


for answer in soup.findAll('div', {'class':"rug-clearfix rug-theme--content rug-mb"}):
    if re.search('vraag', answer.text):
        ans = answer.text.replace('Stel je vraag', '')
        print(ans)
        antwoord.append(ans)
        
        
print(antwoord)
        

            

    

In [None]:
# Deze print alle vragen en antwoorden van de websites in new_url. Ik moet nog losse lijsten maken dus dat
# je per nieuwe url (subonderwerp) een lijst met vragen en een lijst met antwoorden hebt. Die lijsten voeg je weer
# aan 

html = []

vragen_all = []
link_vraag_all = []
antwoord_all = []

i=0
for l in new_url:
    address = "https://www.rug.nl/education/faq/" + l
    print("Questions from:", address)
    html_page = urllib.urlopen(address)
    soup = BeautifulSoup(html_page,'html.parser')
    
    vragen = []
    link_vraag = []
    antwoord = []

    for vraaglijst in soup.findAll('div', {'class': "rug-clearfix rug-theme--content rug-mb"}):
        html.append(vraaglijst)


    for vraag in html:
        for vraaglink in vraag.findAll('a'):
            vlink = vraaglink.get('href')
            vtext = vraaglink.text
            link_vraag.append(vlink)
            vragen.append(vtext)

    for link in link_vraag:
        #print(vragen[link_vraag.index(link)])
        #print(i)
        i+=1
        address = "https://www.rug.nl/education/faq/" + link
        #print(address)
        html_page = urllib.urlopen(address)
        soup = BeautifulSoup(html_page,'html.parser')


        for answer in soup.findAll('div', {'class':"rug-clearfix rug-theme--content rug-mb"}):
            if re.search('vraag', answer.text) == None:
                #print(answer.text)
                antwoord.append(answer.text)
                
    vragen_all.append(vragen)
    link_vraag_all.append(link_vraag)
    antwoord_all.append(antwoord)

    
len(vragen_all)
len(link_vraag_all)
len(antwoord_all)

In [None]:
vragen = []
link_vraag = []
antwoord = []

html = []



address = "https://www.rug.nl/education/faq/" + new_url[0]
html_page = urllib.urlopen(address)
soup = BeautifulSoup(html_page,'html.parser')

for vraaglijst in soup.findAll('div', {'class': "rug-clearfix rug-theme--content rug-mb"}):
    html.append(vraaglijst)

    
for vraag in html:
    for vraaglink in vraag.findAll('a'):
        vlink = vraaglink.get('href')
        vtext = vraaglink.text
        link_vraag.append(vlink)
        vragen.append(vtext)

print(vragen)

    

In [None]:
## get question links of page

address = "https://www.rug.nl/education/faq/" + new_url[0]
html_page = urllib.urlopen(address)
soup = BeautifulSoup(html_page,'html.parser')

vraag = []
link_vraag = []
antwoord = []

for link in soup.find('div', {'class': "rug-clearfix rug-theme--content rug-mb"}).findAll('a'):
    vraag.append(link.text)
    link_vraag.append(link.get('href'))
    
print(vraag)
print(link_vraag)

In [None]:
def retrieve_data(question_list, answer_list,url,heading_list):
    """function retrieves questions and answers from the specific RUG pages"""
    response = get(url)
    html_soup = BeautifulSoup(response.text, 'html.parser')
    data = html_soup.findAll('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
    
    for links in data:
        link = links.findAll('a')
        
        for a in link:
            if a['href'][0] == "?": #check if link is an internal one
                current_url = 'https://www.rug.nl/education/faq/'+a['href']
                response = get(current_url)
                html_soup = BeautifulSoup(response.text, 'html.parser')
                questions = html_soup.find_all(['h2'])
                content = html_soup.findAll('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
                s_content = html_soup.find('div',{'class':'rug-clearfix rug-theme--content rug-mb'})
                
                if len(content) == len(questions): #check structure of current questions and answers
                    for question, answer in zip(questions, content):      
                        if question.text in heading_list: #check if question contains sub questions
                            links = answer.find_all('a')

                            #access the subquestions
                            for a in links:
                                q = a.text
                                
                                if a['href'][0] == "?":
                                    current_url = 'https://www.rug.nl/education/faq/'+a['href']
                                else: 
                                    current_url = a['href']

                                response = get(current_url)
                                html_soup = BeautifulSoup(response.text, 'html.parser')
                                ans = html_soup.find('div',{'class':'rug-clearfix rug-theme--content rug-mb'})

                                #catch errors when external page is formatted differently
                                try:
                                    if re.search('Stel je vraag', ans.text) == True:
                                        print('check1')
                                        answer = clean_answer(ans.text)
                                        answer = answer.replace('Stel je vraag', '')
                                        answer_list.append(answer)
                                        question_list.append(q)
                                
                                #Structure of external url is different
                                except(AttributeError, KeyError) as error: 
                                    ans = html_soup.find(['p'])
                                    if re.search('Stel je vraag', ans.text) == True:
                                        print('check2')
                                        answer = clean_answer(ans.text)
                                        answer = answer.replace('Stel je vraag', '')
                                        answer_list.append(answer)
                                        question_list.append(q)
                        else:
                            if re.search('Stel je vraag', answer.text) == True:
                                print('check3')
                                question_list.append(question.text)
                                answer = clean_answer(answer.text)
                                answer = answer.replace('Stel je vraag', '')
                                answer_list.append(answer)   
                            
                else:
                    if re.search('Stel je vraag', s_content.text) == True:
                        print('check4')
                        question = html_soup.find(['h1'])
                        question_list.append(question.text)
                        answer = clean_answer(s_content.text)
                        answer = answer.replace('Stel je vraag', '')
                        answer_list.append(answer)
                    
            else:
                if re.search('Stel je vraag', links.text) == True:
                    print('check5')
                    question = a.text
                    answer = clean_answer(links.text)
                    answer = answer.replace('Stel je vraag', '')
                    question_list.append(question)
                    answer_list.append(answer)
        
    return question_list, answer_list


In [None]:
print(len(vraag))