# Webscrapping my university's website

This code is a full webscrapping process from accessing a website to transforming its data to a csv file with :

1. requests
2. BeautifulSoup
3. pandas

We will work on my universty's "ISTIC" website to scrap some data automatically 
First install missing libraries :

In [1]:
!pip install requests



In [None]:
import pandas as pd
from bs4 import BeautifulSoup as soup
from urllib.request import Request, urlopen
import  requests
import csv

## Go to website and parse the page with BeautifulSoup

In [7]:
# Add the webpage url
url = "http://www.istic.rnu.tn/fr/presentation/presentation.html"

# Send a Request to the url and return an html file
Req = requests.get(url)

# BeautifulSoupto parse html page with webpage
html_parsed = soup(Req.text, "html.parser")

## Explore the webpage

In [8]:
# Print Title tag 
print(html_parsed.title.text)


Présentation de l'ISTIC


In [6]:
# Print head of page
page_head = html_parsed.head.text
print( page_head)














Présentation de l'ISTIC



















































 


In [33]:
# Print body of page
page_body = html_parsed.body.text
print(page_body)











 



 



 














ISTIC


AccueilPrésentation

Présentation de l'ISTICMot du DirecteurDépartementsCorps enseignantCorps administratifOrganigrammeStatistiquesInfrastructure

LaboratoiresMatérielBibliothèque

Coopération InternationaleCoopération Nationale

Formation

LicencesLicencesMastèresMastère de Recherche

ConsultationInscription

Mastère professionnel

ConsultationInscription

DoctoratEcole DoctoraleAutresFormation ContinueEnseignement à distance

Recherche ScientifiqueEspace Entreprise

Déposer une offreConsulter les offres

Vie Universitaire

ISTIC DEV SPACEISTIC Robotics Club

ContactENT
 






Présentation de l'ISTIC








  

L’ISTIC est une institution universitaire publique créée par les décrets n° 2011-1010 du 24 août 2011 et n° 1645 de 2012, sous tutelle de l’Université de Carthage. Implanté dans le site du park de Borj cedria, l'institut dispense une formation de haut niveau dans les domaines de technologies de l’information et de la communication, 

## Get data from the parsed html

In [5]:
# Get the events table 
events= html_parsed.find('div', class_='box tarek')
content = events.find_all('a')
# Print raw content of table
print(content)

[<a href="/fr/evenements/35-evenements/convetion-istic-bourse-des-valeurs.html" title="Convetion ISTIC Bourse des valeurs">Convetion ISTIC Bourse des valeurs</a>, <a href="/fr/evenements/35-evenements/28-etudiants-entrepreneurs-de-l-istic.html" title="28 Etudiants Entrepreneurs de l'ISTIC">28 Etudiants Entrepreneurs de l'ISTIC</a>, <a href="/fr/evenements/35-evenements/convention-istic-lapresse.html" title="Convention ISTIC LaPresse">Convention ISTIC LaPresse</a>, <a href="/fr/evenements/35-evenements/formation-pour-les-étudiants-des-troisièmes-années-mastères-m2.html" title="Formation sur les systèmes RADAR">Formation sur les systèmes RADAR</a>]


As you can see the data needs to be cleaned 

In [27]:
# Create empty lists
event_links = []
event_names=[]

# Extract data from 'a' and store in lists 
links = events.select('a')
for ahref in links:
    text = ahref.text 
    text = text.strip() if text is not None else ''

    href = ahref.get('href')
    href = href.strip() if href is not None else ''
    event_links.append(href)
    event_names.append(text)
    
# Print new clean data
print("The list of event links is : {}".format(event_links))
print("The list of event names is : {}".format(event_names))

The list of event links is : ['/fr/evenements/35-evenements/convetion-istic-bourse-des-valeurs.html', '/fr/evenements/35-evenements/28-etudiants-entrepreneurs-de-l-istic.html', '/fr/evenements/35-evenements/convention-istic-lapresse.html', '/fr/evenements/35-evenements/formation-pour-les-étudiants-des-troisièmes-années-mastères-m2.html']
The list of event names is : ['Convetion ISTIC Bourse des valeurs', "28 Etudiants Entrepreneurs de l'ISTIC", 'Convention ISTIC LaPresse', 'Formation sur les systèmes RADAR']


Now do the same for event dates

In [13]:
# Get div that contains the dates 
content_dates = events.find_all('time')

# Print raw data
print(content_dates)

[<time data-start="2021-04-07" datetime="2021-04-07" style="text-align:center !important;">07<small>04 / 21</small></time>, <time data-start="2021-03-06" datetime="2021-03-06" style="text-align:center !important;">06<small>03 / 21</small></time>, <time data-start="2021-01-27" datetime="2021-01-27" style="text-align:center !important;">27<small>01 / 21</small></time>, <time data-start="2020-08-26" datetime="2020-08-26" style="text-align:center !important;">26<small>08 / 20</small></time>]


In [28]:
# Create top_items as empty list for datess
event_date = []

# Extract and store in event_date
events_dates = events.find_all('time')
for d in events_dates:
    text = d.text
    text = text.strip() if text is not None else ''

    date = d.get('data-start')
    date_d = date.strip() if date is not None else ''
    event_date.append(date_d)
    
# Print final result
print("The list of event dates is : {}".format(event_date))


The list of event dates is : ['2021-04-07', '2021-03-06', '2021-01-27', '2020-08-26']


## Store data in csv file 

In [36]:
df = pd.DataFrame({'EventName' : event_names, 'EventUrl': event_links, 'EventDate': event_date})
df.to_csv('events.csv', index=False, encoding='utf-8')
print(df)

                               EventName  \
0     Convetion ISTIC Bourse des valeurs   
1  28 Etudiants Entrepreneurs de l'ISTIC   
2              Convention ISTIC LaPresse   
3       Formation sur les systèmes RADAR   

                                            EventUrl   EventDate  
0  /fr/evenements/35-evenements/convetion-istic-b...  2021-04-07  
1  /fr/evenements/35-evenements/28-etudiants-entr...  2021-03-06  
2  /fr/evenements/35-evenements/convention-istic-...  2021-01-27  
3  /fr/evenements/35-evenements/formation-pour-le...  2020-08-26  
