#Beautiful Soup Demo

This Beautiful Demo was created by Jean-Sébastien Marier. It is based on Codecademy's [Learn Web Scraping with Beautiful Soup](https://www.codecademy.com/enrolled/courses/learn-web-scraping) course. This script will extract a [list of the undergraduate programs](https://catalogue.uottawa.ca/en/programs/) offered by the University of Ottawa. Please note that this is by no means a comprehensive data extraction. It is merely an example to show a basic Beautiful Soup workflow.

#Démonstration Beautiful Soup

Cette démonstration de Beautiful Soup a été créée par Jean-Sébastien Marier. Elle est basée sur le cours [Learn Web Scraping with Beautiful Soup](https://www.codecademy.com/enrolled/courses/learn-web-scraping) de Codecademy. Ce script extraira une [liste des programmes de premier cycle](https://catalogue.uottawa.ca/en/programs/) offerts par l'Université d'Ottawa. Veuillez noter que cette extraction de données n'est pas exhaustive. Il s'agit simplement d'un exemple d'un flux de travail simple avec Beautiful Soup.

In [37]:
#Let's import the required libraries and define our web page.
#Commençons par importer les bibliothèques requises et définir notre page web.

import requests
from bs4 import BeautifulSoup

webpage = requests.get("https://catalogue.uottawa.ca/en/programs/")
print(webpage.text)



<!doctype html>
<html class="no-js" xml:lang="en" lang="en" dir="ltr">

<head>
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<title>Programs &lt; uOttawa</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<link rel="search" type="application/opensearchdescription+xml"
			href="/search/opensearch.xml" title="Catalog" />
<meta name="viewport" content="width=device-width, initial-scale=1.0, minimum-scale=1.0" />
<link href="/favicon.ico" rel="shortcut icon" />
<link rel="stylesheet" type="text/css" href="/css/reset.css" />
<link href="https://fonts.googleapis.com/css?family=Roboto:400,400i,500,500i,700,700i" rel="stylesheet">
<link rel="stylesheet" type="text/css" href="/fonts/font-awesome/font-awesome.min.css" />
<link rel="stylesheet" type="text/css" href="/css/courseleaf.css" />
<link rel="stylesheet" type="text/css" href="/css/screen.css?v=011223" media="screen" />
<link rel="stylesheet" type="text/css" href="/css/filters.css" />
<link rel="style

In [None]:
#Let's parse our page's content.
#Analysons le contenu de notre page.

webpage_content = webpage.content

soup = BeautifulSoup(webpage_content, "html.parser")
print(soup)


<!DOCTYPE html>

<html class="no-js" dir="ltr" lang="en" xml:lang="en">
<head>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<title>Programs &lt; uOttawa</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<link href="/search/opensearch.xml" rel="search" title="Catalog" type="application/opensearchdescription+xml"/>
<meta content="width=device-width, initial-scale=1.0, minimum-scale=1.0" name="viewport"/>
<link href="/favicon.ico" rel="shortcut icon"/>
<link href="/css/reset.css" rel="stylesheet" type="text/css"/>
<link href="https://fonts.googleapis.com/css?family=Roboto:400,400i,500,500i,700,700i" rel="stylesheet"/>
<link href="/fonts/font-awesome/font-awesome.min.css" rel="stylesheet" type="text/css">
<link href="/css/courseleaf.css" rel="stylesheet" type="text/css"/>
<link href="/css/screen.css?v=011223" media="screen" rel="stylesheet" type="text/css"/>
<link href="/css/filters.css" rel="stylesheet" type="text/css"/>
<link href="/css/print.css" me

In [None]:
#Now, we will extract the HTML elements with the names of the programs. We are looking for <span> tags with the class "title."
#Maintenant, nous allons extraire les éléments HTML qui contiennent les noms des programmes. Nous recherchons des balises <span> avec la classe « titre ».

programs = soup.find_all(attrs={"class":"title"})
print(programs)

[<span class="title">Advanced Minor in English as a Second Language (ESL)</span>, <span class="title">Advanced Minor in French as a Second Language (FLS)</span>, <span class="title">African Studies Option</span>, <span class="title">B.A. spécialisé bidisciplinaire en communication et lettres françaises</span>, <span class="title">B.A. spécialisé Lettres françaises</span>, <span class="title">B.A. spécialisé Lettres françaises et Baccalauréat en éducation</span>, <span class="title">B.Sc. spécialisé Sciences et Baccalauréat en éducation - Cycles intermédiaire/supérieur</span>, <span class="title">Baccalauréat spécialisé en sciences de l'activité physique - éducation et coaching et Formation à l'enseignement - Cycles intermédiaire/supérieur</span>, <span class="title">Baccalauréat spécialisé en sciences de l'activité physique - éducation et coaching et Formation à l'enseignement - Cycles moyen/intermédiaire</span>, <span class="title">Baccalauréat spécialisé en sciences de l'activité phy

In [38]:
#Lastly, let's do a loop that will extract the names of the programs from the HTML tags.
#Enfin, faisons une boucle qui extraira les noms des programmes des balises HTML.

for programnames in programs:
    print(programnames.text, programnames.next_sibling)

Advanced Minor in English as a Second Language (ESL) None
Advanced Minor in French as a Second Language (FLS) None
African Studies Option None
B.A. spécialisé bidisciplinaire en communication et lettres françaises None
B.A. spécialisé Lettres françaises None
B.A. spécialisé Lettres françaises et Baccalauréat en éducation None
B.Sc. spécialisé Sciences et Baccalauréat en éducation - Cycles intermédiaire/supérieur None
Baccalauréat spécialisé en sciences de l'activité physique - éducation et coaching et Formation à l'enseignement - Cycles intermédiaire/supérieur None
Baccalauréat spécialisé en sciences de l'activité physique - éducation et coaching et Formation à l'enseignement - Cycles moyen/intermédiaire None
Baccalauréat spécialisé en sciences de l'activité physique - éducation et coaching et Formation à l'enseignement - Cycles primaire/moyen None
Bachelor of Arts in Interdisciplinary Studies None
Bachelor of Fine Arts (BFA) None
Bachelor of Fine Arts in Acting				 None
Bachelor of Mu