<a href="https://colab.research.google.com/github/RussellParadox/Machine_Learning/blob/main/Pages/Premier_Essai_Notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Extract Transform Load

> Mise en oeuvre d'une extraction de données web

## Extract

Comme son nom l'indique, le package `requests` permet d'envoyer des requêtes à des serveurs web afin d'en récupérer le code HTML. Essayons de récupérer l'ensemble des entreprises pouvant fournir au Canada des services, des solutions et des produits d’IA efficaces et responsables :

In [13]:
import requests

url = "https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/utilisation-responsable-ai/liste-fournisseurs-intelligence-artificielle-ia-interesses.html"
page = requests.get(url)

print(page.content)

b'<!doctype html>\n\n\n<html class="no-js" dir="ltr" lang="fr" xmlns="http://www.w3.org/1999/xhtml">\n\n<head prefix="og: http://ogp.me/ns#">\n    \n<meta http-equiv="X-UA-Compatible" content="IE=edge"/>\n<meta charset="utf-8"/>\n<title>Liste des fournisseurs d\xe2\x80\x99intelligence artificielle (IA) int\xc3\xa9ress\xc3\xa9s  - Canada.ca</title>\n<meta content="width=device-width,initial-scale=1" name="viewport"/>\n\n\n\t<link rel="schema.dcterms" href="http://purl.org/dc/terms/"/>\n\t<link rel="canonical" href="https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/utilisation-responsable-ai/liste-fournisseurs-intelligence-artificielle-ia-interesses.html"/>\n    <link rel="alternate" hreflang="fr" href="https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/utilisation-responsable-ai/liste-fournisseurs-intelligence-artificielle-ia-interesses.html"/>\n\t\n        <link rel="alt

Maintenant que nous avons récupéré une page web, nous pouvons y **extraire** les informations qui nous intéresse. Le package `bs4` va nous aider dans cette tâche :

In [27]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page.content, 'html.parser')
table = soup.find('table')

table_head = table.find('thead').find_all('th')
table_head = [head.get_text() for head in table_head]

ai_suppliers_html = soup.find('tbody').find_all('tr')

print(table_head)
print(ai_suppliers_html)

['Nom de  l’entreprise', 'Type  d’entreprise', 'Secteur', 'Étape', 'Administration  centrale', 'Catégorie', 'Engagement des fournisseurs']
[<tr>
<td>L3 Technologies MAS Inc.</td>
<td>Experts-conseils</td>
<td>Défense</td>
<td>Entreprise</td>
<td>Mirabel (Québec)</td>
<td>1</td>
<td>à venir</td>
</tr>, <tr>
<td>Koan Analytics Inc.</td>
<td>Logiciel</td>
<td>Solutions d’IA</td>
<td>Moyenne</td>
<td>Victoria (Colombie-Britannique)</td>
<td>2</td>
<td>à venir</td>
</tr>, <tr>
<td>SkyHive Technologies Inc.</td>
<td>Logiciel</td>
<td>Solutions de données</td>
<td>Entreprise</td>
<td>Vancouver (Colombie-Britannique)</td>
<td>3</td>
<td>à venir</td>
</tr>, <tr>
<td>MasterCard Canada ULC</td>
<td>Experts-conseils</td>
<td>Services financiers</td>
<td>Entreprise</td>
<td>Vancouver (Colombie-Britannique)</td>
<td>1</td>
<td>à venir</td>
</tr>, <tr>
<td>Public Sector Consulting (PSC)</td>
<td>Experts-conseils</td>
<td>Services de la TI</td>
<td>Démarrage</td>
<td>Toronto (Canada)</td>
<td>1</td>
<

La partie extraction se termine sur une récupération des données plus facilement exploitable pour les étapes suivantes :

In [28]:
ai_suppliers = []
for tr in ai_suppliers_html:
    td = tr.find_all('td')
    ai_supplier = {}
    for i in range(7):
        ai_supplier[table_head[i]] = td[i].get_text()
    ai_suppliers.append(ai_supplier)

print(ai_suppliers)

[{'Nom de  l’entreprise': 'L3 Technologies MAS Inc.', 'Type  d’entreprise': 'Experts-conseils', 'Secteur': 'Défense', 'Étape': 'Entreprise', 'Administration  centrale': 'Mirabel (Québec)', 'Catégorie': '1', 'Engagement des fournisseurs': 'à venir'}, {'Nom de  l’entreprise': 'Koan Analytics Inc.', 'Type  d’entreprise': 'Logiciel', 'Secteur': 'Solutions d’IA', 'Étape': 'Moyenne', 'Administration  centrale': 'Victoria (Colombie-Britannique)', 'Catégorie': '2', 'Engagement des fournisseurs': 'à venir'}, {'Nom de  l’entreprise': 'SkyHive Technologies Inc.', 'Type  d’entreprise': 'Logiciel', 'Secteur': 'Solutions de données', 'Étape': 'Entreprise', 'Administration  centrale': 'Vancouver (Colombie-Britannique)', 'Catégorie': '3', 'Engagement des fournisseurs': 'à venir'}, {'Nom de  l’entreprise': 'MasterCard Canada ULC', 'Type  d’entreprise': 'Experts-conseils', 'Secteur': 'Services financiers', 'Étape': 'Entreprise', 'Administration  centrale': 'Vancouver (Colombie-Britannique)', 'Catégorie'

## Transform

Procédons désormais à la **transformation** de ces données, de sorte à ne récupérer que les informations que nous voulons. Ici seules les entreprises situées au Québec nous intéressent :

In [30]:
quebec_ai_suppliers = [ supplier for supplier in ai_suppliers if 'Québec' in supplier['Administration  centrale']]

print(quebec_ai_suppliers)

[{'Nom de  l’entreprise': 'L3 Technologies MAS Inc.', 'Type  d’entreprise': 'Experts-conseils', 'Secteur': 'Défense', 'Étape': 'Entreprise', 'Administration  centrale': 'Mirabel (Québec)', 'Catégorie': '1', 'Engagement des fournisseurs': 'à venir'}, {'Nom de  l’entreprise': 'Apox / Baseline en coentreprise', 'Type  d’entreprise': 'Logiciel', 'Secteur': 'Solutions d’IA – Général', 'Étape': 'Démarrage', 'Administration  centrale': 'Québec (Québec)', 'Catégorie': '3', 'Engagement des fournisseurs': 'à venir'}, {'Nom de  l’entreprise': 'Alithya Group Inc.', 'Type  d’entreprise': 'Experts-conseils', 'Secteur': 'Services de la TI ', 'Étape': 'Public', 'Administration  centrale': 'Québec (Québec)', 'Catégorie': '1', 'Engagement des fournisseurs': 'oui'}, {'Nom de  l’entreprise': 'Dataperformers Company Inc.', 'Type  d’entreprise': 'Logiciel ', 'Secteur': 'Solutions d’IA – Général ', 'Étape': 'Démarrage', 'Administration  centrale': 'Montréal (Québec)', 'Catégorie': '3', 'Engagement des fourni

## Load

La dernière étape consiste à **charger** ces données. Pour notre projet les récupérer au format CSV semble adapté :

In [34]:
import csv

with open('data/ETL/suppliers.csv', 'w') as file:
    writer = csv.DictWriter(file, fieldnames=list(quebec_ai_suppliers[0].keys()))

    writer.writeheader()
    writer.writerows(quebec_ai_suppliers)