## Activité 2 : Scraper l'agenda de Datacraft avec Selenium corrigé

<div style="text-align: center;">
    <img src="../images/agenda_datacraft.png" width="600" height="300">
</div>

Pour cette deuxième activité, nous allons scraper l'agenda datacraft : https://datacraft.paris/agenda/

Ce que nous voulons, c'est constituer un DataFrame avec les colonnes suivantes : `event_title`, `date`, `hour`, `adress`.

#### Import des modules

In [1]:
# Import des bibliothèques
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time
import pandas as pd

#### Etablir la connexion avec le site

In [2]:
# Création d'une instance des options Chrome
chrome_options = Options()
# Définition des options Chrome 
chrome_options.add_argument('--disable-search-engine-choice-screen') 
chrome_options.add_argument('--disable-infobars')
# Création d'une nouvelle instance du navigateur Chrome avec les options spécifiées
driver = webdriver.Chrome(options=chrome_options)
# On renseigne l'URL que l'on veut scraper et on l'injecte dans le driver :
url = "https://datacraft.paris/agenda/"
driver.get(url)

On attend que la page s'ouvre et charge complètement.

#### Identification et sélection des éléments

In [3]:
event_title = driver.find_elements(By.CSS_SELECTOR, 'h3.tribe-events-calendar-list__event-title a')
event_date = driver.find_elements(By.CSS_SELECTOR, 'time.tribe-events-calendar-list__event-date-tag-datetime')
event_hour = driver.find_elements(By.CSS_SELECTOR, '.tribe-events-calendar-list__event-datetime-wrapper .timeshed')
event_address =  driver.find_elements(By.CSS_SELECTOR,'.tribe-events-calendar-list__event-venue-address')

#### Création du DataFrame

In [4]:
# Collecter les données
title = [elem.get_attribute("title") for elem in event_title]
date = [elem.get_attribute("datetime") for elem in event_date]
hour = [elem.text for elem in event_hour]
address = [elem.text for elem in event_address]

# Créer le dataframe
data = {
    'event_title': title,
    'date': date,
    'hour': hour,
    'address': address
}

df = pd.DataFrame(data)

# Afficher le dataframe
df

Unnamed: 0,event_title,date,hour,address
0,WORKSHOP – Web Scraping: Make the internet you...,2024-08-19,16:00 - 18:00,"3 Rue Rossini, 75009 Paris"
1,"WORKSHOP – Polars: Faster, Lighter, Smarter",2024-08-26,15:00 - 18:00,"3 Rue Rossini, 75009 Paris"
2,WORKSHOP – Time-series forecasting,2024-09-13,09:00 - 12:00,"3 Rue Rossini, 75009 Paris"
3,REX – GenAI in prod : practical tech & product...,2024-09-18,18:30 - 19:30,"3 Rue Rossini, 75009 Paris"
4,"Soirée CDO : L’industrie créative, un modèle i...",2024-09-18,19:00 - 21:00,"3 rue rossini, Paris"
5,FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU ...,2024-09-26,09:00 - 17:30,"4 place Jussieu, Paris"
6,Soirée data gouv : Comment déterminer l’origin...,2024-10-10,18:30 - 20:00,"3 rue rossini, Paris"
7,FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU ...,2024-10-17,09:00 - 17:30,"4 place Jussieu, Paris"
8,FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU ...,2024-11-14,09:00 - 17:30,"4 place Jussieu, Paris"
9,"Speed dating entre étudiants en master IA, doc...",2024-11-14,18:00 - 21:00,"4 Place Jussieu, Paris"


Vous êtes évidemment les bienvenus à tous ces événements ! 

#### Convertir le csv

In [5]:
#df.to_csv('agenda_event_datacraft.csv', index=False)

#### D'autres manières de sélectionner les infos

In [6]:
event_title = driver.find_elements(By.XPATH, "//*[@class='tribe-events-calendar-list__event-title-link tribe-common-anchor-thin']")
event_date = driver.find_elements(By.XPATH, "//*[@class='dateshed']")
event_hour = driver.find_elements(By.XPATH, "//*[@class='timeshed']")
event_adress = driver.find_elements(By.XPATH, "//*[@class='tribe-events-calendar-list__event-venue-address']")
event_adress = driver.find_elements(By.CLASS_NAME, "tribe-events-calendar-list__event-venue-address")
event_date = driver.find_elements(By.CLASS_NAME, "dateshed")
event_hour = driver.find_elements(By.CLASS_NAME, "timeshed")

In [7]:
event_title = driver.find_elements(By.CLASS_NAME, "tribe-events-calendar-list__event-title")

In [8]:
title = [elem.text for elem in event_title]

In [9]:
title

['WORKSHOP – WEB SCRAPING: MAKE THE INTERNET YOUR PLAYGROUND',
 'WORKSHOP – POLARS: FASTER, LIGHTER, SMARTER',
 'WORKSHOP – TIME-SERIES FORECASTING',
 'REX – GENAI IN PROD : PRACTICAL TECH & PRODUCT INSIGHT FOR DELIVERING VALUE WITH RAG',
 'SOIRÉE CDO : L’INDUSTRIE CRÉATIVE, UN MODÈLE INSPIRANT POUR LES PROJETS D’IA',
 'FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU CONCEPT À LA RÉALITÉ !',
 'SOIRÉE DATA GOUV : COMMENT DÉTERMINER L’ORIGINE DES PROBLÈMES DE QUALITÉ ET COMMENT LES TRAITER ?',
 'FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU CONCEPT À LA RÉALITÉ !',
 'FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU CONCEPT À LA RÉALITÉ !',
 'SPEED DATING ENTRE ÉTUDIANTS EN MASTER IA, DOCTORANTS ET ENTREPRISES',
 'ATELIER FRAUDE – FORENSIC ET APPLICATIONS DE L’INTELLIGENCE ARTIFICIELLE',
 'SOIRÉE CDO',
 'DATA GOUV – ÉTAT DE L’ART DES ARCHITECTURES DATA',
 'FORMATION – INITIATION À L’IA GÉNÉRATIVE : DU CONCEPT À LA RÉALITÉ !',
 'SOIRÉE CDO',
 'SOIRÉE CDO',
 'SOIRÉE CDO']