# Web Scraping Morocco World News

## Installation du package selenium et du chromedriver

In [None]:
# installation du package selenium
!pip install selenium
# installation du chormedriver
!apt install chromium-chromedriver
# copie du chromedriver
!cp C:\Users\Adib\Documents\Stage\Stage 1A\Selenium\chromedriver.exe

## Importation des librairies nécessaires

In [38]:
from selenium import webdriver
import pandas as pd

## Modification des options du chromedriver

In [39]:
# options chromedriver pour l'utiliser dans un notebook
options = webdriver.ChromeOptions()
options.add_argument('-headless')
options.add_argument('-no-sandbox')
options.add_argument('-disable-dev-shm-usage')

## Instanciation du WebDriver de Chrome

In [40]:
# création de l'instance WebDriver de Chrome
driver = webdriver.Chrome('chromedriver', options = options)
# lien du site Morocco World News
website = 'https://www.moroccoworldnews.com/'

## Liste des catégories du site

In [41]:
# catégories du site Morocco World News
categories = ['politics', 'economy', 'opinion', 'features', 'society', 'education', 'covid-19', 'maghreb-news']

## Récupération des liens d'articles

In [None]:
# liste des liens vers les articles
articles_links = []
# parcours des catégories
for category in categories:
  category_link = website + category
  # parcours des pages de chaque catégorie
  page_number = 0
  while (page_number < 40):
    webpage_link = category_link + '/' + str(page_number)
    page_number += 1
    # parcours des articles de chaque page
    driver.get(webpage_link)
    href_links = driver.find_elements_by_xpath('//h3/a[@href]')
    for href_link in href_links:
      articles_links.append([href_link.get_attribute('href'), category])

## Vérification de la liste de liens

In [None]:
# affichage de 5 liens pris au hasard
articles_links[1000:1005]

In [44]:
# affichage du nombre total de liens
len(articles_links)

168

## Récupération du contenu des articles

In [None]:
# data frame des données collectés
df_articles = pd.DataFrame()
# parcours des liens collectés
for article_link in articles_links:
  # accès à la page de l'article
  driver.get(article_link[0])
  # récupération du contenu de l'article
  content_scrap = driver.find_elements_by_class_name('article__content')
  if (len(content_scrap) != 0):
    content = content_scrap[1].text
  # création de la liste de nos données
  article = {'category' : article_link[1], 'content' : content}
  # transformation en data frame
  df_article = pd.DataFrame(article, index = [0])
  # transformation en data frame
  df_articles = df_articles.append(df_article, ignore_index=True)

## Vérification des données collectés

In [46]:
# affichage des premières valeurs
df_articles.head()

Unnamed: 0,category,content
0,politics,Rabat - Indie-rock band Big Thief has announce...
1,politics,Rabat - The European Union has called on Alger...
2,politics,Rabat - Spain regrets Algeria’s decision to su...
3,politics,Casablanca - With the Moroccan capital of Raba...
4,politics,Rabat - Cape Verde’s Foreign Affairs Minister ...


In [52]:
# rapide description du data frame
df_articles.describe()

Unnamed: 0,category,content
count,168,168
unique,14,159
top,politics,Casablanca - Algeria is taking inspiration fro...
freq,12,2


In [53]:
# affichage de la taille de ntore data frame
len(df_articles)

168

## Conversion en fichier csv

In [48]:
# transformation du data frame en fichier csv
df_articles.to_csv('morocco_world_news_articles.csv')