In [2]:
import pandas as pd
import numpy as np
!pip install textblob
!pip install bs4
from textblob import TextBlob
from requests import get
from bs4 import BeautifulSoup
from datetime import datetime



In [59]:
"""
Created on Fri Jan 8 15:32:02 2021
Group 2
@authors: Rémy Lapeyre
"""

def scraping(url : str) -> tuple :
  """Documentation
  function which from a url creates a BeautifulSoup object,
  then researches informations about the article and the website and
  finally returns all this data as a tuple
  Parameters:
  param1: url: str
  Out:
  out1: tuple: contains properties of the article and the source
  """  
  req = get(url)
  html_soup = BeautifulSoup(req.text, 'html.parser')
  #Retrieval of the content of the article with the html tags
  art_content_html = html_soup.find("section",{"class":"article-content"})
  #Removal of the html tags and replacement of '\xa0' by ''
  art_content = art_content_html.text.replace('\xa0',' ')
  #Retrieval of the date and conversion to the datetime format
  art_published_datetime = datetime.strptime(html_soup.find("meta",{"itemprop":"datePublished"})['content'], "%Y-%m-%dT%H:%M:%S%z").date() 
  #Analysis of the language of the text with the TextBlob library
  art_lang = TextBlob(art_content).detect_language()
  #Retrieval of the title in meta property, replacing '\xa0' by ''
  art_title = html_soup.find("meta",{"property":"og:title"})['content'].replace('\xa0',' ')
  #Retrieval of the website's name in meta property
  src_name = html_soup.find("meta",{"property":"og:site_name"})['content']
  src_type = 'xpath_source' #default value 
  src_url = 'https://www.silicon.fr/'
  #Retrieval of the image representing the article
  #Because this website the image can be found at two different places in the html code we use a if/else condition
  if html_soup.find("picture",{"class":"img"}) is not None:
    art_img = html_soup.find("picture",{"class":"img"}).find("source")["srcset"]
  else:
    art_img = html_soup.find("meta",{"itemprop":"image"})["content"]
  #Retrieval of the author of the article
  art_auth = html_soup.find("meta",{"itemprop":"author"})['content']
  #Retrieval of the tag(s) of the article in meta property, if there are no tags we return 'no_data'
  art_tag = [el['content'] for el in html_soup.find_all("meta",{"property":"article:tag"})]
  if art_tag == []:
    art_tag = 'no_data'
  return art_content,art_content_html,art_published_datetime,art_lang,art_title,url,src_name,src_type,src_url,art_img,art_auth,art_tag


In [60]:
url=input()
print(scraping(url))

https://www.silicon.fr/emploi-it-recrutements-2021-356166.html
('\nLes analystes en sécurité des systèmes, les ingénieurs cloud et les devops sont les plus recherchés par les DSI en France, selon le cabinet Robert Half.\n\nLe cabinet de recrutement Robert Half a dévoilé les résultats d’une enquête sur les perspectives d’embauche de moyennes et grandes entreprises en 2021. \nContexte économique global, carnets de commandes, numérisation du travail… La pandémie de Covid-19 perturbe encore les perspectives. Toutefois, 78% des dirigeants (DG, DAF et DSI) interrogés en France se déclarent « assez » ou « très confiants » quant aux perspectives de croissance de leur organisation sur l’année. \nIls sont plus mesurés concernant les recrutements. Ainsi, 69% des répondants disent vouloir « stabiliser » leurs effectifs au premier semestre 2021. Une minorité (8%) opte même pour le gel total des embauches, après des mois marqués par la crise sanitaire. \nEn revanche, 23% des dirigeants prévoient d’é