<h3><div align='center'>Web Scraping Wikipedia using BeautifulSoup and Python</div></h3>

<div align='center'>Camille COCHENER</div>

<div align='justify'>https://secouchermoinsbete.fr/69863-tous-les-chemins-menent-a-la-philosophie-sur-wikipedia : </div>  
  
*<div align='center'>« Une théorie veut que n'importe quel article sur Wikipedia pointe au final sur la philosophie. Pour la vérifier, il suffit de cliquer sur le premier lien d'un article Wikipedia qui mène à un autre article et ainsi de suite : à force, on tombe immanquablement sur l'article dédié à la philosophie. »  </div>* 
  
<div align='justify'>Ecrivons un programme qui vérifie cette théorie. Ce programme doit renvoyer la "distance" (int) qui sépare un article donné de l'article Philosophie.</div>

In [101]:
#Source : https://github.com/wblakecannon/udacity-dand/blob/master/Ex6-Intro-to-Python-Programming/wiki-web-crawl/wikipedia-crawler.py

**Importation des librairies**

In [87]:
import time
import urllib
import bs4
import requests
import quopri

**Définition de l'url de départ**

In [99]:
my_url = "https://fr.wikipedia.org/wiki/Glace"

In [103]:
def find_first_link(url):
    response = requests.get(url) 
    html = response.text
    soup = bs4.BeautifulSoup(html, "html.parser")

    # This div contains the article's body
    content_div = soup.find(id="mw-content-text").find(class_="mw-parser-output")

    # stores the first link found in the article, if the article contains no
    # links this value will remain None
    article_link = None # on initialise le lien suivant à none

    # Find all the direct children of content_div that are paragraphs
    for element in content_div.find_all("p", recursive=False):
        # Find the first anchor tag that's a direct child of a paragraph.
        # It's important to only look at direct children, because other types
        # of link, e.g. footnotes and pronunciation, could come before the
        # first link to an article. Those other link types aren't direct
        # children though, they're in divs of various classes.
        
        # on parcourt les éléments de la page et on cherche les liens les uns après les autres
        
        if element.find("a", recursive=False):
            article_link = element.find("a", recursive=False).get('href')
            break

    if not article_link:
        return

    # Build a full url from the relative article_link url
    first_link = urllib.parse.urljoin(
        'https://fr.wikipedia.org/', article_link)

    return first_link


def continue_crawl(search_history, target_url, max_steps=25):
    # pour chaque lien trouvé, on regarde s'il s'agit du lien philosophie que l'on cherche.
    if search_history[-1] == target_url:
        print("We've found the target article!")
        return False
        # on pose une limite à la recherche
    elif len(search_history) > max_steps:
        print("The search has gone on suspiciously long, aborting search!")
        return False
        # on vérifie si le lien récupéré a déjà été parcouru
    elif search_history[-1] in search_history[:-1]:
        print("We've arrived at an article we've already seen, aborting search!")
        return False
    else:
        return True


def getting_to_philosophy(my_url): 
    article_chain = [my_url]
    target_url = "https://fr.wikipedia.org/wiki/Philosophie"
    while continue_crawl(article_chain, target_url):
        print(article_chain[-1])
        first_link = find_first_link(article_chain[-1])
        if not first_link:
            print("We've arrived at an article with no links, aborting search!")
            break
        article_chain.append(first_link)
        time.sleep(2)  # Slow things down so as to not hammer Wikipedia's servers
    print('La distance parcourue entre ces 2 articles est : ' + str(len(article_chain)-1))

        
def main():
  getting_to_philosophy(my_url)

if __name__ == '__main__':
  main()

https://fr.wikipedia.org/wiki/Glace
https://fr.wikipedia.org/wiki/Eau
https://fr.wikipedia.org/wiki/Substance_chimique
https://fr.wikipedia.org/wiki/%C3%89chantillon_(mati%C3%A8re)
https://fr.wikipedia.org/wiki/Liste_de_propri%C3%A9t%C3%A9s_de_mat%C3%A9riaux
https://fr.wikipedia.org/wiki/Grandeur_intensive
https://fr.wikipedia.org/wiki/Grandeur_physique
https://fr.wikipedia.org/wiki/Science_de_la_nature
https://fr.wikipedia.org/wiki/Monde_(univers)
https://fr.wikipedia.org/wiki/Donn%C3%A9es
https://fr.wikipedia.org/wiki/Donn%C3%A9es_brutes
We've arrived at an article we've already seen, aborting search!
La distance parcourue entre ces 2 articles est : 11
