<a href="https://colab.research.google.com/github/mehdi-mustapha/PROJETS-JEDHA/blob/main/page_rank_data_collection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Collecte des page rank**

Le site https://www.calcul-pagerank.fr/ semble donner un calcul crédible du page_rank Google. 

Ce score indique la qualité du maillage interne, c'est à dire une évaluation de la qualité des liens qui entrent et qui sortent sur une page donnée. Le Google page rank est confidentiel depuis 2016. 

En soi, le calcul de l'approximation du page rank devrait faire l'objet d'un projet spécifique. La litterature sur le sujet est assez abondante et devrait permettre d'obtenir de bien meilleurs résultats. Calculer un page rank nécessiterait de crawler l'ensemble d'un site. Ce calcul nécessite en effet de prendre en compte l'ensemble des liens entrants et sortants sur une page déterminée.

Pour aller à l'essentiel et pour gagner du temps (une approximation suffit), nous avons donc utilisé le site calcul-page_rank comme source.

**Méthode:**

Le score est indiqué dans une image obtenue à partir d'une url du type :
`https://www.calcul-pagerank.fr/client/www.calcul-pagerank.fr.gif`

 ✅ Ici pas besoin de machine learning : il n'y a que 10 images pour 10 scores de 0 à 9 !

 6.gif


L'image ci-dessus représente une note de 6.

Cette image peut être **analysée comme un tableau numpy**. 


Il est très facile de comparer des tableaux entre eux.
Il "suffit" donc de :
*   collecter chaque image, pour chaque site (...)
*   stocker le tableau numpy correspondant 
*   rapprocher ce tableau d'un des 10 tableaux déjà connus.

# Capture des données de page rank

In [None]:
# Chargement des packages
import requests
import PIL.Image
import pandas as pd
import numpy as np
from numpy import asarray
from numpy import savetxt
from numpy import loadtxt
import time

In [None]:
# Création de la fonction de génération du tableau numpy de score pour un site donné

def generate_page_rank_array(dns):
  #Construction de la requête
  if dns[:2] == 'fr':        
    elem = 'www' + dns[2:]
  else:
    elem = dns
  url = 'https://www.calcul-pagerank.fr/client/' + elem + '.gif'
  s = requests.session()
  img_data = s.get(url).content
  img_name = dns + '.gif'
  
  #Je génère l'image
  with open(img_name, 'wb') as handler:
      handler.write(img_data)
  #Je génère l'array pour cet enregistrement
  image = PIL.Image.open(img_name)
  #image array name
  name = 'page_rank_' + dns
  name = name
 
  # J'affecte à name le contenu de l'array
  name = np.array(image)
  
  # save to csv file
  csv_name = dns + '.csv'
  savetxt(csv_name, name, delimiter=',')

  return name


# Collecte des images et de tableaux 

all_dns = pd.read_csv('/content/drive/MyDrive/dns.csv').drop(columns=['Unnamed: 0'])
mylist = all_dns.displayLink.values
page_rank = pd.DataFrame()

for e in mylist:
  try:
    generate_page_rank_array(e)
    elem = [e, generate_page_rank_array(e)]
  except:
    elem = [e, '']
  temp = pd.DataFrame(elem).T
  page_rank = pd.concat([page_rank, temp], axis=0)
page_rank.to_csv('+++++dns_avec tableau.csv')
page_rank

# Fusion des tables de données

In [None]:
import os
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

**On dénombre le nombre de gifs générés à l'issue de la collecte**

In [None]:
os.chdir('/content/drive/MyDrive/test')

In [None]:
#On rapproche les images générées des nom de domaines
done = pd.DataFrame(liste)
done = done.rename(columns={0 : 'img_file'})
done['dns'] = [c[:c.rfind('.')] for c in done.img_file]
done.head()

**Merge avec les dns de base**

In [None]:
base = pd.read_csv('/content/drive/MyDrive/ZZZTEST/dns.csv')
result = base.merge(done, left_on='displayLink', right_on ='dns', how='left')

**Concatenation de l'ensemble des arrays numpy correspondant aux scores**

In [None]:
# liste de tous les fichiers d'un dossier
# import os
from fnmatch import fnmatch
root = '/content/drive/MyDrive/test'
pattern = "*rank*"
i=0
liste = []
for path, subdirs, files in os.walk(root):
    for name in files:
        if fnmatch(name, pattern):
            liste.append(name)
            i+=1
liste

In [None]:
total = pd.DataFrame()
for e in liste:
  temp = pd.read_csv(e)
  total = pd.concat([total, temp], axis=0)
total.drop(columns=['Unnamed: 0'], inplace=True)
total = total.rename(dict(zip(total.columns, ['col1', 'col2'])))
total.rename(columns={0:'col0'}, inplace=True)

In [None]:
total.sample(5)

**Mise en place d'une table de correspondance tableau numpy versus page_rank score**

In [None]:
matching = total.drop_duplicates(subset=['1'])
matching

In [None]:
matching['0'].values


In [None]:
# Création de la table de correspondance
corresp = pd.DataFrame.from_dict({
    'candidat.pole-emploi.fr' :6,
    'fr.indeed.com'           :8,
    'www.estjob.com'          :5,
    'fr.linkedin.com'         :9,
    'www.crit-job.com'        :4,
    'www.glassdoor.fr'        :1,
    'www.lejobadequat.com'    :0,
    'www.ouest-france.fr'     :7,
    'www.pmejob.fr'           :3,
    'www.eterritoire.fr'      :2
                                }, orient='index').reset_index()

page_rank = matching.merge(corresp, how='left', left_on='0', right_on='index').drop(columns=['0', 'index'])
page_rank = page_rank.rename(columns={'1' : 'np_array', 0: 'score'})
page_rank

**Merge des dns et des tableaux numpy de score**

In [None]:
page_rank = total.merge(page_rank, left_on='1', right_on='np_array', how='left')
page_rank = page_rank[['0', 'score']]
page_rank.rename(columns={'0' : 'dns'}, inplace=True)

In [None]:
os.getcwd()

In [None]:
os.chdir("/content/drive/MyDrive/111_goldfinger/data_collection")

In [None]:
# !mkdir results

In [None]:
page_rank.to_csv('./results/page_rank_done.csv')
page_rank.sample(10)

In [None]:
**Vérification de l'export des données**

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

In [None]:
os.chdir('./results')

In [None]:
!ls