In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import MeanShift
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer

from sklearn.decomposition import NMF
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.datasets import make_multilabel_classification

from sklearn.decomposition import PCA
from joblib import dump, load

from datetime import datetime

In [2]:
base = pd.read_csv('resultats_google_lemmatises_2005_complet.csv')

## Fonction de constitution des topics

In [3]:
def get_topics(model, n_top_words, nb_clusters):
    #the word ids obtained need to be reverse-mapped to the words so we can print the topic names.
    feat_names = model.named_steps['tfidf'].get_feature_names()
    
    word_dict = {}
    for i in range(nb_clusters):
        
        #for each topic, obtain the largest values, and add the words they map to into the dictionary.
        words_ids = model.named_steps['clust'].components_[i].argsort()[:-30 - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words
    
    return pd.DataFrame(word_dict)

## Application de la fonction pour chacun des modèles, et identification des thèmes qui ressortent
### Topics NMF

In [4]:
for x in range(4,21):
    modele = load('NMF'+str(x)+'.joblib')
    print(get_topics(modele, 10, x))

      Topic # 01      Topic # 02   Topic # 03   Topic # 04
0          range       politique  destination      tribune
1     suggestion           grand       voyage    chronique
2         module           droit     meilleur     appareil
3     transition    gouvernement        guide      recette
4          promo         service     voyageur         star
5          label  internationale        petit      musique
6         format      population        plage     rubrique
7          event            jour       billet    decodeurs
8    automatique        nouvelle      voiture     cultivez
9         action          ancien      circuit     poetesse
10       message            mort        grand     trilogie
11       content    organisation         beau      ignorez
12        bumper           civil       agence   mappemonde
13        kevlar     information        photo       moment
14         probe       militaire        ville    jardinage
15         drift         pouvoir         nuit   editoria

      Topic # 01      Topic # 02   Topic # 03   Topic # 04   Topic # 05  \
0        section       politique     vacation      tribune        saint   
1          sport    gouvernement        toast    chronique    argentine   
2          match      population  billetterie     appareil   philippine   
3           code  internationale     meilleur      recette       chypre   
4          image           civil         trip         star        chili   
5     classement           droit      listing      musique   dominicain   
6          promo    organisation   attraction     rubrique       panama   
7          achat           grand       adulte    decodeurs        malte   
8            jeu       militaire         sale     cultivez        perou   
9           mail       nationale        tarif     poetesse    allemagne   
10       abonnez        ministre   permission     trilogie        suede   
11    abonnement         sociale   navigateur      ignorez       bresil   
12         offre        o

     Topic # 01      Topic # 02   Topic # 03   Topic # 04    Topic # 05  \
0         petit       politique        saint      tribune         range   
1   destination    gouvernement    argentine    chronique    suggestion   
2        voyage           droit       chypre     appareil        module   
3         grand           civil        chili      recette    transition   
4         plage    organisation   philippine         star         label   
5          beau  internationale   dominicain      musique         promo   
6       paysage           grand       panama     rubrique   automatique   
7         ville         sociale        malte    decodeurs        format   
8       circuit        ministre        perou     cultivez         event   
9      meilleur          projet        suede     poetesse        bumper   
10     montagne           homme    allemagne     trilogie        kevlar   
11         parc       militaire       bresil      ignorez         probe   
12         nuit          

        Topic # 01      Topic # 02  Topic # 03      Topic # 04    Topic # 05  \
0        champagne        retraite       saint        parisien         range   
1            champ        chantons   argentine           jouet    suggestion   
2       abonnement      suspendent      chypre        commande        module   
3         exclusif          bayard       chili         affiche    transition   
4         rubrique         pelerin  philippine         manette         label   
5          dossier       phosphore  dominicain            club         promo   
6            sport           prion      panama          marque        format   
7          contenu       reclusion       malte      intertitre   automatique   
8         archivez        rassures       perou          limite         event   
9   kinesitherapie  protestantisme       suede        hippisme        bumper   
10          tesson        judaisme      bresil           vente        kevlar   
11           logue      orthodoxie   all

      Topic # 01      Topic # 02  Topic # 03      Topic # 04    Topic # 05  \
0         format        retraite       saint        parisien          desk   
1          match        chantons   argentine           jouet      apprenez   
2          theta      suspendent      chypre        commande     annonceur   
3         lambda          bayard       chili         affiche  hebdomadaire   
4          kappa         pelerin  philippine         manette      fracture   
5           iota       phosphore  dominicain            club   abandonnees   
6          regie           prion      panama          marque       sentent   
7          perso       reclusion       malte      intertitre    accessoire   
8          alpha        rassures       perou          limite         gilet   
9        percent  protestantisme       suede           vente        master   
10        lycees        judaisme      bresil        hippisme         break   
11   telechargez      orthodoxie    equateur  electromenager    

      Topic # 01      Topic # 02   Topic # 03      Topic # 04   Topic # 05  \
0          match           grand       chypre        parisien      roumain   
1         format       politique    argentine           jouet     polonais   
2          theta           parti        chili        commande     hongrois   
3         lambda          guerre        saint         affiche      bulgare   
4          kappa         conflit   philippine         manette       danois   
5           iota    gouvernement   dominicain            club    lituanien   
6          regie    organisation       panama          marque      italien   
7          perso         pouvoir        malte      intertitre     estonien   
8          alpha          ancien        perou          limite       croate   
9        percent            chef        suede           vente       letton   
10   telechargez           droit     equateur        hippisme         turc   
11        lycees      population       bresil  electromenager   

      Topic # 01      Topic # 02   Topic # 03      Topic # 04    Topic # 05  \
0        support    organisation        petit        parisien         range   
1     prospectif           civil       voyage           jouet    suggestion   
2           vine       politique         beau        commande        module   
3         format    gouvernement  destination         manette    transition   
4        losange  internationale        plage         affiche         label   
5          truck         sociale        grand            club         promo   
6         calque          projet      paysage      intertitre   automatique   
7          diapo           droit        ville          limite        format   
8          glass   developpement         nuit          marque        bumper   
9           dock          public         parc  electromenager        kevlar   
10    rejoignant        officiel     montagne           vente         probe   
11        relire         rapport      village       

      Topic # 01      Topic # 02   Topic # 03      Topic # 04    Topic # 05  \
0          match       politique  destination        parisien         range   
1         format    organisation       voyage           jouet    suggestion   
2          theta           grand        petit        commande        module   
3         lambda    gouvernement        plage         manette    transition   
4          kappa         conflit        grand         affiche         label   
5           iota           parti         beau            club         promo   
6          regie          guerre      circuit      intertitre        format   
7          perso         sociale      paysage          limite         event   
8          alpha           droit        ville          marque        bumper   
9        percent          projet         parc  electromenager        kevlar   
10        lycees  internationale     montagne           vente         probe   
11   telechargez         pouvoir     meilleur       

      Topic # 01      Topic # 02   Topic # 03      Topic # 04    Topic # 05  \
0        support       politique        event        parisien         range   
1     prospectif    organisation         mail           jouet    suggestion   
2           vine           grand        click        commande        module   
3        losange    gouvernement         body         manette    transition   
4          truck         conflit         data         affiche         label   
5         calque         sociale      content            club         promo   
6          diapo           parti        class      intertitre        format   
7          glass          guerre         show          limite         event   
8           dock           droit      contact          marque        bumper   
9         relire          projet        input  electromenager        kevlar   
10    rejoignant  internationale         info           vente         probe   
11        format         pouvoir        value       

In [20]:
topic_NMF_tourisme = [('NMF4',2),('NMF5',2),('NMF6',2),('NMF7',5),('NMF8',5),('NMF9',2),('NMF10',0),('NMF11',0),('NMF12',0),
                   ('NMF13',12),('NMF14',12),('NMF15',12),('NMF16',12),('NMF17',15),('NMF18',2),('NMF19',2),('NMF20',12)]
topic_NMF_reservations = [('NMF7',2),('NMF8',2),('NMF9',8),('NMF10',8),('NMF11',8),('NMF12',8),('NMF13',8),('NMF14',8),('NMF15',8),('NMF16',8),
                     ('NMF17',8),('NMF18',8),('NMF19',8),('NMF20',8)]
topic_NMF_guides = [('NMF7',6),('NMF8',6),('NMF9',6),('NMF10',6),('NMF11',6),('NMF12',6),('NMF13',6),('NMF14',6),('NMF15',6),('NMF16',6),
               ('NMF17',6),('NMF18',6),('NMF19',6),('NMF20',6)]
topic_NMF_consulat = [('NMF17',5),('NMF19',5),('NMF20',5)]
topic_NMF_politique = [('NMF4',1),('NMF5',1),('NMF6',1),('NMF7',1),('NMF8',1),('NMF9',1),('NMF10',1),('NMF11',1),('NMF12',5),('NMF13',5)
                  ,('NMF14',5),('NMF15',5),('NMF16',5),('NMF17',1),('NMF18',1),('NMF19',1),('NMF20',1)]
topic_NMF_religion = [('NMF13',1),('NMF14',1),('NMF15',1),('NMF16',1),('NMF17',16),('NMF18',16),('NMF19',16),('NMF20',16)]
topic_NMF_stats =[('NMF11',10),('NMF12',10),('NMF13',10),('NMF14',10),('NMF15',10),('NMF16',10),('NMF17',10),('NMF18',10),('NMF19',10),('NMF20',10)]

### Topics LDA

In [5]:
for x in range(4,21):
    modele = load('LDA'+str(x)+'.joblib')
    print(get_topics(modele, 10, x))

     Topic # 01      Topic # 02 Topic # 03      Topic # 04
0        voyage        parisien       yuan           grand
1   destination           jouet      xiang       politique
2         petit         manette       yang         service
3         grand        commande       tong            jour
4         guide      intertitre       chou           droit
5         plage  electromenager       fang           image
6          beau        referent       gong        nouvelle
7         ville           ratez       ding            type
8         photo          averer       tian     information
9      voyageur       bricolage      adobe            mort
10     meilleur      aspirateur       dong            date
11        event        hippisme       gang         contact
12      circuit    immobilieres       ming    gouvernement
13         info           opter       pian            mail
14        carte         redoute       song           homme
15        image           rater       chao           spo

     Topic # 01        Topic # 02    Topic # 03      Topic # 04   Topic # 05  \
0   destination      synthetiques       cocarde           grand     patinage   
1        voyage          metrique       inversa       politique      butagaz   
2         petit         infection   centraliser         service     biathlon   
3         plage         ponctuels       mesurez            jour  acrobatique   
4         grand          rougeole    engraisses           image     suggerez   
5       circuit              aire     lactation           droit         judo   
6          beau        periodique     miniature            type    criterium   
7      voyageur        mammiferes      plaquent            date   breakdance   
8         guide          compteur       robuste        nouvelle      curling   
9         ville     topographique         tiqua            mail   skateboard   
10       hotels           parlees    gouvernail     information       karate   
11        carte         fecondite       

     Topic # 01        Topic # 02     Topic # 03     Topic # 04  \
0   destination         infection        prefixe          grand   
1        voyage          rougeole          tarif      politique   
2         plage          metrique     telephoner        service   
3         petit      synthetiques        virtuel           jour   
4       circuit              aire       composez          image   
5          beau         ponctuels       habituel          droit   
6         grand        periodique     habituelle           type   
7      voyageur          compteur     economisez           mail   
8         guide        mammiferes      indicatif    information   
9         ville     topographique        appelez           date   
10      paysage         fecondite      operateur       nouvelle   
11       hotels           parlees       comparez        contact   
12         parc          natalite     comparatif       location   
13       billet             polar   telephonique        mentio

     Topic # 01      Topic # 02       Topic # 03   Topic # 04      Topic # 05  \
0   destination       infection          cocarde        grand     recupererez   
1        voyage     vaccination           astral        image        feminise   
2         petit       diphterie         etablira      service        sombrero   
3         plage       moustique         remettra    politique       naviguiez   
4         grand      coqueluche        inversees         jour       canebiere   
5          beau  transmissibles      facultative         mail      engraisses   
6      voyageur         tetanos       pharmacien         type       lactation   
7       circuit        hepatite     prescription         date          garrot   
8         ville    sexuellement         decharge        droit        snobisme   
9         guide         maladie       ordonnance      contact          tarare   
10      paysage            rage      vaccination     nouvelle        enfuyant   
11        carte        typho

     Topic # 01     Topic # 02     Topic # 03     Topic # 04    Topic # 05  \
0   destination    vaccination        prefixe          grand      patinage   
1        voyage  centrifugeuse          tarif      politique      biathlon   
2         petit        placard     telephoner        service       butagaz   
3         plage      concombre      indicatif          image   acrobatique   
4         grand        carotte       composez           jour          judo   
5          beau         vaccin        virtuel          droit  justifiables   
6         ville       apportez       habituel           type     criterium   
7       circuit      infection     economisez           mail    breakdance   
8      voyageur         causer     habituelle    information       curling   
9         guide         goutte        appelez           date    skateboard   
10     meilleur       terminal      operateur       nouvelle        karate   
11      paysage      moustique       comparez        contact    

     Topic # 01      Topic # 02       Topic # 03   Topic # 04  \
0   destination           forum           astral        grand   
1        voyage          billet         etablira      service   
2         plage     suppression        inversees        image   
3         petit         aeriens      facultative         mail   
4          beau        vacation         remettra         jour   
5         grand         parking       pharmacien      contact   
6       circuit         voiture     prescription         type   
7         ville           toast         decharge  information   
8      voyageur            best      vaccination         date   
9       paysage     reservation      chronologie    politique   
10     montagne         chambre         methanol        petit   
11         parc            trip       ordonnance         info   
12        guide  materiellement         flambees     nouvelle   
13       hotels     portabilite        medicales     location   
14       sejour   referen

     Topic # 01     Topic # 02      Topic # 03   Topic # 04       Topic # 05  \
0   destination  centrifugeuse         inversa        grand        solennels   
1        voyage        placard     centraliser        image        hemicycle   
2         plage      concombre  positionnement      service   technologiques   
3       circuit        carotte        cacatoes         jour     previsionnel   
4          beau         goutte         patches         mail          recueil   
5         petit       terminal        dissolue    politique           apurer   
6       paysage        vitesse         flipper         type      deontologie   
7      voyageur          strip            toue         date           junior   
8         grand     contenance          pondra      contact          renvoye   
9      montagne       parisien     hybridation     location        modifiees   
10        ville         purees        williams        droit            extra   
11         parc         sorbet      subs

          Topic # 01     Topic # 02       Topic # 03   Topic # 04  \
0             adapta        cocarde        deployons        grand   
1             traita  centrifugeuse            envia         jour   
2              situa        placard        normative      service   
3            destina      concombre            bater        petit   
4           conserva        carotte     ensorcelante        image   
5            utilisa         goutte        latiniste       voyage   
6            modifia       terminal            lycra     meilleur   
7           confirma           kart            huart         mail   
8              donna       parisien            flane        ville   
9          personnel        vitesse           desira    politique   
10              dura         menthe            pekan         type   
11            ajouta     processeur            radja  information   
12         culinaire     contenance             basa         date   
13        introduire        capteu

        Topic # 01 Topic # 02     Topic # 03   Topic # 04      Topic # 05  \
0           billet  debloquer        prefixe       voyage  merovingiennes   
1      inspiration   resolvez          tarif        petit           avers   
2            forum  duplicate     telephoner        grand        feodales   
3          voiture       teta       composez  destination     transmettez   
4        assurance       rida        virtuel     meilleur          ciblez   
5      transmettre       gail       habituel        image      monetaires   
6      destination  soumettre     economisez        ville       deference   
7          aeriens       wali     habituelle         mail           banjo   
8         aventure       otai      indicatif         jour      animalerie   
9   materiellement        rai        appelez         info       computers   
10   referencement       ciao      operateur         beau          patine   
11     portabilite    trouble       comparez        guide         audible   

In [39]:
topic_LDA_tourisme = [('LDA4',0),('LDA5',0),('LDA6',0),('LDA7',0),('LDA8',0),('LDA9',0),('LDA10',0),('LDA11',0),('LDA12',0),
                      ('LDA13',0), ('LDA14',0),('LDA15',0),('LDA16',0),('LDA17',0),('LDA18',0),('LDA20',3)]
topic_LDA_politique = [('LDA16',15),('LDA17',15),('LDA18',15),('LDA20',19)]
topic_LDA_religion = [('LDA17',16),('LDA19',15)]
topic_LDA_actu = [('LDA4',3),('LDA5',3),('LDA6',3),('LDA7',3),('LDA8',3),('LDA9',3),('LDA10',3),('LDA11',3),('LDA12',3),
                  ('LDA13',3),('LDA14',3),('LDA15',3),('LDA18',3)]
topic_LDA_sante = [('LDA11',9),('LDA12',1),('LDA15',1),('LDA17',9),('LDA18',16),('LDA19',16),('LDA20',9)]
topic_LDA_loisirs = [('LDA5',4),('LDA8',4),('LDA9',4),('LDA14',4),('LDA18',11),('LDA19',7),('LDA20',13)]
topic_LDA_stats = [('LDA12',10),('LDA13',10),('LDA14',10),('LDA15',10),('LDA18',10),('LDA19',10)]
topic_LDA_guides = [('LDA16',1),('LDA17',14),('LDA18',8),('LDA19',8),('LDA20',0)]

## Fusion des listes de topics le cas échéant, et constitution d'un dico des sujets
### + module de vérification de la cohérence des sujets

In [40]:
topic_tourisme = topic_NMF_tourisme + topic_LDA_tourisme
topic_religion = topic_NMF_religion + topic_LDA_religion
topic_stats = topic_NMF_stats + topic_LDA_stats
topic_politique = topic_NMF_politique + topic_LDA_politique
topic_guides = topic_NMF_guides + topic_LDA_guides

In [41]:
topics = {'tourisme':topic_tourisme,'religion':topic_religion,'stats':topic_stats, 'guides':topic_guides,
          'politique':topic_politique,'NMF_reservations':topic_NMF_reservations,'NMF_consulat':topic_NMF_consulat,
          'LDA_actu':topic_LDA_actu,'LDA_sante':topic_LDA_sante,'LDA_loisirs':topic_LDA_loisirs}

In [49]:
def verif_listes(liste):
    word_dict = {}
    
    for i in range(len(liste)):
        cluster = liste[i][0]
        col = liste[i][1]
        model = load(cluster+'.joblib')
        feat_names = model.named_steps['tfidf'].get_feature_names()
        words_ids = model.named_steps['clust'].components_[col].argsort()[:-30 - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict[cluster.format(i+1)] = words
    return pd.DataFrame(word_dict)
verif_listes(topic_LDA_loisirs)

Unnamed: 0,LDA5,LDA8,LDA9,LDA14,LDA18,LDA19,LDA20
0,butagaz,patinage,patinage,patinage,basket,patinage,coupe
1,suggerez,butagaz,butagaz,biathlon,rugby,biathlon,palmares
2,patinage,biathlon,biathlon,butagaz,poker,butagaz,football
3,karate,acrobatique,acrobatique,acrobatique,graphique,judo,basket
4,breakdance,suggerez,judo,judo,champion,acrobatique,sportif
5,criterium,judo,suggerez,justifiables,sportif,criterium,poker
6,skateboard,criterium,criterium,criterium,tennis,rallye,tennis
7,bobsleigh,breakdance,breakdance,breakdance,foot,breakdance,rugby
8,curling,curling,phonetiques,curling,calendrier,curling,champion
9,biathlon,skateboard,curling,skateboard,score,skateboard,foot


In [55]:
liste_mots = verif_listes(topic_LDA_precautions)
liste_mots = list(liste_mots[liste_mots.columns[0]])

## Appel de la base de pages web

In [44]:
base.head()

Unnamed: 0.1,Unnamed: 0,Date_debut,Date_fin,Pays,Rang,Liste_URL,Contenu_page,Mots_retenus,Mots_lemm
0,0,2010-01-01,2010-12-31,Afrique du Sud,0,http://www.slate.fr/story/26143/afrique-du-sud...,googletag cmd push function googletag disp...,"['issue', 'peche', 'chair', 'partage', 'eclips...",issue peche chair partage eclipse uni verre ta...
1,1,2010-01-01,2010-12-31,Afrique du Sud,1,https://www.geo.fr/voyage/voyage-en-afrique-du...,sprite symbol usage display none spri...,"['salade', 'peche', 'recherchees', 'ancien', '...",salade peche recherchees ancien nombre photo p...
2,2,2010-01-01,2010-12-31,Afrique du Sud,2,http://plus.lefigaro.fr/tag/afrique-du-sud,fig header figh full fig header collapsed ...,"['trimestre', 'archeveque', 'veteran', 'lutte'...",trimestre archeveque veteran lutte moi site ch...
3,3,2010-01-01,2010-12-31,Afrique du Sud,3,https://www.quandpartir.com/meteo/afrique-du-s...,abonnement aux bons plans voyage ...,"['remontant', 'devises', 'tableau', 'antilopes...",remontant devise tableau antilope active catch...
4,4,2010-01-01,2010-12-31,Afrique du Sud,4,https://www.franceculture.fr/histoire/lafrique...,programmespodcastsactualitessavoirsart et crea...,"['part', 'derivee', 'roche', 'rush', 'bain', '...",part derivee roche rush bain dura etoile piece...


In [45]:
base.drop(['Unnamed: 0'], axis = 1, inplace = True)
base = base.reset_index(drop = True)
base.head()

Unnamed: 0,Date_debut,Date_fin,Pays,Rang,Liste_URL,Contenu_page,Mots_retenus,Mots_lemm
0,2010-01-01,2010-12-31,Afrique du Sud,0,http://www.slate.fr/story/26143/afrique-du-sud...,googletag cmd push function googletag disp...,"['issue', 'peche', 'chair', 'partage', 'eclips...",issue peche chair partage eclipse uni verre ta...
1,2010-01-01,2010-12-31,Afrique du Sud,1,https://www.geo.fr/voyage/voyage-en-afrique-du...,sprite symbol usage display none spri...,"['salade', 'peche', 'recherchees', 'ancien', '...",salade peche recherchees ancien nombre photo p...
2,2010-01-01,2010-12-31,Afrique du Sud,2,http://plus.lefigaro.fr/tag/afrique-du-sud,fig header figh full fig header collapsed ...,"['trimestre', 'archeveque', 'veteran', 'lutte'...",trimestre archeveque veteran lutte moi site ch...
3,2010-01-01,2010-12-31,Afrique du Sud,3,https://www.quandpartir.com/meteo/afrique-du-s...,abonnement aux bons plans voyage ...,"['remontant', 'devises', 'tableau', 'antilopes...",remontant devise tableau antilope active catch...
4,2010-01-01,2010-12-31,Afrique du Sud,4,https://www.franceculture.fr/histoire/lafrique...,programmespodcastsactualitessavoirsart et crea...,"['part', 'derivee', 'roche', 'rush', 'bain', '...",part derivee roche rush bain dura etoile piece...


## Fonctions de vectorisation et de PCA
### puis appel de ces fonctions pour affecter une unique note par sujet et par page

In [46]:
def get_vectors(liste, colonne):
    labels_dict = {}
    for i in range(len(liste)):
        cluster = liste[i][0]
        col = liste[i][1]
        modele = load(cluster+'.joblib')
        labels = modele.transform(colonne)
        labels_dict[cluster.format(i+1)] = labels.T[col]
    return pd.DataFrame(labels_dict)

def pca(liste_labels, theme):
    pca = PCA(n_components=1)
    principalComponents = pca.fit_transform(liste_labels)
    principalDf = pd.DataFrame(data = principalComponents
                 ,columns = [theme])
    return principalDf

In [50]:
dico_pca = {}
i = 0
for key, value in topics.items():
    labels = get_vectors(value, base.Mots_lemm)
    labels_pca = pca(labels, key)
    dico_pca[key.format(i+1)] = labels_pca[labels_pca.columns[0]]
    print(key)
resultat_pca = pd.DataFrame(dico_pca)

In [51]:
resultat_pca.head()

Unnamed: 0,tourisme,religion,stats,guides,politique,NMF_reservations,NMF_consulat,LDA_actu,LDA_sante,LDA_loisirs
0,0.062471,-0.021405,-0.051825,-0.033401,0.008573,-0.021258,-0.006786,-0.201719,0.015992,-0.008494
1,1.114806,-0.01419,-0.175187,0.004551,-0.295525,-0.021258,-0.006786,0.762318,-0.020294,-0.00733
2,-0.680977,0.005013,-0.17058,-0.034765,0.102804,-0.001779,-0.00391,-0.865138,-0.015623,-0.004119
3,2.671717,-0.020849,-0.171556,-0.025353,-0.423784,0.010535,0.000363,2.224482,-0.020168,-0.007244
4,-0.64196,0.017609,-0.02034,-0.030954,0.20069,-0.021258,-0.006786,-0.868004,-0.020281,-0.006638


## Traitement base
- conversion des dates
- création de colonnes contenant les scores par sujet
- export de la base obtenue

In [52]:
base["Annee"] = [datetime.strptime(x, '%Y-%m-%d').year for x in base.Date_debut]
base.drop(['Date_debut','Date_fin'], inplace = True, axis = 1)
base.head()

Unnamed: 0,Pays,Rang,Liste_URL,Contenu_page,Mots_retenus,Mots_lemm,Annee
0,Afrique du Sud,0,http://www.slate.fr/story/26143/afrique-du-sud...,googletag cmd push function googletag disp...,"['issue', 'peche', 'chair', 'partage', 'eclips...",issue peche chair partage eclipse uni verre ta...,2010
1,Afrique du Sud,1,https://www.geo.fr/voyage/voyage-en-afrique-du...,sprite symbol usage display none spri...,"['salade', 'peche', 'recherchees', 'ancien', '...",salade peche recherchees ancien nombre photo p...,2010
2,Afrique du Sud,2,http://plus.lefigaro.fr/tag/afrique-du-sud,fig header figh full fig header collapsed ...,"['trimestre', 'archeveque', 'veteran', 'lutte'...",trimestre archeveque veteran lutte moi site ch...,2010
3,Afrique du Sud,3,https://www.quandpartir.com/meteo/afrique-du-s...,abonnement aux bons plans voyage ...,"['remontant', 'devises', 'tableau', 'antilopes...",remontant devise tableau antilope active catch...,2010
4,Afrique du Sud,4,https://www.franceculture.fr/histoire/lafrique...,programmespodcastsactualitessavoirsart et crea...,"['part', 'derivee', 'roche', 'rush', 'bain', '...",part derivee roche rush bain dura etoile piece...,2010


In [188]:
base.drop(['Unnamed: 0'], inplace = True, axis = 1)

In [53]:
base['tourisme']=resultat_pca.tourisme
base['reservations']=resultat_pca.NMF_reservations
base['guides']=resultat_pca.guides
base['consulat']=resultat_pca.NMF_consulat
base['politique']=resultat_pca.politique
base['actu']=resultat_pca.LDA_actu
base['stats']=resultat_pca.stats
base['religion']=resultat_pca.religion
base['loisirs']=resultat_pca.LDA_loisirs
base['sante']=resultat_pca.LDA_sante

In [55]:
base.sort_values(by = 'loisirs')

Unnamed: 0,Pays,Rang,Liste_URL,Contenu_page,Mots_retenus,Mots_lemm,Annee,tourisme,reservations,guides,consulat,politique,actu,stats,religion,loisirs,sante
1020,Comores,19,https://gallica.bnf.fr/ark:/12148/bpt6k5790328...,rappel de votre demande format de telechargeme...,"['demeles', 'observe', 'charrues', 'remontant'...",demeles observe charrue remontant cotonnier st...,2010,0.007502,-0.021258,-0.015334,-0.006380,0.041024,-0.198872,0.072931,-0.017180,-0.011406,0.017830
1644,Grèce,12,https://www.clio.fr/CHRONOLOGIE/chronologie_la...,retour a la page d accueil qui somme...,"['demeles', 'strategie', 'rapprochant', 'livre...",demeles strategie rapprochant livre union fonc...,2010,-0.652113,-0.021258,-0.033653,-0.006786,0.512890,-0.797238,0.228766,0.009257,-0.011332,-0.022449
2103,Israël,26,http://pythacli.chez-alice.fr/civilisations/is...,israel et palestine histoire du peuple hebreu...,"['annexion', 'provocations', 'vieil', 'liberes...",annexion provocation vieux liberes chargees im...,2010,-0.712175,-0.021258,-0.034226,-0.005107,0.531915,-0.919915,0.085054,0.021042,-0.011168,-0.020049
2417,Liban,13,https://www.clio.fr/chronologie/chronologie_le...,retour a la page d accueil qui somme...,"['dissout', 'annexion', 'liberes', 'chargees',...",dissout annexion liberes chargees ancien vacan...,2010,-0.702846,-0.021258,-0.037828,-0.006786,0.627321,-0.843418,0.253454,0.010617,-0.011163,-0.021728
4716,Vanuatu,14,https://www.senat.fr/ga/ga89/ga89.html,var hasjs function var htmltag docum...,"['chargees', 'ancien', 'sortant', 'valeurs', '...",chargees ancien sortant valeur tremblement ten...,2010,-0.708931,-0.020687,-0.042370,0.018062,0.503352,-0.829751,0.360419,-0.017443,-0.011153,-0.025853
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14069,Slovaquie,18,https://www.lequipe.fr/Football/match-direct/q...,se connecter creer un compte ...,"['gestion', 'explore', 'lutte', 'handball', 'i...",gestion explore lutte handball internationaux ...,2019,-0.683825,-0.021258,-0.037032,-0.006786,-0.421478,-0.371867,-0.171915,-0.012938,1.011905,0.084758
12365,Liechtenstein,21,https://www.lequipe.fr/Football/match-direct/q...,se connecter creer un compte ...,"['gestion', 'explore', 'lutte', 'handball', 'i...",gestion explore lutte handball internationaux ...,2019,-0.683372,-0.021258,-0.036991,-0.006786,-0.421437,-0.360507,-0.171861,-0.012713,1.014422,0.087409
12269,Lettonie,24,https://www.lequipe.fr/Football/match-direct/q...,se connecter creer un compte ...,"['gestion', 'explore', 'lutte', 'handball', 'i...",gestion explore lutte handball internationaux ...,2019,-0.683397,-0.021258,-0.036991,-0.006786,-0.421436,-0.360453,-0.171860,-0.012628,1.014689,0.087440
12834,Monténégro,27,https://www.lequipe.fr/Football/match-direct/q...,se connecter creer un compte ...,"['gestion', 'explore', 'lutte', 'handball', 'i...",gestion explore lutte handball internationaux ...,2019,-0.684613,-0.021258,-0.037032,-0.006786,-0.421475,-0.370296,-0.171915,-0.013031,1.019929,0.084694


In [56]:
base.drop('Mots_retenus', inplace = True, axis = 1)

In [57]:
base.to_csv('base_avec_pcaV2.csv')

In [58]:
base.to_json('base_avec_pcaV2.json')