Étude sur le taux d'originalité de 16 éditions du HuffPost / Original reporting at 16 of the HuffPost's editions
Switch branches/tags
Nothing to show
Clone or download
Latest commit 1564bac Feb 18, 2018

README.md

Nouveau logo du HuffPost

Étude sur le taux d'originalité de 16 éditions du HuffPost (2011-2016).

Article dans l'Observatoire européen du journalisme | English version


Un peu plus de 1,8 million d'articles (on ne parle pas des blogues) de 16 des 18 éditions du HuffPost ont été moissonnés1, puis analysés avec pandas pour voir qui signe ces articles.
Chaque article a été placé dans trois catégories:

  • HP_oui lorsque l'auteur est un employé ou un pigiste du HuffPost.
  • HP_non lorsque l'auteur est une source externe (autre média ou agence de presse).
  • HP_inconnu lorsque qu'il est impossible d'attribuer l'article.

Pour faire fonctionner les carnets Jupyter qui se trouvent dans ce répertoire, il faut d'abord aller chercher les données de base, un fichier de 656 Mo accessible ici: scraping-nettoye.csv (sauf pour l'édition espagnole, dont les données sont incluses dans le fichier scraping-ES-2.csv.

Il y a un carnet par pays. Le tableau ci-dessous présente les résultats complets par pays, classés par date de fondation.

édition       date de fondation   articles HP_oui HP_non HP_inconnu taux d'originalité
États-Unis2, site 2005-05-09 550 955 250 528 210 226 90 201 45,5%
Canada, site 2011-05-26 265 153 40 809 222 950 1 394 15,4%
Royaume-Uni, site 2011-07-06 161 263 118 317 42 757 189 73,4%
France, site 2012-01-23 54 156 49 815 4 088 253 92,0%
Québec, site 2012-02-08 390 231 44 282 344 510 1 439 11,3%
Espagne, site 2012-06-07 56 348 48 879 7 381 88 86,7%
Italie, site 2012-09-24 64 880 53 820 9 944 1 116 83,0%
Japon, site 2013-05-06 23 708 16 490 6 865 353 69,6%
Maghreb, site 2013-06-25 28 653 25 200 3 337 116 87,9%
Allemagne, site 2013-10-01 68 733 31 831 33 445 3 457 46,3%
Brésil, site 2014-01-29 20 831 14 543 5 745 543 69,8%
Corée du Sud, site 2014-02-26 51 890 25 945 25 476 469 50,0%
Grèce, site 2014-11-20 55 433 55 004 279 150 99,2%
Inde, site 2014-12-08 14 618 8 613 3 154 2 851 58,9%
Australie, site 2015-08-18 17 154 12 335 3 255 1 564 71,9%
Mexique, site 2016-09-01 2 168 1 916 102 150 88,4%
Ensemble 1 826 174 798 327 923 514 104 333 43,7%
1 : Quelques exemples des scripts python utilisés pour réaliser ce projet.
2 : Tous les articles accessibles et publiés entre la date de fondation et le 31 décembre 2016 ont été inclus dans cette étude, sauf dans le cas de l'édition américaine où la cueillette a commencé le 1er janvier 2011.