# Extraction de textes avec Trafilatura

## 1. Installation

#### Installation simple

`pip install trafilatura`

#### Mise à jour

`pip install --user -U trafilatura`

**Pour plus d'informations cf rubrique [Installation](https://trafilatura.readthedocs.io/en/latest/installation.html).**

## 2. Téléchargement

In [1]:
from trafilatura import fetch_url

document = fetch_url('https://www.example.org')

Pour des questions liées aux téléchargements en série et à l'efficacité voir la [documentation en ligne](https://trafilatura.readthedocs.io/).

## 3. Fonction "extract"

In [2]:
from trafilatura import extract

texte = extract(document)
print(texte)

This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
More information...


### Différents formats en sortie:

In [3]:
texte_xml = extract(document, output_format='xml')
print(texte_xml)

<doc title="Example Domain" categories="" tags="" fingerprint="FYMpE8PW9rnzogCzwvwGlIXzkHw=">
  <main>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p>More information...</p>
  </main>
  <comments/>
</doc>


## Autres fonctions utiles

Documentation des fonctions:

- [extract](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.extract)
- [bare_extraction](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.bare_extraction)
- [baseline](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.baseline)
- [extract_metadata](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.extract_metadata)

### Ouverture et lecture de fichiers

#### Lecture de chaîne de caractères (Unicode)

In [4]:
fichier = 'fichiers2/lemonde-antarctique.html'
with open(fichier, encoding='utf-8') as f:
    document = f.read()
# extract(document)

#### Lecture d'arbres parsés par LXML

In [5]:
from lxml import html

arbre = html.fromstring(document)
#extract(arbre)

### Comparaison de la sortie de la baseline et de l'outil complet

In [6]:
from trafilatura import baseline

objet_lxml, texte, longueur = baseline(document)
print(texte)

Tribune. Le traité sur l’Antarctique (RCTA), entré en vigueur en 1961, est un outil juridique exceptionnel et unique en son genre. Au plus fort de la guerre froide, douze pays ont été capables de surmonter leurs divergences pour parvenir à une solution conjointe qui préserve les intérêts de tous et en premier lieu ceux de la planète : en gelant les revendications et contestations territoriales, en interdisant les activités autres que pacifiques en Antarctique et en y garantissant la liberté de recherche scientifique et la coopération à cette fin. Il en va de l’intérêt de toute l’humanité que l’Antarctique, dont nous avons la responsabilité collective, reste pour toujours réservé aux seules activités pacifiques et ne devienne jamais le terrain de différends internationaux. Bien que l’Antarctique soit sanctuarisé, il est aujourd’hui impératif de rehausser son niveau de protection et de l’étendre aux espaces océaniques pour faire face aux bouleversements climatiques majeurs et aux pressio

In [7]:
texte = extract(document)
print(texte)

Tribune. Le traité sur l’Antarctique (RCTA), entré en vigueur en 1961, est un outil juridique exceptionnel et unique en son genre. Au plus fort de la guerre froide, douze pays ont été capables de surmonter leurs divergences pour parvenir à une solution conjointe qui préserve les intérêts de tous et en premier lieu ceux de la planète : en gelant les revendications et contestations territoriales, en interdisant les activités autres que pacifiques en Antarctique et en y garantissant la liberté de recherche scientifique et la coopération à cette fin.
Il en va de l’intérêt de toute l’humanité que l’Antarctique, dont nous avons la responsabilité collective, reste pour toujours réservé aux seules activités pacifiques et ne devienne jamais le terrain de différends internationaux. Bien que l’Antarctique soit sanctuarisé, il est aujourd’hui impératif de rehausser son niveau de protection et de l’étendre aux espaces océaniques pour faire face aux bouleversements climatiques majeurs et aux pressio

### bare_extraction() 

In [8]:
from trafilatura import bare_extraction

doc_dict = bare_extraction(document)
print(doc_dict.keys())
print(doc_dict['sitename'])

dict_keys(['title', 'author', 'url', 'hostname', 'description', 'sitename', 'date', 'categories', 'tags', 'fingerprint', 'id', 'license', 'text', 'comments'])
Le Monde.fr


### extract_metadata()

In [9]:
from trafilatura import extract_metadata

extract_metadata(document)

{'title': '« L’Antarctique le symbole de notre engagement commun dans la lutte contre la crise environnementale »',
 'author': 'Isabelle Autissier; Olivier Poivre d’Arvor',
 'url': 'https://www.lemonde.fr/idees/article/2021/06/08/l-antarctique-le-symbole-de-notre-engagement-commun-dans-la-lutte-contre-la-crise-environnementale_6083342_3232.html',
 'hostname': 'lemonde.fr',
 'description': 'TRIBUNE. La France accueillera, du 14 au 24 juin, la 43e Réunion consultative du traité sur l’Antarctique (RCTA) qui rassemblera les 54 États parties en vue de consultations sur les questions d’intérêt commun concernant l’Antarctique, ce qui sera l’occasion d’assurer la poursuite des objectifs du traité, expliquent, dans une tribune au « Monde », Isabelle Autissier et Olivier Poivre d’Arvor.',
 'sitename': 'Le Monde.fr',
 'date': '2021-06-08',
 'categories': [],
 'tags': [],
 'fingerprint': None,
 'id': None,
 'license': None}

## Découverte de documents textuels

### Feeds

Découverte de liens par [flux web](https://fr.wikipedia.org/wiki/Flux_web) :

In [10]:
from trafilatura.feeds import find_feed_urls

liens = find_feed_urls('https://www.lemonde.fr')
# 5 premiers liens trouvés dans le feed
print('\n'.join(liens[:5]))

https://www.lemonde.fr/afrique/article/2021/06/29/ethiopie-l-avancee-decisive-des-rebelles-marque-un-tournant-dans-la-guerre-au-tigre_6086174_3212.html
https://www.lemonde.fr/afrique/article/2021/06/29/l-ancien-president-sud-africain-jacob-zuma-condamne-a-quinze-mois-de-prison-pour-outrage-a-la-justice_6086200_3212.html
https://www.lemonde.fr/culture/article/2021/06/29/bourges-se-porte-candidate-au-titre-de-capitale-europeenne-de-la-culture-2028_6086192_3246.html
https://www.lemonde.fr/economie/article/2021/06/29/etats-unis-une-decision-de-justice-en-faveur-de-facebook-intensifie-les-debats-sur-les-lois-antitrust_6086185_3234.html
https://www.lemonde.fr/economie/article/2021/06/29/le-taux-de-chomage-est-reste-stable-au-premier-trimestre-2021-en-france_6086207_3234.html


### Sitemaps

Découverte de liens par le protocole [sitemaps](https://fr.wikipedia.org/wiki/Sitemaps) :

In [11]:
from trafilatura.sitemaps import sitemap_search

liens = sitemap_search('https://www.sitemaps.org', target_lang='en')
# 5 premiers liens trouvés dans la sitemap
print('\n'.join(liens[:5]))

https://www.sitemaps.org
https://www.sitemaps.org/en_GB/
https://www.sitemaps.org/en_GB/faq.html
https://www.sitemaps.org/en_GB/protocol.html
https://www.sitemaps.org/en_GB/terms.html


### Web crawling

Découverte de textes par exploration des pages internes d'un site et remontée des liens.

Cet outil est communément appelé crawler/spider/[robot d'indexation](https://fr.wikipedia.org/wiki/Robot_d%27indexation)

In [12]:
from trafilatura.spider import focused_crawler

to_visit, known_urls = focused_crawler('https://www.liberation.fr', max_seen_urls=3)
print(len(to_visit), len(known_urls))
# doit être converti en liste pour afficher une tranche
print('\n'.join(list(to_visit)[:5]))
print('---')
print('\n'.join(list(known_urls)[:5]))

201 204
https://www.liberation.fr/archives/2014/06/
https://www.liberation.fr/archives/2014/10/
https://www.liberation.fr/archives/2014/03/
https://www.liberation.fr/archives/2014/11/
https://www.liberation.fr/archives/2014/08/
---
https://www.liberation.fr/lifestyle/
http://abo.liberation.fr
https://www.liberation.fr/lifestyle/design/
https://www.liberation.fr/sports/rugby/
https://www.liberation.fr/sports/jeux-olympiques/


Les pages de type "archive", "categorie" etc. sont privilegiées pour le parcours de la page et sont placées dans les premiers items de la todo-liste.

Pour plus d'informations cf page [Web crawling](https://trafilatura.readthedocs.io/en/latest/crawls.html) de la documentation.

### Téléchargements massifs

- Application de "règles de politesse", cf page [Downloads](https://trafilatura.readthedocs.io/en/latest/downloads.html)
- Utilisation d'archives existantes :
    - Internet Archive, CommonCrawl et autres [sources pour corpus web](https://trafilatura.readthedocs.io/en/latest/sources.html)
    - Méthodes : Recherche par préfixes sur https://index.commoncrawl.org/ / Outils comme le [cdx_toolkit](https://github.com/cocrawler/cdx_toolkit/)


## Validation de documents XML-TEI

### Validation de la sortie

In [13]:
from trafilatura import bare_extraction
from trafilatura.xml import validate_tei

doc_dict = bare_extraction(document, output_format='xmltei')
arbre_tei = doc_dict['body']
# non valide (fréquent)
validate_tei(arbre_tei)



False

### Validation d'un autre document

In [14]:
from lxml import etree
from trafilatura.xml import validate_tei

# example avec un fichier "document.xml"
# mytree = etree.parse('document.xml')
# validate_tei(mytree)
# sortie : True ou message d'erreur