# Extraction de textes avec Trafilatura

## 1. Installation

`pip install trafilatura`

Mise à jour:

`pip install -U trafilatura`

**Pour plus d'informations cf rubrique [Installation](https://trafilatura.readthedocs.io/en/latest/installation.html).**

## 2. Téléchargement

In [1]:
from trafilatura import fetch_url

document = fetch_url('https://www.example.org')

Pour des questions liées aux téléchargements en série et à l'efficacité voir la [documentation en ligne](https://trafilatura.readthedocs.io/).

## 3. Fonction "extract"

In [2]:
from trafilatura import extract

texte = extract(document)
print(texte)

This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.
More information...


### Différents formats en sortie:

In [3]:
texte_xml = extract(document, output_format='xml')
print(texte_xml)

<doc title="Example Domain" categories="" tags="" fingerprint="FYMpE8PW9rnzogCzwvwGlIXzkHw=">
  <main>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p>More information...</p>
  </main>
  <comments/>
</doc>


## Autres fonctions utiles

Documentation des fonctions:

- [extract](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.extract)
- [bare_extraction](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.bare_extraction)
- [baseline](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.baseline)
- [extract_metadata](https://trafilatura.readthedocs.io/en/latest/corefunctions.html#trafilatura.extract_metadata)

### Ouverture et lecture de fichiers

#### Lecture de chaîne de caractères (Unicode)

In [4]:
fichier = 'toto/antarctique-manque-criant-de-financements-pour-la-recherche-polaire-francaise-20210614.html'
with open(fichier, encoding='utf-8') as f:
    document = f.read()
# extract(document)

#### Lecture d'arbres parsés par LXML

In [5]:
from lxml import html

arbre = html.fromstring(document)
#extract(arbre)

### Comparaison de la sortie de la baseline et de l'outil complet

In [6]:
from trafilatura import baseline

objet_lxml, texte, longueur = baseline(document)
print(texte)

\u00abOn est encore dans la cour des grands pour les r\u00e9sultats de recherche. Mais depuis 2005, les moyens financiers pour la recherche polaire sont rogn\u00e9s peu \u00e0 peu. Ils sont tomb\u00e9s \u00e0 moins de 20 millions d'euros par an. Cette enveloppe est indigne d'un grand pays comme la France\u200a\u00bb, se d\u00e9sole Yvon Le Maho, pr\u00e9sident du conseil d'administration de l'IPEV (Institut Polaire fran\u00e7ais Paul-\u00c9mile Victor), biologiste de r\u00e9putation internationale et membre de l'Acad\u00e9mie des sciences.Pour l'instant, la France dispose d'un budget annuel total de 18 millions d'euros pour sa pr\u00e9sence permanente en Arctique et en Antarctique, ses investissements, les salaires, la logistique qui a permis d'accueillir ...


In [7]:
texte = extract(document)
print(texte)

Antarctique: manque criant de financements pour la recherche polaire française
Alors que la réunion internationale de l'Antarctique se tient cette année à Paris, et malgré ses deux bases permanentes sur le continent blanc, la France consacre moins d'argent pour la science polaire que des pays comme la Pologne, la Corée du Sud ou l'Australie.
«On est encore dans la cour des grands pour les résultats de recherche. Mais depuis 2005, les moyens financiers pour la recherche polaire sont rognés peu à peu. Ils sont tombés à moins de 20 millions d'euros par an. Cette enveloppe est indigne d'un grand pays comme la France », se désole Yvon Le Maho, président du conseil d'administration de l'IPEV (Institut Polaire français Paul-Émile Victor), biologiste de réputation internationale et membre de l'Académie des sciences.
Pour l'instant, la France dispose d'un budget annuel total de 18 millions d'euros pour sa présence permanente en Arctique et en Antarctique, ses investissements, les salaires, la l

### bare_extraction() 

In [8]:
from trafilatura import bare_extraction

doc_dict = bare_extraction(document)
print(doc_dict.keys())
print(doc_dict['sitename'])

dict_keys(['title', 'author', 'url', 'hostname', 'description', 'sitename', 'date', 'categories', 'tags', 'fingerprint', 'id', 'license', 'text', 'comments'])
Le Figaro


### extract_metadata()

In [9]:
from trafilatura import extract_metadata

extract_metadata(document)

{'title': 'Antarctique: manque criant de financements pour la recherche polaire française',
 'author': 'Marc Cherki',
 'url': 'https://www.lefigaro.fr/sciences/antarctique-manque-criant-de-financements-pour-la-recherche-polaire-francaise-20210614',
 'hostname': 'lefigaro.fr',
 'description': "Alors que la réunion internationale de l'Antarctique se tient cette année à Paris, et malgré ses deux bases permanentes sur le continent blanc, la France consacre moins d'argent pour la science polaire que des pays comme la Pologne, la Corée du Sud ou l'Australie.",
 'sitename': 'Le Figaro',
 'date': '2021-06-14',
 'categories': ['Sciences & Environnement'],
 'tags': ['Arctique, Antarctique, Recherche, Actualité, actualités, Sciences, astronomie, actualité scientifique, sciences humaines, écologie, planète, zoologie, faune et flore',
  'Arctique, Antarctique, Recherche, Actualité, actualités, Sciences, astronomie, actualité scientifique, sciences humaines, écologie, planète, zoologie, faune et flo

## Découverte de documents textuels

### Feeds

Découverte de liens par [flux web](https://fr.wikipedia.org/wiki/Flux_web) :

In [10]:
from trafilatura.feeds import find_feed_urls

liens = find_feed_urls('https://www.lemonde.fr')
# 5 premiers liens trouvés dans le feed
print('\n'.join(liens[:5]))

https://www.lemonde.fr/economie/article/2021/06/15/covid-19-le-grand-bond-en-arriere-de-l-economie-indienne_6084241_3234.html
https://www.lemonde.fr/economie/article/2021/06/15/guerre-airbus-boeing-l-union-europeenne-et-les-etats-unis-se-mettent-d-accord-pour-suspendre-les-droits-de-douane-punitifs_6084223_3234.html
https://www.lemonde.fr/football/article/2021/06/15/didier-deschamps-un-basque-sur-une-galere-bordelaise_6084166_1616938.html
https://www.lemonde.fr/idees/article/2021/06/15/les-quatre-verites-qu-arnaud-montebourg-assene-a-la-gauche_6084187_3232.html
https://www.lemonde.fr/international/article/2021/06/15/communiques-du-g7-et-de-l-otan-la-chine-denonce-une-mentalite-de-guerre-froide_6084215_3210.html


### Sitemaps

Découverte de liens par le protocole [sitemaps](https://fr.wikipedia.org/wiki/Sitemaps) :

In [11]:
from trafilatura.sitemaps import sitemap_search

liens = sitemap_search('https://www.sitemaps.org', target_lang='en')
# 5 premiers liens trouvés dans la sitemap
print('\n'.join(liens[:5]))

https://www.sitemaps.org
https://www.sitemaps.org/en_GB/
https://www.sitemaps.org/en_GB/faq.html
https://www.sitemaps.org/en_GB/protocol.html
https://www.sitemaps.org/en_GB/terms.html


### Web crawling

Découverte de textes par exploration des pages internes d'un site et remontée des liens.

Cet outil est communément appelé crawler/spider/[robot d'indexation](https://fr.wikipedia.org/wiki/Robot_d%27indexation)

In [12]:
from trafilatura.spider import focused_crawler

to_visit, known_urls = focused_crawler('https://www.liberation.fr', max_seen_urls=3)
print(len(to_visit), len(known_urls))
# doit être converti en liste pour afficher une tranche
print('\n'.join(list(to_visit)[:5]))
print('---')
print('\n'.join(list(known_urls)[:5]))

195 198
https://www.liberation.fr/archives/2019/10/
https://www.liberation.fr/archives/2019/07/
https://www.liberation.fr/archives/2019/12/
https://www.liberation.fr/archives/2019/02/
https://www.liberation.fr/archives/2019/11/
---
https://www.liberation.fr/societe/police-justice/sarkozy-au-proces-bygmalion-la-parole-est-a-la-depense-20210614_DSFYHP7KLBAD5FSLHYQZ6RZ6CY/
https://www.liberation.fr/societe/education/laicite-blanquer-lance-un-plan-de-formation-des-enseignants-sur-quatre-ans-20210615_LX3FLGQQLFE35AOPQK47DOLP5A/
https://www.liberation.fr/archives/1998/
https://www.liberation.fr/politique/couvre-feu-les-oppositions-en-decalage-horaire-avec-la-majorite-20210614_6SYMQ3IC4ZBEBHS7H4GWQG5PIE/
https://www.liberation.fr/societe/police-justice/


Les pages de type "archive", "categorie" etc. sont privilegiées pour le parcours de la page et sont placées dans les premiers items de la todo-liste.

Pour plus d'informations cf page [Web crawling](https://trafilatura.readthedocs.io/en/latest/crawls.html) de la documentation.

### Téléchargements massifs

- Application de "règles de politesse", cf page [Downloads](https://trafilatura.readthedocs.io/en/latest/downloads.html)
- Utilisation d'archives existantes :
    - Internet Archive, CommonCrawl et autres [sources pour corpus web](https://trafilatura.readthedocs.io/en/latest/sources.html)
    - Méthodes : Recherche par préfixes sur https://index.commoncrawl.org/ / Outils comme le [cdx_toolkit](https://github.com/cocrawler/cdx_toolkit/)


## Validation de documents XML-TEI

### Validation de la sortie

In [13]:
from trafilatura import bare_extraction
from trafilatura.xml import validate_tei

doc_dict = bare_extraction(document, output_format='xmltei')
arbre_tei = doc_dict['body']
# non valide (fréquent)
validate_tei(arbre_tei)



False

### Validation d'un autre document

In [14]:
from lxml import etree
from trafilatura.xml import validate_tei

# example avec un fichier "document.xml"
# mytree = etree.parse('document.xml')
# validate_tei(mytree)
# sortie : True ou message d'erreur