# Analyse de Données structurées


On a déjà vu comment analyser certains type de données, comme le plein texte ou les CSV/TSV.

Il existe de nombreux autres structures de données, comme le XML, le JSON ou le PDF, que nous allons voir maintenant !

### XML

[librairie lxml](https://lxml.de/)

In [3]:
import lxml

### Introduction
La bibliothèque lxml en Python pour analyser et extraire des informations à partir d'un fichier XML. Plus précisément, nous travaillerons avec un fichier XML TEI (Text Encoding Initiative) contenant des informations sur un roman et son auteur.

### Installation de la bibliothèque lxml
Avant de commencer, assurez-vous d'avoir la bibliothèque lxml installée. Vous pouvez l'installer avec la commande suivante :

In [None]:
!pip install lxml

### Importation de `etree` de lxml.

In [4]:
from lxml import etree

Le module `etree` offre une interface pratique et flexible pour travailler avec XML. Les concepts clés comprennent :
- `etree.parse` : Charge un fichier XML dans un ElementTree.
- `element.xpath` : Effectue des requêtes XPath sur un élément.
- `element.text` : Récupère le contenu textuel d'un élément.

In [6]:
chemin_fichier_xml = '/home/crazyjeannot/Documents/cours/2024/Python4DH/data/xml/1843_Balzac-Honore-de_Le-Pere-Goriot.xml'
arbre = etree.parse(chemin_fichier_xml)

In [7]:
arbre

<lxml.etree._ElementTree at 0x7328ac2214c0>

In [6]:
arbre.find(".//profileDesc")

<Element profileDesc at 0x7f23d4c2a000>

In [8]:
arbre.find(".//profileDesc").text

'\n          '

In [10]:
arbre.find(".//profileDesc").get("tag")

'canon'

In [11]:
arbre.find(".//term").text

'cycles et séries'

### Exercices !

1/ Écrire une fonction qui lit tous les fichiers XML, créé et sauvegarde un dataframe avec 8 colonnes : titre, auteur, gender, genre, canon, date, date_naissance, date_mort

2/ Écrire une fonction qui convertie les xml en fichiers txt.

In [11]:
arbre.find(".//title").text

'Le Père Goriot'

In [None]:
<author from="1799" key="" name="Balzac, Honoré de" sex="male" to="1850"/>

In [12]:
arbre.find(".//author").get("sex")

'male'

### JSON

[json librairie](https://docs.python.org/3/library/json.html)

In [12]:
import json

In [13]:
path_book = "/home/crazyjeannot/Documents/cours/2024/Python4DH/data/json/1843_Balzac-Honore-de_Eugenie-Grandet.book"

In [14]:
with open(path_book, "r") as booknlp_book:
    book_data = json.load(booknlp_book)

In [15]:
type(book_data)

dict

In [17]:
book_data['characters'][0].keys()

dict_keys(['agent', 'patient', 'mod', 'poss', 'id', 'g', 'count', 'mentions'])

In [18]:
book_data['characters'][0]['g']

{'inference': {'il/le': 0.156, 'elle/la': 0.844},
 'argmax': 'elle/la',
 'max': 0.844,
 'total': 40.058}

In [19]:
def get_characterization(booknlp_data, N):
    list_verb_suj, list_verb_obj, list_adj = [], [], []
    for i in range(N):
        list_verb_suj.extend([item['w'] for item in booknlp_data["characters"][i]['agent']])
        list_verb_obj.extend([item['w'] for item in booknlp_data["characters"][i]['patient']])
        list_adj.extend([item['w'] for item in booknlp_data["characters"][i]['mod']])
    return list_verb_suj, list_verb_obj, list_adj

In [21]:
list_verb_suj, list_verb_obj, list_adj = get_characterization(book_data, 10)

In [22]:
list_verb_suj

['voulait',
 'vingt-trois',
 'failli',
 'retenue',
 'venez',
 'jouissez',
 'dit',
 'eut',
 'tourna',
 'dit',
 'gagnait',
 'remercie',
 'n’',
 'respirait',
 'voulu',
 'enviait',
 'allait',
 'mue',
 'songeait',
 'travaillée',
 'travaillée',
 'croyait',
 'arriva',
 'donna',
 'couvrit',
 'recommanda',
 'convainquit',
 'courut',
 'n’',
 'alla',
 'reçu',
 'remarquer',
 'm’',
 'entendait',
 'étudié',
 'servait',
 'faisait',
 'leva',
 'regarda',
 'demanda',
 'mit',
 'laça',
 'connut',
 'entendit',
 'étonna',
 'trouva',
 'eut',
 'plut',
 'appartenait',
 'ressemblait',
 'avait',
 'avait',
 'belle',
 'ouvrit',
 'tendit',
 'vu',
 'sauva',
 'éprouvait',
 'prit',
 'répondit',
 'pèse',
 'ferai',
 'pensais',
 'n’',
 'm’',
 'passerez',
 'cuiras',
 'connais',
 'apportera',
 'laisseront',
 'alla',
 'écoutait',
 'touchait',
 'allait',
 'arrivé',
 'dit',
 'trouvé',
 'dit',
 'achetés',
 'regardait',
 'dirai',
 '…',
 'commençaient',
 'vit',
 'attachait',
 'revint',
 'arrivant',
 'respira',
 'dit',
 'aime',
 

In [None]:
# Sauvegarder un JSON
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f)

### PDF

Lecture et analyse des fichiers PDF peuvent être réalisées avec l'objet PdfReader de la bibliothèque [PyPDF](https://pypdf2.readthedocs.io/en/3.0.0/index.html), comme illustré par les lignes de code suivantes :

In [23]:
!pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
Installing collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [25]:
import PyPDF2 as PDF

In [26]:
file_path = '/home/crazyjeannot/Documents/cours/2024/Python4DH/data/pdf/sarrasine_english.pdf'
pdf = PDF.PdfReader(file_path)

In [27]:
pdf

<PyPDF2._reader.PdfReader at 0x7328a6b34fb0>

In [28]:
n_pages = len(pdf.pages)
print(f'PDF has {n_pages} pages.')

PDF has 47 pages.


In [48]:
pdf.pages[15]

{'/Type': '/Page',
 '/Contents': {'/Filter': '/FlateDecode'},
 '/MediaBox': [0, 0, 612, 792],
 '/Parent': {'/Type': '/Pages',
  '/Count': 47,
  '/Kids': [IndirectObject(153, 1, 139791860096624),
   IndirectObject(2, 0, 139791860096624),
   IndirectObject(8, 0, 139791860096624),
   IndirectObject(10, 0, 139791860096624),
   IndirectObject(14, 0, 139791860096624),
   IndirectObject(17, 0, 139791860096624),
   IndirectObject(21, 0, 139791860096624),
   IndirectObject(23, 0, 139791860096624),
   IndirectObject(25, 0, 139791860096624),
   IndirectObject(27, 0, 139791860096624),
   IndirectObject(29, 0, 139791860096624),
   IndirectObject(31, 0, 139791860096624),
   IndirectObject(33, 0, 139791860096624),
   IndirectObject(35, 0, 139791860096624),
   IndirectObject(37, 0, 139791860096624),
   IndirectObject(39, 0, 139791860096624),
   IndirectObject(41, 0, 139791860096624),
   IndirectObject(43, 0, 139791860096624),
   IndirectObject(45, 0, 139791860096624),
   IndirectObject(47, 0, 13979186

In [29]:
page = pdf.pages[15]

In [30]:
content = page.extract_text()
print(content)

I hesitated.
“I insist upon knowing,” she added earnestly .
“I believe,” I said, “that this Adonis  represents a—a relative of Madame
de Lanty .”
I had the chagrin of seeing that she was lost in contemplatio n of that
figure. She sat down in silence, and I seated myself beside her and took her
hand without her noticing it. Forgotten for a portrait! At that moment we
heard in the silence a woman’ s footstep and the faint rustling of a dress. We
saw the youthfu l Marianina enter the boudoir , even more resplendent by
reason of her grace and her fresh costume; she was walking slowly and
leading with motherly care, with a daughter ’s solicitude, the spectre in
human attire, who had driven us from the music-room; as she led him, she
watched with some anxiety the slow movement of his feeble feet. They
walked painfully across the boudoir to a door hidden in the hangings.
Marianina knocked softly . Instantly a tall, thin man, a sort of familiar spirit,
appeared as if by magic. Before entrustin

l'analyse des données à partir de fichiers PDF est loin d'être parfaite, en particulier l'extraction des sauts de ligne qui peut être particulièrement difficile

### Exercices !