# Analyse de Données structurées


On a déjà vu comment analyser certains type de données, comme le plein texte ou les CSV/TSV.

Il existe de nombreux autres structures de données, comme le XML, le JSON ou le PDF, que nous allons voir maintenant !

### XML

[librairie lxml](https://lxml.de/)

In [1]:
import lxml

### Introduction
La bibliothèque lxml en Python pour analyser et extraire des informations à partir d'un fichier XML. Plus précisément, nous travaillerons avec un fichier XML TEI (Text Encoding Initiative) contenant des informations sur un roman et son auteur.

### Installation de la bibliothèque lxml
Avant de commencer, assurez-vous d'avoir la bibliothèque lxml installée. Vous pouvez l'installer avec la commande suivante :

In [None]:
!pip install lxml

### Importation de `etree` de lxml.

In [None]:
from lxml import etree

Le module `etree` offre une interface pratique et flexible pour travailler avec XML. Les concepts clés comprennent :
- `etree.parse` : Charge un fichier XML dans un ElementTree.
- `element.xpath` : Effectue des requêtes XPath sur un élément.
- `element.text` : Récupère le contenu textuel d'un élément.

In [None]:
chemin_fichier_xml = '/home/crazyjeannot/Documents/cours/Python4DH/data/xml/1843_Balzac-Honore-de_Le-Pere-Goriot.xml'
arbre = etree.parse(chemin_fichier_xml)

In [None]:
arbre.find(".//profileDesc")

In [None]:
arbre.find(".//profileDesc").get("tag")

In [None]:
arbre.find(".//term").text

### Exercices !

1/ Écrire une fonction qui lit tous les fichiers XML, créé et sauvegarde un dataframe avec 8 colonnes : titre, auteur, gender, genre, canon, date, date_naissance, date_mort

2/ Écrire une fonction qui convertie les xml en fichiers txt.

### JSON

[json librairie](https://docs.python.org/3/library/json.html)

In [5]:
import json

In [23]:
path_book = "/home/crazyjeannot/Documents/cours/Python4DH/data/json/1843_Balzac-Honore-de_Eugenie-Grandet.book"

In [24]:
with open(path_book, "r") as booknlp_book:
    book_data = json.load(booknlp_book)

In [None]:
book_data

In [None]:
characterization = get_characterization(book_data)

In [None]:
def get_characterization(booknlp_data):
    list_verb_suj, list_verb_obj, list_adj = [], [], []
    for i in range(len(booknlp_data)):
        list_verb_suj.extend([item['w'] for item in booknlp_data["characters"][i]['agent']])
        list_verb_obj.extend([item['w'] for item in booknlp_data["characters"][i]['patient']])
        list_adj.extend([item['w'] for item in booknlp_data["characters"][i]['mod']])
    return list_verb_suj, list_verb_obj, list_adj

In [None]:
# Sauvegarder un JSON
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f)

### PDF

Lecture et analyse des fichiers PDF peuvent être réalisées avec l'objet PdfReader de la bibliothèque [PyPDF](https://pypdf2.readthedocs.io/en/3.0.0/index.html), comme illustré par les lignes de code suivantes :

In [4]:
import PyPDF2 as PDF

In [8]:
file_path = '/home/crazyjeannot/Documents/cours/Python4DH/data/pdf/sarrasine_english.pdf'
pdf = PDF.PdfReader(file_path)

In [9]:
pdf

<PyPDF2._reader.PdfReader at 0x7f05c1994ca0>

In [None]:
n_pages = len(pdf.pages)
print(f'PDF has {n_pages} pages.')

In [None]:
pdf.pages[I]

In [31]:
page = pdf.pages[1]

In [None]:
content = page.extract_text()
print(content[:100])

l'analyse des données à partir de fichiers PDF est loin d'être parfaite, en particulier l'extraction des sauts de ligne qui peut être particulièrement difficile

### Exercices !

In [None]:
def pdf2txt(fname, page_numbers=None, concatenate=False):
    """Convertir du texte à partir d'un fichier PDF en une chaîne de caractères ou une liste de chaînes.
    Arguments :
    fname : une chaîne de caractères pointant vers le nom de fichier du fichier PDF.
    page_numbers : un entier ou une séquence d'entiers indiquant les
    pages à extraire. Si None (par défaut), toutes les pages sont extraites.
    concatenate : un booléen indiquant s'il faut concaténer les
    pages extraites en une seule chaîne. Lorsque False, une liste de
    chaînes est renvoyée.
    Renvoie :
    Une chaîne ou une liste de chaînes représentant le texte extrait
    du fichier PDF fourni.
    """
    
    pdf = PDF.PdfReader(fname)
    if page_numbers is None:
        page_numbers = range(len(pdf.pages))
    elif isinstance(page_numbers, int):
        page_numbers = [page_numbers]
    texts = [pdf.pages[n].extract_text() for n in page_numbers]
    return '\n'.join(texts) if concatenate else texts