# Tables
---
`User` (*abstract class*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | --
**name**             | `String`      |not null              | --
**surname**          | `String`      |not null              | --
**login**            | `String`      |unique and not null   | --
**password**         | `String`      |not null              | --
**email**            | `String`      |unique and not null   | validation côté client en utilisant des regex
**dateSubscription** | `DateTime`    |not null              | datetime courant lors de l'inscription ayant le format DD/MM/YYYY

---

`Professor` (*concrete class inheriting `User`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `User`
**domain**           | `String`      |not null and check value in {`'French'`, `'English'`, `'Spanish'`, $\dots$}| énumération côté client
**degree**           | `String`      |not null and check value in {`'Licence'`, `'Masters'`, `'Phd'`}| énumération côté client

---

`Client` (*abstract class inheriting `User`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `User`
**emailVerified**    | `boolean`     |not null, by default = `False`              | valeur mise à jour lors de la confirmation par email par le client


---

`Student` (*concrete class inheriting `Client`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Client`
**dateBirth**        | `DateTime`    |not null              | --

---

`Parent` (*concrete class inheriting `Client`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Client`
**role**             | `String`      |not null and check value in {`'Mother'`, `'Father'`}| énumération côté client

---

`ParentHasChild` ($0..N$ binary *association between `Parent` and `Student`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**idPS**             | `int`         |clé primaire          | --
**idP**              | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Parent`
**idS**              | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Student`

**Remarques**  
1. (`idP`, `idS`) doit être unique dans la table

---

`Course` (*concrete class*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | --
**title**            | `String`      |not null and check value in {`'French'`, `'English'`, `'Spanish'`, $\dots$}              | énumération côté client
**class**            | `String`      |not null and check value in {`'6eme'`, `'5eme'`, `'4eme'`, `'3eme'`, `'2nde'`, `'1ere'`, `'0eme'`}| énumération côté client
**number**           | `int`         |not null              | nombre sur deux chiffres, incrémenté automatiquement à partir de 01 pour chaque cours
**code**             |`String`       |not null et unique    | attribut calculé (cf. **Remarques**)

**Remarques**  
1. la valeur `0eme` correspond à la classe de **Terminale**
2. `code` : 
    - **règle** : possède une valeur de la forme : 3 premières lettres de `title` + première lettre de `class` + `number` + `yearSchool` (attribut de l'association `CourseHasUnit`)
    - *exemple* : un cours de Maths de la classe de $4eme$, ayant un numéro $5$ pour l'année scolaire `2018` aura le code `code = 'Mat4052018'`

---

`StudentHasCourse` ($N..N$ *binary association between `Student` and `Course`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**idSC**             | `int`         |clé primaire          | --
**idS**              | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Student`
**idCo**             | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Course`
**yearSchool**       | `int`         |not null              | désigne l'année dans laquelle les cours seront terminés (e.g. pour l'année 2018-2019, `yearSchool = 2019`
**price**            | `Real`        |not null              | désigne le prix d'un cours pour une année
**score**            | `Real`       |--                    | la moyenne des scores de toutes les unités du cours sur $20$
**isValidated**      | `String`      | not null, and check value in {`'Yes'`, `'No'`, `'Pending'`}, by default = `'Pending'` | énumération côté client 

**Remarques**  
1. (`idS`, `idCo`, `yearSchool`) doit être unique dans la table
2. la valeur de `isValidated` :
    - `'Pending'`, par défaut
    - `'Yes'`, si la valeur de `score` est $\geq$ 10/20
    - `'No'`, si la valeur de `score` est $\lt$ 10/20

---

`ProfessorTeachesCourse` ($N..N$ *binary association between `Professor`, and `Course`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**idPC**             | `int`         |clé primaire          | --
**idP**              | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Professor`
**idCo**             | `int`         |not null              | clé étrangère référençant un tuple correspondant dans la table `Course`
**yearSchool**       | `int`         |not null              | --

**Remarques**  
1. (`idP`, `idCo`, `yearSchool`) doit être unique dans la table
2. on assume qu'un professeur apprend toutes les unités d'une matière, et que ses unités ne peuvent pas être partagées par plusieurs professeurs (i.e. un seul professeur pour les CM, les TD, les vidéos, etc.)

`PaymentMethod` (*abstract class*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | --
**holderName**       | `String`      |not null              | --
**holderSurname**    | `String`      |not null              | --
**idHolder**         | `int`         |not null              |clé étrangère référençant un tuple correspondant dans la table `Client`

**Remarques**  
1. la classe correspondante à la table `PaymentMethod` possède une méthode abstraite `pay()` qui sera implémentée par toutes ces sous-classes concrètes
2. un client peut avoir $1..N$ méthodes de paiement -> référencement de son `id` dans un tuple d'une méthode de paiement via l'attribut `idHolder`
3. si le client est un `Parent`, alors la méthode de paiement sera répércutée à ses enfants (i.e. `Student`s). Toutefois, les enfants n'auront pas accès à cette méthode de paiement, et c'est uniquement le parent qui peut la contrôler
4. si le client est un `Student`, alors il aura accès naturellement à ses méthodes de paiement.
5. Bien qu'on pourra accéder aux attributs `name` et `surname` de l'utilisateur désignant le `client` à travers la clé étrangère `idHolder`, on préfèrera avoir les attributs `holderName` et `holderSurname` qui sont propres à cette table, vu qu'ils peuvent être différents (i.e. un client peut fournir un `name` et `surname` différents que ceux utilisés pour ses méthodes de paiement) 
6. il n'y aura pas un vrai réglement dans l'application, mais ces informations sont utilisés à titre indicatif.

---

`BankCard` (*concrete class inheriting `PaymentMethod`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `PaymentMethod`
**number**       | `String`      |not null              | validation côté client en utilisant des regex
**expiryMonth**  | `int`         |not null and check value in $[1;12]$              | --
**expiryYear**   | `int`         |not null and check value $\geq$ année courante              | --
**securityCode** | `int`         |not null and check length = 3              | validation côté client

---

`BankTransfer` (*concrete class inheriting `PaymentMethod`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `PaymentMethod`
**rib**              | `String`      |not null              | validation côté client en utilisant des regex

---

`Payment` (*concrete class*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | --
**idP**              | `int`         |not null              | clé étrangère référençant le tuple correspondant dans la table `PaymentMethod`
**reference**        | `String`      |not null              | générée lors du paiement par une méthode à créer
**yearSchool**       | `int`         |not null              | désigne l'année des cours à régler (e.g. pour rélger les cours de l'année 2018-2019, `yearSchool = 2019`
**datePayment**      | `DateTime`    |not null              | datetime courant lors du paiement ayant le format DD/MM/YYYY
**totalFees**        | `Real`        |not null              | calculé à partir des prix des cours du client associé à la méthode de paiement (cf. Remarques)

**Remarques**  
1. l'attribut `idP` contient une référence vers le client (`Parent` ou `Student`)
2. si le client est un `Parent`, il faut regarder l'ensemble de ses enfants via la table `ParentHasChild`. Pour chaque enfant d'un parent, on regarde les cours choisis pour une année à travers la table `StudentHasCourse`. Pour chaque cours, on récupère le prix du cours via l'attribut `price`. L'attribut `totalFees` sera ainsi la somme des prix de tous les cours de chaque enfant du `Parent`. On y ajoutera le prix d'un offre premium (i.e. avec un chat) dans une version prochaine.
3. si le client est un `Student`, on regarde les cours choisis pour une année à travers la table `StudentHasCourse` et on procède de la même manière que précédemment.

---

`Unit` (*abstract class*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | --
**number**           | `int`         |not null              | désigne le numéro de l'unité (*e.g. exercise 1, cours 1, vidéo 1,* $\dots$)
**idC**              | `int`         |not null              | clé étrangère référençant le tuple correspondant dans la table `Course` 

---

---

`StaticUnit` (*abstract class inheriting `Unit`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Unit`
**name**             | `String`      |not null              | désigne le nom du dossier correspondant à la l'unité, contenant ses ressources associées (fichiers, images, vidéos, etc.)
**duration**         | `int`         |not null              | attributé calculé selon le type de l'unité (cf. Remarques)

**Remarques**  
1. la classe correspondante à la table `StaticUnit` possède une méthode abstraite `duration()` qui sera implémentée par toutes ces sous-classes concrètes afin d'obtenir la valeur de l'attribut `duration`
2. (*cf. Units Design Principles*)

---

`Lecture` (*abstract class inheriting `StaticUnit`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `StaticUnit`

---

`Document` (*concrete class inheriting `Lecture`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Lecture`
**Path**          | `String`      |not null              | désigne le chemin vers le fichier `.pdf` correspondant au document (*cf. Units File Hierarchy*)
**mapPath**          | `String`      |not null              | désigne le chemin vers le fichier map correspondant au document (*cf. Units File Hierarchy*)
**nbPages**          | `int`         |not null              | désigne le nombre de pages du document en regardant le nombre de pages du pdf

**Remarques**  
1. un `Document` implémente la méthode abstraite `duration()` héritée de `StaticUnit` en suivant l'algorithme suivant :
    $duration = nbPages \times 10$

---

`Presentation` (*concrete class inheriting `Document`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Document`
**presFilePath**     | `String`      |not null              | désigne le chemin vers le fichier de la présentation (*cf. Units File Hierarchy*)

---

`Video` (*concrete class inheriting `Lecture`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `Lecture`
**videoPath**        | `String`      |not null              | désigne le chemin vers le fichier de la vidéo (*cf. Units File Hierarchy*)

**Remarques**  
1. un `Video` implémente la méthode abstraite `duration()` héritée de `StaticUnit` en suivant l'algorithme suivant :
    $duration = nbMins(video)$

---

`Exercise` (*abstract class inheriting `StaticUnit`*)

Attribut             | Type          | Contraintes          | Remarques
---------------------|---------------|----------------------|-----------
**id**               | `int`         |clé primaire          | clé étrangère référençant le tuple correspondant dans la superclasse `StaticUnit`
**category**         | `String`      |not null and check value in {`'Training'`, `'Exam'`}              | désigne la catégorie d'un exercise (*cf. Units Design Principles*)
**pdfPath**          | `String`      |not null              | désigne le chemin vers le fichier `.pdf` correspondant à l'exercise (*cf. Units File Hierarchy*)
**mapPath**          | `String`      |not null              | désigne le chemin vers le fichier map correspondant à l'exercise (*cf. Units File Hierarchy*)

# Units
---
## Design principles
---
### Basics
---
1. Every `Course` has many **units** associated to it forming its content $\rightarrow$ `Unit` *abstract class*
2. Every `Course` could be either **static** (*already existent*) or **dynamic** (*real time*) $\rightarrow$ `StaticUnit` and `DynamicUnit` *abstract classes*
3. Every `StaticUnit` is either a **lecture** or an **exercise** $\rightarrow$ `Lecture` and `Exercise` *abstract classes*
4. Every `Lecture` is either a **document** or a **video** -> `Document` and `Video` *concrete classes*
5. Every `Document` can be **specifically** a **presentation** -> `Presentation` *concrete class*
6. Every `Exercise` is either an **MCQ** or a **Q & A** -> `MCQ` and `QAndA` *concrete classes*

### Details
---
1. for Every `Document` :
    - **pdf document** :
        1. to **download** document for local storage
        2. to be used to extract the **dynamic version** of the document as it is being interacted with at **Application Level**
        3. has a **path**
        4. has a specific **number of pages** that defines the **estimated duration** for completing a document
    - **duration computation** :
        1. $1~page = 1~point$
        2. for every page we estimate that a user will require $10$ **minutes** to complete it.
        3. estimated_completion_duration(Document) in minutes = nbPages(Document) $\times 10$
    - **dynamic version of the document** :
        1. **document layout** of unit will be controlled by **client side GUI code**
        2. **document page flipping** : the beginning/end of a document page can be marked via **GUI** : **previous/next page button** or **swipe left/right**
        3. **document completion** : marked by a **complete button** via **GUI**
        4. **document checkpoint** : 
            * designates the **number of the page** having **user focus**
            * saved locally **as the student browses the document**, without pressing complete button
            * flushed to the **server database** when the user quits the unit
    - **extracting data from a pdf document** and processing it through to the app :
        1. before unit becomes available for interaction, we must **only once** :
              * download units as **pdf documents** from somewhere
              * **extract resources** from pdf documents (*images, video, audio*)
              * **extract document representation** in **XML/JSON**
              * **map the XML/JSON representation** to the **database model**
        2. when a **client issues a request for a specific unit** :
            * the **server** checks the corresponding model of the **requested unit** as it is stored in the database as well as **checkpoint** and **completion status** values
            * the **server** fetches from the **filesystem** the **XML/JSON document** and the **associated resources** mapped to the checked **model** and **sends** them back to the **client** where they will be **processed** by the **app's GUI**
        3. upon **reception**, the **client interacts** with the **dynamic version of the document**. When he's **done interacting** with a **unit** :
            * the **server** updates **possible changes** to the document model (*checkpoint, completion status, date of last time accessed*, $\dots$) in the **database**
        4. upon **next connection**, the **server** will send back the **unit** while taking into account **completion and checkpoints values**
        5. **tools** :
            * many tools available for **XML/JSON** data **fetching** from server in **PHP**
            * **pdf to XML/JSON tools** are most likely available, and we need to **check them out**
            * if we cannot find proper extraction tools, we might have to define an XML schema ourselves and map the pdf document to it

2. Every `Presentation` :
    - has the **same behavior** as a `Document`
    - but **can have a Powerpoint/Impress/KFormat presentation file** associated with it for **local download** through a **path attribute**
3. Every `Video` :
    - has a **path** containing the **link** to the video (**local video** or on a video hosting platform such as **YouTube**)
    - has a **duration** equivalent to the actual duration of the video in number of minutes
4. Every `Exercise` :
    - has a category that designates whether it's a **training exercise** or an **exam**
    - has a 
  
## File Hierarchy
---
**classes** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**6eme** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"year K"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**courses** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- course_code of Course 1"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**units** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**documents** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- Title of Document 1"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**document1.pdf** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**document1.map** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**imgs** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**image 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**vids** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**video 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**audio** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**audio 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- Title of Document 2"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**presentations** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- Title of Presentation 1"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**presentation.pdf** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**presentation.map** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**presentation.formatK** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**imgs** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**image 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**vids** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**video 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**audio** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**audio 1** (*file*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- Title of Presentation 2"** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**videos** (*local videos folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**"01- Title of Video 1"**  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$\dots$  
**exercises** (*folder*)  
**exams** (*folder*)  
**"02- course_code of Course 2"** (*folder*)  
$\dots$  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**5eme** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**4eme** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**3eme** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**2nde** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**1ere** (*folder*)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**0eme** (*folder*)  

# Extras (later)
---
1. `Chat` class hierarchy: for premium formula
2. `DynamicUnit` class hierarchy: for real time course units
3. `RealTimeVideo`: concrete class, inheriting `DynamicUnit`, designating real time video units

# Data Extraction from PDF Documents
---
[Exporting Data From PDFs With Python](https://dzone.com/articles/exporting-data-from-pdfs-with-python "Exporting Data From PDFs With Python")

In [7]:
import json
import os
import io
from pdfminer.layout import LAParams
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage

laparams = LAParams()
setattr(laparams, 'all_texts', True)

def extract_text_from_pdf(pdf_path):
    resource_manager = PDFResourceManager()
    fake_file_handle = io.StringIO()
    converter = TextConverter(resource_manager, fake_file_handle, laparams=laparams)
    page_interpreter = PDFPageInterpreter(resource_manager, converter)

    with open(pdf_path, 'rb') as fh:
        for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
            page_interpreter.process_page(page)
        text = fake_file_handle.getvalue()

    # close open handles
    converter.close()
    fake_file_handle.close()
    if text:
        return text

def extract_full_text_from_pdf(source, dest):
    with open(dest, 'w') as file:
        text = extract_text_from_pdf(source)
        file.write(text)
    
def extract_text_by_page(pdf_path):
    with open(pdf_path, 'rb') as fh:
        for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
            resource_manager = PDFResourceManager()
            fake_file_handle = io.StringIO()
            converter = TextConverter(resource_manager, fake_file_handle, laparams=laparams)
            page_interpreter = PDFPageInterpreter(resource_manager, converter)
            page_interpreter.process_page(page)
            text = fake_file_handle.getvalue()
            
            yield text.encode('utf8')

            # close open handles
            converter.close()
            fake_file_handle.close()

def extract_text_by_page_from_pdf(source, dest):
    with open(dest, 'a') as file:
        for page in extract_text_by_page(source):
            file.write(page.decode('utf8') + "\n")

def export_as_json(source, dest):
    filename = os.path.splitext(os.path.basename(source))[0]
    data = {'Filename': filename}
    data['Pages'] = []
    counter = 1

    for page in extract_text_by_page(source):
        page_obj = {'Page_{}'.format(counter): page.decode('utf8')}
        data['Pages'].append(page_obj)
        counter += 1

    with open(dest, 'w', encoding='utf8') as fh:
        json.dump(data, fh, ensure_ascii=False)
    return data

#testing the extract all text from pdf
#extract_full_text_from_pdf('Administrer_vos_bases_de_données_avec_MySQL.pdf', 'full_text')

#testing the extract by page from pdf
#extract_text('Administrer_vos_bases_de_données_avec_MySQL.pdf', 'text_by_page')

#testing the json exporter
data = export_as_json('Administrer_vos_bases_de_données_avec_MySQL.pdf', 'test.json')

In [41]:
for index, page in enumerate(data['Pages']):
    content = page['Page_{}'.format(index+1)]
    print(content)

ADMINISTREZ VOS BASES DE DONNÉES AVEC

MYSQL

Chantal Gribaumont 

2e édition


Devenez Premium

Téléchargez  
les eBooks 
Accédez  
(cid:30)(cid:50)(cid:53)(cid:3)(cid:32)(cid:34)(cid:47)(cid:49)(cid:38)(cid:412)(cid:32)(cid:30)(cid:49)(cid:38)(cid:44)(cid:43)(cid:48)
Téléchargez  
(cid:41)(cid:34)(cid:48)(cid:3)(cid:51)(cid:38)(cid:33)(cid:263)(cid:44)(cid:48)(cid:3)(cid:34)(cid:43)(cid:3)(cid:11)(cid:7)(cid:3)

(cid:52)(cid:52)(cid:52)(cid:509)(cid:44)(cid:45)(cid:34)(cid:43)(cid:32)(cid:41)(cid:30)(cid:48)(cid:48)(cid:47)(cid:44)(cid:44)(cid:42)(cid:48)(cid:509)(cid:32)(cid:44)(cid:42)(cid:545)(cid:45)(cid:47)(cid:34)(cid:42)(cid:38)(cid:50)(cid:42)


DANS LA MÊME COLLECTION

Propulsez votre site avec 
WORDPRESS

Julien Chichignoud
ISBN : 979-10-90085-73-2

Prenez en main BOOTSTRAP

Maurice Chavelli
ISBN : 979-10-90085-62-6

Apprenez à programmer en
VB.NET

Des applications 
ultra-rapides avec NODE.JS

Thomas Martinet
ISBN : 979-10-90085-05-3

Mathieu Nebra
ISBN : 979-10-90085-59

In [4]:
#Module Importation
import sys
import os
import zlib, gzip
from binascii import b2a_hex
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument, PDFNoOutlines
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure, LTImage

In [2]:
def with_pdf (pdf_doc, pdf_pwd, fn, *args):
    """Open the pdf document, and apply the function, returning the results"""
    result = None
    try:
        # open the pdf file
        fp = open(pdf_doc, 'rb')
        
        # create a parser object associated with the file object
        parser = PDFParser(fp)
        
        # create a PDFDocument object that stores the document structure
        doc = PDFDocument(parser, pdf_pwd) if pdf_pwd else PDFDocument(parser)
        
        # connect the parser and document objects
        parser.set_document(doc)
        
        if doc.is_extractable:
            # apply the function and return the result
            result = fn(doc, *args)
        
        # close the pdf file
        fp.close()
    except IOError:
        # the file doesn't exist or similar problem
        pass
    return result

def _parse_toc (doc):
    """With an open PDFDocument object, get the table of contents (toc) data
    [this is a higher-order function to be passed to with_pdf()]"""
    
    toc = []
    try:
        outlines = doc.get_outlines()
        
        for (level,title,dest,a,se) in outlines:
            toc.append( (level, title) )
    except PDFNoOutlines:
        pass
    return toc

def get_toc (pdf_doc, pdf_pwd=''):
    """Return the table of contents (toc), if any, for this pdf file"""
    return with_pdf(pdf_doc, pdf_pwd, _parse_toc)

def _parse_pages (doc, images_folder):
    """With an open PDFDocument object, get the pages, parse each one, and 
    return the entire text
    [this is a higher-order function to be passed to with_pdf()]"""
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    # a list of strings, each representing text collected 
    # from each page of the doc
    text_content = []
    for i, page in enumerate(PDFPage.create_pages(doc)):
        interpreter.process_page(page)
        
        # receive the LTPage object for this page
        layout = device.get_result()
        
        # layout is an LTPage object which may contain child objects like
        #LTTextBox, LTFigure, LTImage, etc.
        text_content.append(parse_lt_objs(layout._objs, (i+1), images_folder))
        
    return text_content

def get_pages (pdf_doc, pdf_pwd='', images_folder='/tmp'):
    """Process each of the pages in this pdf file and 
    print the entire text to stdout"""
    print('\n\n'.join(with_pdf(pdf_doc, pdf_pwd, _parse_pages, *tuple([images_folder]))))

def to_bytestring (s, enc='utf-8'):
    """Convert the given unicode string to a bytestring, using the standard encoding,
    unless it's already a bytestring"""
    if s:
        if isinstance(s, str):
            return s
    else:
        return s.encode(enc)

def update_page_text_hash (h, lt_obj, pct=0.2):
    """Use the bbox x0,x1 values within pct% to produce lists of associated 
    text within the hash"""
    x0 = lt_obj.bbox[0]
    x1 = lt_obj.bbox[2]
    key_found = False
    
    for k, v in h.items():
        hash_x0 = k[0]
        if x0 >= (hash_x0 * (1.0-pct)) and (hash_x0 * (1.0+pct)) >= x0:
            hash_x1 = k[1]
            if x1 >= (hash_x1 * (1.0-pct)) and (hash_x1 * (1.0+pct)) >= x1:
                # the text inside this LT* object was positioned at the same
                # width as a prior series of text, so it belongs together
                key_found = True
                v.append(to_bytestring(lt_obj.get_text()))
                h[k] = v
                
    if not key_found:
        # the text, based on width, is a new series,
        # so it gets its own series (entry in the hash)
        h[(x0,x1)] = [to_bytestring(lt_obj.get_text())]
    return h


def parse_lt_objs (lt_objs, page_number, images_folder, text=[]):
    """Iterate through the list of LT* objects and capture the text or 
    image data contained in each"""
    text_content = []
    
    # k=(x0, x1) of the bbox, v=list of text strings within that bbox width 
    #(physical column)
    page_text = {}
    
    for lt_obj in lt_objs:
        if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
            # text, so arrange is logically based on its column width
            page_text = update_page_text_hash(page_text, lt_obj)

        elif isinstance(lt_obj, LTImage):
            # an image, so save it to the designated folder, 
            # and note it's place in the text
            saved_file = save_image(lt_obj, page_number, images_folder)
            
            if saved_file:
            # use html style <img /> tag to mark the position of the image 
            #within the text
                text_content.append('<img src="'+os.path.join(images_folder, saved_file)+'" />')
            else:
                print("Error saving image on page", page_number, lt_obj.__repr__, file=sys.stderr)
        elif isinstance(lt_obj, LTFigure):
            # LTFigure objects are containers for other LT* objects, 
            #so recurse through the children
            text_content.append(parse_lt_objs(lt_obj._objs, page_number, images_folder, text_content))
    
    for k, v in sorted([(key,value) for (key,value) in page_text.items()]):
        # sort the page_text hash by the keys (x0,x1 values of the bbox),
        # which produces a top-down, left-to-right sequence of related columns
        text_content.append('\n'.join(v))

    return '\n'.join(text_content)

def determine_image_type (stream_first_4_bytes):
    """Find out the image file type based on the magic number comparison of the first 4 (or 2) bytes"""
    file_type = None
    bytes_as_hex = b2a_hex(stream_first_4_bytes)
    
    if bytes_as_hex.startswith(b'ffd8'):
        file_type = '.jpeg'
    elif bytes_as_hex.startswith(b'78da') or bytes_as_hex == b'89504e47':
        file_type = '.png'
    elif bytes_as_hex == b'47494638':
        file_type = '.gif'
    elif bytes_as_hex.startswith(b'424d'):
        file_type = '.bmp'
    
    return file_type

def write_file (folder, filename, filedata, flags='w'):
    """Write the file data to the folder and filename combination
    (flags: 'w' for write text, 'wb' for write binary, use 'a' instead of 
    'w' for append)"""
    result = False
    if os.path.isdir(folder):
        try:
            file_obj = open(os.path.join(folder, filename), flags)
            file_ext = filename.split('.')[-1]
            if file_ext == 'png':
                file_obj.write(zlib.decompress(filedata))
            else:
                file_obj.write(filedata)
            file_obj.close()
            result = True
        except IOError:
            pass
    return result

def save_image (lt_image, page_number, images_folder):
    """Try to save the image data from this LTImage object, 
    and return the file name, if successful"""
    result = None
    if lt_image.stream:
        file_stream = lt_image.stream.get_rawdata()
        file_ext = determine_image_type(file_stream[0:4])
        
        if file_ext:
            file_name = ''.join([str(page_number), '_', lt_image.name, file_ext])
            
            if write_file(images_folder, file_name, lt_image.stream.get_rawdata(), flags='wb'):
                result = file_name
    return result


In [9]:
#get_toc ('Administrer_vos_bases_de_données_avec_MySQL.pdf')
get_pages ('Administrer_vos_bases_de_données_avec_MySQL.pdf', images_folder='test_images')

# get_toc ('HLIN407_Bachar_RIMA.pdf')
# get_pages ('HLIN407_Bachar_RIMA.pdf', images_folder='test_images')

Error saving image on page 3 <bound method LTImage.__repr__ of <LTImage(Im6) 37.791,353.956,77.869,411.508 (167, 240)>>
Error saving image on page 3 <bound method LTImage.__repr__ of <LTImage(Im7) 255.498,536.201,295.840,594.158 (169, 242)>>
Error saving image on page 3 <bound method LTImage.__repr__ of <LTImage(Im8) 38.051,444.474,78.363,502.456 (168, 242)>>
Error saving image on page 3 <bound method LTImage.__repr__ of <LTImage(Im9) 254.043,444.962,294.121,502.473 (167, 240)>>
Error saving image on page 4 <bound method LTImage.__repr__ of <LTImage(Im12) 201.260,124.742,252.280,142.593 (403, 141)>>
Error saving image on page 27 <bound method LTImage.__repr__ of <LTImage(Im13) 391.181,393.426,413.860,400.882 (73, 24)>>
Error saving image on page 30 <bound method LTImage.__repr__ of <LTImage(Im15) 119.622,522.256,373.603,609.449 (769, 264)>>
Error saving image on page 33 <bound method LTImage.__repr__ of <LTImage(Im13) 391.181,392.108,413.860,399.564 (73, 24)>>
Error saving image on pag

Error saving image on page 139 <bound method LTImage.__repr__ of <LTImage(Im22) 45.663,517.875,76.844,549.056 (130, 130)>>
Error saving image on page 139 <bound method LTImage.__repr__ of <LTImage(Im42) 99.779,111.815,353.768,228.487 (529, 243)>>
Error saving image on page 142 <bound method LTImage.__repr__ of <LTImage(Im24) 65.505,403.133,96.686,434.314 (130, 130)>>
Error saving image on page 147 <bound method LTImage.__repr__ of <LTImage(Im13) 391.181,393.426,413.860,400.882 (73, 24)>>
Error saving image on page 149 <bound method LTImage.__repr__ of <LTImage(Im44) 58.819,362.038,394.728,513.197 (700, 315)>>
Error saving image on page 149 <bound method LTImage.__repr__ of <LTImage(Im18) 45.663,177.736,76.844,208.917 (130, 130)>>
Error saving image on page 150 <bound method LTImage.__repr__ of <LTImage(Im24) 65.505,259.564,96.686,290.745 (130, 130)>>
Error saving image on page 153 <bound method LTImage.__repr__ of <LTImage(Im24) 45.663,57.689,76.844,88.870 (130, 130)>>
Error saving ima

Error saving image on page 312 <bound method LTImage.__repr__ of <LTImage(Im22) 65.505,147.780,96.686,178.961 (130, 130)>>
Error saving image on page 316 <bound method LTImage.__repr__ of <LTImage(Im18) 65.505,483.800,96.686,514.981 (130, 130)>>
Error saving image on page 317 <bound method LTImage.__repr__ of <LTImage(Im34) 45.663,263.621,76.844,294.802 (130, 130)>>
Error saving image on page 319 <bound method LTImage.__repr__ of <LTImage(Im22) 45.663,244.547,76.844,275.728 (130, 130)>>
Error saving image on page 321 <bound method LTImage.__repr__ of <LTImage(Im24) 45.663,250.947,76.844,282.128 (130, 130)>>
Error saving image on page 321 <bound method LTImage.__repr__ of <LTImage(Im24) 45.663,106.420,76.844,137.601 (130, 130)>>
Error saving image on page 325 <bound method LTImage.__repr__ of <LTImage(Im24) 45.663,297.682,76.844,328.863 (130, 130)>>
Error saving image on page 325 <bound method LTImage.__repr__ of <LTImage(Im18) 45.663,57.689,76.844,88.870 (130, 130)>>
Error saving image

Error saving image on page 435 <bound method LTImage.__repr__ of <LTImage(Im22) 45.663,388.870,76.844,420.051 (130, 130)>>
Error saving image on page 441 <bound method LTImage.__repr__ of <LTImage(Im18) 45.663,340.054,76.844,371.235 (130, 130)>>
Error saving image on page 449 <bound method LTImage.__repr__ of <LTImage(Im13) 391.181,392.108,413.860,399.564 (73, 24)>>
Error saving image on page 451 <bound method LTImage.__repr__ of <LTImage(Im24) 45.663,224.555,76.844,255.736 (130, 130)>>
Error saving image on page 453 <bound method LTImage.__repr__ of <LTImage(Im22) 45.663,565.383,76.844,596.564 (130, 130)>>
Error saving image on page 457 <bound method LTImage.__repr__ of <LTImage(Im22) 45.663,577.338,76.844,608.519 (130, 130)>>
Error saving image on page 457 <bound method LTImage.__repr__ of <LTImage(Im18) 45.663,289.302,76.844,320.483 (130, 130)>>
Error saving image on page 457 <bound method LTImage.__repr__ of <LTImage(Im18) 45.663,66.266,76.844,97.447 (130, 130)>>
Error saving image

MYSQL

Chantal Gribaumont 

ADMINISTREZ VOS BASES DE DONNÉES AVEC

2e édition




<img src="test_images/2_Im1.jpeg" />

<img src="test_images/2_Im2.jpeg" />

<img src="test_images/2_Im3.jpeg" />



<img src="test_images/3_Im5.jpeg" />




<img src="test_images/3_Im10.jpeg" />


Texte complet de la licence disponible sur : http://creativecommons.org/licenses/by-nc-sa/2.0/fr/

La copie de cet ouvrage est autorisée sous réserve du respect des conditions de la licence

Sauf mention contraire, le contenu de cet ouvrage est publié sous la licence :

Creative Commons BY-NC-SA 2.0

Mentions légales :

Conception couverture : Sophie Bai

Illustrations chapitres : Fan Jiyong et Sophie Bai
OpenClassrooms 2014 - ISBN : 979-10-90085-68-8


L es données sont partout : votre carte d’identité recense une partie de vos données

personnelles ; votre téléphone mobile contient les données de vos contacts ; un CD
contient les données des morceaux qu’il permet d’écouter ; même le pull que vous
portez compor