# <font color='MediumVioletRed'>1.&nbsp;&nbsp; Opérations basiques avec des fichiers/dossiers</font>

* Pré-requis : modules `os`, `shutil`, `glob`
* La bibliothèque standard de Python contient des modules natifs écrits en langage C
* _Natifs_ : il suffit de les importer dans l'interpreteur Python

In [1]:
import os # fonctions d'interaction avec le système d'exploitation
          # module fournit par Python dont le but d'interagir avec le système d'exploitation
          # module = fichier contenant des définitions et des instructions Python
          # librairie = collection des modules
            
import shutil # pour la gestion des fichiers et dossiers
import glob # recherche de chemins de style Unix selon certains motifs/patrons

## Voir le répertoire (dossier) de travail courant

In [2]:
os.getcwd() # 'Python_manip_fichiers_texte'

'/home/jovyan'

### Si besoin, changer le répertoire de travail courant

In [3]:
os.chdir('/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte') # chdir = change directory

FileNotFoundError: [Errno 2] No such file or directory: '/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte'

## Créer un fichier dans ce répertoire

In [4]:
fichier = open('bonjour.txt','w') # créer et ouvrir un fichier intitulé 'bonjour'
                                  # 'open' et 'close' sont des méthodes sur fichier (file methods) qui agissent sur l'objet/la variable 'fichier'
                                  # le paramètre 'w' spécifie que nous allons écrire ('write') du contenu dans ce fichier
fichier.write('Bonjour !')        # écrire la chaine 'Bonjour' dans le fichier avec la méthode 'write'
fichier.close()                   # fermer le fichierfichier = open('bonjour.txt','w') # créer et ouvrir un fichier intitulé 'bonjour'

## Lire depuis un fichier texte

In [6]:
fichier = open('bonjour.txt','r') # paramètre 'r' : fichier ouvert en mode lecture (read)
texte = fichier.read()          # méthode 'read' des objets de type fichier
print(texte)                    # afficher le contenu du fichier 'bonjour.txt'
fichier.close()    

Bonjour !


## Renommer un fichier

In [7]:
os.rename('bonjour.txt', 'bonsoir.txt') 

## Créer plusieurs fichiers en même temps, chacun avec le texte différent

In [8]:
fichiers = ['machin.txt', 'truc.txt', 'bidule.txt']                                  # liste avec les noms des fichiers
textes = ['Quelque chose', 'Encore quelque chose', 'Encore quelque chose en plus']   # liste avec les textes

with open(fichiers[0], "w") as f: # nous écrivons le premier texte ('Quelque chose') dans le premier fichier ('machin.txt')
    f.write(textes[0])
    
f = open("machin.txt", "r")
print(f.read())
        
with open(fichiers[1], "w") as f: # nous écrivons le deuxième texte ('Encore quelque chose') dans le deuxième fichier ('truc.txt')
    f.write(textes[1])
    
f = open("truc.txt", "r")
print(f.read())
            
with open(fichiers[2], "w") as f: # nous écrivons le troisième texte ('Encore quelque chose en plus') dans le troisième fichier ('bidule.txt')
    f.write(textes[2])
    
f = open("bidule.txt", "r")
print(f.read())

Quelque chose
Encore quelque chose
Encore quelque chose en plus


## Créer plusieurs fichiers en même temps, avec le même texte

In [9]:
fichiers = ['machin.txt', 'truc.txt', 'bidule.txt']

for fichier in fichiers:
    with open(fichier, 'w') as f:
        f.write("Même texte")
        
    with open(fichier, 'r') as f:       
        print(f.read())

Même texte
Même texte
Même texte


## Ajouter du contenu à un fichier texte existant

In [10]:
fichier = open('bonsoir.txt','a')         # ouvrir un fichier pré-existant pour y ajouter du texte avec le paramètre 'a' (append = ajouter)
                                          # si nous avions ouvert ce fichier en mode écriture avec le paramètre 'w'
                                          # et si nous avions utilisé la méthode 'write',
                                          # le contenu précedent aurait été écrasé
fichier.write('\n' + 'Vous allez bien ?') # le '\n' signifie une nouvelle ligne (saut de ligne)


fichier = open('bonsoir.txt', 'r')        # en relançant ce script, plusieurs lignes contenant le message 'Vous allez bien ? apparaîtront.
texte_modifié = fichier.read()
print(texte_modifié)
fichier.close()

Bonjour !
Vous allez bien ?


## Créer un sous-dossier dans ce répertoire

In [11]:
os.mkdir('nouveau_dossier')

## Renommer un dossier

In [12]:
import os

dossier = 'nouveau_dossier'
os.rename(dossier, 'joli_dossier')

## Supprimer un dossier

In [13]:
shutil.rmtree('joli_dossier') # supprimer une arborescence de répertoires entière

## Obtenir la liste de tous les fichiers/dossiers dans le dossier spécifié

In [14]:
dossier = 'nouveau_dossier'
os.mkdir(dossier) # recréer le nouveau dossier 
os.listdir(dossier) # le dossier est vide pour le moment

[]

## Déplacer un fichier dans un dossier

In [16]:
chemin_actuel = os.getcwd() 

# Lister les fichiers et répertoires dans le dossier
# '/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte'
# avant de déplacer le fichier
print("Avant le déplacement:", os.listdir(chemin_actuel), '\n\n')

chemin_source = '/home/jovyan/bonsoir.txt'
chemin_destination = '/home/jovyan/nouveau_dossier/'

# Déplacer le fichier 'bonsoir.txt' dans le dossier de destination
# avec la méthode 'move'
dest = shutil.move(chemin_source, chemin_destination) 

# Lister les fichiers et répertoires dans le dossier
# '/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte'
# après avoir déplacé le fichier
print("Après le déplacement:")
print(os.listdir(chemin_actuel), '\n\n')

# Afficher le chemin du nouveau fichier créé 
print("Chemin-cible:", dest)

Avant le déplacement: ['.bashrc', '.profile', '.bash_logout', 'manip_fichiers_texte.ipynb', '.jupyter', 'machin.txt', 'truc.txt', '.ipython', 'bonsoir.txt', 'nouveau_dossier', '.local', '.jupyter-server-log.txt', '.cache', 'bidule.txt', '.ipynb_checkpoints', 'lire_fichier.py', 'ajouter_contenu.py', '.git', 'README.md', 'creer_ouvrir_ecrire_fermer_fichier.py', '.gitignore'] 


Après le déplacement:
['.bashrc', '.profile', '.bash_logout', 'manip_fichiers_texte.ipynb', '.jupyter', 'machin.txt', 'truc.txt', '.ipython', 'nouveau_dossier', '.local', '.jupyter-server-log.txt', '.cache', 'bidule.txt', '.ipynb_checkpoints', 'lire_fichier.py', 'ajouter_contenu.py', '.git', 'README.md', 'creer_ouvrir_ecrire_fermer_fichier.py', '.gitignore'] 


Chemin-cible: /home/jovyan/nouveau_dossier/bonsoir.txt


## Supprimer un fichier

In [17]:
os.remove('truc.txt')

## Vérifier les chemins

In [18]:
print(chemin_actuel)
print(chemin_source)
print(chemin_destination)
print(os.getcwd())

/home/jovyan
/home/jovyan/bonsoir.txt
/home/jovyan/nouveau_dossier/
/home/jovyan


## Déplacer tous les fichiers dans un dossier

In [19]:
for fichier in glob.glob("*.txt"):
    dest = shutil.move(fichier, chemin_destination) 

print(os.listdir(chemin_destination))

['machin.txt', 'bonsoir.txt', 'bidule.txt']


## Changer le répertoire de travail actuel en utilisant le chemin relatif

In [20]:
dossier_2 = os.mkdir('dossier_2')         # créer un dossier 'dossier_2' dans le répertoire de travail actuel ('Python_manip_fichiers_texte')
chemin_source_2 = os.chdir('./dossier_2') # changer le répertoire de travail actuel ('chdir = change directory')
                                          # en navigant vers le dossier créé
                                          # depuis le répertoire de travail actuel ('.') ;

                                          # nous avons donc spécifié le 'chemin relatif',
                                          # équivalent au 'chemin absolu' qui en l'occurrence serait écrit comme
                                          # '/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte/dossier_2/'
                    
os.getcwd()                               # voir le nouveau répertoire de travail actuel

'/home/jovyan/dossier_2'

In [21]:
os.getcwd()

'/home/jovyan/dossier_2'

# <font color='MediumVioletRed'>2.&nbsp;&nbsp; Opérations sur des chaînes de caractères</font>

* Utilisation des <font color='MediumVioletRed'>_regex_</font> (expressions régulières)
> Chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles (_cf._ [Wikipédia](https://fr.wikipedia.org/wiki/Expression_régulière))
* Pré-requis : module `re` et la librairie `wget`

In [22]:
!pip install wget # librairie pour télécharger les fichiers à partir d'URL 'https'

Collecting wget
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25ldone
[?25h  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9672 sha256=7fcd88bb02a664ae29fd2039a3befe1f482c871b7f26eb096555372afd0390ba
  Stored in directory: /home/jovyan/.cache/pip/wheels/a1/b6/7c/0e63e34eb06634181c63adacca38b79ff8f35c37e3c13e3c02
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2


## Télécharger le roman _Les Misérables_ (V. Hugo)

_Cf._ la page du [projet Gutenberg](https://www.gutenberg.org/ebooks/135)

In [30]:
import re    # module pour les opérations à base d'expressions régulières
import wget 

dest = os.getcwd() # dossier où le fichier téléchargé sera stocké
url = 'https://www.gutenberg.org/cache/epub/17489/pg17489.txt'
fichier = wget.download(url, dest)
print('Téléchargement fini !')

Téléchargement fini !


### Renommer le fichier

In [31]:
os.rename(fichier, 'Hugo.txt')
print('Fichier bien renommé !')

Fichier bien renommé !


## Rechercher une chaîne de caractères dans un fichier texte

#### Chercher toutes les occurrences des dates sous forme `en / depuis [année]`

In [32]:
import re
motif = re.compile(r"(?i)\b(en|depuis) \d.*?\b") 
# compiler une regex si plusieurs utilisations d’une regex tout au long du programme

# (?i) : le résultat n'est pas sensitif à la casse ('en' ou 'En' ou alors 'EN')
# \b : frontière du mot (début et fin)
# \d : un chiffre
# . : n’importe quel caractère sauf le saut de ligne
# quantificateur * : tout ce qui précède un symbole, se répété un certain nombre de fois
# quantificateur ? : correspondre le moins possible

        
for i, ligne in enumerate(open('Hugo.txt')): # méthode enumerate() ajoute un compteur 'i' à un itérable (liste, tuple, etc…) et le renvoie (l’objet enumerate).
    for match in re.finditer(motif, ligne): # méthode finditer() trouve toutes les sous-chaînes qui correspondent à la regex et les renvoie sous la forme d’un itérateur
        print ('Ligne %s: %s' % (i+1, match.group()), '******* Contexte : '+ ligne) # groupe récupéré par la méthode .group()




Ligne 153: En 1815 ******* Contexte : En 1815, M. Charles-François-Bienvenu Myriel était évêque de Digne.

Ligne 155: depuis 1806 ******* Contexte : de Digne depuis 1806.

Ligne 188: En 1804 ******* Contexte : En 1804, M. Myriel était curé de Brignolles. Il était déjà vieux, et

Ligne 275: en 1712 ******* Contexte : Digne en 1712. Ce palais était un vrai logis seigneurial. Tout y avait

Ligne 2091: en 1685 ******* Contexte : plains aussi cette pauvre femme huguenote qui, en 1685, sous Louis le

Ligne 2173: en 1793 ******* Contexte : Beaulieu, que j'ai sauvé en 1793. J'ai fait mon devoir selon mes forces,

Ligne 2331: En 1813 ******* Contexte : nous la laissons faire. 1812 commence à nous désarmer. En 1813, la lâche

Ligne 2334: en 1814 ******* Contexte : d'applaudir; en 1814, devant ces maréchaux trahissant, devant ce sénat

Ligne 2337: en 1815 ******* Contexte : de détourner la tête; en 1815, comme les suprêmes désastres étaient dans

Ligne 2547: En 1815 ******* Contexte : En 1815, no

#### Chercher toutes les occurrences des mots liés à l'être humain : _humain(e)_, _humanisme_, _humanité_ etc.

In [36]:
import re
motif = re.compile(r"((?i)huma((in.*?\b)|.*nis.*?\b|.*nit[a-zA-ZÀ-ÿ\b].+?))|[a-zA-ZÀ-ÿ\b]+((?i)huma((in.*?\b)|.*nis.*?\b|.*nit[a-zA-ZÀ-ÿ\b].+?))") 
# compiler une regex si plusieurs utilisations d’une regex tout au long du programme

# (?i) : le résultat n'est pas sensitif à la casse ('humain' ou 'Humain' ou alors 'HUMAIN')
# la chaîne recherchée contient la sous-chaîne 'huma'
# . : n’importe quel caractère sauf le saut de ligne
# quantificateur * : tout ce qui précède un symbole, se répété un certain nombre de fois
# quantificateur ? : correspondre le moins possible
# | : équivalent à l'opérateur boolean OR
# 1er groupe de capture : ((in.*?\b)|.*nis.*?\b|.*nit[a-zA-ZÀ-ÿ\b].+?) 
# 2ème groupe de capture (imbriqué) : (in.*?\b)
# plusieurs alternatives : 
    ## 1. -in.e.s : humaines
    ## 2. -isme(s) : humanisme
    ## 3. -nité.s. : humanité


#  Les adjectifs composés :
    ## inhumain (n'existe pas, mais cela aurait été repéré par cette regex)
    ## surhumain a été repéré

        
        
for i, ligne in enumerate(open('Hugo.txt', 'r')): # méthode enumerate() ajoute un compteur 'i' à un itérable (liste, tuple, etc…) et le renvoie (l’objet enumerate).
    for match in re.finditer(motif, ligne): # méthode finditer() trouve toutes les sous-chaînes qui correspondent à la regex et les renvoie sous la forme d’un itérateur
        print ('Ligne %s: %s' % (i+1, match.group()), '******* Contexte : '+ ligne) # groupe récupéré par la méthode .group()



Ligne 722: humaine ******* Contexte : de la société humaine. Il disait:

Ligne 857: humaine ******* Contexte : humaine. La mort n'appartient qu'à Dieu. De quel droit les hommes

Ligne 1909: humain ******* Contexte : des misères, en se renversant sur le genre humain, est devenu une urne

Ligne 1926: humain ******* Contexte : française est le plus puissant pas du genre humain depuis l'avènement du

Ligne 1930: humanité. ******* Contexte : a été bonne. La révolution française, c'est le sacre de l'humanité.

Ligne 2083: humaine ******* Contexte : humaine, 93, hélas! est une réplique. Vous le trouvez inexorable, mais

Ligne 2101: humain ******* Contexte : pour le genre humain. J'abrège. Je m'arrête, j'ai trop beau jeu.

Ligne 2108: humain ******* Contexte : sont finies, on reconnaît ceci: que le genre humain a été rudoyé, mais

Ligne 2118: humain ******* Contexte : impie. C'est un mauvais conducteur du genre humain que celui qui est

Ligne 2168: humain ******* Contexte : la patrie. J'ai tou

## Modifier une chaîne de caractères

#### Avant d'effectuer les changements du contenu textuel du fichier, créer une **copie back-up** du fichier concerné !

In [40]:
import shutil
source = './Hugo.txt' # le fichier 'Hugo.txt' dans le même répertoire
destination = r'./Hugo_copy.txt'
shutil.copyfile(source, destination) # méthode copyfile pour copier les fichiers (pas les dossiers !)

'./Hugo_copy.txt'

#### Chercher les occurrences

In [41]:
motif = re.compile(r"(?i)\b(en|depuis) \d.*?\b")

# recherche des mots à l'aide du motif
# remplacement des mots repérés par ce motif avec le mot 'hier'
print('Motif recherché\t|    Mot remplaçant')
print('_______________________________________')
with open('Hugo_copy.txt', 'r+') as f:
    for i, ligne in enumerate(f): # méthode enumerate() ajoute un compteur 'i' à un itérable (liste, tuple, etc…) et le renvoie (l’objet enumerate).
        for match in re.finditer(motif, ligne): # méthode finditer() trouve toutes les sous-chaînes qui correspondent à la regex et les renvoie sous la forme d’un itérateur
        
            print (match.group(), '\t|\t', 'hier') # groupe récupéré par la méthode .group() 

Motif recherché	|    Mot remplaçant
_______________________________________
En 1815 	|	 hier
depuis 1806 	|	 hier
En 1804 	|	 hier
en 1712 	|	 hier
en 1685 	|	 hier
en 1793 	|	 hier
En 1813 	|	 hier
en 1814 	|	 hier
en 1815 	|	 hier
En 1815 	|	 hier
en 1815 	|	 hier
en 1806 	|	 hier
en 93 	|	 hier
en 1795 	|	 hier
en 1796 	|	 hier
En 1817 	|	 hier
En 1817 	|	 hier
en 1817 	|	 hier
en 1818 	|	 hier
En 1820 	|	 hier
en 1819 	|	 hier
En 1820 	|	 hier
en 1815 	|	 hier
en 1796 	|	 hier
en 1815 	|	 hier


#### Procéder à la modification

In [42]:
motif = re.compile(r"(?i)\ben \d.*?\b")

with open('Hugo_copy.txt', 'r+') as f:
    texte = f.read()
    texte = re.sub(motif, r"hier", texte) # méthode 'sub' (substitution) 
                                                        # pour remplacer la chaîne 'en [date]' en 'hier'
    f.seek(0) # le paramètre 0 définit le point de référence au début du fichier
    f.write(texte)
    f.truncate() # tronquer la taille du fichier
    f.close()

## Supprimer une chaîne de caractères

In [242]:
motif = re.compile(r"^(https:|http:|www\.)\S*")

# recherche des mots à l'aide du motif
# remplacement des mots repérés par ce motif avec le mot 'hier'
print('Motif recherché\t|    Mot remplaçant')
print('_______________________________________')
with open('Hugo_copy.txt', 'r+') as f:
    for i, ligne in enumerate(f): # méthode enumerate() ajoute un compteur 'i' à un itérable (liste, tuple, etc…) et le renvoie (l’objet enumerate).
        for match in re.finditer(motif, ligne): # méthode finditer() trouve toutes les sous-chaînes qui correspondent à la regex et les renvoie sous la forme d’un itérateur
        
            print (match.group(), '\t|\t', 'hier') # groupe récupéré par la méthode .group() 

Motif recherché	|    Mot remplaçant
_______________________________________
http://gutenberg.org/license). 	|	 hier
http://pglaf.org/fundraising. 	|	 hier


### Au cas où...<br>



In [115]:
pattern = re.compile(r"huma((in.*?\b)|.*nis.*?\b|.*nit[a-zA-ZÀ-ÿ\b].+?)")

for line in open("Hugo.txt"):
    for match in re.finditer(pattern, line):
        print(line)

de la société humaine. Il disait:

humaine. La mort n'appartient qu'à Dieu. De quel droit les hommes

des misères, en se renversant sur le genre humain, est devenu une urne

française est le plus puissant pas du genre humain depuis l'avènement du

a été bonne. La révolution française, c'est le sacre de l'humanité.

humaine, 93, hélas! est une réplique. Vous le trouvez inexorable, mais

pour le genre humain. J'abrège. Je m'arrête, j'ai trop beau jeu.

sont finies, on reconnaît ceci: que le genre humain a été rudoyé, mais

impie. C'est un mauvais conducteur du genre humain que celui qui est

la patrie. J'ai toujours soutenu la marche en avant du genre humain vers

sublime foi patriotique, démocratique et humaine, qui, de nos jours,

distinctement, au-dessus du va-et-vient orageux des choses humaines, ces

possible de toutes les beautés de la vertu humaine dans une croyance

La méditation humaine n'a point de limite. À ses risques et périls, elle

Qu'il dilatât la prière jusqu'à une aspir

In [31]:
from pathlib import Path # récupérer le dossier parent
p = Path(chemin_source)
chemin_source = p.parent
print(chemin_source)

/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte


In [184]:
os.chdir('/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte')

In [75]:
f = open("Hugo.txt").read()

import re

got = re.findall("homme.?", f)

got = got[0].strip()

print(got.split(": ")[1])

IndexError: list index out of range

In [56]:
os.getcwd()

'/Users/ljudmilapetkovic/Desktop/Python_manip_fichiers_texte/dossier_2'

## <font color='MediumVioletRed'>Fin de l'atelier</font> ⌚️

In [43]:
import beepy as beep
beep.beep(6)
os.system('say "Merci pour votre attention!"');

# for ii in range(1,7): 
    # beep.beep(ii)
beep.beep(5)




In [19]:
import winsound
Freq = 2500 # Set Frequency To 2500 Hertz
Dur = 1000 # Set Duration To 1000 ms == 1 second
winsound.Beep(Freq,Dur)
winsound.Beep(Freq,Dur)


ModuleNotFoundError: No module named 'winsound'

In [39]:
import beepy as beep
# for ii in range(1,7): 
    # beep.beep(ii)
beep.beep(5)

In [51]:
print("\\Coucou !")

\Coucou !


In [53]:
print("CherCher\fTech")

CherCherTech
