# NLP M2 YNOV CAMPUS

# Travailler avec des fichiers texte 
Dans cette section, nous aborderons les points suivants
 * Travailler avec des chaînes f-string (chaînes littérales formatées) pour formater le texte imprimé
 * Travailler avec des fichiers - ouvrir, lire, écrire et ajouter des fichiers texte

## Chaînes formatées littérales (f-strings)

Introduit dans Python 3.6, <strong>f-strings</strong> offrent plusieurs avantages par rapport aux anciennes `.format()` méthode string. <br> D'une part, il est possible d'intégrer immédiatement des variables externes dans la chaîne de caractères plutôt que de les passer en tant qu'arguments de mots-clés :

In [25]:
name = 'Fred'

# Using the old .format() method:
print('His name is {var}.'.format(var=name))

# Using f-strings:
print(f'His name is {name}.')

His name is Fred.
His name is Fred.


Passez `!r` pour obtenir la <strong>representation string</strong>:

In [26]:
print(f'His name is {name!r}')

His name is 'Fred'


Veillez à ce que les guillemets des champs de remplacement n'entrent pas en conflit avec les guillemets utilisés dans la chaîne extérieure :

In [27]:
d = {'a':123,'b':456}

print(f"Address: {d['a']} Main Street")

Address: 123 Main Street


Utilisez plutôt différents styles de guillemets :

In [28]:
d = {'a':123,'b':456}

print(f"Address: {d['a']} Main Street")

Address: 123 Main Street


### Largeurs, alignements et remplissages minimaux
Vous pouvez passer des arguments à l'intérieur d'un ensemble imbriqué d'accolades pour définir une largeur minimale pour le champ, l'alignement et même les caractères de remplissage.

In [29]:
library = [('Author', 'Topic', 'Pages'), ('Twain', 'Rafting', 601), ('Feynman', 'Physics', 95), ('Hamilton', 'Mythology', 144)]

for book in library:
    print(f'{book[0]:{10}} {book[1]:{8}} {book[2]:{7}}')

Author     Topic    Pages  
Twain      Rafting      601
Feynman    Physics       95
Hamilton   Mythology     144


Ici, les trois premières lignes s'alignent, sauf les `Pages` sont alignées à gauche par défaut, tandis que les numéros sont alignés à droite. De plus, le numéro de page de la quatrième ligne est repoussé vers la droite car `Mythology` dépasse la largeur de champ minimale de `8`. Lorsque vous définissez la largeur minimale des champs, veillez à prendre en compte l'élément le plus long.

Pour définir l'alignement, utilisez le caractère `<` pour l'alignement à gauche, `^` pour l'alignement au centre, `>` pour l'alignement à droite.
Pour définir le remplissage, faites précéder le caractère d'alignement par le caractère de remplissage (`-` et `.` sont des choix courants).

Effectuons quelques ajustements :

In [30]:
for book in library:
    print(f'{book[0]:{10}} {book[1]:{10}} {book[2]:.>{7}}') # here .> was added

Author     Topic      ..Pages
Twain      Rafting    ....601
Feynman    Physics    .....95
Hamilton   Mythology  ....144


### Date Formatting

In [31]:
from datetime import datetime

today = datetime(year=2018, month=1, day=27)

print(f'{today:%B %d, %Y}')

January 27, 2018


For more info on formatted string literals visit https://docs.python.org/3/reference/lexical_analysis.html#f-strings

***

# Fichier

Python utilise des objets fichiers pour interagir avec des fichiers externes sur votre ordinateur. Ces objets fichiers peuvent être n'importe quel type de fichier présent sur votre ordinateur, qu'il s'agisse d'un fichier audio, d'un fichier texte, de courriers électroniques, de documents Excel, etc. Remarque : vous devrez probablement installer certaines bibliothèques ou certains modules pour interagir avec ces différents types de fichiers, mais ils sont facilement disponibles. (Nous aborderons le téléchargement de modules plus tard dans le cours).

Python possède une fonction d'ouverture intégrée qui nous permet d'ouvrir et de jouer avec les types de fichiers de base. Mais nous avons d'abord besoin d'un fichier. Nous allons utiliser la magie de Python pour créer un fichier texte !

## Création d'un fichier avec IPython
#### Cette fonction est spécifique à jupyter notebook ! Alternativement, créez rapidement un simple fichier .txt avec l'éditeur de texte.

In [32]:
%%writefile test.txt
Hello, this is a quick test file.
This is the second line of the file.

Overwriting test.txt


## Ouvri un fichier en Python 

### Connaître l'emplacement de votre dossier

Il est facile d'obtenir une erreur à cette étape :

In [33]:
myfile = open('whoops.txt')

FileNotFoundError: [Errno 2] No such file or directory: 'whoops.txt'

Pour éviter cette erreur, assurez-vous que votre fichier .txt est enregistré au même endroit que votre ordinateur portable. Pour vérifier l'emplacement de votre ordinateur portable, utilisez **pwd** :

In [34]:
pwd

'C:\\Users\\aluboya\\Downloads\\NLP_COURSE\\NLP\\SUPPORT\\SEANCE 1\\TP\\00-Python-Text-Basics'

**Alternatively, to grab files from any location on your computer, simply pass in the entire file path. **

For Windows you need to use double \ so python doesn't treat the second \ as an escape character, a file path is in the form:

    myfile = open("C:\\Users\\YourUserName\\Home\\Folder\\myfile.txt")

For MacOS and Linux you use slashes in the opposite direction:

    myfile = open("/Users/YourUserName/Folder/myfile.txt")

In [35]:
# Open the text.txt file we created earlier
my_file = open('test.txt')

In [36]:
my_file

<_io.TextIOWrapper name='test.txt' mode='r' encoding='cp1252'>

`mon_fichier` est maintenant un objet fichier ouvert conservé en mémoire. Nous allons effectuer quelques exercices de lecture et d'écriture, puis nous devrons fermer le fichier pour libérer de la mémoire.

### .read() et .seek()

In [37]:
# We can now read the file
my_file.read()

'Hello, this is a quick test file.\nThis is the second line of the file.\n'

In [38]:
# But what happens if we try to read it again?
my_file.read()

''

Cela se produit parce que vous pouvez imaginer que le "curseur" de lecture se trouve à la fin du fichier après l'avoir lu. Il n'y a donc plus rien à lire. Nous pouvons réinitialiser le "curseur" comme suit :

In [39]:
# Seek to the start of file (index 0)
my_file.seek(0)

0

In [40]:
# Now read again
my_file.read()

'Hello, this is a quick test file.\nThis is the second line of the file.\n'

### .readlines()
Vous pouvez lire un fichier ligne par ligne en utilisant la méthode readlines. Soyez prudent avec les fichiers volumineux, car tout sera conservé en mémoire. Nous apprendrons à itérer sur des fichiers volumineux plus tard dans le cours.

In [41]:
# Readlines returns a list of the lines in the file
my_file.seek(0)
my_file.readlines()

['Hello, this is a quick test file.\n',
 'This is the second line of the file.\n']

When you have finished using a file, it is always good practice to close it.

In [42]:
my_file.close()

## Écrire dans un fichier

Par défaut, la fonction `open()` ne nous permet que de lire le fichier. Nous devons passer l'argument `'w'` pour écrire sur le fichier. Par exemple :

In [43]:
# Add a second argument to the function, 'w' which stands for write.
# Passing 'w+' lets us read and write to the file

my_file = open('test.txt','w+')

<div class="alert alert-danger" style="margin: 20px">**Attention !**<br>
L'ouverture d'un fichier avec 'w' ou 'w+' *tronque l'original*, ce qui signifie que tout ce qui se trouvait dans le fichier original **est supprimé** !</div>

In [44]:
# Write to the file
my_file.write('This is a new first line')

24

In [45]:
# Read the file
my_file.seek(0)
my_file.read()

'This is a new first line'

In [46]:
my_file.close()  # always do this when you're done with a file

## Ajouter à un fichier
Passer l'argument `'a'` ouvre le fichier et place le pointeur à la fin, ainsi tout ce qui est écrit est ajouté. Comme `'w+'`, `'a+'` nous permet de lire et d'écrire dans un fichier. Si le fichier n'existe pas, un fichier sera créé.

In [47]:
my_file = open('test.txt','a+')
my_file.write('\nThis line is being appended to test.txt')
my_file.write('\nAnd another line here.')

23

In [48]:
my_file.seek(0)
print(my_file.read())

This is a new first line
This line is being appended to test.txt
And another line here.


In [49]:
my_file.close()

### Appending with `%%writefile` (Apposition avec `%%writefile`)
Les utilisateurs de Jupyter Notebook peuvent faire la même chose en utilisant la magie des cellules d'IPython :

In [50]:
%%writefile -a test.txt

This is more text being appended to test.txt
And another line here.

Appending to test.txt


Ajoutez un espace blanc si vous voulez que la première ligne commence sur sa propre ligne, car Jupyter ne reconnaît pas les séquences d'échappement comme `\n`

## Alias et gestionnaires de contexte
Vous pouvez attribuer des noms de variables temporaires en tant qu'alias et gérer l'ouverture et la fermeture de fichiers automatiquement à l'aide d'un gestionnaire de contexte :

In [None]:
with open('test.txt','r') as txt:
    first_line = txt.readlines()[0]
    
print(first_line)

Notez que le gestionnaire de contexte `with ... as ...:` a automatiquement fermé `test.txt` après avoir assigné la première ligne de texte à first_line :

In [None]:
txt.read()

## Itérer dans un fichier

In [None]:
with open('test.txt','r') as txt:
    for line in txt:
        print(line, end='')  # the end='' argument removes extra linebreaks

C'est très bien ! Vous devriez maintenant être familiarisé avec les chaînes de caractères littérales formatées et le travail avec les fichiers texte.
## À suivre : Travailler avec du texte PDF