## Files

Files are objects you can *read* and *write* to.  There are 3 types of file objects (binary, buffered binary, and text) and we will focus mainly on [text files](https://docs.python.org/3/glossary.html#term-text-file).
Text files are files objects that read and write `str` objects, that is sequences of characters.

Before using a file you have to `open` a file handler using the `open` built-in function.
Take a look at its documentation writing in a code cell one of the two following commands
```python
open?
help(open)
```

In [1]:
help(open)

Help on built-in function open in module io:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
    Open file and return a stream.  Raise OSError upon failure.
    
    file is either a text or byte string giving the name (and the path
    if the file isn't in the current working directory) of the file to
    be opened or an integer file descriptor of the file to be
    wrapped. (If a file descriptor is given, it is closed when the
    returned I/O object is closed, unless closefd is set to False.)
    
    mode is an optional string that specifies the mode in which the file
    is opened. It defaults to 'r' which means open for reading in text
    mode.  Other common values are 'w' for writing (truncating the file if
    it already exists), 'x' for creating and writing to a new file, and
    'a' for appending (which on some Unix systems, means that all writes
    append to the end of the file regardless of the current seek position

Please read carefully the second paragraph of the documentation (the one that starts with `mode is an optional string [...]`.  Please familiarize with modes `'r'`, `'w'`, and `'a'`.

Read the file `PromessiSposi.txt` in the folder `ex-data` and save its content in a list.
Notice that each element of the list ends with `\n` which is the **newline** symbol.

In [6]:
with open("ex-data/PromessiSposi.txt", "r") as fin:
    ps_paragraphs=fin.readlines()
ps_paragraphs

["Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e a prender corso e figura di fiume, tra un promontorio a destra, e un'ampia costiera dall'altra parte; e il ponte, che ivi congiunge le due rive, par che renda ancor più sensibile all'occhio questa trasformazione, e segni il punto in cui il lago cessa, e l'Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, lascian l'acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni. La costiera, formata dal deposito di tre grossi torrenti, scende appoggiata a due monti contigui, l'uno detto di san Martino, l'altro, con voce lombarda, il Resegone, dai molti suoi cocuzzoli in fila, che in vero lo fanno somigliare a una sega: talché non è chi, al primo vederlo, purché sia di fronte, come per esempio di su le mura di Milano che guardano a settentri

Re-read the file `PromessiSposi.txt` and use [`strip`](https://docs.python.org/3/library/string.html#string.strip) to remove the trailing newline symbol (store the lines in a list).

In [7]:
with open("ex-data/PromessiSposi.txt", "r") as fin:
    ps_paragraphs=fin.readlines()

clean_lines = []
for line in ps_paragraphs:
    clean_lines.append(line.strip('\n'))
clean_lines

["Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e a prender corso e figura di fiume, tra un promontorio a destra, e un'ampia costiera dall'altra parte; e il ponte, che ivi congiunge le due rive, par che renda ancor più sensibile all'occhio questa trasformazione, e segni il punto in cui il lago cessa, e l'Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, lascian l'acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni. La costiera, formata dal deposito di tre grossi torrenti, scende appoggiata a due monti contigui, l'uno detto di san Martino, l'altro, con voce lombarda, il Resegone, dai molti suoi cocuzzoli in fila, che in vero lo fanno somigliare a una sega: talché non è chi, al primo vederlo, purché sia di fronte, come per esempio di su le mura di Milano che guardano a settentri

Create a dictionary `promised_words` that maps each distinct word in `PromessiSposi.txt` to the number of times it appears in it.  Use [`split`](https://docs.python.org/3/library/stdtypes.html#str.split).

In [9]:
promised_words = colle
for line in ps_paragraphs:
    word_list = line.split()
    for word in word_list:
        if word not in promised_words:
            promised_words[word] = 1
        else:
            promised_words[word] += 1
promised_words            

{'Quel': 1,
 'ramo': 1,
 'del': 19,
 'lago': 4,
 'di': 108,
 'Como,': 1,
 'che': 52,
 'volge': 1,
 'a': 60,
 'mezzogiorno,': 1,
 'tra': 7,
 'due': 18,
 'catene': 1,
 'non': 26,
 'interrotte': 1,
 'monti,': 2,
 'tutto': 4,
 'seni': 1,
 'e': 113,
 'golfi,': 1,
 'seconda': 2,
 'dello': 3,
 'sporgere': 1,
 'rientrare': 1,
 'quelli,': 2,
 'vien,': 1,
 'quasi': 4,
 'un': 36,
 'tratto,': 1,
 'ristringersi,': 1,
 'prender': 1,
 'corso': 1,
 'figura': 1,
 'fiume,': 2,
 'promontorio': 1,
 'destra,': 2,
 "un'ampia": 1,
 'costiera': 1,
 "dall'altra": 1,
 'parte;': 1,
 'il': 52,
 'ponte,': 2,
 'ivi': 2,
 'congiunge': 1,
 'le': 16,
 'rive,': 2,
 'par': 1,
 'renda': 1,
 'ancor': 2,
 'più': 18,
 'sensibile': 1,
 "all'occhio": 1,
 'questa': 13,
 'trasformazione,': 1,
 'segni': 1,
 'punto': 2,
 'in': 42,
 'cui': 7,
 'cessa,': 1,
 "l'Adda": 1,
 'rincomincia,': 1,
 'per': 32,
 'ripigliar': 1,
 'poi': 9,
 'nome': 5,
 'dove': 6,
 'allontanandosi': 1,
 'nuovo,': 1,
 'lascian': 1,
 "l'acqua": 2,
 'distendersi

Redo the same, using the [Counter](https://docs.python.org/3/library/collections.html#collections.Counter) data structure of the `collections` library.

In [15]:
from collections import Counter

words = []
for line in ps_paragraphs:
    words += line.strip('\n').split(' ')
    
promised_words = Counter(words)
promised_words

Counter({'Quel': 1,
         'ramo': 1,
         'del': 19,
         'lago': 4,
         'di': 108,
         'Como,': 1,
         'che': 52,
         'volge': 1,
         'a': 60,
         'mezzogiorno,': 1,
         'tra': 7,
         'due': 18,
         'catene': 1,
         'non': 26,
         'interrotte': 1,
         'monti,': 2,
         'tutto': 4,
         'seni': 1,
         'e': 113,
         'golfi,': 1,
         'seconda': 2,
         'dello': 3,
         'sporgere': 1,
         'rientrare': 1,
         'quelli,': 2,
         'vien,': 1,
         'quasi': 4,
         'un': 36,
         'tratto,': 1,
         'ristringersi,': 1,
         'prender': 1,
         'corso': 1,
         'figura': 1,
         'fiume,': 2,
         'promontorio': 1,
         'destra,': 2,
         "un'ampia": 1,
         'costiera': 1,
         "dall'altra": 1,
         'parte;': 1,
         'il': 52,
         'ponte,': 2,
         'ivi': 2,
         'congiunge': 1,
         'le': 16,
         'rive

Create a file 'words_occurrences.txt' and write each distinct word of 'PromessiSposi.txt' alongside the number of occurrences of such word.

In [16]:
with open("words_occurrences.txt", "w") as fout:
    for word in promised_words:
        fout.write(f"word: {word} - occurrences: {promised_words[word]}\n")

## Files

Open the file `ex-data/if.txt` and read all its content