# Pràctica 8: fitxers

##### Adrià Rojo

---


## Exercici 1: fitxers de text bàsics

### Funció `contar_caracters` i `substituir_accent`

In [1]:
import string

def substituir_accent(lletra: str) -> str:
    """
    Substitueix la vocal accentuada (accents simples '`' '´') per una vocal no accentuades
    """
    if (lletra in 'àá'):
        lletra = 'a'
    elif (lletra in 'èé'):
        lletra = 'e'
    elif (lletra in 'ìí'):
        lletra = 'i'
    elif (lletra in 'òó'):
        lletra = 'o'
    elif (lletra in 'ùú'):
        lletra = 'u'

    return lletra

def contar_caracters(cadena: str) -> dict:
    """
    Conta els caracters (sense distinguir minuscules de majuscules) i retorna un diccionari amb les ocurrències de cada caràcter
    """
    cadena = cadena.lower() # a minuscules tot

    diccionari = {}

    for caracter in cadena:
        caracter = substituir_accent(caracter) # substitueixo accent
        if caracter not in string.ascii_lowercase + 'ñç': # comprovació si es lletra controlada, equivalent a 'abcdefghijklmnopqrstuvwxyzñç'
            continue

        if caracter not in diccionari: # si no existeix l'entrada, la creo amb 0
            diccionari[caracter] = 0
        diccionari[caracter] += 1 # augmento

    return diccionari

### Tests

In [2]:
assert contar_caracters("hola") == {'a':1,'h':1,'l':1,'o':1}
assert contar_caracters("muricec") == {'c':2,'e':1,'i':1,'m':1,'r':1,'u':1}
assert contar_caracters("Ratapinyada") == {'a':4,'d':1,'i':1,'n':1,'p':1,'r':1,'t':1,'y':1}

### Funció `llegir_llibre`

In [3]:

def llegir_llibre(nom_fitxer: str) -> dict:
    """
    Obre un fitxer de text i conta les ocurrències de les lletres, retornant un diccionari (només compta les lletres de la constant string.ascii_lowercase al mòdul string)
    """
    diccionari = {}
    with open(nom_fitxer, 'rt', encoding='utf-8-sig') as fitxer:
        for line in fitxer.readlines():
            resultat_diccionari = contar_caracters(line)
            for k in resultat_diccionari:
                if k not in diccionari: # si no existeix l'entrada, la creo amb 0
                    diccionari[k] = 0
                diccionari[k] += resultat_diccionari[k] # sumo les occurrencies
            
    return diccionari


In [4]:
llegir_llibre('romeo.txt')

{'t': 11068,
 'h': 7415,
 'e': 14308,
 'p': 1990,
 'r': 7696,
 'o': 9959,
 'j': 376,
 'c': 2754,
 'g': 2266,
 'u': 4092,
 'n': 7502,
 'b': 2026,
 'k': 990,
 'f': 2481,
 'm': 3816,
 'a': 9162,
 'd': 4449,
 'l': 5292,
 'i': 7866,
 'y': 2940,
 'w': 2865,
 's': 7393,
 'v': 1172,
 'x': 160,
 'z': 35,
 'q': 76}

In [5]:
llegir_llibre('auca.txt')

{'t': 14250,
 'h': 2678,
 'e': 32678,
 'p': 6039,
 'r': 17215,
 'o': 13730,
 'j': 1027,
 'c': 6370,
 'g': 3268,
 'u': 9826,
 'n': 16416,
 'b': 2753,
 'k': 135,
 'f': 2390,
 'l': 14884,
 'a': 30910,
 'd': 8465,
 's': 17573,
 'y': 1073,
 'v': 5388,
 'i': 16572,
 'ñ': 11,
 'w': 277,
 'm': 6512,
 'x': 1076,
 'q': 3933,
 'ç': 308,
 'z': 96}

### Funció `guardar_txt`

In [6]:
def guardar_txt(nom_fitxer: str, frequencies: dict) -> None:
    """
    Donat un nom de fitxer i un diccionari del tipus {str: int}, crea un fitxer que representa aquest diccionari amb el format 'clau{tabulacio}valor'
    """
    with open(nom_fitxer, 'wt', encoding='utf-8-sig') as file:
        for i in frequencies: # per cada clau de les frequencies
            file.write('{:s}\t{:d}\n'.format(i, frequencies[i])) # ho escric a l'arxiu

In [7]:
freq = llegir_llibre('auca.txt')
guardar_txt('freq_auca.txt', freq)
%less freq_auca.txt

ï»¿t	14250
h	2678
e	32678
p	6039
r	17215
o	13730
j	1027
c	6370
g	3268
u	9826
n	16416
b	2753
k	135
f	2390
l	14884
a	30910
d	8465
s	17573
y	1073
v	5388
i	16572
Ã±	11
w	277
m	6512
x	1076
q	3933
Ã§	308
z	96


In [8]:
freq = llegir_llibre('romeo.txt')
guardar_txt('freq_romeo.txt', freq)
%less freq_romeo.txt

ï»¿t	11068
h	7415
e	14308
p	1990
r	7696
o	9959
j	376
c	2754
g	2266
u	4092
n	7502
b	2026
k	990
f	2481
m	3816
a	9162
d	4449
l	5292
i	7866
y	2940
w	2865
s	7393
v	1172
x	160
z	35
q	76


### Explicació

#### Funció `contar_caracters`

1. Passem la cadena a minuscules
2. Creem un diccionari vuit

I ara lletra a lletra de la cadena

3. Substituim la possible vocal accentuada per una vocal no accentuada
4. Comprovem que es un caracter controlat veient si la cadena constant `ascii_lowercase` del mòdul `string`, sumant-hi les lletres `ç` i `ñ`, conté la lletra actual
5. Si resulta que el diccionari no tè una entrada per la lletra actual la iniciem amb 0
6. Augmentem en 1 la frecuencia de la lletra al diccionari

> Faria falta dir a l'enunciat que s'ha de fer `import string`

#### Funció `substituir_accent`

És bastant simple, ja que només fa la substitució i si no, la retorna tal qual 

#### Funció `llegir_llibre`

Utilitzant la sentencia `with`, amb l'`open` obrim l'arxiu en mode 'read text' (`rt`) i línea a linea anem executant la funció de `contar_caracters` i amb el diccionari que retorna anem actualitzant el diccionari general.

> Utilitzo un l'encoding utf-8-sig (UTF 8 amb BOM) ja que per llegir un arxiu amb lletres `ç` o `ñ` amb l'encoding 'utf-8' donava un error de lectura

#### Funció `guardar_txt`

Simple, ja que en comptes d'obrir l'arxiu en `read text` l'he d'obrir en 'write text' (`wt`), i per cada entrada del dicionari he de fer un write amb la cadena formatada desitjada


## Exercici 2: json

### Funcio `guardar_json`

In [9]:
import json

def guardar_json(nom_fitxer: str, frequencies: dict) -> None:
    with open(nom_fitxer, 'wt', encoding='utf-8-sig') as file:
        json.dump(frequencies, file, indent=4)

In [10]:
guardar_json('test.json', {'a': 1, 'b': 2})

In [11]:
import json

def llegir_json(nom_fitxer: str) -> dict:
    with open(nom_fitxer, 'rt', encoding='utf-8-sig') as file: 
        resultat = json.load(file)

    return resultat

In [12]:
llegir_json('test.json')

{'a': 1, 'b': 2}

In [13]:
nom_fitxer='freq_auca.json'
frequencies = llegir_llibre('auca.txt')
guardar_json(nom_fitxer, frequencies)
assert llegir_json(nom_fitxer) == frequencies

## Exercici 3: text estructurat

In [14]:
def llegir_txt(nom_fitxer: str) -> dict:
    diccionari = {}
    with open(nom_fitxer, 'rt', encoding='utf-8-sig') as file:
        for line in file.readlines():
            [clau, valor] = line.split('\t')
            diccionari[clau] = int(valor)

    return diccionari


In [15]:
frequencies = llegir_llibre('auca.txt')
nom_fitxer = 'freq_auca.txt'
guardar_txt(nom_fitxer, frequencies)
assert llegir_txt(nom_fitxer) == frequencies

## Exercici 4: CSV

In [16]:
import csv

def guardar_csv(nom_fitxer: str, frequencies: dict) -> None:
    with open(nom_fitxer, 'wt', encoding='utf-8-sig', newline='') as file:
        writer = csv.writer(file, quotechar='\'')
        writer.writerows((i, frequencies[i]) for i in frequencies)

In [17]:
def llegir_csv(nom_fitxer: str) -> dict:
    with open(nom_fitxer, 'rt', encoding='utf-8-sig') as file:
        reader = csv.reader(file, quotechar='\'')
        diccionari = {}
        for filera in reader:
            diccionari[filera[0]] = int(filera[1])
    return diccionari

In [18]:
frequencies = llegir_llibre('auca.txt')
nom_fitxer = 'freq_auca.csv'
guardar_csv(nom_fitxer, frequencies)
assert llegir_csv(nom_fitxer) == frequencies

## Pregunta

* **Podeu fer servir el segon program dels exercicis 2, 3 i 4 per llegir fitxers d’altres exercicis? Raoneula resposta**

Generalment no es podria fer, ja que una llibreria dedicada a la lectura d'un format no ha de saber com es fa la lectura per un altre format. Pero hi han excepcions.  

En el nostre cas l'excepció que hi ha es el `llegir_text` i el `llegir_csv` ja que hem programat l'escriptura del text d'una forma molt semblant al csv, ja que el delimitador seria la tabulació.

Ja us val, aixó de posar una entrega per la última hora de l'ultim dia. Bones festes.