# Pràctica 8: fitxers

##### Adrià Rojo

---


## Exercici 1: fitxers de text bàsics

### Funció `contar_caracters` i `substituir_accent`

In [1]:
import string

LLETRES = [('àáä', 'a'),('èéë', 'e'),('ìíï', 'i'),('òóö', 'o'),('ùúü', 'u')] # dic amb tuples, les substitucions que hi hauran

DICC_SUBST = dict((lletra_in, lletra_out) for (substitucions, lletra_out) in LLETRES for (lletra_in) in substitucions)

def diccionari_alfabet():
    return dict((lletra, 0) for lletra in string.ascii_lowercase + 'ñç')

def substituir_accent(lletra: str) -> str:
    """
    Substitueix la vocal accentuada (accents simples '`' '´' i diéresi '¨') per una vocal no accentuades
    """
    # per cada tupla agafo el segon element i per cada lletra del primer element creo una entrada

    if (lletra in DICC_SUBST):
        lletra = DICC_SUBST[lletra]

    return lletra

def contar_caracters(cadena: str) -> dict:
    """
    Conta els caracters (sense distinguir minuscules de majuscules) i retorna un diccionari amb les ocurrències de cada caràcter
    """
    cadena = cadena.lower() # a minuscules tot

    diccionari = diccionari_alfabet()

    for caracter in cadena:
        caracter = substituir_accent(caracter) # substitueixo accent
        if (caracter in diccionari): # si resulta que existeix al diccionari (lletra controlada)
            diccionari[caracter] += 1 

    return diccionari

In [2]:
def filtrar_diccionari_0(original: dict) -> dict: # funcio per fer els asserts
    """
    Crea un diccionari nou amb aquelles claus que no tinguin com el valor
    """
    return dict((el, v) for (el, v) in original.items() if v != 0)

In [3]:
cadena = input("Posa una cadena i compto les lletres: ")
contar_caracters(cadena)

Posa una cadena i compto les lletres: HAhahah


{'a': 3,
 'b': 0,
 'c': 0,
 'd': 0,
 'e': 0,
 'f': 0,
 'g': 0,
 'h': 4,
 'i': 0,
 'j': 0,
 'k': 0,
 'l': 0,
 'm': 0,
 'n': 0,
 'o': 0,
 'p': 0,
 'q': 0,
 'r': 0,
 's': 0,
 't': 0,
 'u': 0,
 'v': 0,
 'w': 0,
 'x': 0,
 'y': 0,
 'z': 0,
 'ñ': 0,
 'ç': 0}

### Tests

In [None]:
assert filtrar_diccionari_0(contar_caracters("hola")) == {'a':1,'h':1,'l':1,'o':1}
assert filtrar_diccionari_0(contar_caracters("muricec")) == {'c':2,'e':1,'i':1,'m':1,'r':1,'u':1}
assert filtrar_diccionari_0(contar_caracters("Ratapinyada")) == {'a':4,'d':1,'i':1,'n':1,'p':1,'r':1,'t':1,'y':1}

### Funció `llegir_llibre`

In [4]:

def llegir_llibre(nom_fitxer: str) -> dict:
    """
    Obre un fitxer de text i conta les ocurrències de les lletres, retornant un diccionari (només compta les lletres de la constant string.ascii_lowercase al mòdul string)
    """
    diccionari = diccionari_alfabet() # creo diccionari buit
    with open(nom_fitxer, 'rt', encoding="utf-8-sig") as fitxer:
        for line in fitxer.readlines(): # per cada linia
            resultat_diccionari = contar_caracters(line) # conto els caractersr
            for (k, v) in resultat_diccionari.items():
                diccionari[k] += v # afegeixo a cada elemen

    return diccionari


In [5]:
fitxer = input("Digues el nom d'un fitxer i compto les seves lletres: ")

llegir_llibre(fitxer)

Digues el nom d'un fitxer i compto les seves lletres: auca.txt


{'a': 30910,
 'b': 2753,
 'c': 6370,
 'd': 8465,
 'e': 32678,
 'f': 2390,
 'g': 3268,
 'h': 2678,
 'i': 16573,
 'j': 1027,
 'k': 135,
 'l': 14884,
 'm': 6512,
 'n': 16416,
 'o': 13730,
 'p': 6039,
 'q': 3933,
 'r': 17215,
 's': 17573,
 't': 14250,
 'u': 9852,
 'v': 5388,
 'w': 277,
 'x': 1076,
 'y': 1073,
 'z': 96,
 'ñ': 11,
 'ç': 308}

### Funció `guardar_txt`

In [6]:
def guardar_txt(nom_fitxer: str, frequencies: dict) -> None:
    """
    Donat un nom de fitxer i un diccionari del tipus {str: int}, crea un fitxer que representa aquest diccionari amb el format 'clau{tabulacio}valor'
    """
    with open(nom_fitxer, 'wt', encoding="utf-8-sig") as file:
        for i in frequencies: # per cada clau de les frequencies
            file.write('{:s}\t{:d}\n'.format(i, frequencies[i])) # ho escric a l'arxiu

In [8]:
freq = llegir_llibre('auca.txt')
guardar_txt('freq_auca.txt', freq)
%less freq_auca.txt

In [None]:
freq = llegir_llibre('romeo.txt')
guardar_txt('freq_romeo.txt', freq)
%less freq_romeo.txt

### Explicació

#### Funció `contar_caracters`

Hi han diferents maneres de fer la funció

1. La primera es crear un diccionari inicialitzat amb totes les lletres (`string.ascii_lowercase + 'ñç'`) = 0 i anar augmentant, que és la que he escollit (generant el diccionari amb _comprehension lists_)
2. L'altre és crear el diccionari a mesura que ens anem trobant les lletres.

    1. Passem la cadena a minuscules
    2. Creem un diccionari vuit, i ara lletra a lletra de la cadena:

        1. Substituim la possible vocal accentuada per una vocal no accentuada
        2. Comprovem que es un caracter controlat veient si la cadena constant `ascii_lowercase` del mòdul `string`, sumant-hi les lletres `ç` i `ñ`, conté la lletra actual
        3. Si resulta que el diccionari no tè una entrada per la lletra actual la iniciem amb 0
        4. Augmentem en 1 la frecuencia de la lletra al diccionari

> Faria falta dir a l'enunciat que s'ha de fer `import string`

#### Tests

Depenent de la forma que haguem fet la funcio de contar caracters, els tests tindràn un codi o un altre

#### Funció `substituir_accent`

És bastant simple, ja que només fa la substitució i si no, la retorna tal qual 

#### Funció `llegir_llibre`

Utilitzant la sentencia `with`, amb l'`open` obrim l'arxiu en mode 'read text' (`rt`) i línea a linea anem executant la funció de `contar_caracters` i amb el diccionari que retorna anem actualitzant el diccionari general.

> Utilitzo un l'encoding `utf-8-sig` (UTF with BOM) ja que per llegir un arxiu amb lletres `ç` o `ñ` amb l'encoding `utf-8` donava un error de lectura

#### Funció `guardar_txt`

Simple, ja que en comptes d'obrir l'arxiu en `read text` l'he d'obrir en 'write text' (`wt`), i per cada entrada del dicionari he de fer un write amb la cadena formatada desitjada


## Exercici 2: json

### Funcio `guardar_json`

In [9]:
import json

def guardar_json(nom_fitxer: str, frequencies: dict) -> None:
    """
    Guarda un diccionari al fitxer indicat en format json
    """
    with open(nom_fitxer, 'wt', encoding="utf-8-sig") as file:
        json.dump(frequencies, file)

In [10]:
guardar_json('test.json', {'a': 1, 'b': 2})

In [17]:
import json
help(json)
def llegir_json(nom_fitxer: str) -> dict:
    """
    Llegeix l'arxiu en format json i retorna el diccionari que hi representa
    """
    with open(nom_fitxer, 'rt', encoding="utf-8-sig") as file: 
        resultat = json.load(file)

    return resultat

Help on package json:

NAME
    json

MODULE REFERENCE
    https://docs.python.org/3.8/library/json
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    JSON (JavaScript Object Notation) <http://json.org> is a subset of
    JavaScript syntax (ECMA-262 3rd edition) used as a lightweight data
    interchange format.
    
    :mod:`json` exposes an API familiar to users of the standard library
    :mod:`marshal` and :mod:`pickle` modules.  It is derived from a
    version of the externally maintained simplejson library.
    
    Encoding basic Python object hierarchies::
    
        >>> import json
        >>> json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}])
        '["foo", {"bar": ["baz", null, 1.0,

In [12]:
llegir_json('test.json')

{'a': 1, 'b': 2}

In [13]:
nom_fitxer='freq_auca.json'
frequencies = llegir_llibre('auca.txt')
guardar_json(nom_fitxer, frequencies)
assert llegir_json(nom_fitxer) == frequencies

### Explicació 

No hi ha massa a explicar, ja que utilitzem el mòdul `json` amb les funcions corresponents per escriure el fitxer i recuperar.

Podriem posar l'argument de `ident=4` a l'hora de fer el `dump` per tenir una millor lectura del fitxer .json.

## Exercici 3: text estructurat

In [None]:
def llegir_txt(nom_fitxer: str) -> dict:
    """
    Llegeix un fitxer de text estructurat on cada linia te el format <lletra>(tabulacio)<numero>
    """
    diccionari = {}
    with open(nom_fitxer, 'rt', encoding="utf-8-sig") as file:
        for line in file:
            lletra, numero = line.strip().split('\t') # neteixo d'espais i separo per tabulacions
            diccionari[lletra] = int(numero) # afegeixo al diccionari

    return diccionari


In [None]:
frequencies = llegir_llibre('auca.txt')
nom_fitxer = 'freq_auca.txt'
guardar_txt(nom_fitxer, frequencies)
assert llegir_txt(nom_fitxer) == frequencies

### Explicacio

Igual que a la funcio `guardar_txt` ho escric amb un format, aqui ho recupero dividint i convertint

## Exercici 4: CSV

In [18]:
import csv

help(csv)

def guardar_csv(nom_fitxer: str, frequencies: dict) -> None:
    """
    Guarda un diccionari al fitxer indicat en format csv separat per ;
    """
    with open(nom_fitxer, 'wt', encoding="utf-8-sig", newline='') as file: # newline='' per evitar tenir una linea buida extra
        writer = csv.writer(file, delimiter=';')
        writer.writerows(frequencies.items())

Help on module csv:

NAME
    csv - CSV parsing and writing.

MODULE REFERENCE
    https://docs.python.org/3.8/library/csv
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides classes that assist in the reading and writing
    of Comma Separated Value (CSV) files, and implements the interface
    described by PEP 305.  Although many CSV files are simple to parse,
    the format is not formally defined by a stable specification and
    is subtle enough that parsing lines of a CSV file with something
    like line.split(",") is bound to fail.  The module supports three
    basic APIs: reading, writing, and registration of dialects.
    
    
    DIALECT REGISTRATION:
    
    Readers

In [15]:
def llegir_csv(nom_fitxer: str) -> dict:
    """
    Llegeix un csv que te dues columnes separades per ; on la segona haurà de ser un número i ho interpreta en un diccionari
    """
    with open(nom_fitxer, 'rt', encoding="utf-8-sig") as file:
        reader = csv.reader(file, delimiter=';') # llegeixo amb el delimitador qu ehe posat
        diccionari = dict( (k, int(v)) for (k, v) in reader) # per cada element al reader creo un diccionari clau valor
    return diccionari

In [16]:
frequencies = llegir_llibre('auca.txt')
nom_fitxer = 'freq_auca.csv'
guardar_csv(nom_fitxer, frequencies)
assert llegir_csv(nom_fitxer) == frequencies

### Explicacions

Utilitzo les funcions del mòdul `csv` per escriure i llegir. A l'hora de llegir haurè de convertir les dades numeriques a numeros

## Pregunta

* **Podeu fer servir el segon program dels exercicis 2, 3 i 4 per llegir fitxers d’altres exercicis? Raoneula resposta**

Generalment no es podria fer, ja que una llibreria dedicada a la lectura d'un format no ha de saber com es fa la lectura per un altre format. Pero hi han excepcions.  

En el nostre cas l'excepció que hi ha es el `llegir_text` i el `llegir_csv` ja que hem programat l'escriptura del text d'una forma molt semblant al csv, ja que el delimitador seria la tabulació.

Per cert, ja us val, aixó de posar una entrega per la última hora de l'ultim dia. Bones festes.