## Ficheros en Python
Un __fichero__ es un conjunto de datos relacionados entre sí que son almacenados de forma __permanente__. Esto significa que los datos permanecen en el medio en que se almacenan después de que el programa que los genera deja de ejecutarse. El __contenido__ y la __estructura__ de un fichero responden al criterio del desarrollador de la aplicación que lo crea. Respecto a la naturaleza de los datos almacenados, los ficheros se clasifican en ficheros binarios y ficheros de texto:
* __Fichero binario:__ contiene la representación binaria de los datos. No es editable.  
* __Fichero de texto:__ contiene la representación alfanumérica de los datos. Está estructurado en líneas y cada línea termina con una marca especial denominada __marca de fin de línea__ (_EOL_ o _End Of Line_). Los ficheros de texto son editables mediante un editor de texto.  

Las operaciones de lectura/escritura de los ficheros se basan en el concepto de __flujo__ de datos o __stream__. Un stream es una conexión entre una aplicación y la fuente (lectura) o el destino (escritura) de los datos, de modo que la información se traslada en serie a través de esta conexión. Además, de forma transparente al programador, la entrada/salida emplea cierta cantidad de memoria auxiliar denominada __buffer__: dado que las operaciones de lectura/escritura de los ficheros son mucho más lentas que las realizadas en la RAM, los datos son temporalmente leídos/escritos en búferes. De este modo, las aplicaciones no se ralentizan. 

Por otra parte, cuando empleamos la función `print()`, los datos se escriben en su fichero _por defecto_, la pantalla; y cuando empleamos la función `input()`, los datos se leen de su fichero _por defecto_, el teclado. Cuando no se emplean estos _ficheros estándar_, se deben realizar ciertas tareas:
* __Apertura del fichero:__ es necesario tanto asociar el fichero (definido a nivel del sistema operativo) con un _objeto_ que represente la fuente de datos como indicar si se va a emplear para la entrada o para la salida de datos, es decir, para leer o para escribir. Cada vez abrimos un fichero, se crea un _puntero_ que se posiciona en un lugar determinado del fichero (al principio o al final) y se desplaza de acuerdo con las operaciones de lectura/escritura indicadas.
* __Cierre del fichero:__ cuando el objeto que representa el fichero deja de usarse definitivamente, es necesario informar al sistema operativo para que realice las acciones necesarias.
    - El sistema operativo fuerza la transferencia de los datos pendientes en el buffer. 
    - Se libera la memoria consumida durante las operaciones de lectura/escritura (el buffer y otros elementos).
    - El sistema operativo determina una cantidad máxima de ficheros que pueden estar abiertos simultáneamente. Si no se cierran los ficheros que no están en uso, entonces puede que no podamos abrir otros que sí son necesarios. 

### Apertura de un fichero
Para abrir un fichero disponemos de la función `open()`, que devuelve el objeto con el que trabajaremos a partir de ese momento. Entre los parámetros de esta función encontramos los siguientes:
* `rutaFichero`: nombre del fichero con el que se desea trabajar. Puede incluir la ruta de acceso al fichero.
* `modo`: __modo de apertura__ del fichero. Es una cadena de caracteres opcional que indica el tipo de operaciones que vamos a realizar con el fichero. Si no se especifica, el fichero se abre en modo de solo lectura (`r`). Los modos de apertura más importantes son los siguientes: 
    - `r`: si el fichero especificado existe, entonces este se abre en modo de solo lectura (el puntero de archivo se coloca al principio del mismo). En caso contrario, la función lanza una excepción de la clase `FileNotFoundError`. El modo `rb` es el análogo para ficheros binarios.
    - `r+`: si el fichero especificado existe, entonces este se abre en modo de lectura/escritura (el puntero de archivo se coloca al principio del mismo). En caso contrario, la función lanza una excepción de la clase `FileNotFoundError`. El modo `rb+` es el análogo para ficheros binarios.
    - `w`: si el fichero especificado existe, entonces se borra su contenido y se abre en modo de solo escritura. En caso contrario, la función crea un nuevo archivo y lo abre en modo de solo escritura. El modo `wb` es el análogo para ficheros binarios.
    - `w+`: si el fichero especificado existe, entonces se borra su contenido y se abre en modo de lectura/escritura. En caso contrario, la función crea un nuevo archivo y lo abre en modo de lectura/escritura. El modo `wb+` es el análogo para ficheros binarios.
    - `a`: si el fichero especificado existe, entonces este se abre en modo de agregación (el puntero de archivo se coloca al final del mismo). En caso contrario, la función crea un nuevo archivo y lo abre en modo de agregación (el puntero de archivo se coloca al principio del mismo). El modo `ab` es el análogo para ficheros binarios. 
    - `a+`: si el fichero especificado existe, entonces este se abre en modo de lectura/agregación (el puntero de archivo se coloca al final del mismo). En caso contrario, la función crea un nuevo archivo y lo abre en modo de lectura/agregación (el puntero de archivo se coloca al principio del mismo). El modo `ab+` es el análogo para ficheros binarios. 
    - `x`: si el fichero especificado existe, la función lanza una excepción de la clase `FileExistsError`. En caso contrario, se crea un nuevo archivo en modo de solo escritura. 

### Cierre de un fichero
Para cerrar un fichero disponemos del método `close()`. Trataremos el cierre de un fichero más adelante.

In [1]:
fichero = open('datos.txt') # Apertura del fichero en modo de solo lectura
fichero.close()             # Cierre del fichero

### Manipulación de ficheros de texto
#### Lectura de ficheros de texto
El modo más habitual de leer un fichero de texto es hacerlo línea por línea, para lo cual disponemos tanto del método `readline()` como de los bucles `for` definidos sobre objetos iterables. Debemos recordar que cada línea de un fichero de texto incluye la marca de fin de línea (eliminada en los ejemplos mediante el método `strip()`) y que la función `print()` introduce por defecto otra marca de fín de línea (eliminada en los ejemplos mediante el parámetro opcional `end`). __Nota:__ El método `readline()` tiene un parámetro opcional que permite especificar la cantidad de caracteres leídos sin exceder la longitud de la línea correspondiente.

In [2]:
fichero = open('datos.txt')
linea = ' '
while (len(linea)!=0): 
    linea = fichero.readline().strip() # Eliminación de la marca EOL
    print(linea, end=' ')
fichero.close()

1 2 3  

In [3]:
fichero = open('datos.txt')
for linea in fichero:
    print(linea.strip(), end=' ')      # Eliminación de la marca EOL
fichero.close()

1 2 3 

En el ejemplo que mostramos a continuación, los datos del fichero (cuyo formato es conocido) se almacenan en una lista de números enteros.

In [2]:
def readData(nombreFichero):
    fichero = open(nombreFichero)
    listaDatos = []
    for linea in fichero:
        listaDatos.append(int(linea.strip()))
    fichero.close()
    return listaDatos
lista = readData('datos.txt')
print(lista)

[1, 2, 3]


También podemos leer el archivo con una única operación empleando los métodos `readlines()` o `read()`: 
* `readlines()`: lee todas las líneas del fichero y devuelve una lista donde cada elemento es una línea.
* `read()`: lee el contenido del fichero y devuelve una cadena de caracteres que es la concatenación de todas las líneas.

In [5]:
fichero = open('datos.txt')
listaLineas = fichero.readlines()
fichero.close()
listaEnteros = [int(linea) for linea in listaLineas]
print("Lista de lineas de readlines():" + str(listaLineas))
print("Lista de enteros de readlines(): " + str(listaEnteros))

Lista de lineas de readlines():['1\n', '2\n', '3\n']
Lista de enteros de readlines(): [1, 2, 3]


In [6]:
fichero = open('datos.txt')
linea = fichero.read()
fichero.close()
listaEnteros = [int(token) for token in linea.split()]
print("Linea unica de read():\n" + str(linea))
print("Lista de enteros de read(): " + str(listaEnteros))

Linea unica de read():
1
2
3

Lista de enteros de read(): [1, 2, 3]


#### El administrador de contexto `with`
Los ejemplos anteriores muestran que el éxito de la lectura de un fichero depende, en gran medida, de que su formato sea conocido por el implementador (si el formato que se espera no es el que existe realmente, pueden producirse excepciones que impidan la liberación del fichero). También debemos tener en cuenta que, cuando se manipulan ficheros, existen elementos externos que dependen del _hardware_ y del sistema operativo que pueden fallar y que están fuera del control del programador. Por ejemplo, si se pretende abrir en modo de escritura un fichero protegido contra ella, se producirá una excepción que, mal gestionada, evitará el cierre del fichero. 

Estas situaciones reflejan la dificultad de la gestión de __recursos externos__ como conexiones de red y archivos, ya que a veces, una aplicación retiene estos recursos indefinidamente, incluso si ya no los necesita. Por ejemplo, cuando los implementadores que trabajan con bases de datos siguen creando nuevas conexiones sin liberarlas o reutilizarlas, la base de datos deja de aceptar nuevas conexiones. Análogamente, si los implementadores que trabajan con ficheros no cierran los buffer de escritura, podrían perderse parte de los datos antes de ser almacenados. En general, es posible que una aplicación se encuentre con errores o excepciones que hagan que se pase por alto el código responsable de liberar el recurso externo correspondiente.   

En Python podemos emplear dos mecanismos para gestionar los recursos externos: la construcción `try...finally` y el administrador de contexto `with`.

In [7]:
fichero = None
try:
    fichero = open('datos.txt', 'r') # FileNotFoundError si el fichero no existe
    listaDatos,i = [0]*3,0           # IndexError si se reduce el tamaño de listaDatos 
    for linea in fichero:
        listaDatos[i] = int(linea.strip())
        i = i+1
    print(listaDatos)
except Exception as e:
    print("Error: " +str(e))
finally:
    if (fichero is not None):
        fichero.close()

[1, 2, 3]


La estructura `with` simplifica la gestión de los ficheros creando un __contexto__ que, ante la posible aparición de excepciones, maneja el recurso que representa el fichero. Si se emplea la estructura `with`, no es necesario cerrar explícitamente el fichero con el método `close()`.   

In [8]:
try:
    with open('datos.txt', 'r') as fichero: # FileNotFoundError si el fichero no existe
        listaDatos,i = [0]*3,0              # IndexError si se reduce el tamaño de listaDatos 
        for linea in fichero:
            listaDatos[i] = int(linea.strip())
            i = i+1
        print(listaDatos)
except Exception as e:
    print("Error: " +str(e))

[1, 2, 3]


#### Escritura de ficheros de texto

La escritura de ficheros de texto se realiza mediante los métodos `write()` y `writelines()`. El método `write()` escribe la cadena de texto especificada como parámetro y devuelve la cantidad de caracteres escritos. El método `writelines()` recibe como parámetro un objeto iterable cuyos elementos se escribirán uno a uno. Ninguno de los métodos añade la marca de fin de línea al final de cada cadena de caracteres, de modo que debemos incluirla explícitamente.

In [9]:
def writeData(nombreFichero, titulo, lista):
    with open(nombreFichero, 'w') as fichero:
        fichero.write(titulo + '\n')  
        fichero.writelines(lista)
titulo_productos = 'PRODUCTOS - ABRIL'
lista_productos = ['producto1\n','producto2\n','producto3\n']
writeData('inventarioAbril.txt', titulo_productos, lista_productos)

### Manipulación de ficheros binarios. El módulo `pickle`

El módulo `pickle` implementa protocolos para __serializar__ y __deserializar__ objetos en Python. _Pickling_ es el proceso mediante el que un objeto de Python se convierte en una secuencia de bytes (serialización) que puede almacenarse en un fichero o enviarse a través de una red. El _unpickling_ es la operación inversa, mediante la cual una secuencia de bytes es convertida  nuevo en un objeto (deserialización). Para utilizar las funciones del módulo, es necesario importarlo mediante la instrucción `import pickle`.

In [10]:
import pickle

El módulo `pickle` incluye distintos tipos de serialización llamados __protocolos__, identificados con un número. Cuanto mayor es el número, más optimizado es el protocolo y más reciente es la versión de Python necesaria para leer la secuencia de bytes producida. Actualmente hay seis protocolos diferentes y la versión 4 es la predeterminada a partir de Python 3.8. 

In [11]:
print("Version mas alta: " + str(pickle.HIGHEST_PROTOCOL))       # Versión de protocolo más alta disponible
print("Version predeterminada: " + str(pickle.DEFAULT_PROTOCOL)) # Versión de protocolo predeterminada

Version mas alta: 5
Version predeterminada: 4


Las funciones más importantes del módulo son `dump()`, `dumps()`, `load()` y `loads()`. Las dos primeras permiten serializar un objeto, mientras que las dos últimas realizan la deserialización. Las funciones `dumps()` y `loads()` trabajan directamente con el objeto serializado, a diferencia de las funciones `dump()` y `load()`, las cuales escriben y leen respectivamente el objeto serializado en el archivo binario indicado como argumento.

In [12]:
lista = [1,2,3,4,5,6,7,8,9,10]
pickled_lista = pickle.dumps(lista)           # Serialización
unpickled_lista = pickle.loads(pickled_lista) # Deserialización
print("Objeto serializado: " + str(pickled_lista))
print("Objeto deserializado: " + str(unpickled_lista))

Objeto serializado: b'\x80\x04\x95\x19\x00\x00\x00\x00\x00\x00\x00]\x94(K\x01K\x02K\x03K\x04K\x05K\x06K\x07K\x08K\tK\ne.'
Objeto deserializado: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [13]:
lista = [1,2,3,4,5,6,7,8,9,10]
with open('pickle_file.dat', 'wb') as fichero:
    pickle.dump(lista, fichero)
with open('pickle_file.dat', 'rb') as fichero:
    unpickled_lista = pickle.load(fichero)
print("Objeto original: " + str(lista))
print("Objeto deserializado: " + str(unpickled_lista))

Objeto original: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
Objeto deserializado: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


También es posible almacenar varios objetos en un único fichero para deserializarlos posteriormente.

In [14]:
def writeData_bulk(nombreFichero, listaDatos, modo): # modo='wb' o modo='ab'
    with open(nombreFichero, modo) as fichero:
        pickle.dump(listaDatos, fichero)
def writeData(nombreFichero, listaDatos, modo):      # modo='wb' o modo='ab'
    with open(nombreFichero, modo) as fichero:
        for i in range(0,len(listaDatos),1):
            pickle.dump(listaDatos[i], fichero)
def readData(nombreFichero):
    listaDatos = []
    with open(nombreFichero, 'rb') as fichero:
        while True:
            try:
                objeto = pickle.load(fichero)
                listaDatos.append(objeto)
            except EOFError:
                break
    return listaDatos

def write_and_read(nombreFichero, funcion_write):
    lista1 = [('Aquiles','Bailo',175),('Ines','Tornudo',172),('Lola','Mento',160),('Matias','Queroso',170)]
    funcion_write(nombreArchivo, lista1, 'wb')
    listaResultado1 = readData(nombreArchivo)
    lista2 = [('Aitor','Menta',190),('Carmelo','Coton',177)]
    funcion_write(nombreArchivo, lista2, 'ab')
    listaResultado2 = readData(nombreArchivo)
    return listaResultado1, listaResultado2
nombreArchivo = 'datosPickle.dat'
lista1, lista2 = write_and_read(nombreArchivo, writeData_bulk)
print("ALMACENAMIENTO DE LISTAS EN BLOQUE")
print("Datos recuperados tras la primera escritura:\n  " + str(lista1))
print("Datos recuperados tras la segunda escritura:\n  " + str(lista2))
lista1, lista2 = write_and_read(nombreArchivo, writeData)
print("ALMACENAMIENTO DE LISTAS ELEMENTO A ELEMENTO")
print("Datos recuperados tras la primera escritura:\n  " + str(lista1))
print("Datos recuperados tras la segunda escritura:\n  " + str(lista2))

ALMACENAMIENTO DE LISTAS EN BLOQUE
Datos recuperados tras la primera escritura:
  [[('Aquiles', 'Bailo', 175), ('Ines', 'Tornudo', 172), ('Lola', 'Mento', 160), ('Matias', 'Queroso', 170)]]
Datos recuperados tras la segunda escritura:
  [[('Aquiles', 'Bailo', 175), ('Ines', 'Tornudo', 172), ('Lola', 'Mento', 160), ('Matias', 'Queroso', 170)], [('Aitor', 'Menta', 190), ('Carmelo', 'Coton', 177)]]
ALMACENAMIENTO DE LISTAS ELEMENTO A ELEMENTO
Datos recuperados tras la primera escritura:
  [('Aquiles', 'Bailo', 175), ('Ines', 'Tornudo', 172), ('Lola', 'Mento', 160), ('Matias', 'Queroso', 170)]
Datos recuperados tras la segunda escritura:
  [('Aquiles', 'Bailo', 175), ('Ines', 'Tornudo', 172), ('Lola', 'Mento', 160), ('Matias', 'Queroso', 170), ('Aitor', 'Menta', 190), ('Carmelo', 'Coton', 177)]


### Más manipulación de ficheros de texto. El módulo `csv`
Los ficheros de texto son un medio habitual de intercambio de información. Uno de los formatos más extendidos es el formato __CSV__ (Comma Separated Values): los ficheros CSV son ficheros de texto plano que emplean una estructura tabular para organizar los datos (en caracteres ASCII o Unicode) legibles por el ser humano. Es un tipo de fichero empleado por aplicaciones que manejan grandes cantidades de información, como las hojas de cálculo, las bases de datos o los programas de minería de datos. En este contexto, cada línea de un fichero CSV representa un registro y cada registro puede contener uno o más campos separados por una coma. Estos ficheros pueden incluir una cabecera para identificar las columnas. A continuación, mostramos un ejemplo del contenido de un fichero CSV.

`DNI,nombre,apellido,altura`<br>
`26194201F,Helen,Chufe,160`<br>
`26874858W,Carmelo,Coton,180`<br>
`46092296C,Pepe,Pinillo,175`<br>
`48427041N,Aquiles,Bailo,177`<br>
`76342509N,Aitor,Menta,170`<br>

Para utilizar las funciones del módulo, es necesario importarlo mediante la instrucción import `csv`.

In [15]:
import csv

La lectura de un fichero CSV se realiza mediante la función `reader()`, cuyo prototipo es
    `csv.reader(csvFile, dialect='excel', **fmtParams)`. Esta función recibe como parámetro de entrada un objeto de tipo `file` obtenido tras la llamada a la función `open()` en modo de lectura, y retorna un objeto que iterará sobre las líneas del fichero proporcionado (cada línea leída se devuelve de forma predeterminada como una cadena de caracteres). El parámetro `dialect` es opcional y se utiliza para definir un conjunto de parámetros específicos para un dialecto de CSV particular (por ejemplo, el valor `'excel'` define las propiedades habituales de un archivo CSV generado por Excel). El resto de los argumentos en `fmtParams` puede suministrarse para sustituir parámetros de formato individuales del dialecto actual (por ejemplo, el parámetro `delimiter` especifica el carácter que separa los campos en el fichero CSV y su valor por defecto es la coma `,`). 

In [16]:
def censoLectura_lst(nombreFichero):
    resultado=[]
    with open(nombreFichero, 'r') as fichero_csv:
        lector = csv.reader(fichero_csv)
        numLinea = 0
        for linea in lector:
            if numLinea != 0:
                registro = [linea[0],linea[1],linea[2],int(linea[3])]
                resultado.append(registro)
            numLinea = numLinea+1
    return resultado
listaPersonas = censoLectura_lst('censo1.txt')
for registro in listaPersonas:
    print(registro)

['26194201F', 'Helen', 'Chufe', 160]
['26874858W', 'Carmelo', 'Coton', 180]
['46092296C', 'Pepe', 'Pinillo', 175]
['48427041N', 'Aquiles', 'Bailo', 177]
['76342509N', 'Aitor', 'Menta', 170]


La escritura de un fichero CSV se realiza mediante la función `writer()`, cuyo prototipo es `csv.writer(csvFile, dialect='excel', **fmtParams)` Esta función recibe como parámetro de entrada un objeto de tipo `file` obtenido tras la llamada a la función `open()` en modo de escritura, y retorna un objeto que escribirá las líneas en el fichero mediante los métodos `writerow()` (escritura de una sola línea) y `writerows()` (escritura de una lista de líneas). El resto de parámetros son los especificados en la función `reader()`.<br>
__Nota:__ El fichero CSV se abre en modo de escritura especificando el parámetro `newline = ''` porque el módulo `csv` ya añade su marca de fin de línea.

In [17]:
def censoEscritura_lst(nombreOrigen, nombreDestino):
    with open(nombreDestino, 'w', newline = '') as fichero_csv:
        escritor = csv.writer(fichero_csv, delimiter = '|')
        listaPersonas = censoLectura_lst(nombreOrigen)
        escritor.writerows(listaPersonas)
censoEscritura_lst('censo1.txt', 'censo_jaja.txt')

Por otra parte, el módulo `csv` suministra herramientas para leer y escribir diccionarios como ficheros CSV. 

La clase `DictReader` permite definir lectores que convierten la información leída en diccionarios. Un objeto de la clase `DictReader` se crea mediante el constructor `csv.DictReader(csvFile, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds)`. Un objeto de esta clase lee el archivo que recibe como argumento, y si se omite el parámetro `fieldnames`, entonces interpreta la primera línea como las claves de los diccionarios. Por cada una de las líneas siguientes, el lector genera un diccionario con esas claves tomando como valores los datos que aparecen en la línea.
* Si una línea tiene más datos que claves, entonces los datos sobrantes se colocan en una lista y se asocian a una clave cuyo identificador es el especificado por el parámetro opcional `restkey`.
* Si una línea tiene menos datos que claves, entonces los valores que faltan son completados con el valor indicado por el parámetro opcional `restval`.

In [18]:
def censoLectura_dict(nombreFichero):
    resultado = []
    with open(nombreFichero, 'r') as fichero_csv:
        lector = csv.DictReader(fichero_csv, restkey = 'otros', restval = 150, quoting = csv.QUOTE_NONNUMERIC)
        for linea in lector:
            resultado.append(linea) 
    return resultado
listaPersonas = censoLectura_dict('censo2.txt')
for registro in listaPersonas:
    print(registro)

{'DNI': '26194201F', 'nombre': 'Helen', 'apellido': 'Chufe', 'altura': 160.0}
{'DNI': '26874858W', 'nombre': 'Carmelo', 'apellido': 'Coton', 'altura': 180.0}
{'DNI': '46092296C', 'nombre': 'Pepe', 'apellido': 'Pinillo', 'altura': 175.0}
{'DNI': '48427041N', 'nombre': 'Aquiles', 'apellido': 'Bailo', 'altura': 177.0}
{'DNI': '76342509N', 'nombre': 'Aitor', 'apellido': 'Menta', 'altura': 170.0}
{'DNI': '65086580F', 'nombre': 'Lola', 'apellido': 'Mento', 'altura': 150}
{'DNI': '08021312Q', 'nombre': 'Andres', 'apellido': 'Trozado', 'altura': 190.0, 'otros': [120.0]}


La clase `DictWriter` permite definir escritores que mapean diccionarios en líneas de un fichero de texto. Un objeto de la clase `DictWriter` se crea mediante el constructor `csv.DictWriter(csvFile, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)` y escribirá las líneas en el fichero mediante los métodos `writerow()` (escritura de una sola línea) y `writerows()` (escritura de una lista de líneas). 
* El parámetro `fieldnames` es una secuencia de claves que identifican el orden en que los valores del diccionario pasado al método `writerow()` son escritos en el archivo `csvFile`. 
* El parámetro opcional `restval` especifica el valor que será escrito si al diccionario le falta una clave en `fieldNames`. 
* Si el diccionario tiene una clave no encontrada en `fieldnames`, entonces el parámetro opcional `extrasaction` indica qué acción se ejecutará: si se mantiene el valor por defecto `'raise'`, entonces se lanzará una excepción de la clase `ValueError`; si está definido como `'ignore'`, entonces los valores extra serán ignorados.

Por último, el uso del método `writeheader()` es opcional, ya que escribe una línea con los identificadores de las claves. 

In [19]:
def censoEscritura_dict(nombreOrigen, nombreDestino, claves):
    with open(nombreDestino, 'w', newline = '') as fichero_csv:
        escritor = csv.DictWriter(fichero_csv, fieldnames = claves, extrasaction='ignore', lineterminator = '\n', quoting = csv.QUOTE_NONNUMERIC)
        escritor.writeheader()
        listaPersonas = censoLectura_dict(nombreOrigen)
        escritor.writerows(listaPersonas)
claves = ['DNI','nombre','apellido','altura']
censoEscritura_dict('censo2.txt', 'censo_fmt2.txt', claves)

#### Dialectos
Con el módulo `csv` podemos tratar varios formatos de ficheros a través de los parámetros de los métodos empleados, pero cuando nuestra aplicación manipula muchos archivos con diferentes formatos, esto puede complicar y ensuciar el código. Para facilitar la especificación del formato de los ficheros, los parámetros específicos de formateo pueden agruparse en __dialectos__, es decir, un dialecto define un patrón de formato concreto bajo un solo nombre que se pasará a los métodos de lectura y escritura. Los dialectos se definen con la función `register()`, cuyo prototipo es `csv.register_dialect(name[, dialect[, **fmtParams]])`. Esta función recibe como parámetro el nombre del nuevo dialecto (parámetro `name`), el cual puede ser definido como subclase de otro dialecto (parámetro `dialect`) y definir sus propias características (argumentos del parámetro `fmtParams`).

Consideremos la línea siguiente de un fichero con un formato nuevo: `"26194201F" : "Helen" : "Chufe" : 160`

In [20]:
csv.register_dialect('dialecto_propio', delimiter = ':', skipinitialspace = True, quoting = csv.QUOTE_NONNUMERIC) 
csv.list_dialects() # lista de dialectos del sistema

['excel', 'excel-tab', 'unix', 'dialecto_propio']

In [21]:
with open('censo3.txt', 'r') as fichero_csv:
    lector = csv.reader(fichero_csv, dialect = 'dialecto_propio')
    for linea in lector:
        print(linea)

['DNI ', 'nombre ', 'apellido ', 'altura']
['26194201F ', 'Helen ', 'Chufe ', 160.0]
['26874858W ', 'Carmelo ', 'Coton ', 180.0]
['46092296C ', 'Pepe ', 'Pinillo ', 175.0]
['48427041N ', 'Aquiles ', 'Bailo ', 177.0]
['76342509N ', 'Aitor ', 'Menta ', 170.0]
['65086580F ', 'Lola ', 'Mento ', 165.0]
['08021312Q ', 'Andres ', 'Trozado ', 190.0]


#### La clase `Sniffer` del módulo `csv`
El paquete `csv` también incluye la clase `Sniffer` que permite deducir el formato de un fichero CSV. El método `sniff()` analiza una cadena de caracteres y devuelve una subclase de `Dialect` que refleja los parámetros encontrados. El método `has_header()` analiza una cadena de caracteres y devuelve `True`si parece ser una secuencia de nombres de columna. 

In [22]:
with open('censo3.txt', 'r') as fichero_csv:
    linea = fichero_csv.readline()
    encontradaCabecera = csv.Sniffer().has_header(linea)
    print("Existencia de cabecera: " + str(encontradaCabecera))
    dialecto = csv.Sniffer().sniff(linea)
    print("Dialecto: " + str(dialecto))
    lector = csv.reader(fichero_csv, dialecto)
    for linea in lector:
        print(linea)

Existencia de cabecera: True
Dialecto: <class 'csv.Sniffer.sniff.<locals>.dialect'>
['26194201F', ':', 'Helen', ':', 'Chufe', ':', '160']
['26874858W', ':', 'Carmelo', ':', 'Coton', ':', '180']
['46092296C', ':', 'Pepe', ':', 'Pinillo', ':', '175']
['48427041N', ':', 'Aquiles', ':', 'Bailo', ':', '177']
['76342509N', ':', 'Aitor', ':', 'Menta', ':', '170']
['65086580F', ':', 'Lola', ':', 'Mento', ':', '165']
['08021312Q', ':', 'Andres', ':', 'Trozado', ':', '190']
