# Procesamiento de registros

## Registros



Registros se le denomina a un conjunto de datos tabulares, estrucrurados como una colección de entidades elementales, que son de igual tipo y que se componen a su vez de entidades mas pequeñas denominadas __campos__.

- __Registro es una colección de campos__ logicamente relacionados que pueden ser tratados en un programa como una unidad.
- __Campo es un item o elemento de datos__, considerado la unidad mínima de información de un registro. Generalmente se caracterizan por su tipo (e.g. entero, lógico).

![Dato](./img/almacenamiento_dato.svg)

Un archivo de registros es,
- Un caso particular de __archivos de organización secuencial__.
- Una __serie continua de caracteres que se pueden leer uno tras otro__.
- Un archivo en el que __cada registro es del tipo de cadena de texto__.
- Normalmente __consisten en paquetes pequeños de datos__ que son individualmente diferentes pero que __comparten algún rasgo en común__.
- La forma en que __se agrupan los datos es arbitraria__. 
- __Existen estructuras estandarizadas__ para cualquier propósitos.

## Archivo CSV



De acuerdo a su especificación [RFC 4180](https://tools.ietf.org/html/rfc4180), el formato:

- Es un __archivo de texto en formato plano__.
- Almacena datos como en __registros__, cada uno de los cuales está localizado en una línea separada por un salto de línea.
- Cada registro almacena datos tabulares __con valores separados por coma__, aunque también pueden estar separados por otro símbolo, como el punto y coma `;`, espacios, tabulaciones (`\t`), etc.
- Comunmente se utiliza para el __intercambio de datos__.


En Python, el módulo [`CSV`](https://docs.python.org/3/library/csv.html):
- Implementa componentes para leer y escribir datos tabulares en formato CSV. 
- Permite describir los formatos CSV comprendidos por otras aplicaciones o definir formatos CSV propios. 
- Otra alternativa consiste en leer y escribir datos en forma de diccionario usando
las clases `DictReader` y `DictWriter`.

## Lectura de registros

La función `reader()` retorna un __objeto iterable sobre los registros del archivo CSV__. 

El siguiente código obtiene el contenido del archivo como una lista, donde cada elemento es una cadena de texto.

In [None]:
from csv import reader

archivo = open('./registros/pozos.csv', 'r')
registros = reader(archivo)
for registro in registros:
    print(registro)
archivo.close()

El _keyword_ `delimiter` permite pasar como argumento el símbolo __delimitador de campos__ del registro. Por defecto, es coma  (`,`).

Siguiendo con el ejemplo anterior, notar como cambian los elementos de la lista al definir como delimitidador de campo el símbolo `;`:

In [None]:
archivo = open('./registros/pozos.csv')
registros = reader(archivo, delimiter=';')
for registro in registros:
    print(registro)
archivo.close()

## Lectura de registros como diccionario

La función `DictReader()` __crea un objeto que mapea los campos de cada registro a un diccionario__. 
- Las __claves del diccionario se definen__ incluyendo como argumento el parámetro de _keyword_ `fieldnames`,  cuyo valor es una secuencia que contiene cada una de las claves del diccionario.

En el siguiente ejemplo, los registros del archivo `pozos_no_header.csv` son leídos desde diccionarios de claves `date` y `height`, asociadas a cada campo, respectivamente. Además, imprime todos los valores de un campo, utilizando su respectivo nombre.

In [None]:
from csv import DictReader

archivo = open('./registros/pozos_no_header.csv')
registros = DictReader(archivo, delimiter=';', fieldnames=['date', 'height'])
for registro in registros:
    print(registro['date'])
archivo.close()

El atributo `.fieldnames` __retorna una secuencia con los nombres de los campos__.

In [None]:
print(registros.fieldnames)

Si los nombres de campos no se definen al crear el objeto, el atributo `.fieldnames` __se inicializa al primer acceso o al leer el primer registro del fichero__.

En el siguiente ejemplo, los nombres de campos se definen utilizando los encabezados del archivo CSV:

In [None]:
archivo = open('./registros/pozos.csv')
registros = DictReader(archivo, delimiter=';')
next(registros)
archivo.close()
print(registros.fieldnames)

__Nota__: Si una fila tiene más campos que nombres de campo, los datos restantes se alamcenan en una lista con el nombre de campo `None`. Si una fila no vacía tiene menos campos que nombres de campo, los valores que faltan se rellenan con `None`.

## Escritura a partir de una lista

La función `write()` retorna un objeto responsable de convertir los datos en cadenas delimitadas en el símbolo dado como argumento con el _keyword_ `delimiter`.

- El método `writerow()` de la clase `write`, escribe un objeto iterable (e.g. registro), de acuerdo al formato definido al momento de crear el objeto `write`.

In [None]:
from datetime import datetime as dt
from csv import writer

usuario = input('usuario: ')

archivo = open('./registros/userlog.csv', 'a')
escritor = writer(archivo, delimiter=';')
escritor.writerow([str(dt.now()), usuario])
archivo.close()

El método `writerows()` escribe una lista de objetos iterables (e.g. lista de registros), de acuerdo al formato definido al momento de crear el objeto `write`.

In [None]:
lista_personas = [
    ['María Perez', 18, 'F'],
    ['Juan Pino', 25, 'M'],
    ['Roberto Pinto', 17, 'M']
]
archivo = open('./registros/personas.csv', 'w')
escritor = writer(archivo, delimiter=',')
escritor.writerows(lista_personas)
archivo.close()

## Escritura a partir de un diccionario

La función `DictWriter()` retorna un objeto que mapea los diccionarios en filas. Recibe como argumento dos parámetros: 
- Archivo CSV abierto en modo de escritura. 
- _Keyword_ `fieldnames` cuyo valor es una secuencia que identifica el orden de los valores del diccionario pasados al método `writerow()` para escribirlos en el archivo CSV, de acuerdo al formato definido al crear el objeto `DictWriter`.

El método `writeheader()` escribe una fila (registro) en el archivo CSV con el nombre del encabezado.

In [None]:
from csv import DictWriter

horario = {
    '0': {'nombre': 'María Perez', 'edad': 18, 'genero': 'F'},
    '1': {'nombre': 'Juan Pino', 'edad': 25, 'genero': 'M'},
    '2': {'nombre': 'Roberto Pinto', 'edad': 17, 'genero': 'M'}
}
archivo = open('./registros/horario.csv', 'w')
encabezado = list(horario['0'].keys()) # ['nombre', 'edad', 'genero']
escritor = DictWriter(archivo, delimiter=';', fieldnames=encabezado)
escritor.writeheader()
for clave, registro in horario.items():
    escritor.writerow(registro)
archivo.close()