# Procesamiento de registros

### Contenidos

1. Descripción de registro
1. Lectura de registros
1. Escritura de registros


## Registros

Un conjunto de datos tabulares, estructurados como una colección de entidades elementales denominadas __registros__, que son de igual tipo y que se componen a su vez de entidades mas pequeñas denominadas __campos__.
- __Registro es una colección de campos__ logicamente relacionados que pueden ser tratados en un programa como una unidad.
- __Campo es un item o elemento de datos__, considerado la unidad mínima de información de un registro. Generalmente se caracterizan por su tipo (e.g. entero, lógico).

![Jerarquía de datos](./img/data_hierarchy.png)

- Es un caso particular de __archivos de organización secuencial__.
- Es una __serie continua de caracteres que se pueden leer uno tras otro__.
- Es un archivo en el que __cada registro es del tipo de cadena de texto__.
- Normalmente __consisten en paquetes pequeños de datos__ que son individualmente diferentes pero que __comparten algún rasgo en común__.
- La forma en que __se agrupan los datos es arbitraria__. 
- __Existen estructuras estandarizadas__ para cualquier propósitos.

## Archivos de registros separador por coma (CSV)

De acuerdo a su especificación [RFC 4180](https://tools.ietf.org/html/rfc4180), el formato:

- Es un __archivo de texto en formato plano__.
- Almacena datos como en __registros__, cada uno de los cuales está localizado en una línea separada por un salto de línea.
- Cada registro almacena datos tabulares __con valores separados por coma__, aunque también pueden estar separados por otro símbolo, como el punto y coma `;`, espacios, tabulaciones (`\t`), etc.
- Comunmente se utiliza para el __intercambio de datos__.

En Python, el módulo [`CSV`](https://docs.python.org/3/library/csv.html):

- Implementa clases para leer y escribir datos tabulares en formato CSV. 
- Permite describir los formatos CSV comprendidos por otras aplicaciones o definir formatos CSV propios. 
- Otra alternativa consiste en leer y escribir datos en forma de diccionario usando
las clases `DictReader` y `DictWriter`.

## Lectura de registros

La función `reader()` retorna un __objeto iterable sobre los registros del archivo CSV__. 

El siguiente código obtiene el contenido del archivo como una lista, donde cada elemento es una cadena de texto.

In [None]:
from csv import reader

csvFile = open('./data/pozos.csv', 'r')
csvRegs = reader(csvFile)
for row in csvRegs:
    print(row)
csvFile.close()

El _keyword_ `delimiter` permite pasar como argumento el __delimitador de campos__. Por defecto, corresponde es coma  (`,`).

Siguiendo con el ejemplo anterior, notar como cambian los elementos de la lista al definir como delimitidador de campo el símbolo `;`:

In [None]:
csvFile = open('./data/pozos.csv')
csvReader = reader(csvFile, delimiter=';')
for row in csvReader:
    print(row)
csvFile.close()

## Lectura de registros como diccionario

La función `DictReader()` __crea un objeto que mapea los campos de cada registro a un diccionario__. 
- Las __claves del diccionario se definen__ incluyendo como argumento el parámetro de _keyword_ `fieldnames`,  cuyo valor es una secuencia que contiene cada una de las claves del diccionario.

En el siguiente ejemplo, los registros del archivo `pozos_no_header.csv` son leídos desde diccionarios de claves `date` y `height`, asociadas a cada campo, respectivamente. Además, imprime todos los valores de un campo, utilizando su respectivo nombre.

In [None]:
from csv import DictReader

csvFile = open('./data/pozos_no_header.csv')
dReader = DictReader(csvFile, delimiter=';', fieldnames=['date', 'height'])
for rcrd in dReader:
    print(rcrd['date'])
csvFile.close()

El atributo `.fieldnames` __retorna una secuencia con los nombres de los campos__.

In [None]:
print(dReader.fieldnames)

Si los nombres de campos no se definen al crear el objeto, el atributo `.fieldnames` __se inicializa al primer acceso o al leer el primer registro del fichero__.

En el siguiente ejemplo, los nombres de campos se definen utilizando los encabezados del archivo CSV:

In [None]:
csvFile = open('./data/pozos.csv')
dReader = DictReader(csvFile, delimiter=';')
next(dReader)
csvFile.close()
print(dReader.fieldnames)

__Nota__: Si una fila tiene más campos que nombres de campo, los datos restantes se alamcenan en una lista con el nombre de campo `None`. Si una fila no vacía tiene menos campos que nombres de campo, los valores que faltan se rellenan con `None`.

## Escritura de registros

La función `write()` retorna un objeto responsable de convertir los datos en cadenas delimitadas en el símbolo dado como argumento con el _keyword_ `delimiter`.

- El método `writerow()` de la clase `write`, escribe un objeto iterable (e.g. registro), de acuerdo al formato definido al momento de crear el objeto `write`.

In [None]:
from datetime import datetime as dt
from csv import writer

user = input('usuario: ')

csvFile = open('./data/userlog.csv', 'a')
csvWriter = writer(csvFile, delimiter=';')
csvWriter.writerow([str(dt.now()), user])
csvFile.close()

El método `writerows()` escribe una lista de objetos iterables (e.g. lista de registros), de acuerdo al formato definido al momento de crear el objeto `write`.

In [None]:
rcrds = [
    ['María Perez', 18, 'F'],
    ['Juan Pino', 25, 'M'],
    ['Roberto Pinto', 17, 'M']
]
csvFile = open('./data/personas.csv', 'w')
csvWriter = writer(csvFile, delimiter=',')
csvWriter.writerows(rcrds)
csvFile.close()

### Escritura desde un diccionario

La función `DictWriter()` retorna un objeto que mapea los diccionarios en filas. Recibe como argumento dos parámetros: 
- Archivo CSV abierto en modo de escritura. 
- _Keyword_ `fieldnames` cuyo valor es una secuencia que identifica el orden de los valores del diccionario pasados al método `writerow()` para escribirlos en el archivo CSV, de acuerdo al formato definido al crear el objeto `DictWriter`.

El método `writeheader()` escribe una fila (registro) en el archivo CSV con el nombre del encabezado.

In [None]:
from csv import DictWriter

horario = {
    '0': {'nombre': 'María Perez', 'edad': 18, 'genero': 'F'},
    '1': {'nombre': 'Juan Pino', 'edad': 25, 'genero': 'M'},
    '2': {'nombre': 'Roberto Pinto', 'edad': 17, 'genero': 'M'}
}
csvFile = open('./data/horario.csv', 'w')
fieldnames = list(horario['0'].keys()) #['nombre', 'edad', 'genero']
csvWriter = DictWriter(csvFile, delimiter=';', fieldnames=fieldnames)
csvWriter.writeheader()
for key, rcrd in horario.items():
    csvWriter.writerow(rcrd)
csvFile.close()

## Actividad

El fichero `etc/passwd` de los sistemas Unix contiene información acerca de los usuarios del sistema. Un ejemplo de un fichero con dos registros se presenta a continuación:

```
juanp:x0da11y:1000:2000:Juan Perez:/home/al55555:/bin/bash
d4niela:y1aff0x:1001:2000:Daniela Rojo:/home/d4niela:/bin/bash
```

En este archivo, cada campo está separado por dos puntos (<code>:</code>). En orden, aparecen:</p>

- `user`: Nombre de usuario
- `pass`: Contraseña cifrada
- `id`: Número único de usuario (id)
- `group`: Número de grupo
- `name`: Nombre real del usuario
- `userpath`: Ruta del directorio principal del usuario
- `bashpath`: Ruta del interprete de órdenes
    
A1. Diseñe la función `user2dict(fname)` que retorne un diccionario con de todos los usuario registrados en un archivo `etc/passwd`. Cada campo del registro deberá ser asociado a su respectiva clave en el diccionario, omitiendo los campos `userpath` y `bashpath`. Considere utilizar como identificador de cada usuario el nombre de usuario (`id`). Por ejemplo, para el archivo presentado anteriormente, el diccionario generado por la función debería quedar con la siguiente estructura:
```
{
    1000: {'user': 'juanp', 'pass': 'x0da11y', 'group': 2000, 'name': 'Juan Perez'}, 
    1001: {'user': 'd4niela', 'pass': 'y1aff0x', 'group': 2000, 'name': 'Daniela Rojo'}
}
```

A2. Diseñe la función `nombre(fname, usuario)` que retorne el nombre completo del usuario a partir de nombre de usuario (`usuario`).

A3. Diseñe la función `buscar(fname, keyword)` que retorne una lista con el número único de usuario (id) de todos los usuarios cuyo nombre contenga la palabra `keyword`.