## Fundamentos de Programación
# Lectura y conversión de datos
**Autor**: Mariano González.   **Revisores**: Miguel Toro, Toñi Reina, Daniel Mateos.   **Última modificación:** 10 de enero de 2023

Al leer las líneas de un fichero de texto, estas se leen como cadenas de caracteres. Si los datos que contiene el fichero representan valores numéricos, fechas, horas, o en general valores que no son cadenas, hay que convertirlos al tipo correspondiente. En este notebook vamos a ver cómo se realiza esta transformación.

En primer lugar, veremos cómo se realiza esta transformación con los tipos de datos más habituales. Supondremos para ello que tenemos almacenada en una variable de tipo cadena el valor que se ha leído del fichero. A continuación, realizaremos unos ejercicios en los que leeremos los datos de un fichero CSV.

### Índice
* [1. Conversión de datos](#sec_conversion)
 * [1.1. Valores numéricos](#sec_numericos)
 * [1.2. Fechas y horas](#sec_fechas)
 * [1.3. Valores booleanos](#sec_booleanos)
 * [1.4. Valores compuestos](#sec_compuestos)
* [2. Ejercicios de lectura de ficheros CSV](#sec_ejercicios)
 * [2.1. Autobuses](#sec_autobuses)
 * [2.2. Partidos de fútbol](#sec_partidos)

## 1. Conversión de datos <a name="sec_conversion"/>

### 1.1 Valores numéricos <a name="sec_numericos"/>

Para convertir una cadena que contiene dígitos numéricos en un valor entero, usamos la funcion `int`:

In [None]:
cadena = "123"

numero = int(cadena)
print(f"El valor entero de la cadena '{cadena}' es: {numero}")

De forma similar, para convertir una cadena que contiene dígitos numéricos y el punto decimal en un valor real, usamos la función `float`:

In [None]:
cadena = "7.92"

numero = float(cadena)
print(f"El valor real de la cadena '{cadena}' es: {numero}")

### 1.2 Fechas y horas <a name="sec_fechas"/>

Para convertir cadenas que representan fechas y horas en objetos de tipo `datetime` hay que importar el módulo datetime:

In [None]:
from datetime import datetime

Para realizar la conversión se utiliza la función `strptime`. Esta función recibe dos parámetros: la cadena a convertir y el formato de la cadena. La cadena a convertir contiene los valores del día, mes, año, hora, minutos y segundos, además de otros caracteres que actúan como separadores. El formato contiene unos códigos que indican lo que representa cada valor de la cadena: `%d` representa el día, `%m` el mes, `%Y` el año, `%H` la hora, `%M` los minutos y `%S` los segundos. La referencia completa de códigos se puede ver en https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes.

Veamos el caso de las fechas:

In [None]:
cadena = "13/11/2020"

fecha = datetime.strptime(cadena, "%d/%m/%Y").date()
print(f"El objeto date para la fecha '{cadena}' es: {fecha}")

Observa que la función `strptime` devuelve un objeto `datetime`, que representa una fecha y una hora. Como la cadena solo contiene la información de la fecha, aplicamos a este objeto el método `date` para quedarnos con la parte de la fecha.

Para las horas, sería así:

In [None]:
cadena = "7-55-27"

hora = datetime.strptime(cadena, "%H-%M-%S").time()
print(f"El objeto time para la hora '{cadena}' es: {hora}")

En este caso la cadena solo contiene la información de la hora, por lo que aplicamos al objeto devuelto por `strptime` el método `time` para quedarnos con la parte de la hora.

Por último, podríamos tener en la cadena tanto la fecha como la hora. En ese caso, nos quedaríamos directamente con el valor devuelto por `strptime`.

In [None]:
cadena = "11/13/2020-7:55:27"

fechahora = datetime.strptime(cadena, "%m/%d/%Y-%H:%M:%S")
print(f"El objeto datetime para la fecha y hora '{cadena}' es: {fechahora}")

Estas operaciones de conversión las tendremos que realizar cada vez que leamos una fecha o una hora de un fichero, así que es razonable disponer de unas funciones que realicen estas conversiones e invocarlas cuando las necesitemos. Definamos pues varias funciones que reciban como parámetros una cadena que representa una fecha, una hora o ambas cosas, junto con el formato en el que están expresadas, y devuelvan como resultado un objeto de tipo `date`, `time` o `datetime`, respectivamente:

In [None]:
def parse_date(cadena, formato = "%d/%m/%Y"):
    return datetime.strptime(cadena, formato).date()

def parse_time(cadena, formato = '%H:%M:%S'):
    return datetime.strptime(cadena, formato).time()

def parse_datetime(cadena, formato = '%d/%m/%Y-%H:%M:%S'):
    return datetime.strptime(cadena, formato)

Veamos de nuevo las operaciones anteriores, usando estas funciones:

In [None]:
cadena = "13/11/2020"

fecha = parse_date(cadena)
print(f"El objeto date para la fecha '{cadena}' es: {fecha}")

In [None]:
cadena = "7:55:27"

hora = parse_time(cadena)
print(f"El objeto time para la hora '{cadena}' es: {hora}")

In [None]:
cadena = "13/11/2020-7:55:27"

fechahora = parse_datetime(cadena)
print(f"El objeto datetime para la fecha y hora '{cadena}' es: {fechahora}")

Observa que en las llamadas a las funciones hemos omitido el segundo parámetro, por lo cual se toma el valor definido por defecto en la cabecera de la función. Esto lo podemos hacer porque la representación de las fechas y las horas coincide con el formato por defecto; si no fuera así, habría que pasar este formato como parámetro. Por ejemplo:

In [None]:
cadena = "13-November-2020"

fecha = parse_date(cadena, "%d-%B-%Y")
print(f"El objeto date para la fecha '{cadena}' es: {fecha}")

### 1.3 Valores booleanos <a name="sec_booleanos"/>

Los valores booleanos pueden aparecer de muchas formas en el fichero; pueden ser '0' y '1', 'true' y 'false', 'Sí' o 'No', etc. Hay que convertir estos valores a los literales de tipo `bool`, que son `True` y `False`. Para ello hacemos uso de una estructura condicional. Por ejemplo, si los valores son 'SI' y 'NO', haremos lo siguiente:

In [None]:
cadena = 'NO'

if cadena == 'SI':
    booleano = True
else:
    booleano = False
print(f"El valor booleano de la cadena '{cadena}' es: {booleano}")

Al igual que con las fechas y horas, es conveniente definir una función que realice la conversión e invocarla cuando la necesitemos.

In [None]:
def parse_bool(cadena):
    if cadena == 'SI':
        booleano = True
    else:
        booleano = False
    return booleano

La conversión quedaría entonces así:

In [None]:
cadena = 'NO'

booleano = parse_bool(cadena)
print(f"El valor booleano de la cadena '{cadena}' es: {booleano}")

Es importante notar que la conversión mediante la función `bool` de una cadena con valor 'True' o 'False' no produce el resultado que podríamos esperar:

In [None]:
cadena = 'True'
print(f"bool('{cadena}') es: {bool(cadena)}")

cadena = 'False'
print(f"bool('{cadena}') es: {bool(cadena)}")

cadena = ''
print(f"bool('{cadena}') es: {bool(cadena)}")

Como se puede apreciar, el valor devuelto por la función `bool` es `True` para cualquier cadena salvo para la cadena vacía.

### 1.4 Valores compuestos <a name="sec_compuestos"/>

En ocasiones, la cadena puede estar formada por varias partes, que hay que extraer y convertir por separado. Por ejemplo, supongamos la siguiente cadena:

In [None]:
cadena = "Comedia, Acción, Aventuras"

Esta cadena contiene los géneros de una película, que en este caso son tres: 'Comedia', 'Acción' y 'Aventuras'. Estos géneros los podemos almacenar en un conjunto o una lista. Para ello, es necesario dividir la cadena en tantos trozos como elementos separados por comas contenga, y crear un conjunto o lista con ellos. Para hacer esto, usamos el método `split`:

In [None]:
cadena = "Comedia, Acción, Aventuras"

generos = cadena.split(',')
print(f"Los géneros presentes en la cadena '{cadena}' son: {generos}")

El método `split` ha troceado la cadena usando como separador el carácter que recibe como parámetro (la coma), y ha construido una lista con estos trozos. Sin embargo, hay un problema: como se puede ver, las cadenas ' Acción' y ' Aventuras' tienen un espacio en blanco al principio, espacio que estaba en la cadena como un carácter más. Este espacio no nos interesa, y por tanto hemos de eliminarlo. Para ello usamos el método `strip`:  

In [None]:
cadena = "Comedia, Acción, Aventuras"

generos = cadena.split(',')
generos = [g.strip() for g in generos]
print(f"Los géneros presentes en la cadena '{cadena}' son: {generos}")

Ahora ya se tiene una lista con los nombres correctos de los géneros.

En este ejemplo, la cadena estaba compuesta por valores que eran de tipo cadena, los géneros. Si los valores son de otro tipo, será necesario convertir a su vez cada uno al tipo correspondiente. Por ejemplo, supongamos que la cadena contiene las calificaciones de un estudiante en varias asignaturas, y queremos almacenarlas en una lista de valores numéricos:

In [None]:
cadena = "7.5, 6.8, 9.1, 5.0"

calificaciones = cadena.split(',')
calificaciones = [float(c) for c in calificaciones]
print(f"Las calificaciones presentes en la cadena '{cadena}' son: {calificaciones}")

## 2. Ejercicios de lectura de ficheros CSV <a name="sec_ejercicios"/>

### 2.1 Autobuses <a name="sec_autobuses"/>

Sea un fichero CSV que contiene información sobre la flota de autobuses urbanos de una ciudad. Los primeros registros de este fichero son los siguientes:

```
matricula,fabricante,inicio,capacidad,asientos,kilometros,articulado
2134GVM,MAN,7/3/2010,65,40,65540.7,SI
0129JVH,SCANIA,25/11/2016,45,33,34708.2,NO
8535HDR,MAN,18/5/2011,49,35,59835.9,NO
```

Vamos a escribir una función que lea este fichero y cree una lista de tuplas, donde cada tupla represente un registro del fichero (un autobús).

En primer lugar, definimos una tupla con nombre para almacenar los registros:

In [None]:
from collections import namedtuple

Autobus = namedtuple('Autobus', 'matricula, fabricante, inicio, capacidad, \
    asientos, kilometros, articulado')

Ahora escribimos una función que lea el fichero, línea a línea, almacene los datos de cada autobús en una tupla, y los vaya añadiendo todos a una lista:

In [None]:
import csv

def lee_autobuses(nombre_fichero):
    autobuses = []
    with open(nombre_fichero, encoding='utf-8') as f:
        lector = csv.reader(f)
        next(lector)
        for matricula, fabricante, inicio, capacidad, asientos, kilometros, articulado in lector:
            inicio = parse_date(inicio)
            capacidad = int(capacidad)
            asientos = int (asientos)
            kilometros = float(kilometros)
            articulado = parse_bool(articulado)
            tupla = Autobus(matricula, fabricante, inicio, capacidad, asientos, \
                            kilometros, articulado)
            autobuses.append(tupla)
    return autobuses

Por último, probamos la función de lectura y mostramos los tres primeros y los tres últimos autobuses de la lista:

In [None]:
autobuses = lee_autobuses("tussam.csv")
print("Los tres primeros autobuses son:\n", autobuses[:3])
print("\nLos tres últimos autobuses son:\n", autobuses[-3:])

### 2.2 Partidos de fútbol <a name="sec_partidos"/>

Sea un fichero CSV que contiene información sobre los resultados de los partidos internacionales disputados por la selección nacional de fútbol de Israel. Los primeros registros de este fichero son los siguientes:

```
05/09/2019;Israel v FYR Macedonia;D;1-1;UEFA European Championship;83972
09/09/2019;Slovenia v Israel;L;3-2;UEFA European Championship;17846
```

Cada registro contiene la fecha en la que se disputó el partido, los nombres de las selecciones que se enfrentaron, separados por " v " (blanco-uve-blanco), un carácter ‘L’ si Israel perdió, ‘D’ si empató y ‘W’ si ganó, el marcador del partido en el formato "goles local-goles visitante", el nombre de la competición y el número de espectadores.

Vamos a escribir una función que lea este fichero y cree una lista de tuplas, donde cada tupla represente un registro del fichero (un partido).

En primer lugar, definimos una tupla con nombre para almacenar los registros:

In [None]:
Partido = namedtuple('Partido', 'fecha, equipoloc, equipovis, resultado, \
    golesloc, golesvis, competicion, espectadores')

Ahora escribimos una función que lea el fichero, línea a línea, almacene los datos de cada partido en una tupla, y los vaya añadiendo todos a una lista:

In [None]:
def lee_partidos(nombre_fichero):
    partidos = []
    with open(nombre_fichero, encoding='utf-8') as f:
        lector = csv.reader(f, delimiter=";")
        next(lector)
        for fecha, partido, resultado, marcador, competicion, espectadores in lector:
            fecha = parse_date(fecha)
            equipoloc, equipovis = parse_partido(partido)
            golesloc, golesvis = parse_marcador(marcador)
            espectadores = int(espectadores)
            partidos.append(Partido(fecha, equipoloc, equipovis, resultado, golesloc, \
                            golesvis, competicion, espectadores))
    return partidos

def parse_partido(cadena):
    lista = cadena.split(" v ")
    return (lista[0].strip(), lista[1].strip())

def parse_marcador(cadena):
    lista = cadena.split("-")
    return (int(lista[0]), int(lista[1]))

Por último, probamos la función de lectura y mostramos los tres primeros y los tres últimos partidos de la lista:

In [None]:
partidos = lee_partidos("resultadosIsrael.csv")
print("Los tres primeros partidos son:\n", partidos[:3])
print("\nLos tres últimos partidos son:\n", partidos[-3:])