# Lectura de Data

⚠️ **Notebook** en desarrollo.

Hasta ahora, los datos que hemos utilizado han sido ingresados a mano. En una situación real esto no es lo más habitual y menos aún lo más deseable. Generalmente, los datos que se necesitan están disponibles en un archivo de texto, una planilla Excel, una base de datos o a través de un servicio de datos.

Vamos a ver como leer data almacenada en un archivo de texto.

## Leer un Archivo de Texto

Supongamos que las notas de todas las materias y de todo el año están almacenadas en el archivo **notas.csv**. Ustedes mismos pueden abrir el archivo y ver su estructura.

materia;1_trimestre;2_trimestre;3_trimestre;promedio

Matematica;5;4;5;4.7

Castellano;3;2;5;3.3

Fisica;3;7;6;5.3

Quimica;3;7;5;5

Biologia;6;7;7;6.7

Filosofia;6;2;3;3.7

El archivo se ve más o menos como en la celda anterior, pero sin las líneas vacías entre cada línea con datos.

Se observa que la primera línea del archivo tiene unos títulos o encabezados, precisamente:

- materia
- 1_trimestre
- 2_trimestre
- 3_trimestre
- promedio

El significado de cada nombre es claro. Se observa también que entre título y título ha un ; . Este caracter sirve de separador, permite a quien lee el archivo saber cuando termina un título y empieza otro.

En las filas siguientes vemos la data propiamente tal. El nombre de la materia, las notas correspondientes a los 3 trimestres y finalmente la nota promedio.

### Leer Todo el Archivo de una Vez

Vamos a leer el archivo y luego revisamos el código.

In [8]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.read()
print(notas)

materia;1_trimestre;2_trimestre;3_trimestre;promedio
Matematica;5;4;5;4.7
Castellano;3;2;5;3.3
Fisica;3;7;6;5.3
Quimica;3;7;5;5
Biologia;6;7;7;6.7
Filosofia;6;2;3;3.7


- `open('notas.csv', 'r')`: abre el archivo **notas.csv** en modo sólo lectura `r`. Esto último porque sólo queremos leer data y no escribir nada en el archivo.
- `with open(...) as archivo`: rodear la instrucción `open` con `with .... as <nombre archivo>` nos asegura que una vez que terminemos de usar el archivo este se cerrará automáticamente. Esto evita todos los problemas de tipo *"Archivo está siendo utilizado por otro usuario"*.

Si no se usa `with ... as` hay que proceder de la siguiente forma:

In [9]:
f = open('notas.csv', 'r')
notas = f.read()
f.close()
print(notas)

materia;1_trimestre;2_trimestre;3_trimestre;promedio
Matematica;5;4;5;4.7
Castellano;3;2;5;3.3
Fisica;3;7;6;5.3
Quimica;3;7;5;5
Biologia;6;7;7;6.7
Filosofia;6;2;3;3.7


O sea, hay que agregar la instrucción `close`. Esto último es fácil de olvidar, por eso la forma recomendada es utilizando `with ... as`.

### Leer Línea a Línea

Como antes, veamos la instrucción y luego la explicamos:

In [10]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.readlines()
print(notas)

['materia;1_trimestre;2_trimestre;3_trimestre;promedio\n', 'Matematica;5;4;5;4.7\n', 'Castellano;3;2;5;3.3\n', 'Fisica;3;7;6;5.3\n', 'Quimica;3;7;5;5\n', 'Biologia;6;7;7;6.7\n', 'Filosofia;6;2;3;3.7']


- `readlines()` lee cada una de las líneas del archivo y las almacena en una `List[str]` donde cada elemento de la `List` es una de las líneas del archivo.
- notar que todas las líneas menos la última terminan con `\n`. Estos dos caracteres indican un **Enter** o salto de línea.

### Limpiar el Salto de Línea

Vamos a remover el salto de línea.

In [11]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.readlines()
notas_2 = []
for nota in notas:
    notas_2.append(nota.rstrip())
print(notas_2)

['materia;1_trimestre;2_trimestre;3_trimestre;promedio', 'Matematica;5;4;5;4.7', 'Castellano;3;2;5;3.3', 'Fisica;3;7;6;5.3', 'Quimica;3;7;5;5', 'Biologia;6;7;7;6.7', 'Filosofia;6;2;3;3.7']


- se define una nueva `List`, `notas_2` que almacenará las líneas *limpias*.
- se aplica el método `rstrip` a cada una de las líneas del archivo. Este método tiene el efecto deseado. Las líneas *limpias* se almacenan en la nueva `List`, `notas_2`.

### Almacenar las Notas en una Estructura Adecuada

Si bien ahora tenemos las notas en un `List`, el formato no es muy cómodo. Se mezclan las notas con el nombre de la materia, las notas de cada trimestre hay que buscarlas por posición y están, además, todos los ; .

Vamos a ver como traspasar la data a un `Dict`. Este `Dict` será de este tipo `Dict[str, float]]`. O sea un `Dict`cuyas `keys` son las materias (dato de tipo `str`) y cuyos `values` son una `List` con las notas por trimestre y promedio de esa materia.

Primero, nos quedamos sólo con las notas:

In [37]:
aux_1 = [l.split(';') for l in notas_2[1:]]
aux_1

[['Matematica', '5', '4', '5', '4.7'],
 ['Castellano', '3', '2', '5', '3.3'],
 ['Fisica', '3', '7', '6', '5.3'],
 ['Quimica', '3', '7', '5', '5'],
 ['Biologia', '6', '7', '7', '6.7'],
 ['Filosofia', '6', '2', '3', '3.7']]

Luego, convertimos las notas (que se han cargado como `str` a números). **Esta parte es difícil, estudiarla porque es muy provechosa. Tip: entender primero qué hace `[l[1:] for l in aux_1][i]]` para `i=0,1,2` y luego deducir el resto.**

In [38]:
aux_2 = [[float(n) for n in [l[1:] for l in aux_1][i]] for i in range(0, len(aux_1))]
aux_2

[[5.0, 4.0, 5.0, 4.7],
 [3.0, 2.0, 5.0, 3.3],
 [3.0, 7.0, 6.0, 5.3],
 [3.0, 7.0, 5.0, 5.0],
 [6.0, 7.0, 7.0, 6.7],
 [6.0, 2.0, 3.0, 3.7]]

Finalmente, construimos el `Dict` requerido.

In [39]:
notas_3 = {m[0]: n for m in aux_1 for n in aux_2}
notas_3

{'Matematica': [6.0, 2.0, 3.0, 3.7],
 'Castellano': [6.0, 2.0, 3.0, 3.7],
 'Fisica': [6.0, 2.0, 3.0, 3.7],
 'Quimica': [6.0, 2.0, 3.0, 3.7],
 'Biologia': [6.0, 2.0, 3.0, 3.7],
 'Filosofia': [6.0, 2.0, 3.0, 3.7]}