# Lectura de Data

Hasta ahora, los datos que hemos utilizado han sido ingresados a mano. En situaciones reales esto no es lo más habitual y menos aún lo más deseable. Generalmente, los datos que se necesitan están disponibles en un archivo de texto, una planilla Excel o una base de datos.

Vamos a ver como leer data almacenada en un archivo de texto.

## Leer un Archivo de Texto

Supongamos que las notas de todas las materias y de todo el año están almacenadas en el archivo **notas.csv**. Ustedes mismos pueden abrir el archivo y ver su estructura.

materia;1_trimestre;2_trimestre;3_trimestre;promedio

Matematica;5;4;5;4.7

Castellano;3;2;5;3.3

Fisica;3;7;6;5.3

Quimica;3;7;5;5

Biologia;6;7;7;6.7

Filosofia;6;2;3;3.7

El archivo se ve más o menos como en la celda anterior, pero sin las líneas vacías entre cada línea con datos.

Se observa que la primera línea del archivo tiene unos títulos o encabezados, precisamente:

- materia
- 1_trimestre
- 2_trimestre
- 3_trimestre
- promedio

El significado de cada nombre es claro. Se observa también que entre título y título hay un **;** . Este caracter sirve de separador, permite a quien lee el archivo saber cuando termina un título y empieza otro.

En las filas siguientes vemos la data propiamente tal. El nombre de la materia, las notas correspondientes a los 3 trimestres y finalmente la nota promedio.

### Leer Todo el Archivo de una Vez

Vamos a leer el archivo y luego revisamos el código.

In [1]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.read()
print(notas)

materia;1_trimestre;2_trimestre;3_trimestre;promedio
Matematica;5;4;5;4.7
Castellano;3;2;5;3.3
Fisica;3;7;6;5.3
Quimica;3;7;5;5
Biologia;6;7;7;6.7
Filosofia;6;2;3;3.7


- `open('notas.csv', 'r')`: abre el archivo **notas.csv** en modo sólo lectura `r`. Esto último porque sólo queremos leer data y no escribir nada en el archivo.
- `with open(...) as archivo`:
  - rodear la instrucción `open` con `with .... as <nombre archivo>` nos asegura que una vez que terminemos de usar el archivo éste se cerrará automáticamente. Esto evita todos los problemas de tipo *"Archivo está siendo utilizado por otro usuario"*.

Si no se usa `with ... as` hay que proceder de la siguiente forma:

In [2]:
f = open('notas.csv', 'r')
notas = f.read()
f.close()
print(notas)

materia;1_trimestre;2_trimestre;3_trimestre;promedio
Matematica;5;4;5;4.7
Castellano;3;2;5;3.3
Fisica;3;7;6;5.3
Quimica;3;7;5;5
Biologia;6;7;7;6.7
Filosofia;6;2;3;3.7


O sea, hay que agregar la instrucción `close`. Esto último es fácil de olvidar, por eso la forma recomendada es utilizando `with ... as`.

### Leer Línea a Línea

Como antes, veamos la instrucción y luego la explicamos:

In [3]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.readlines()
print(notas)

['materia;1_trimestre;2_trimestre;3_trimestre;promedio\n', 'Matematica;5;4;5;4.7\n', 'Castellano;3;2;5;3.3\n', 'Fisica;3;7;6;5.3\n', 'Quimica;3;7;5;5\n', 'Biologia;6;7;7;6.7\n', 'Filosofia;6;2;3;3.7']


- `readlines()` lee cada una de las líneas del archivo y las almacena en una `List[str]` donde cada elemento de la `List` es una de las líneas del archivo.
- notar que todas las líneas menos la última terminan con `\n`. Estos dos caracteres indican un **Enter** o salto de línea.

### Limpiar el Salto de Línea

Vamos a remover el salto de línea.

In [4]:
with open('notas.csv', 'r') as archivo:
    notas = archivo.readlines()
notas_2 = []
for nota in notas:
    notas_2.append(nota.rstrip()) # rstrip() (right strip) es el método de str que hace la magia
print(notas_2)

['materia;1_trimestre;2_trimestre;3_trimestre;promedio', 'Matematica;5;4;5;4.7', 'Castellano;3;2;5;3.3', 'Fisica;3;7;6;5.3', 'Quimica;3;7;5;5', 'Biologia;6;7;7;6.7', 'Filosofia;6;2;3;3.7']


- se define una nueva `List`, `notas_2` que almacenará las líneas *limpias*.
- se aplica el método `rstrip` a cada una de las líneas del archivo. Este método tiene el efecto deseado. Las líneas *limpias* se almacenan en la nueva `List`, `notas_2`.

### Almacenar las Notas en una Estructura Adecuada

Si bien ahora tenemos las notas en un `List`, el formato no es muy cómodo.

- Se mezclan las notas con el nombre de la materia,
- las notas de cada trimestre hay que buscarlas por posición
- están, además, todos los **;** .

Vamos a ver como traspasar la data a un `Dict`. Este `Dict` será de este tipo `Dict[str, float]]`. O sea un `Dict`cuyas `keys` son las materias (dato de tipo `str`) y cuyos `values` son una `List` con las notas por trimestre y promedio de esa materia.

Primero, nos quedamos sólo con las notas:

In [5]:
aux_1 = [l.split(';') for l in notas_2[1:]]
aux_1

[['Matematica', '5', '4', '5', '4.7'],
 ['Castellano', '3', '2', '5', '3.3'],
 ['Fisica', '3', '7', '6', '5.3'],
 ['Quimica', '3', '7', '5', '5'],
 ['Biologia', '6', '7', '7', '6.7'],
 ['Filosofia', '6', '2', '3', '3.7']]

El método `split(';')` separa los elementos de un `str` suponiendo que el caracter que los separa es `';'` y los almacena en una `List[str]`.

Luego, convertimos las notas (que se han cargado como `str` a números). **Esta parte es difícil, estudiarla porque es muy provechosa. Tip: entender primero qué hace `[l[1:] for l in aux_1][i]]` para `i=0,1,2` y luego deducir el resto.**

In [6]:
aux_2 = [[float(n) for n in [l[1:] for l in aux_1][i]] for i in range(0, len(aux_1))]
aux_2

[[5.0, 4.0, 5.0, 4.7],
 [3.0, 2.0, 5.0, 3.3],
 [3.0, 7.0, 6.0, 5.3],
 [3.0, 7.0, 5.0, 5.0],
 [6.0, 7.0, 7.0, 6.7],
 [6.0, 2.0, 3.0, 3.7]]

Finalmente, construimos el `Dict` requerido.

In [7]:
notas_3 = {m[0]: n for m, n in zip(aux_1, aux_2)}
notas_3

{'Matematica': [5.0, 4.0, 5.0, 4.7],
 'Castellano': [3.0, 2.0, 5.0, 3.3],
 'Fisica': [3.0, 7.0, 6.0, 5.3],
 'Quimica': [3.0, 7.0, 5.0, 5.0],
 'Biologia': [6.0, 7.0, 7.0, 6.7],
 'Filosofia': [6.0, 2.0, 3.0, 3.7]}

#### Ejercicio

A partir de `notas_3`, usando `Dict` y/o `List` comprehensions, obtener el siguiente `Dict[str, Dict[str, float]]`:

In [8]:
final_dict = {
    'Matematica': {
        '1T': 5.0,
        '2T': 4.0,
        '3T': 5.0,
        'Pr': 4.7,
    },
    'Castellano': {
        '1T': 3.0,
        '2T': 2.0,
        '3T': 5.0,
        'Pr': 3.3,
    },
    'Fisica': {
        '1T': 3.0,
        '2T': 7.0,
        '3T': 6.0,
        'Pr': 5.3,
    },
    'Quimica': {
        '1T': 3.0,
        '2T': 7.0,
        '3T': 5.0,
        'Pr': 5.0,
    },
    'Biologia': {
        '1T': 6.0,
        '2T': 7.0,
        '3T': 7.0,
        'Pr': 6.7,
    },
    'Filosofia': {
        '1T': 6.0,
        '2T': 2.0,
        '3T': 3.0,
        'Pr': 3.7,
    },
}

In [27]:
def promedio(numeros):
    return sum(numeros) / len(numeros)

promedio([notas['Pr'] for notas in final_dict.values()])

4.783333333333333

In [20]:
final_dict.values()

dict_values([{'1T': 5.0, '2T': 4.0, '3T': 5.0, 'Pr': 4.7}, {'1T': 3.0, '2T': 2.0, '3T': 5.0, 'Pr': 3.3}, {'1T': 3.0, '2T': 7.0, '3T': 6.0, 'Pr': 5.3}, {'1T': 3.0, '2T': 7.0, '3T': 5.0, 'Pr': 5.0}, {'1T': 6.0, '2T': 7.0, '3T': 7.0, 'Pr': 6.7}, {'1T': 6.0, '2T': 2.0, '3T': 3.0, 'Pr': 3.7}])

**Solución:**

In [9]:
titulos = ['1T', '2T', '3T', 'Pr']
solucion = {k: {z[0]: z[1] for z in zip(titulos, notas_3[k])} for k in notas_3}
print(solucion)

{'Matematica': {'1T': 5.0, '2T': 4.0, '3T': 5.0, 'Pr': 4.7}, 'Castellano': {'1T': 3.0, '2T': 2.0, '3T': 5.0, 'Pr': 3.3}, 'Fisica': {'1T': 3.0, '2T': 7.0, '3T': 6.0, 'Pr': 5.3}, 'Quimica': {'1T': 3.0, '2T': 7.0, '3T': 5.0, 'Pr': 5.0}, 'Biologia': {'1T': 6.0, '2T': 7.0, '3T': 7.0, 'Pr': 6.7}, 'Filosofia': {'1T': 6.0, '2T': 2.0, '3T': 3.0, 'Pr': 3.7}}


In [41]:
{k: {z[0]: z[1] for z in zip(titulos, notas_3[k])} for k in notas_3}

{'Matematica': {'1T': 5.0, '2T': 4.0, '3T': 5.0, 'Pr': 4.7},
 'Castellano': {'1T': 3.0, '2T': 2.0, '3T': 5.0, 'Pr': 3.3},
 'Fisica': {'1T': 3.0, '2T': 7.0, '3T': 6.0, 'Pr': 5.3},
 'Quimica': {'1T': 3.0, '2T': 7.0, '3T': 5.0, 'Pr': 5.0},
 'Biologia': {'1T': 6.0, '2T': 7.0, '3T': 7.0, 'Pr': 6.7},
 'Filosofia': {'1T': 6.0, '2T': 2.0, '3T': 3.0, 'Pr': 3.7}}

## La Librería `pandas`

Esta es una librería de Python que sirve para manejar data en forma tabular. Por ejemplo, veamos lo fácil que resulta importar el archivo *notas.csv*.

In [10]:
# Esta es la manera acostumbrada de importar esta librería. pandas no es parte de la librería
# estándar de Python, por eso, para utilizarla, debe estar instalada en el entorno en el que
# se está trabajando. Por ejemplo, pandas está instalada en este JupyterHub.
import pandas as pd 

# Para importar el archivo con notas.
df_notas = pd.read_csv(
    'notas.csv', # Ruta completa del archivo.
    sep=';',     # Caracter que actúa de separador de columnas.
    dtype={
        '1_trimestre': float, # Fuerza a que todas estas columnas se lean como float.
        '2_trimestre': float, # Si no se hace, algunas quedan como int (hacer la prueba).
        '3_trimestre': float,
        'promedio': float
    }
)

In [11]:
df_notas

Unnamed: 0,materia,1_trimestre,2_trimestre,3_trimestre,promedio
0,Matematica,5.0,4.0,5.0,4.7
1,Castellano,3.0,2.0,5.0,3.3
2,Fisica,3.0,7.0,6.0,5.3
3,Quimica,3.0,7.0,5.0,5.0
4,Biologia,6.0,7.0,7.0,6.7
5,Filosofia,6.0,2.0,3.0,3.7


Más adelante veremos muchas más funcionalidades de `pandas`. Para los que quieran avanzar desde ya, recomiendo partir leyendo un tutorial específico como el siguiente: https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

### Leer un Archivo Excel

Muchas veces, la data que se requiere procesar está almacenada en un archivo Excel. Para estos casos, `pandas` suele ser lo más conveniente.

In [12]:
df_random = pd.read_excel('random.xlsx')

In [13]:
df_random

Unnamed: 0,etiqueta,random_1,random_2,random_3
0,a,0.6752,0.871117,0.041425
1,b,0.379198,0.745324,0.057347
2,c,0.532243,0.512423,0.794918
3,d,0.533123,0.727888,0.527579
