# Lectura de archivos

Queremos leer los datos que se encuentran en el archivo `notas.txt`, que contiene 1000 reportes de notas de estudiantes de alguna universidad (los datos están generados artificialmente). Usaremos la función `open()` de Python para poder abrir el archivo:

In [None]:
grades_file = open('notas.txt', 'r')

Dentro de la función `open()` tendremos dos parámetros principales. Primero, debemos indicar la dirección del archivo. En este caso, como el archivo se encuentra en la misma carpeta, solo especificaremos el nombre del archivo. El segundo parámetro, se refiere al **modo** del archivo. En este caso, para indicar que el modo es de lectura, pondremos `'r'` (read) como parámetro.

In [None]:
type(grades_file)

In [None]:
grades_file = open('notas.txt', 'r')


# Podemos iterar sobre las lineas de 'grades_file'
for line in grades_file:
    print(line)

# Cerramos el archivo
grades_file.close()

In [None]:
with open('notas.txt', 'r') as grades_file:
    for line in grades_file:
        print(line)

## Stream (controlador) en el manejo de archivos

Cuando abrimos un archivo en modo, existe un concepto llamado **stream** o **controlador**, que podemos considerar que es un cursor o puntero dentro del archivo. Inicialmente el **stream** se encuentra al inicio del archivo. A medida que vayamos leyendo el archivo, el **stream** también va cambiando de posición.

Veamos un ejemplo del comportamiento del **stream**:

In [None]:
with open('notas.txt', 'r') as grades_file:

    grades_file = open('notas.txt', 'r')

    line = grades_file.readline() # Este método lee una línea del archivo

    print(line)

Podemos ver que el resultado obtenido es la primera línea del archivo `notas.txt`. Ahora el **stream** estará ubicado en la segunda línea, por lo que si ejecutamos nuevamente `readline()`, obtendremos como resultado la segunda línea del archivo:

In [None]:
with open('notas.txt', 'r') as grades_file:

    grades_file = open('notas.txt', 'r')

    line = grades_file.readline() # Este método lee una línea del archivo

    # Primera linea del archivo
    print(line)

    line = grades_file.readline() # Este método lee una línea del archivo

    # Segunda línea del archivo
    line

Si queremos que el **stream** vuelva al inicio del archivo, podemos nuevamente abrir el archivo con la función `open()` o usar el método `seek()`:

In [None]:
# Posiciona al stream en el inicio del archivo
grades_file.seek(0)

line = grades_file.readline() 
line

## Método read()

Los archivos cuentan con otro método llamado `read()`:

In [None]:
grades_file = open('notas.txt', 'r')

# Lee todo el contenido de un archivo y lo almacena en una cadena

text = grades_file.read()
text

Dentro de la cadena `text`, encontramos un caracter `\n` que nos indica que ahí existe un salto de línea. Es decir, ese caracter es un separador entre dos líneas. Podemos usar el método `splitlines()` para separar `text` en líneas:

In [None]:
# Separa 'text' en todas sus líneas
grades = text.splitlines()
grades[:10]

In [None]:
# Se encuentran 1000 reportes de los alumnos

len(grades)

Vemos que cada línea consiste de una cadena que contiene 4 números (los datos de los alumnos) separados por un espacio (`' '`). Cada línea podemos separarlo en los números que contiene, usando el método `split()`:

In [None]:
# El método split separa una cadena dado un separador que nosotros indiquemos
# El resultado es una lista

message = 'Este texto esta separado por espacios'
splitted_message = message.split(' ') # => Indicamos que el separador es el espacio (' ')
splitted_message

In [None]:
message = 'Este,texto,esta,separado,por,comas'
splitted_message = message.split(',') # => Indicamos que el separador es la coma (',')
splitted_message

In [None]:
# Ahora usaremos el metodo split para separar cada línea de la lista 'grades'

for i, line in enumerate(grades):
    line = line.split(' ') # separamos por espacio
    grades[i] = tuple(line) # Reemplazamos la linea por ahora una tupla de los números obtenidos

grades[:10]

grades_file.close()

El código resumido sería:

In [None]:
grades_file = open('notas.txt', 'r')

grades = grades_file.read().splitlines()

for i, line in enumerate(grades):
    line = line.split(' ')
    grades[i] = tuple(line)

grades[:10]

grades_file.close()

## Método readlines()

El método `readlines()`, como su nombre sugieres, leerá todas las líneas del texto y los guardará en una lista, pero con un detalle:

In [None]:
grades_file = open('notas.txt', 'r')

lines = grades_file.readlines()
lines[:10]

Si bien es cierto que ya separa al archivo por líneas, al final de cada una de ella se encontrará el caractar `'\n'`, que por lo general no nos interesa en nuestros datos y tendremos que eliminarlo de cada línea.

In [None]:
grades = []

for i, line in enumerate(lines):

    # Verificamos si el último caracter de la linea es '\n'
    # Si es el caso, eliminamos el ultimo caracter
    # Hacemos esta comprobación, pues la último línea puede no contener el caracter '\n'
    if line[-1] == '\n':
        line = line[:-1]

    grades.append(line)

grades[:10]

Ahora también podemos usar `split()` en cada línea para dividirla y obtener el mismo resultado que se mostró anteriormente.