# Archivos

## Motivación
Hasta el momento, **todos** los programas que hemos creado tienen **2 problemas**

1. Al cerrar el programa, se pierde toda la interacción que hayamos realizado
2. Siempre debemos generar resultados desde cero

Para enfrentar estos problemas podemos leer y escribir archivos desde python

## Sistema de Archivos

¿Dónde viven los datos en un computador?

### Memoria principal 

#### RAM (Random Access Memory)

![alt text](http://www.clipartkid.com/images/205/latest-ddr-ram-prices-in-india-256mb-512mb-1gb-2gb-ddr-ram-jPCZ8S-clipart.png "Memoria RAM")

- Funciona en base a corriente
- Es muy rápida
- Costosa (1GB a 16GB en PC convencional)
- Volátil

Aquí viven las variables de nuestro programa cuando lo ejecutamos. Si se cierra el programa o se apaga el PC todo se pierde.

### Memoria secundaria

#### HDD (Hard Disk Drive)

![alt text](https://cdn-reichelt.de/bilder/web/xxl_ws/E600/ST1000LM035_06.png "HDD")

- Funciona en base a cambios magnéticos en un disco físico
- Es lenta
- Barata (200GB a 1TB en PC convencional)
- No volátil

Aquí guardamos las cosas que queremos que perduren:
Documentos, imágenes, cógidos python, programas, etc


### Sistema de archivos
Es la forma en que el sistema operativo guarda y organiza su memoria permanente. Actualmente la mayoría de los sistemas operativos utiliza un sistema de archivos jerárquico (HFS)

1. Carpetas contienen archivos y subcarpetas
2. Cada archivo pertenece a una carpeta
3. Existe una carpeta inicial llamada **root**

![alt text](https://www.ibm.com/support/knowledgecenter/en/SSLTBW_2.1.0/com.ibm.zos.v2r1.bpxa400/bpxa4hsh.gif "HFS")

¿Cuál es la carpeta root?
- Windows: **C:\ **
- Unix (Mac y Linux): **/**

Python nos provee del módulo **os** que contiene varias funciones para trabajar con el sistema de archivos

#### os.getcwd()
Indica el directorio actual

In [1]:
import os

print(os.getcwd())

C:\Users\mfadi\Documents\SharedManjaro\intro\2018\1\Clases\14


#### os.chdir(path)

Cambia el directorio actual a **path**.

Existen 2 tipos de path:
1. Absoluto: Ruta desde carpeta root hasta el archivo o carpeta. Por ejemplo:
    - /home/mofadic
    - /home/mofadic/intro
    - /home/mofadic/intro/hola.txt
    
2. Relativo: Ruta desde la carpeta actual hasta el archivo o carpeta. **Notación importante**:
    - **./** Se refiere a la carpeta actual
    - **../** Se refieres a la carpeta padre
    
    Por ejemplo:
    - ./Documents (la carpeta Documents dentro de la carpeta actual)
    - ../notas.txt (el archivo notas.txt en la carpeta padre de la actual)

In [2]:
import os

#Carpeta actual
print(os.getcwd())

#Moverse a la carpeta padre
os.chdir('../')
print(os.getcwd())

# #Moverse a la carpeta Users en la raíz del disco C de forma absoluta
# #Esto solo va a funcionar en Windows
os.chdir('C:/Users')
print(os.getcwd())

#Moverse a la carpeta home en la raiz del filesystem en forma absoluta
#Esto solo va a funcionar en Linux y Mac
os.chdir('/home')
print(os.getcwd())


C:\Users\mfadi\Documents\SharedManjaro\intro\2018\1\Clases\14
C:\Users\mfadi\Documents\SharedManjaro\intro\2018\1\Clases
C:\Users


FileNotFoundError: [WinError 2] The system cannot find the file specified: '/home'

#### os.listdir(path)
Retorna una lista con los nombres de los elementos en **path**. Si no se entrega ningún parámetro, retorna la lista de los elementos de la carpeta actual.

#### os.makedir(c)
Crea la carpeta **c**

#### os.remove(path)
Borra el archivo **path**

#### os.rmdir(c)
Borra la carpeta **c** (que debe estar vacía)

#### os.path.exists(path)
Retorna True ssi **path** existe

#### os.path.isfile(path)
Retorna True ssi **path** es un archivo

#### os.path.isdir(path)
Retorna True ssi **path** es una carpeta

### Archivo

Documento binario con un nombre y una extensión: Por ejemplo
tarea1.py
- nombre: tarea1
- extension: .py


![archivo](https://camo.githubusercontent.com/0b5edb319101c259645c0dbbfe4d1e69094a883b/68747470733a2f2f662e636c6f75642e6769746875622e636f6d2f6173736574732f3833343633362f31353638322f61323464613561632d343762302d313165322d383133612d6536323131343334663364302e706e67 "Archivo binario")

Existen múltiples opciones para decodificar el archivo binario.
- Pasar cada byte (8 bits) a número
- Pasar cada byte a UTF-8
- Interpretar los bytes como pixeles de una imagen
- Etc

La **extensión** nos indica cómo decodificar cada archivo. 

Algunas extensiones comunes son:
- .txt: Documento de texto plano
- .doc: Documento Word
- .jpg: Imágenes
- .mp3: Música

Nosotros nos centraremos en el formato de **texto plano**.

**Obs:** .py es formato de texto plano

## Lectura de archivos

Python provee de distintas funciones y métodos para leer archivos:

#### open(path)
Retorna un objeto que representa al archivo en **path**

Para las siguientes instrucciones, se asume que se guardó lo retornado por open(path) en una variable de nombre file.

#### file.readline()
Retorna la siguiente línea del archivo.

#### file.close()
Cierra el archivo

Consideremos el siguiente archivo. 'frases_de_internet.txt'

```
El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Si no puedes explicarlo de forma simple , no lo entiendes lo suficientemente bien.
Todos deben ser respetados como individuos, pero no idolotrados.

Nunca hagas algo contra tu consciencia incluso si la situiacón lo demanda.
Locura : hacer l o mismo una y otra vez , esperando diferentes resultados.
Un hombre debe buscar lo que es , no lo que piensa que es.
Una persona que nunca ha cometido un error nunca ha intentado algo nuevo.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.
La lógica te lleva del punto A al B. La imaginación te llevará donde sea.
```

Leamos el archivo frases_de_internet.txt y mostremos sus primeras líneas (hay que reiniciar el kernel ya que nos movimos de carpeta anteriormente)

In [2]:
file = open('frases_de_internet.txt')

line = file.readline()
print(line)

line = file.readline()
print(line)

file.close()

El amor es un mejor profesor que el deber.

InformaciÃ³n no es conocimiento.



Si nos fijamos detenidamente, aparece una línea en blanco que no está en el archivo original. Esto es porque la línea que uno lee con readline() incluye el salto de línea, y la función print() agrega su propio salto de línea, por lo que hay hay 2 saltos de línea. Para solucionar esto, podemos utilizar el método rstrip() que elimina los *white spaces* de la derecha.

In [2]:
file = open('frases_de_internet.txt')

line = file.readline()
print(line.rstrip())

line = file.readline()
print(line.rstrip())

file.close()

El amor es un mejor profesor que el deber.
InformaciÃ³n no es conocimiento.


Dependiendo de la configuración del computador, es posible que diga InformaciÃ³n en vez de Información. Esto ocurre, porque la "ó" tiene distintos valores dependiendo de la codificación utilizada. Cuando creé el archivo frases_de_internet.txt utilicé la codificación utf-8. Por defecto, al usar open(path), python utilizará la codificación por defecto que encuentre en el sistema. Si estas condificaciones no son iguales, algunas letras se interpretaran de forma incorrecta. Podemos utilizar el parámetro opcional encoding de open para especificar con qué encoding queremos trabajar.

In [3]:
file = open('frases_de_internet.txt', encoding='utf-8')

line = file.readline()
print(line.rstrip())

line = file.readline()
print(line.rstrip())

file.close()

El amor es un mejor profesor que el deber.
Información no es conocimiento.


Podemos leer todo el archivo de varias maneras:

#### Leer hasta encontrar una línea vacía

In [4]:
file = open('frases_de_internet.txt', encoding='utf-8')

line = file.readline()
while line != '':
    print(line.rstrip())
    line =  file.readline()
    
file.close()

El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Si no puedes explicarlo de forma simple , no lo entiendes lo suficientemente bien.
Todos deben ser respetados como individuos, pero no idolotrados.

Nunca hagas algo contra tu consciencia incluso si la situiacón lo demanda.
Locura : hacer l o mismo una y otra vez , esperando diferentes resultados.
Un hombre debe buscar lo que es , no lo que piensa que es.
Una persona que nunca ha cometido un error nunca ha intentado algo nuevo.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.
La lógica te lleva del punto A al B. La imaginación te llevará donde sea.


#### Iterar sobre las líneas del archivo

El objeto retornado por open() es iterable, por lo que podemos aplicar for sobre él. En cada iteración del for tendremos una línea

In [7]:
file = open('frases_de_internet.txt', encoding='utf-8')

for line in file:
    print(line.rstrip())
    
file.close()

El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Si no puedes explicarlo de forma simple , no lo entiendes lo suficientemente bien.
Todos deben ser respetados como individuos, pero no idolotrados.

Nunca hagas algo contra tu consciencia incluso si la situiacón lo demanda.
Locura : hacer l o mismo una y otra vez , esperando diferentes resultados.
Un hombre debe buscar lo que es , no lo que piensa que es.
Una persona que nunca ha cometido un error nunca ha intentado algo nuevo.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.
La lógica te lleva del punto A al B. La imaginación te llevará donde sea.


#### Obtener todas las líneas en una lista

La función readlines de los archivos retorna una lista con todas las líneas

In [8]:
file = open('frases_de_internet.txt', encoding='utf-8')

lines = file.readlines()
for line in lines:
    print(line.rstrip())
    
file.close()

El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Si no puedes explicarlo de forma simple , no lo entiendes lo suficientemente bien.
Todos deben ser respetados como individuos, pero no idolotrados.

Nunca hagas algo contra tu consciencia incluso si la situiacón lo demanda.
Locura : hacer l o mismo una y otra vez , esperando diferentes resultados.
Un hombre debe buscar lo que es , no lo que piensa que es.
Una persona que nunca ha cometido un error nunca ha intentado algo nuevo.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.
La lógica te lleva del punto A al B. La imaginación te llevará donde sea.


### Caso práctico
Muchas veces necesitamos manejar información tabulada. Por ejemplo las notas de todos los alumnos. Los documentos .csv (comma-separated values) son archivos de texto plano que tienen una estructura definida que permite interpretarlos como tablas. En ellos, cada fila del archivo representa una fila de la tabla, y los elementos de las distintas columnas están separados entre sí por un *separador* (normalmente se utiliza la coma, por eso el nombre csv, pero puede ser cualquier caracter que uno elija).

Por ejemplo, un archivo con notas podría verse de la siguiente manera:
```
16630513,1.2,1.4,3.2,4.9,6.7,2.9,7.0
16633877,2.2,5.4,3.7,2.6,5.2,5.5,3.2
16631324,6.0,5.3,3.4,5.3,1.7,2.2,5.9
16638447,3.1,3.0,6.8,3.2,6.4,1.7,2.7
```
Donde las columnas en orden son, número de alumno, nota I1, I2, EX, T1, T2, T3, NP. Aprovechando la estructura del archivo, podemos hacer un programa que calcule e imprima las notas de cada alumno de manera sencilla:

In [3]:
file = open('notas.csv')

for line in file:
    columnas = line.split(',')
    n_alumno = columnas[0]
    i1 = float(columnas[1])
    i2 = float(columnas[2])
    ex = float(columnas[3])
    t1 = float(columnas[4])
    t2 = float(columnas[5])
    t3 = float(columnas[6])
    np = float(columnas[7])
    
    nf = 0.15*(i1+i2) + 0.3*ex + 0.1*(t1+t2+t3) + 0.1*np
    
    pe = (0.15*(i1+i2) + 0.3*ex)/0.6
    pt = (t1+t2+t3)/3
    
    if pe < 4 or pt < 4:
        nf = min(nf, 4)
    
    print('La nota final de {} es {:.1f}'.format(n_alumno,nf))

La nota final de 16630513 es 3.5
La nota final de 16633877 es 3.9
La nota final de 16631324 es 4.0
La nota final de 16638447 es 4.0
La nota final de 16635392 es 4.5
La nota final de 16631843 es 5.4
La nota final de 16639868 es 4.4
La nota final de 16634672 es 3.7
La nota final de 16636112 es 4.0
La nota final de 16630574 es 2.7
La nota final de 16631559 es 4.0
La nota final de 16634050 es 3.3
La nota final de 16635007 es 4.0
La nota final de 16634211 es 3.6
La nota final de 16639588 es 3.6
La nota final de 16631160 es 4.0
La nota final de 16634534 es 4.0
La nota final de 16638546 es 4.8
La nota final de 16637705 es 3.3
La nota final de 16631972 es 4.7
La nota final de 16638703 es 4.0
La nota final de 16637506 es 4.0
La nota final de 16637000 es 5.1
La nota final de 16633240 es 4.0
La nota final de 16638830 es 3.7
La nota final de 16639917 es 4.6
La nota final de 16632901 es 3.1
La nota final de 16634624 es 2.6
La nota final de 16633765 es 5.0
La nota final de 16633981 es 5.7
La nota fi

## Escritura de Archivos

Para escribir un archivo

#### open(path, modo)
Retorna un objeto que representa al archivo en **path**. El parámetro **modo** indica lo que podemos hacer con el archivo.

- modo='r': lectura (por defecto)
- modo='w': escritura
- modo='a': *append*

La diferencia entre los modos escritura y *append*, es que en el modo escritura, se crea un nuevo archivo en **path**. Si el archivo ya existe, borra su contenido. En el modo *append*, si el archivo ya existe, el contenido nuevo se agrega a continuación del ya existente.

Para las siguientes instrucciones, se asume que se guardó lo retornado por open(path, modo) en una variable de nombre file.

#### file.write(s)
Escribe el string **s** en el archivo

#### file.close(s)
Cierra el archivo

#### Ejemplo
Para escribir los números del 1 al 5 en un archivo.

In [8]:
file = open('numeros.txt', 'w')

for i in range(1, 6):
    file.write(str(i) + '\n')
    
file.close()

**Obs**: A diferencia del print(), write() no agrega un salto de línea al final automáticamente.

Podemos verificar el contenido del archivo recién creado:

In [5]:
file = open('numeros.txt')

for line in file:
    print(line.rstrip())
    
file.close()

1
2
3
4
5


Si escribimos en el mismo archivo usando el modo 'w', el contenido debería sobreescribirse.

In [9]:
file = open('numeros.txt', 'w')

for i in range(1, 6):
    file.write(str(i) + '\n')
    
file.close()


file = open('numeros.txt')

for line in file:
    print(line.rstrip())
    
file.close()

1
2
3
4
5


Si usamos el modo 'a', el contenido nuevo se agregará al final

In [10]:
file = open('numeros.txt', 'a')

for i in range(1, 6):
    file.write(str(i) + '\n')
    
file.close()


file = open('numeros.txt')

for line in file:
    print(line.rstrip())
    
file.close()

1
2
3
4
5
1
2
3
4
5


## Actividades

### Líneas cortas

Crear un programa que lea el archivo frases_de_internet.txt y muestre solo las líneas con menos de 70 caracteres

In [12]:
#Código líneas

file = open('frases_de_internet.txt', encoding='utf-8')

for line in file:
    if len(line) < 70:
        print(line.rstrip())

El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Todos deben ser respetados como individuos, pero no idolotrados.

Un hombre debe buscar lo que es , no lo que piensa que es.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.


### Líneas de largo menor a n

Crear una función que reciba un path y un número n. La función debe leer el archivo en path y mostrar solo las líneas de largo menor a n

In [13]:
#Código función

#Código líneas

def lineas_n(path, n):
    file = open(path, encoding='utf-8')

    for line in file:
        if len(line) < n:
            print(line.rstrip())
            
            
lineas_n('frases_de_internet.txt', 70)

El amor es un mejor profesor que el deber.
Información no es conocimiento.
Nunca pierdas la sagrada curiosidad.
Todos deben ser respetados como individuos, pero no idolotrados.

Un hombre debe buscar lo que es , no lo que piensa que es.
Aprende del ayer , vive del hoy , espera del mañana.

Todo debe ser tan simple como es, pero no más sencillo.


### Calculador nota final

Crear un programa que lea el archivo notas.csv, que tiene la misma estructura del ejemplo y escriba un archivo notas_finales.csv, donde en cada fila esté almacenado el número de alumno y el promedio final.

**Extra**: Luego de escribir el archivo, imprima en pantalla la nota máxima, mínima y el promedio del curso

In [5]:
#Código calculador

with open('notas_finales.csv', 'w') as notas_finales:
    with open('notas.csv') as file:
        notas = []
        for linea in file:

            columnas = linea.split(',')
            i1 = float(columnas[1])
            i2 = float(columnas[2])
            ex = float(columnas[3])
            t1 = float(columnas[4])
            t2 = float(columnas[5])
            t3 = float(columnas[6])
            np = float(columnas[7])


            nf = 0.15*(i1+i2) + 0.3*ex + 0.1*(t1+t2+t3) + 0.1*np

            pe = (0.15*(i1+i2) + 0.3*ex)/0.6
            pt = (t1+t2+t3)/3

            if pe < 4 or pt < 4:
                nf = min(nf, 4)
                
            notas.append(nf)

            notas_finales.write('{},{}\n'.format(columnas[0], nf))

            
print('Nota máxima', max(notas))
print('Nota mínima', min(notas))
print('Promedio {:.2f}'.format(sum(notas)/len(notas)))








Nota máxima 5.875
Nota mínima 2.09
Promedio 3.95


## Mezclado de canciones
Escribir un programa que muestre el nombre de todos los archivos en la carpeta, permita elegir 2 y cree un nuevo archivo con el megamix de ambos.

- Los archivos tienen la letra de la canción
- El archivo generado tiene que tener un nombre que indique de qué canciones es megamix
- Puedes armar el megamix como se te ocurra (intercalar las líneas, utilizar números aleatorios, etc...)
- Puedes agregar tus propias canciones

In [1]:
#Código mezclador

import os
import random

canciones = os.listdir('mezclado de canciones')

for i in range(len(canciones)):
    print(i + 1, '-', canciones[i])

    
indice_1 = int(input('canción 1: ')) - 1
indice_2 = int(input('canción 2: ')) - 1

cancion_1 = open('mezclado de canciones/' + canciones[indice_1])
cancion_2 = open('mezclado de canciones/' + canciones[indice_2])

mezcla = open('mezclado de canciones/' + canciones[indice_1][:-4] + '_'  + canciones[indice_2], 'w')

contenido_1 = cancion_1.readlines()
contenido_2 = cancion_2.readlines()



for i in range(min(len(contenido_1), len(contenido_2))):
    
    if random.random() < 0.5:
        mezcla.write(contenido_1[i])
    else:
        mezcla.write(contenido_2[i])
        
cancion_1.close()
cancion_2.close()

mezcla.close()

1 - casamiento_de_negros.txt
2 - despacito.txt
3 - mezclado.txt
4 - que_le_den_candela.txt
5 - salvador.txt
6 - soy_rebelde.txt
7 - ya_nada_queda.txt
canción 1: 4
canción 2: 2
