### Manejo de Archivos

Descargar y descomprimir los archivos

In [15]:
!wget "https://github.com/arleserp/MinTIC2022/raw/master/files.zip" -q
!unzip -u -q files.zip

`os` es un modulo de python que nos permite manejar de forma mas facil las rutas sin importar el sistema operativo

In [1]:
import os
os.path.join('thisfolder', 'workdata.txt')

'thisfolder/workdata.txt'

## Leer  un archivo

```open()``` toma un nombre de archivo y modo como argumentos. ```r``` abre el archivo en modo de lectura (read).  `with` asegura un uso propio y liberación de recursos. Aquí vamos a trabajar con archivos de texto ubicados en el computador. En el siguiente ejemplo se abrirán archivos ubicados en la carpeta files. Así luce la carpeta files en el computador:

In [1]:
with open('files/data.txt', 'r') as f:
    data = f.read()
    print(data)

Hola amigos!!!


## Escribir en un archivo

Para escribir información en un archivo se para el argumento w (write):

In [9]:
with open('files/wdata.txt', 'w') as f:
    data = 'estamos escribiendo en el archivo 123\n'
    f.write(data)
    f.write(data)
    f.write(data)

## Agregar contenido al final de un archivo (append)

In [10]:
with open('files/wdata.txt', 'a', encoding='utf-8') as f:
    data = 'más cosas\n'
    f.write(data)
    f.write(data)
    f.write(data)

## Otros modos de apertura de archivos 

Otros modos de abrir archivos en python son:

- 'r+' – (read/write): Este modo es usado cuando se desean hacer cambios al archivo y a la vez leer información. El puntero del archivo se ubica al principio del archivo.
- 'a+' – (append and Read): Se abre el archivo para escribir y leer del archivo. El puntero del archivo se ubica al final del archivo.
- x (exclusive creation): usado exclusivamente para crear un archivo. Si existe un archivo con el mismo nombre la función fallará.

Para leer archivos binarios se agrega la letra b al final del modificador. Por ejemplo para escribir ```wb``` y los otros serían ```rb```, ```ab```, ```r+b``` y ```a+b```.

## Lectura de un archivo 

Para leer el contenido de un archivo se puede usar ```read()```. Sin parámetros leerá el archivo entero y almacenará el contenido la salida como un string si es un archivo de texto o como objetos en bytes si se trata de un archivo binario. 

Si se trata de leer un archivo más grande que la memoria disponible no se podrá leer todo el archivo de una vez. En este caso se puede leer el archivo por bytes.

Si se tiene el siguiente archivo llamado ```datos1.txt``` con el siguiente contenido:

```
    Esta es la línea 1: abcabcabc
    Esta es la línea 2: abcabcabc
    Esta es la línea 3: abcabcabc
```

In [11]:
with open('files/data1.txt', 'r') as f:
    print(f.read())

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc


## Leer archivos con tíldes

Para no tener problemas de codificación se puede agregar el siguiente parámetro:

In [17]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.read(6)
    line2 = f.read(10)

print(line)
print(line2)

Esta e
s la línea


## Leer archivo línea por línea:

Es posible leer un archivo línea por línea utilizando ```readline()```

In [18]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.readline()
    line2 = f.readline()
print(line, end='')
print(line2, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc


## Cargar las líneas de un archivo como una lista

Es posible cargar todas las lineas del archivo como una lista si se utiliza:

In [22]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
     print("Nombre del archivo: ", f.name)
     lista = f.readlines()
print(lista)

Nombre del archivo:  files/data1.txt
['Esta es la línea 1: abcabcabc\n', 'Esta es la línea 2: abcabcabc\n', 'Esta es la línea 3: abcabcabc']


## La forma más eficiente de procesar un archivo

La forma más sencilla y eficiente de abrir y procesar un archivo de texto es: 

In [23]:
with open("files/data1.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc

La anterior es la mejor forma de procesar archivos. Pues nunca carga el contenido del archivo completo si no por partes. 

## Escritura de archivos

A menudo se prefiere utilizar ```a+``` como el modo de apertura para escribir un archivo porque permite añadir datos al final del mismo. Utilizar ```w+``` borrará cualquier dato que existe en el archivo y pues producirá un archivo en límpio para trabajar.

El método por defecto para añadir datos en un archivo es ```write```:


In [24]:
with open("files/data2.txt", "a+", encoding='utf-8') as work_data:
    work_data.write("\nEsta es la línea 4: abcabcabc")

In [25]:
with open("files/data2.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc

Esta es la línea 4: abcabcabc

Esta es la línea 4: abcabcabc

## Escribir datos que no son de texto en un archivo

Si se desean escribir datos que no son cadenas de texto en un archivo es necesario convertir cada dato a string.

In [26]:
values = [1234, 5678, 9012]

with open("files/data3.txt", "w+") as work_data:
    for value in values:
        str_value = str(value)
        work_data.write(str_value)
        work_data.write("\n")

In [27]:
with open("files/data3.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

1234
5678
9012


## Seek: moviendo el puntero de lectura y escritura
 
A veces es necesario moverse al principio del archivo o a alguna posición específica en un archivo dado. La forma más fácil de hacerlo es es utilizar ```fileobject.seek(offset, from_what)```.

```offset``` es el número de caracteres desde la posición ```from_what```.

Hay algunos valores por defecto para la posición ```from_what```:

* 0 – Al principio del archivo
* 1 – posición actual
* 2 – al final del archivo

Con archivos de texto 0 ó seek(0, 2), lo llevarán al final del archivo.

In [29]:
with open("files/data4.txt", "r", encoding='utf-8') as work_data:
    work_data.seek(11,0)
    for line in work_data:
        print(line, end='')

letras
1234
5678


## Determinar tamaño de un archivo en bytes 

Para obtener la longitud de un archivo o la posición en donde se encuentra en un archivo se puede usar ```fileobject.tell()```. Para determinar el tamaño de un archivo en bytes se puede utilizar:

In [30]:
with open("files/data4.txt", "a+") as work_data:
    print(work_data.tell())

31


## Editando un archivo de python

La forma más facil de editar un archivo dado es guardar el archivo entero en una lista y utilizar list.insert(i, x) para insertar los datos nuevos. Una vez creada la lista se puede unir (join) de nuevo y escribir esto en el archivo.

In [31]:
# Open the file as read-only
with open("files/data5.txt", "r", encoding='utf-8') as f:
    list_content = f.readlines()

#print(list_content)
    
list_content.insert(1, "Esta es la línea 1.5 jajajaj\n")

# Re-open in write-only format to overwrite old file
with open("files/data5.txt", "w", encoding='utf-8') as f:
    contenido = "".join(list_content)
    f.write(contenido)

In [32]:
with open("files/data5.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line)

Esta es la línea 1: abcabcabc

Esta es la línea 1.5 jajajaj

Esta es la línea 2: abcabcabc

Esta es la línea 3: abcabcabc



## Listando archivos y directorios:

En las versiones modernas de python una alternativa a ```os.listdir()``` es utilizar ```os.scandir()``` (desde python 3.5) y ```pathlib.Path()```. 


In [33]:
import os
entries = os.scandir('files/')

for entry in entries:
    print(entry.name + ', es directorio: ' + str(entry.is_dir()) + ', size: ' + str(entry.stat().st_size)
         + ' bytes.')

discurso.jpg, es directorio: False, size: 59808 bytes.
names.txt, es directorio: False, size: 220 bytes.
SalesJan2009.csv, es directorio: False, size: 130480 bytes.
wdata.txt, es directorio: False, size: 147 bytes.
programming_powers.pkl, es directorio: False, size: 154 bytes.
testdir, es directorio: True, size: 64 bytes.
python_es.txt, es directorio: False, size: 33754 bytes.
data1.txt, es directorio: False, size: 94 bytes.
wdatas.txt, es directorio: False, size: 117 bytes.
data3.txt, es directorio: False, size: 15 bytes.
data2.txt, es directorio: False, size: 161 bytes.
data.txt, es directorio: False, size: 14 bytes.
data5.txt, es directorio: False, size: 123 bytes.
copy.jpg, es directorio: False, size: 59808 bytes.
data4.txt, es directorio: False, size: 31 bytes.
wdataegghgg.txt, es directorio: False, size: 36 bytes.


## Guardar Estructuras de Datos en archivos: Pickling

A veces se desea almacenar información compleja tales como la información que contiene un diccionario ó una lista. Aquí es donde podemos utilizar el módulo ```pickle``` de python para serializar objetos.

In [34]:
import pickle

name = ["mohit","bhaskar", "manish"]
skill = ["Python", "Python", "Java"]
dict1 = dict([(k,v) for k,v in zip(name, skill)])

with open("files/programming_powers.pkl", "wb") as pickle_file:
    pickle.dump(name, pickle_file)
    pickle.dump(skill,pickle_file)
    pickle.dump(dict1,pickle_file)

## Cargar una estructura de datos de un archivo: Unpickling

Para obtener los datos de vuelta es posible hacer lo siguiente:

In [35]:
import pickle

with open("files/programming_powers.pkl", "rb") as pickle_file:
    list1 = pickle.load(pickle_file)
    list2 = pickle.load(pickle_file)
    dict1 = pickle.load(pickle_file)
print(list1)
print(list2)
print(dict1)

['mohit', 'bhaskar', 'manish']
['Python', 'Python', 'Java']
{'mohit': 'Python', 'bhaskar': 'Python', 'manish': 'Java'}


Pickle obtiene los datos de forma secuencial. 

## Copiar una imagen

Una imagen de tipo jpg es un archivo de tipo binario. Con cierto procesamiento es posible crear una copia del archivo:

In [37]:
with open("files/discurso.jpg", "rb") as imagen:
    data = imagen.read()

#print(data)
    
with open("files/copy.jpg", "wb") as f:
    f.write(data)

## Ejercicio 1

Dado el archivo de texto ```files/SalesJan2009.csv```, procese el archivo para obtener las compras realizadas en un país dado:


In [2]:
def read_csv(path):
    head = []
    rows = []
    with open(path, 'r', encoding="utf-8") as f:
        h = False
        for line in f:
            if not h:
                h = True
                head = line.split(',')
            else:
                tmp = line.split(',')
                item = {}
                for idx, val in enumerate(tmp):
                    item[head[idx]] = val
                rows.append(item)
    return rows
        

In [9]:
def find_items(pais, items):
    total = 0
    find = [] 
    for i in items:
        if pais == i['Country']:
            find.append(i)
            total += float(i['Price'])
    return find, total

In [10]:
find, total = find_items('France', read_csv('files/SalesJan2009.csv'))
total

53100.0

##  Ejercicio 2

Dado el archivo de texto files/SalesJan2009.csv, procese el archivo para obtener las compras realizadas con un medio de pago dado:

<table>
    <tr>
        <td>Input</td><td>Output</td>
    </tr>
    <tr>
        <td>Visa</td><td>521</td>
    </tr>
 </table>

In [12]:
def find_by_medio(medio, items):
    total = 0
    find = [] 
    for i in items:
        if medio == i['Payment_Type']:
            find.append(i)
            total += float(i['Price'])
    return find, total

In [14]:
find, total = find_by_medio('Visa', read_csv('files/SalesJan2009.csv'))
total

836350.0

## Referencias

- Das, B. N. (2017). Learn Python in 7 Days. Packt Publishing Ltd.
- https://support.spatialkey.com/spatialkey-sample-csv-data/
- https://www.geeksforgeeks.org/with-statement-in-python/
- https://stackoverflow.com/questions/40918503/how-to-read-a-utf-8-encoded-text-file-using-python/40918636
- https://dbader.org/blog/python-file-io
- https://docs.hektorprofe.net/python/errores-y-excepciones/ejercicios/