# Manejo de archivos en python

Hasta ahora hemos leído por teclado las entradas de los programas. Ahora se leerán y se escribirá de archivos. En python no se requiere importar ningún módulo especial para un manejo básico de archivos.

## usando ```with```

Hace del manejo de archivos un proceso más sencillo. Permite tener un código más legible. With asegura un uso propio y liberación de recursos.


```open()``` toma un nombre de archivo y modo como argumentos. ```r``` abre el archivo en modo de lectura (read). 

In [1]:
with open('files/data.txt', 'r') as f:
    data = f.read()
    print(data)

Hola amigos!!!


 Para escribir información en un archivo se para el argumento ```w``` (write):

In [6]:
with open('files/wdata.txt', 'w') as f:
    data = 'estamos escribiendo en el archivo '
   
    f.write(data)
    f.write(data)

Es posible trabajar con direccionamiento absoluto o relativo en python. En los ejemplos anteriores se realizó direccionamiento relativo a partir de la carpeta donde se descargó este notebook. En esta carpeta hay una carpeta llamada files y allí se encuentra el archivo 'data.txt'.

Para dar soporte a los diferentes sistemas operativos como windows y trabajar con direccionamiento absoluto se tienen las siguientes opciones:


- ```"C:\\ThisFolder\\workData.txt"```
- ```"C:/ThisFolder/workData.txt"```

Otros modos de abrir archivos en python son:

- 'a' – (append): Agrega información al final del archivo automáticamente.
- 'r+' – (read/write): Este modo es usado cuando se desean hacer cambios al archivo y a la vez leer información. El puntero del archivo se ubica al principio del archivo.
- 'a+' – (append and Read): Se abre el archivo para escribir y leer del archivo. El puntero del archivo se ubica al final del archivo.
- x (exclusive creation): usado exclusivamente para crear un archivo. Si existe un archivo con el mismo nombre la función fallará.

Para leer archivos binarios se agrega la letra b al final del modificador. Por ejemplo para leer ```wb``` y los otros serían ```rb```, ```ab```, ```r+b``` y ```a+b```.

In [10]:
with open('files/wdata.txt', 'a', encoding='utf-8') as f:
    data = 'más cosas\n'
    f.write(data)
    f.write(data)

## Archivos binarios y de texto en python

La mayoría de archivos que se utilizan en un computador son binarios. Entre ellos:

- archivos de documentos .doc, .pdf, xls
- imágenes en formatos .jpg, .png, .bmp, .gif
- archivos de bases de datos .mdb, .sqlite

Para poder leer estos archivos, se requiere un software específico.

Un archivo de texto se puede abrir con cualquier editor. Estos archivos están organizados por líneas. Los archivos de tecto tienen un caracter que identifica el final de cada línea. En python están notados por ```\n```.  

## Lectura de datos

Para leer el contenido de un archivo se puede usar ```read()```. Sin parámetros leerá el archivo entero y almacenará el contenido la salida como un string si es un archivo de texto o como objetos en bytes si se trata de un archivo binario. 

Si se trata de leer un archivo más grande que la memoria disponible. No se podrá leer todo el archivo de una vez. En este caso se puede leer el archivo por bytes.

Si se tiene el siguiente archivo llamado ```datos1.txt``` con el siguiente contenido:

```
    Esta es la línea 1: abcabcabc
    Esta es la línea 2: abcabcabc
    Esta es la línea 3: abcabcabc
```

In [12]:
with open('files/data1.txt', 'r') as f:
    print(f.read())

Esta es la lÃ­nea 1: abcabcabc
Esta es la lÃ­nea 2: abcabcabc
Esta es la lÃ­nea 3: abcabcabc


Para no tener problemas de codificación se puede agregar el siguiente parámetro:

In [14]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    print(f.read())

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc


Ahora si se desean leer solamente los primeros 6 bytes:

In [16]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.read(6)
    line2 = f.read(6)

print(line)
print(line2)

Esta e
s la l


Es posible leer un archivo línea por línea utilizando ```readline()```

In [14]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.readline()
    line2 = f.readline()
print(line, end='') #Quitar el espacio que hay entre lineas
print(line2)

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc



In [18]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
     print("Nombre del archivo: ", f.name)
     line = f.readline()
     print(line)

Nombre del archivo:  files/data1.txt
Esta es la línea 1: abcabcabc



Es posible cargar todas las lineas del archivo como una lista si se utiliza:

In [23]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
     print("Nombre del archivo: ", f.name)
     lista = f.readlines()
print(lista)

Nombre del archivo:  files/data1.txt
['Esta es la línea 1: abcabcabc\n', 'Esta es la línea 2: abcabcabc\n', 'Esta es la línea 3: abcabcabc']


La forma más sencilla y eficiente de abrir y procesar un archivo de texto es: 

In [19]:
with open("files/data1.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc

La anterior es la mejor forma de procesar archivos. Pues nunca carga el contenido del archivo por partes. 

## Ejercicio 1

Dado el archivo de texto ```files/SalesJan2009.csv```, procese el archivo para obtener las compras realizadas en un país dado:


In [28]:
pais = input()
count = 0
with open("files/SalesJan2009.csv", "r") as doc:
    for line in doc:
        #print(line, end='')
        if(pais in line)==True:
            count = count+1
    #data = doc.read().split(' ')
   #print(type(data))
    
    #inpu = list(map(int, input().split(' ')))
    
    #data.count(inpu)
print(count)

United Kingdom
100


<table>
    <tr>
        <td>Input</td><td>Output</td>
    </tr>
    <tr>
        <td>United Kingdom</td><td>100</td>
    </tr>
 </table>

##  Ejercicio 2

Dado el archivo de texto files/SalesJan2009.csv, procese el archivo para obtener las compras realizadas con un medio de pago dado:

<table>
    <tr>
        <td>Input</td><td>Output</td>
    </tr>
    <tr>
        <td>Visa</td><td>521</td>
    </tr>
 </table>

In [29]:
metodo = input()
count = 0

with open("files/SalesJan2009.csv", "r") as doc:
    for line in doc:
        #print(line, end='')
        if(metodo in line)==True:
            count = count+1
print(count)

Visa
521


## Escritura de archivos

A menudo se prefiere utilizar ```a+``` como el modo de apertura para escribir un archivo porque permite añadir datos al final del mismo. Utilizar ```w+``` borrará cualquier dato que existe en el archivo y pues producirá un archivo en límpio para trabajar.

El método por defecto para añadir datos en un archivo es ```write```:


In [46]:
with open("files/data2.txt", "a+", encoding='utf-8') as work_data:
    work_data.write("\nEsta es la línea 4: abcabcabc")

In [47]:
with open("files/data2.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc
Esta es la línea 4: abcabcabc
Esta es la línea 4: abcabcabc

Si se desean escribir datos que no son cadenas de texto en un archivo es necesario convertir cada dato a string.

In [49]:
values = [1234, 5678, 9012]

with open("files/data3.txt", "a+") as work_data:
    for value in values:
        str_value = str(value)
        work_data.write(str_value)
        work_data.write("\n")

In [86]:
with open("files/data3.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

1234
5678
9012


## Seek: moviendo el puntero de lectura y escritura
 
A veces es necesario moverse al principio del archivo o a alguna posición específica en un archivo dado. La forma más fácil de hacerlo es es utilizar ```fileobject.seek(offset, from_what)```.

```offset``` es el número de caracteres desde la posición ```from_what```.

Hay algunos valores por defecto para la posición ```from_what```:

* 0 – Al principio del archivo
* 1 – posición actual
* 2 – al final del archivo

Con archivos de texto 0 ó seek(0, 2), lo llevarán al final del archivo.

In [57]:
with open("files/data4.txt", "r", encoding='utf-8') as work_data:
    work_data.seek(11,0)
    for line in work_data:
        print(line)

letras

1234

5678



Para obtener la longitud de un archivo o la posición en donde se encuentra en un archivo se puede usar ```fileobject.tell()```. Para determinar el tamaño de un archivo en bytes se puede utilizar:

In [58]:
with open("files/data4.txt", "a+") as work_data:
    print(work_data.tell())

31


## Editando un archivo de python

La forma más facil de editar un archivo dado es guardar el archivo entero en una lista y utilizar list.insert(i, x) para insertar los datos nuevos. Una vez creada la lista se puede unir (join) de nuevo y escribir esto en el archivo.

In [63]:
# Open the file as read-only
with open("files/data5.txt", "r", encoding='utf-8') as f:
    list_content = f.readlines()

list_content.insert(1, "Esta es la línea 1.5 jajajaj\n")

# Re-open in write-only format to overwrite old file
with open("files/data5.txt", "w", encoding='utf-8') as f:
    contenido = "".join(list_content)
    f.write(contenido)

In [64]:
with open("files/data5.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line)

Esta es la línea 1: abcabcabc

Esta es la línea 1.5 jajajaj

Esta es la línea 2: abcabcabc

Esta es la línea 3: abcabcabc



## Listando archivos y directorios:

En las versiones modernas de python una alternativa a ```os.listdir()``` es utilizar ```os.scandir()``` (desde python 3.5) y ```pathlib.Path()```. 


In [68]:
import os
entries = os.scandir('files/')
for entry in entries:
    print(entry.name + )

data.txt
data1.txt
data2.txt
data3.txt
data4.txt
data5.txt
SalesJan2009.csv
wdata.txt


## Pickling

A veces se desea almacenar información compleja tales como la información que contiene un diccionario ó una lista. Aquí es donde podemos utilizar el módulo ```pickle``` de python para serializar objetos.

In [83]:
import pickle

name = ["mohit","bhaskar", "manish"]
skill = ["Python", "Python", "Java"]
dict1 = dict([(k,v) for k,v in zip(name, skill)])

with open("files/programming_powers.pkl", "wb") as pickle_file:
    pickle.dump(name, pickle_file)
    pickle.dump(skill,pickle_file)
    pickle.dump(dict1,pickle_file)

## Unpickling

Para obtener los datos de vuelta es posible hacer lo siguiente:

In [84]:
import pickle

with open("files/programming_powers.pkl", "rb") as pickle_file:
    list1 = pickle.load(pickle_file)
    list2 = pickle.load(pickle_file)
    dict1 = pickle.load(pickle_file)
print(list1)
print(list2)
print(dict1)

['mohit', 'bhaskar', 'manish']
['Python', 'Python', 'Java']
{'mohit': 'Python', 'bhaskar': 'Python', 'manish': 'Java'}


Pickle obtiene los datos de forma secuencial. 

## Referencias

- Das, B. N. (2017). Learn Python in 7 Days. Packt Publishing Ltd.
- https://support.spatialkey.com/spatialkey-sample-csv-data/
- https://www.geeksforgeeks.org/with-statement-in-python/
- https://stackoverflow.com/questions/40918503/how-to-read-a-utf-8-encoded-text-file-using-python/40918636
- https://dbader.org/blog/python-file-io