# Manejo de archivos en python

## Archivos binarios y de texto en python

La mayoría de archivos que se utilizan en un computador son binarios. Entre ellos:

- archivos de documentos .doc, .pdf, xls
- imágenes en formatos .jpg, .png, .bmp, .gif
- archivos de bases de datos .mdb, .sqlite

Para poder leer estos archivos, se requiere un software específico.

Un archivo de texto se puede abrir con cualquier editor. Estos archivos están organizados por líneas. Los archivos de texto tienen un caracter que identifica el final de cada línea. En python están notados por ```\n```.  

Hasta ahora hemos leído por teclado las entradas de los programas. Ahora se leerán y se escribirán principalmente 
archivos de texto. En python no se requiere importar ningún módulo especial para un manejo básico de archivos.

## Direccionamiento absoluto y relativo

Es posible trabajar con direccionamiento absoluto o relativo en python. En los ejemplos anteriores se realizó direccionamiento relativo a partir de la carpeta donde se descargó este notebook. En esta carpeta hay una carpeta llamada files y allí se encuentra el archivo 'data.txt'.

Para dar soporte a los diferentes sistemas operativos como windows y trabajar con direccionamiento absoluto se tienen las siguientes opciones:


- ```"C:\\ThisFolder\\workData.txt"```
- ```"C:/ThisFolder/workData.txt"```

![](https://raw.githubusercontent.com/arleserp/MinTIC2022/master/images/carpetas.png "Aquí se puede seleccionar jupyter o spyder")

Así luce el archivo data.txt

![](https://raw.githubusercontent.com/arleserp/MinTIC2022/master/images/datatxt.png "Aquí se puede seleccionar jupyter o spyder")

## Leer  un archivo

```open()``` toma un nombre de archivo y modo como argumentos. ```r``` abre el archivo en modo de lectura (read).  `with` asegura un uso propio y liberación de recursos. Aquí vamos a trabajar con archivos de texto ubicados en el computador. En el siguiente ejemplo se abrirán archivos ubicados en la carpeta files. Así luce la carpeta files en el computador:


In [None]:
with open('files/data.txt', 'r') as f:
    data = f.read()
    print(data)

Hola amigos!!!


Las celdas de este notebook pueden ser ejecutadas desde el notebook o desde archivos en python en visual studio code como se muestra a continuación:

![](https://raw.githubusercontent.com/arleserp/MinTIC2022/master/images/archivosvscode.png "Aquí se puede seleccionar jupyter o spyder")

Es posible abrir un notebook desde visual studio code:

![](https://raw.githubusercontent.com/arleserp/MinTIC2022/master/images/notebookvscode.png "Aquí se puede seleccionar jupyter o spyder")

## Escribir en un archivo

Para escribir información en un archivo se para el argumento ```w``` (write):

In [None]:
with open('files/wdata.txt', 'w') as f:
    data = 'estamos escribiendo en el archivo 123\n'
    f.write(data)
    f.write(data)
    f.write(data)

Así se ve el archivo:

![](https://raw.githubusercontent.com/arleserp/MinTIC2022/master/images/escribirarchivo.png "Aquí se puede seleccionar jupyter o spyder")

## Agregar contenido al final de un archivo (append)

In [None]:
with open('files/wdata.txt', 'a', encoding='utf-8') as f:
    data = 'más cosas\n'
    f.write(data)
    f.write(data)
    f.write(data)

## Otros modos de apertura de archivos 

Otros modos de abrir archivos en python son:

- 'r+' – (read/write): Este modo es usado cuando se desean hacer cambios al archivo y a la vez leer información. El puntero del archivo se ubica al principio del archivo.
- 'a+' – (append and Read): Se abre el archivo para escribir y leer del archivo. El puntero del archivo se ubica al final del archivo.
- x (exclusive creation): usado exclusivamente para crear un archivo. Si existe un archivo con el mismo nombre la función fallará.

Para leer archivos binarios se agrega la letra b al final del modificador. Por ejemplo para escribir ```wb``` y los otros serían ```rb```, ```ab```, ```r+b``` y ```a+b```.

## Lectura de un archivo 

Para leer el contenido de un archivo se puede usar ```read()```. Sin parámetros leerá el archivo entero y almacenará el contenido la salida como un string si es un archivo de texto o como objetos en bytes si se trata de un archivo binario. 

Si se trata de leer un archivo más grande que la memoria disponible no se podrá leer todo el archivo de una vez. En este caso se puede leer el archivo por bytes.

Si se tiene el siguiente archivo llamado ```datos1.txt``` con el siguiente contenido:

```
    Esta es la línea 1: abcabcabc
    Esta es la línea 2: abcabcabc
    Esta es la línea 3: abcabcabc
```

In [None]:
with open('files/data1.txt', 'r') as f:
    print(f.read())

Esta es la lÃ­nea 1: abcabcabc
Esta es la lÃ­nea 2: abcabcabc
Esta es la lÃ­nea 3: abcabcabc


## Leer archivos con tíldes

Para no tener problemas de codificación se puede agregar el siguiente parámetro:

In [None]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    print(f.read())

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc


## Leer byte a byte

Ahora si se desean leer solamente los primeros 6 bytes:

In [None]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.read(6)
    line2 = f.read(6)

print(line)
print(line2)

Esta e
s la l


## Leer archivo línea por línea:

Es posible leer un archivo línea por línea utilizando ```readline()```

In [None]:
with open('files/data1.txt', 'r', encoding="utf-8") as f:
    line = f.readline()
    line2 = f.readline()
print(line, end='')


Esta es la línea 1: abcabcabc


In [None]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
     print("Nombre del archivo: ", f.name)
     line = f.readline()
     print(line)

Nombre del archivo:  files/data1.txt
Esta es la línea 1: abcabcabc



## Cargar las líneas de un archivo como una lista

Es posible cargar todas las lineas del archivo como una lista si se utiliza:

In [None]:
with open("files/data1.txt", "r", encoding='utf-8') as f:
     print("Nombre del archivo: ", f.name)
     lista = f.readlines()
print(lista)

Nombre del archivo:  files/data1.txt
['Esta es la línea 1: abcabcabc\n', 'Esta es la línea 2: abcabcabc\n', 'Esta es la línea 3: abcabcabc']


## La forma más eficiente de procesar un archivo

La forma más sencilla y eficiente de abrir y procesar un archivo de texto es: 

In [None]:
with open("files/data1.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc

La anterior es la mejor forma de procesar archivos. Pues nunca carga el contenido del archivo completo si no por partes. 

## Ejercicio 1

Dado el archivo de texto ```files/SalesJan2009.csv```, procese el archivo para obtener las compras realizadas en un país dado:


Transaction_date,Product,Price,Payment_Type,Name,City,State,Country,Account_Created,Last_Login,Latitude,Longitude

1/2/2009 6:17,Product1,1200,Mastercard,carolina,Basildon,England,United Kingdom,1/2/2009 6:00,1/2/2009 6:08,51.5,-1.1166667



<table>
    <tr>
        <td>Input</td><td>Output</td>
    </tr>
    <tr>
        <td>United Kingdom</td><td>100</td>
    </tr>
 </table>

##  Ejercicio 2

Dado el archivo de texto files/SalesJan2009.csv, procese el archivo para obtener las compras realizadas con un medio de pago dado:

<table>
    <tr>
        <td>Input</td><td>Output</td>
    </tr>
    <tr>
        <td>Visa</td><td>521</td>
    </tr>
 </table>

## Escritura de archivos

A menudo se prefiere utilizar ```a+``` como el modo de apertura para escribir un archivo porque permite añadir datos al final del mismo. Utilizar ```w+``` borrará cualquier dato que existe en el archivo y pues producirá un archivo en límpio para trabajar.

El método por defecto para añadir datos en un archivo es ```write```:


In [None]:
with open("files/data2.txt", "a+", encoding='utf-8') as work_data:
    work_data.write("\nEsta es la línea 4: abcabcabc")

In [None]:
with open("files/data2.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

Esta es la línea 1: abcabcabc
Esta es la línea 2: abcabcabc
Esta es la línea 3: abcabcabc

Esta es la línea 4: abcabcabc
Esta es la línea 4: abcabcabc
Esta es la línea 4: abcabcabc
Esta es la línea 4: abcabcabc

## Escribir datos que no son de texto en un archivo

Si se desean escribir datos que no son cadenas de texto en un archivo es necesario convertir cada dato a string.

In [None]:
values = [1234, 5678, 9012]

with open("files/data3.txt", "w+") as work_data:
    for value in values:
        str_value = str(value)
        work_data.write(str_value)
        work_data.write("\n")

In [None]:
with open("files/data3.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line, end='')

1234
5678
9012


## Seek: moviendo el puntero de lectura y escritura
 
A veces es necesario moverse al principio del archivo o a alguna posición específica en un archivo dado. La forma más fácil de hacerlo es es utilizar ```fileobject.seek(offset, from_what)```.

```offset``` es el número de caracteres desde la posición ```from_what```.

Hay algunos valores por defecto para la posición ```from_what```:

* 0 – Al principio del archivo
* 1 – posición actual
* 2 – al final del archivo

Con archivos de texto 0 ó seek(0, 2), lo llevarán al final del archivo.

In [None]:
with open("files/data4.txt", "r", encoding='utf-8') as work_data:
    work_data.seek(11,0)
    for line in work_data:
        print(line, end='')

letras
1234
5678


## Determinar tamaño de un archivo en bytes 

Para obtener la longitud de un archivo o la posición en donde se encuentra en un archivo se puede usar ```fileobject.tell()```. Para determinar el tamaño de un archivo en bytes se puede utilizar:

In [None]:
with open("files/data4.txt", "a+") as work_data:
    print(work_data.tell())

31


## Editando un archivo de python

La forma más facil de editar un archivo dado es guardar el archivo entero en una lista y utilizar list.insert(i, x) para insertar los datos nuevos. Una vez creada la lista se puede unir (join) de nuevo y escribir esto en el archivo.

In [None]:
# Open the file as read-only
with open("files/data5.txt", "r", encoding='utf-8') as f:
    list_content = f.readlines()

#print(list_content)
    
list_content.insert(1, "Esta es la línea 1.5 jajajaj\n")

# Re-open in write-only format to overwrite old file
with open("files/data5.txt", "w", encoding='utf-8') as f:
    contenido = "".join(list_content)
    f.write(contenido)

In [None]:
with open("files/data5.txt", "r", encoding='utf-8') as work_data:
    for line in work_data:
        print(line)

Esta es la línea 1: abcabcabc

Esta es la línea 1.5 jajajaj

Esta es la línea 1.5 jajajaj

Esta es la línea 1.5 jajajaj

Esta es la línea 2: abcabcabc

Esta es la línea 3: abcabcabc



## Listando archivos y directorios:

En las versiones modernas de python una alternativa a ```os.listdir()``` es utilizar ```os.scandir()``` (desde python 3.5) y ```pathlib.Path()```. 


In [None]:
import os
entries = os.scandir('files/')

for entry in entries:
    print(entry.name + ', es directorio: ' + str(entry.is_dir()) + ', size: ' + str(entry.stat().st_size)
         + ' bytes.')

alternancia.txt, es directorio: False, size: 12549 bytes.
data.txt, es directorio: False, size: 14 bytes.
data1.txt, es directorio: False, size: 94 bytes.
data2.txt, es directorio: False, size: 224 bytes.
data3.txt, es directorio: False, size: 18 bytes.
data4.txt, es directorio: False, size: 31 bytes.
data5.txt, es directorio: False, size: 189 bytes.
names.txt, es directorio: False, size: 220 bytes.
programming_powers.pkl, es directorio: False, size: 154 bytes.
python_es.txt, es directorio: False, size: 33754 bytes.
SalesJan2009.csv, es directorio: False, size: 130480 bytes.
testdir, es directorio: True, size: 0 bytes.
wdata.txt, es directorio: False, size: 153 bytes.


## Guardar Estructuras de Datos en archivos: Pickling

A veces se desea almacenar información compleja tales como la información que contiene un diccionario ó una lista. Aquí es donde podemos utilizar el módulo ```pickle``` de python para serializar objetos.

In [None]:
import pickle

name = ["mohit","bhaskar", "manish"]
skill = ["Python", "Python", "Java"]
dict1 = dict([(k,v) for k,v in zip(name, skill)])

with open("files/programming_powers.pkl", "wb") as pickle_file:
    pickle.dump(name, pickle_file)
    pickle.dump(skill,pickle_file)
    pickle.dump(dict1,pickle_file)

## Cargar una estructura de datos de un archivo: Unpickling

Para obtener los datos de vuelta es posible hacer lo siguiente:

In [None]:
import pickle

with open("files/programming_powers.pkl", "rb") as pickle_file:
    list1 = pickle.load(pickle_file)
    list2 = pickle.load(pickle_file)
    dict1 = pickle.load(pickle_file)
print(list1)
print(list2)
print(dict1)

['mohit', 'bhaskar', 'manish']
['Python', 'Python', 'Java']
{'mohit': 'Python', 'bhaskar': 'Python', 'manish': 'Java'}


Pickle obtiene los datos de forma secuencial. 

## Copiar una imagen

Una imagen de tipo jpg es un archivo de tipo binario. Con cierto procesamiento es posible crear una copia del archivo:

In [None]:
with open("files/discurso.jpg", "rb") as imagen:
    data = imagen.read()

#print(data)
    
with open("files/copy.jpg", "wb") as f:
    f.write(data)

## 12. Manejo de excepciones en python

Programar el decirle al computador que haga lo que uno necesita que éste haga. Para esto se utilizan librerías y operaciones preexistentes o se escribe código nuevo.

Dependiendo del problema pueden presentarse situaciones excepcionales que incluyen valores de entrada no válidos o situaciones que afectan el flujo ideal del programa interrumpiendo su ejecución.

Es posible detectar esos errores en tiempo de ejecución y tratarlos mediante el manejo de excepciones.

Se tiene el siguiente código que divide dos números enteros:

In [None]:
def division(a, b):
    coc = a//b
    res = a % b
    return (coc, res)

division(4,5)

print(division(10, 0))
print(division(1024,10))

ZeroDivisionError: integer division or modulo by zero

Este error puede ser tratado como se muestra a continuación:


In [None]:
def division(a, b):
    try:
        coc = a//b
        res = a % b
        return (coc, res)
    except:
        print(f'Error en la división de {a} entre {b}')
        return ''

Una situación alterna no esperada puede ser la siguiente:

In [None]:
print(division(10, 0))


Error en la división de 10 entre 0



In [None]:
print(division(1024,10))

(102, 4)


## Sintaxis de las excepciones

Una sintaxis más completa es la siguiente:

```
   try:
       aquí van las operaciones
   except Exception_name:
       aquí se ejecuta esa suite si sucedió la excepción Exception_name
   except Exception_name2:
       aquí se ejecuta esa suite si sucedió la excepción 2
   else:
       si no hay excepción se ejecuta esta suite
```
       

## Excepciones cuando se digita texto en vez de un número

Otra situación que puede ocurrir con la división pueden digitar texto en vez de numeros

In [None]:
def division(a, b):
    try:
        coc = a//b
        res = a % b
        return (coc, res)
    except:
        print('Error en la división de {} entre {}'.format(a, b))


def main():
    num = int(input('digite el dividendo: '))
    div = int(input('digite el divisor: '))
    print(division(num, div))

main() #posibles errores incluyen digitar texto en num o div, o definir div = 0


digite el dividendo: hola


ValueError: invalid literal for int() with base 10: 'hola'

Esto se puede tratar capturando la excepción `ValueError`

In [None]:
def division(a, b):
    try:
        coc = a//b
        res = a % b
        return (coc, res)
    except ZeroDivisionError:
        print('La división por cero no está definida.')
        return ''


def main():
    try:
        num = int(input('digite el dividendo: '))
        div = int(input('digite el divisor: '))
        print(division(num, div))
    except ValueError:
        print('El valor digitado no es entero.')

main()

digite el dividendo: diez
El valor digitado no es entero.


## El bloque finally

Se especifica el bloque Finally para determinar acciones que se deben ejecutar sin importar si se produce una excepción o no

```
try:
    #run this action first
except:
    # Run if exception occurs
Finally :
    #Always run this code
```

El orden de ejecución de las excepciones es el siguiente:

```try -> except -> else -> finally```



## Ejemplo

In [None]:
## Finally

try:
    num = int(input("Enter the number "))
    re = 100/num
except:
    print("Something is wrong")
else:
    print ("result is ",re)
finally :
    print ("finally program ends")


Enter the number dfbg
Something is wrong
finally program ends


## Capturar excepciones de varios tipos

Como es tedioso determinar el tipo de excepción se puede utilizar una sóla línea de código:

In [None]:
try:
    num = int(input("Enter the number "))
    re = 100/num
    print(re)
except Exception as e:
    print(e, type(e))


Enter the number hola
invalid literal for int() with base 10: 'hola' <class 'ValueError'>


## Lanzar excepciones 
Es posible lanzar excepciones utilizando ```raise```:

In [None]:
raise ValueError('error de división por cero')

ValueError: error de división por cero

## Definiendo mis propias excepciones:

Para definir nuestras propias excepciones es necesario crear una clase que hereda de la clase Exception. Por ahora puede verse el ejemplo siguiente como una plantilla pues no se han visto clases:


In [None]:
class NoPuedeDigitarDosException(Exception):
    def __init__(self, value):
        self.value = value
        
    def __str__(self):
        return self.value

def main():
    try:
        num = int(input())
        if num == 2:
            raise NoPuedeDigitarDosException('El usuario digitó 2 y no se puede!')
        else:
            print('all is well it is not 2')
    except Exception as e:
        print(e, type(e))

main()


2
El usuario digitó 2 y no se puede! <class '__main__.NoPuedeDigitarDosException'>



## Ejercicio 1

Dada la siguiente lista capture la excepción que evita que el usuario acceda a posiciones que no se encuentran definidas en la lista y muestre el mensaje ```Intenta acceder una posición que no está en el arreglo```:

In [None]:
lista = [1, 2, 3, 4]
lista[5]

IndexError: list index out of range

## Ejercicio 2

En el siguiente programa capture la excepción para evitar que un programador sume una cadena de texto a un número y muestre el mensaje ```Los tipos de datos no cuadran para hacer la operación```: 

In [None]:
def operar(a, b):
    return a+b

def main():
    a = int(input())
    b = 'hola'
    operar(a, b)

main()

3


TypeError: unsupported operand type(s) for +: 'int' and 'str'

## Ejercicio 3

Capture la excepción que valide cuando se trata de obtener una llave que no se encuentra en un diccionario  y muestre el mensaje ```Intenta acceder una llave que no se encuentra en el diccionario```:



In [None]:

def main():
    dict = {'James': 'Java', 'Dennis' : 'C', 'Das':'Python'}
    print(dict['Ada'])
    
main()

KeyError: 'Ada'

## Ejercicio 4

Defina una excepción para impedir que un usuario digite más de 20 caracteres cómo número de teléfono. Adicionalmente identifique flujos excepcionales en el programa y capture las excepciones que pueden ocurrir.

In [None]:
agenda = {}

def process_numbers(person, number):
    agenda[person] = number

def main():
    n = int(input('Digite el número de contactos:'))
    print('Agregando ' + str(n) + ' personas...')
    for i in range(n):
        nombre = input('Digite el nombre del contacto {}:'.format(i+1))
        numero = int(input('Digite el número de contacto {}:'.format(i+1)))
        process_numbers(nombre, numero)
    print('Así va la agenda:' + str(agenda))

main()


    

Digite el número de contactos:346363
Agregando 346363 personas...
Digite el nombre del contacto 1:56949'497947'04590754'749074'
Digite el número de contacto 1:54ryerye'06y7434


ValueError: invalid literal for int() with base 10: "54ryerye'06y7434"

## Referencias

- Das, B. N. (2017). Learn Python in 7 Days. Packt Publishing Ltd.
- https://support.spatialkey.com/spatialkey-sample-csv-data/
- https://www.geeksforgeeks.org/with-statement-in-python/
- https://stackoverflow.com/questions/40918503/how-to-read-a-utf-8-encoded-text-file-using-python/40918636
- https://dbader.org/blog/python-file-io
- https://docs.hektorprofe.net/python/errores-y-excepciones/ejercicios/