# Archivos

Los datos de nuestros programas "viven" en variables (partes de la memoria RAM, con un identificador y un tipo) durante la ejecución de un programa, pero también es necesario guardar datos en estructuras permanentes, que sobrevivan a las corridas de los programas y nos permitan intercambiar información con otras personas.
Para esto podemos usar variables de cierto tipo, que nos permiten leer o escribir datos en los archivos de un dispositivo de almacenamiento de datos. Llamamos archivos (files, en inglés) a las variables abusando del término.

Para entender que tipo de variable es un archivo, o file, tenemos que comprender que Python es un lenguaje de programación donde constantes, variables, funciones, módulos y paquetes son objetos. ¿Qué es un objeto? Podemos comenzar diciendo que un objeto es la asociación entre unos datos (atributos) y el código necesario (métodos) para operar sobre los datos o atributos.



## Acceso al sistema de archivo de Google Drive

Por ahora, vamos a conseguir acceder a los archivos en Google Drive mediante MAGIA, que será debidamente explicada en las clases siguientes en términos de paquetes, módulos, funciones y objetos.

In [3]:
# Comienza Magia
from google.colab import drive

root = '/content/drive'
drive.mount(root)
path = f'{root:s}/My Drive/Colab Notebooks/'
# Termina Magia

Mounted at /content/drive


### La función dir

Podemos usar la función dir para ver que atributos y métodos tiene un objeto.

In [4]:
variable = 1
dir(variable)

['__abs__',
 '__add__',
 '__and__',
 '__bool__',
 '__ceil__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floor__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__le__',
 '__lshift__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rfloordiv__',
 '__rlshift__',
 '__rmod__',
 '__rmul__',
 '__ror__',
 '__round__',
 '__rpow__',
 '__rrshift__',
 '__rshift__',
 '__rsub__',
 '__rtruediv__',
 '__rxor__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__sub__',
 '__subclasshook__',
 '__truediv__',
 '__trunc__',
 '__xor__',
 'bit_length',
 'conjugate',
 'denominator',
 'from_bytes',
 'imag',
 'numerator',
 'real',
 'to_bytes']

### La función help

La función help nos permite acceder a la documentación disponible en python

In [5]:
help(variable)

Help on int object:

class int(object)
 |  int(x=0) -> integer
 |  int(x, base=10) -> integer
 |  
 |  Convert a number or string to an integer, or return 0 if no arguments
 |  are given.  If x is a number, return x.__int__().  For floating point
 |  numbers, this truncates towards zero.
 |  
 |  If x is not a number or if base is given, then x must be a string,
 |  bytes, or bytearray instance representing an integer literal in the
 |  given base.  The literal can be preceded by '+' or '-' and be surrounded
 |  by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
 |  Base 0 means to interpret the base from the string as an integer literal.
 |  >>> int('0b100', base=0)
 |  4
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __ceil__(...)
 |      Ceiling of an Integral retur

## Uso básico de archivos

Los archivos tienen una variable que se "crea" empleando la función open.

Esta variable es un objeto, que tiene ciertos atributos y métodos que debemos conocer.

Por ejemplo, a continuación vamos a crear una variable  asociada a un archivo de texto. El archivo de texto está formado por un texto en el sistema de archivos (generalmente en un disco rígido de una computadora, o en "la nube"). El archivo tiene además un nombre que permite ubicarlo en el sistema de archivos, y un modo (lectura 'r', escritura 'w', y otros que veremos más tarde)

Si usamos de esta forma la función open para crear un archivo, necesitamos usar el método close para terminar la conexión entre la variable y el sistema de archivos.

### Archivo de texto modo escritura

In [17]:
nombre = path + 'ejemplo_archivo_texto.txt'
modo = 'w'
# Creamos un objeto archivo con la función open
variable_archivo = open(nombre, modo) 
# Escribimos datos en el archivo con el método write
variable_archivo.write('Esto es texto\n')
variable_archivo.write('Uno\n')
variable_archivo.write('Dos\n')
variable_archivo.write('Tres\n')
variable_archivo.write('\n')  # Estos son los caracteres de fin de línea
variable_archivo.write('\n')
variable_archivo.write('Final\n')
# Cerramos el archivo con el método close
variable_archivo.close()

# No podemos abrir el archivo para lectura si antes
# no está creado el archivo en el sistema de almacenamiento.

### Archivo de texto modo lectura

In [18]:
nombre = path + 'ejemplo_archivo_texto.txt'
modo = 'r'
variable_archivo = open(nombre, modo)

In [19]:
# Leemos el texto
#    la información pasa del sistema de archivos 
#    a una variable de nombre texto y tipo str
texto = variable_archivo.read()
print(texto)

Esto es texto
Uno
Dos
Tres


Final



In [20]:
# Podemos acceder a información asociada al archivo y su estado
variable_archivo.name, variable_archivo.mode, variable_archivo.closed

('/content/drive/My Drive/Colab Notebooks/ejemplo_archivo_texto.txt',
 'r',
 False)

In [21]:
# si usamos la función open sin emplear la instrucción 'with open... as' 
# debemos usar el metodo close
variable_archivo.close()
variable_archivo.name, variable_archivo.mode, variable_archivo.closed

('/content/drive/My Drive/Colab Notebooks/ejemplo_archivo_texto.txt',
 'r',
 True)

### Otra forma de hacer lo mismo, línea por línea

In [22]:
nombre = path + 'ejemplo_archivo_texto.txt'
modo = 'r'
variable_archivo = open(nombre, modo)
# Leemos el texto linea a linea
for linea in variable_archivo:
    print(linea)
variable_archivo.close()

Esto es texto

Uno

Dos

Tres





Final



### 'with open... as', sin necesidad de usar el método close

In [24]:
nombre = path + 'ejemplo_archivo_texto.txt'
modo = 'r'
with open(nombre, modo) as variable_archivo:
    # Leemos el texto linea a linea
    for linea in variable_archivo:
        print(linea)

Esto es texto

Uno

Dos

Tres





Final



### Procesando línea a línea de texto

In [26]:
nombre = path + 'ejemplo_archivo_texto.txt'
modo = 'r'
with open(nombre, modo) as variable_archivo:
    # Leemos el texto linea a linea
    for linea in variable_archivo:
        info = linea[:-1] # descartamos '\n' salto de línea
        partes = info.split(',')
        for p in partes:
            print(f'   >>>>>>>{p:s}')        

   >>>>>>>Esto es texto
   >>>>>>>Uno
   >>>>>>>Dos
   >>>>>>>Tres
   >>>>>>>
   >>>>>>>
   >>>>>>>Final


### Archivo de texto modo escritura

In [27]:
nombre = './ejemplo_archivo_texto_escritura-1.txt'
modo = 'w' # MODO ESCRITURA
with open(nombre, modo) as variable_archivo:
    for k in range(10):
        variable_archivo.write('a'+str(k))

In [28]:
nombre = './ejemplo_archivo_texto_escritura-2.txt'
modo = 'w' # MODO ESCRITURA
with open(nombre, modo) as variable_archivo:
    for k in range(10):
        variable_archivo.write('a'+str(k)+'\n')

## Archivo de texto estructurados

Además de los archivos txt, existen otros tipos de archivo de texto con estructuras definidas que pueden ser usadas para intercambio y almacenamiento de datos: csv (comma separated values), json (javascript object notation), yaml (yet another markup language), md (markdown) y rst (restructured text).
Cabe aclarar que no son los únicos tipos, sino los que veremos en este curso.


### Archivos csv

https://docs.python.org/3/library/csv.html

In [29]:
import csv

In [30]:
# Escritura de datos en formato csv

q = 3
with open(path + 'datos.csv', 'w', newline='') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ',
                            quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['palabras'] * q + ['punto'])
    spamwriter.writerow([f'palabra-{v:<d} ' for v in range(q+1)])

In [31]:
# Lectura de datos en formato csv

with open(path + 'datos.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(', '.join(row))

palabras, palabras, palabras, punto
palabra-0 , palabra-1 , palabra-2 , palabra-3 


### Archivos json

https://docs.python.org/3/library/json.html

In [32]:
import json

In [33]:
compras = [{'producto': 'pejerrey', 'peso': '1.3kg'}, {'producto': 'pollo', 'peso': '2.5kg'}, 
           {'producto': 'harina', 'peso': '1.0kg'}, {'producto': 'zanahoria', 'peso': '0.8kg'}]
precios = [{'producto': 'pejerrey', 'precio': '$150'}, {'producto': 'pollo', 'precio': '$200'},
           {'producto': 'harina', 'precio': '$100'}, {'producto': 'zanahoria', 'precio': '$80'}]
datos = {'compras': compras, 'precios': precios}

In [34]:
nombre = path + 'datos.json'
modo = 'w'
with open(nombre, modo) as salida:
    json.dump(datos, salida)

In [35]:
nombre = path + 'datos.json'
modo = 'r'
with open(nombre, modo) as entrada:
    datos_leidos = json.load(entrada)

In [36]:
datos_leidos

{'compras': [{'peso': '1.3kg', 'producto': 'pejerrey'},
  {'peso': '2.5kg', 'producto': 'pollo'},
  {'peso': '1.0kg', 'producto': 'harina'},
  {'peso': '0.8kg', 'producto': 'zanahoria'}],
 'precios': [{'precio': '$150', 'producto': 'pejerrey'},
  {'precio': '$200', 'producto': 'pollo'},
  {'precio': '$100', 'producto': 'harina'},
  {'precio': '$80', 'producto': 'zanahoria'}]}

### Archivos YAML

Todo archivo json es un archivo YAML, pero hay archivos YAML que no son json. 
El formato YAML no está incluido en el lenguaje python, pero puede instalarse un package para leer archivos YAML. Consultar en el enlace http://zetcode.com/python/yaml/

### Archivos md, o markdown

https://www.markdowntutorial.com/

Markdown es un lenguaje de texto para escribir documentación con formato (titulos en negrita, palabras en itálica, negrita, o subrayada, listados enumerados, listados itemizados, etc.)

Si bien no hay una librería para escribir directamente información en markdown, nosotros podemos hacer que nuestros programas generen salidas en markdown. Dado que existen procesadores que transforman archivos en markdown a html, esta opción nos permite generar reportes (con imágenes incluidas) que pueden convertirse en una página web en forma automática.


### Archivos rst, o restructured text

Este tipo de archivo es similar a markdown.

Ver https://docutils.sourceforge.io/rst.html


## Otros tipos de archivos

¿Como leer archivos excel? ¿Como leer hojas de cálculo en general?

Además de hojas de cálculo, existen otros formatos de archivos para datos que pueden escribirse y leerse con python.

Para hojas de cálculo, usaremos Pandas.

Buscar librería para h5