# Archivos

Los datos de nuestros programas "viven" en variables (partes de la memoria RAM, con un identificador y un tipo) durante la ejecución de un programa, pero también es necesario guardar datos en estructuras permanentes, que sobrevivan a las corridas de los programas y nos permitan intercambiar información con otras personas.
Para esto podemos usar archivos, que son una clase de objetos que nos permiten leer o escribir datos en un dispositivo de almacenamiento de datos.

### La función dir

Podemos usar la función dir para ver que atributos y métodos tiene un objeto.

In [None]:
dir(variable_archivo)

### La función help

La función help nos permite acceder a la documentación disponible en python

In [7]:
help(variable_archivo)

Help on TextIOWrapper object:

class TextIOWrapper(_TextIOBase)
 |  Character and line based layer over a BufferedIOBase object, buffer.
 |  
 |  encoding gives the name of the encoding that the stream will be
 |  decoded or encoded with. It defaults to locale.getpreferredencoding(False).
 |  
 |  errors determines the strictness of encoding and decoding (see
 |  help(codecs.Codec) or the documentation for codecs.register) and
 |  defaults to "strict".
 |  
 |  newline controls how line endings are handled. It can be None, '',
 |  '\n', '\r', and '\r\n'.  It works as follows:
 |  
 |  * On input, if newline is None, universal newlines mode is
 |    enabled. Lines in the input can end in '\n', '\r', or '\r\n', and
 |    these are translated into '\n' before being returned to the
 |    caller. If it is '', universal newline mode is enabled, but line
 |    endings are returned to the caller untranslated. If it has any of
 |    the other legal values, input lines are only terminated by the

## Uso básico de archivos

Los archivos tienen una variable asociada que se "crea" empleando la función open.

Por ejemplo, a continuación vamos a crear una variable  asociada a un archivo de texto. El archivo de texto está formado por un texto en el sistema de archivos (generalmente en un disco rígido de una computadora, o en "la nube"). El archivo tiene además un nombre que permite ubicarlo en el sistema de archivos, y un modo (lectura 'r', escritura 'w', y otros que veremos más tarde)

Si usamos de esta forma la función open para crear un archivo, necesitamos usar el método close para terminar la conexión entre la variable y el sistema de archivos.

### Archivo de texto modo lectura

In [17]:
nombre = './ejemplo_archivo_texto_lectura.txt'
modo = 'r'
variable_archivo = open(nombre, modo)

In [18]:
# Leemos el texto
#    la información pasa del sistema de archivos 
#    a una variable de nombre texto y tipo str
texto = variable_archivo.read() 
print(texto)

uno, 1
dos, 2
tres, 3
cuatro, 4



En la celda anterior aparece la línea
    
    texto = variable_archivo.read()
    
Qué significa?
Python es un idioma de programación basada en objetos, donde todas "las cosas" (constantes, variables, funciones, etc.) son objetos. Un objeto está formado por datos (con identificadores y memoria asignados) y métodos (funciones) que operan sobre los datos. 

En este caso, tenemos una variable con identificador variable_archivo que es un objeto file (archivo).
Esta variable file fue creada con la función open, dandole la opción 'r', y tiene un método con identificador read que podemos usar escribiendo

    variable_archivo.read()
    
En este caso, el método read() recupera una secuencia de bytes de un archivo dentro de un sistema de almacenamiento de datos
y transfiere esos bytes a una variable con identificador texto.

En resúmen, si tenemos un objeto p con un método do() podemos escribir

    p.do()
    
para ejecutar el método do() en los datos pertenecientes al objeto p.

In [14]:
# Podemos acceder a información asociada al archivo y su estado
variable_archivo.name, variable_archivo.mode, variable_archivo.closed

('./ejemplo_archivo_texto_lectura.txt', 'r', False)

In [21]:
# si usamos la función open sin emplear la instrucción 'with open... as' 
# debemos usar el metodo close
variable_archivo.close()
variable_archivo.name, variable_archivo.mode, variable_archivo.closed

('./ejemplo_archivo_texto_lectura.txt', 'r', True)

### Otra forma de hacer lo mismo, línea por línea

In [20]:
nombre = './ejemplo_archivo_texto_lectura.txt'
modo = 'r'
variable_archivo = open(nombre, modo)
# Leemos el texto linea a linea
for linea in variable_archivo:
    print(linea)
variable_archivo.close()

uno, 1

dos, 2

tres, 3

cuatro, 4



### 'with open... as', sin necesidad de usar el método close

In [22]:
nombre = './ejemplo_archivo_texto_lectura.txt'
modo = 'r'
with open(nombre, modo) as variable_archivo:
    # Leemos el texto linea a linea
    for linea in variable_archivo:
        print(linea)

uno, 1

dos, 2

tres, 3

cuatro, 4



### Procesando línea a línea de texto

In [23]:
nombre = './ejemplo_archivo_texto_lectura.txt'
modo = 'r'
with open(nombre, modo) as variable_archivo:
    # Leemos el texto linea a linea
    for linea in variable_archivo:
        info = linea[:-1] # descartamos '\n' salto de línea
        partes = info.split(',')
        for p in partes:
            print(f'   {p:s}')        

   uno
    1
   dos
    2
   tres
    3
   cuatro
    4


### Archivo de texto modo escritura

In [27]:
nombre = './ejemplo_archivo_texto_escritura-1.txt'
modo = 'w' # MODO ESCRITURA
with open(nombre, modo) as variable_archivo:
    for k in range(10):
        variable_archivo.write('a'+str(k))

In [28]:
nombre = './ejemplo_archivo_texto_escritura-2.txt'
modo = 'w' # MODO ESCRITURA
with open(nombre, modo) as variable_archivo:
    for k in range(10):
        variable_archivo.write('a'+str(k)+'\n')

## Archivo de texto estructurados

Además de los archivos txt, existen otros tipos de archivo de texto con estructuras definidas que pueden ser usadas para intercambio y almacenamiento de datos: csv (comma separated values), json (javascript object notation), yaml (yet another markup language), md (markdown) y rst (restructured text).
Cabe aclarar que no son los únicos tipos, sino los que veremos en este curso.


### Archivos csv

https://docs.python.org/3/library/csv.html

In [None]:
import csv

In [35]:
# Escritura de datos en formato csv

q = 3
with open('datos.csv', 'w', newline='') as csvfile:
    spamwriter = csv.writer(csvfile, delimiter=' ',
                            quotechar='|', quoting=csv.QUOTE_MINIMAL)
    spamwriter.writerow(['palabras'] * q + ['punto'])
    spamwriter.writerow([f'palabra-{v:<d} ' for v in range(q+1)])

In [36]:
# Lectura de datos en formato csv

with open('datos.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(', '.join(row))

palabras, palabras, palabras, punto
palabra-0 , palabra-1 , palabra-2 , palabra-3 


### Archivos json

https://docs.python.org/3/library/json.html

In [37]:
import json

In [38]:
compras = [{'producto': 'pejerrey', 'peso': '1.3kg'}, {'producto': 'pollo', 'peso': '2.5kg'}, 
           {'producto': 'harina', 'peso': '1.0kg'}, {'producto': 'zanahoria', 'peso': '0.8kg'}]
precios = [{'producto': 'pejerrey', 'precio': '$150'}, {'producto': 'pollo', 'precio': '$200'},
           {'producto': 'harina', 'precio': '$100'}, {'producto': 'zanahoria', 'precio': '$80'}]
datos = {'compras': compras, 'precios': precios}

In [40]:
nombre = './datos.json'
modo = 'w'
with open(nombre, modo) as salida:
    json.dump(datos, salida)

In [41]:
nombre = './datos.json'
modo = 'r'
with open(nombre, modo) as entrada:
    datos_leidos = json.load(entrada)

In [42]:
datos_leidos

{'compras': [{'peso': '1.3kg', 'producto': 'pejerrey'},
  {'peso': '2.5kg', 'producto': 'pollo'},
  {'peso': '1.0kg', 'producto': 'harina'},
  {'peso': '0.8kg', 'producto': 'zanahoria'}],
 'precios': [{'precio': '$150', 'producto': 'pejerrey'},
  {'precio': '$200', 'producto': 'pollo'},
  {'precio': '$100', 'producto': 'harina'},
  {'precio': '$80', 'producto': 'zanahoria'}]}

### Archivos YAML

Todo archivo json es un archivo YAML, pero hay archivos YAML que no son json. 
El formato YAML no está incluido en el lenguaje python, pero puede instalarse un package para leer archivos YAML. Consultar en el enlace http://zetcode.com/python/yaml/

### Archivos md, o markdown

https://www.markdowntutorial.com/

Markdown es un lenguaje de texto para escribir documentación con formato (titulos en negrita, palabras en itálica, negrita, o subrayada, listados enumerados, listados itemizados, etc.)

Si bien no hay una librería para escribir directamente información en markdown, nosotros podemos hacer que nuestros programas generen salidas en markdown. Dado que existen procesadores que transforman archivos en markdown a html, esta opción nos permite generar reportes (con imágenes incluidas) que pueden convertirse en una página web en forma automática.


### Archivos rst, o restructured text

Este tipo de archivo es similar a markdown.

Ver https://docutils.sourceforge.io/rst.html


## Otros tipos de archivos

¿Como leer archivos excel? ¿Como leer hojas de cálculo en general?

Además de hojas de cálculo, existen otros formatos de archivos para datos que pueden escribirse y leerse con python.

Para hojas de cálculo, usaremos Pandas.

Buscar librería para h5