Archivos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/Python-for-ETL-processes/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/Python-for-ETL-processes/tree/master/) para explorar el repositorio usando `nbviewer`. 

---

## Lectura y escritura de archivos de texto con `open`

> [`open`](https://docs.python.org/3/tutorial/inputoutput.html)


La función `open(` _`filename`_ `,` _`mode`_ `)` permite abrir el archivo llamada _`filename`_; _`mode`_  es una cadena de texto que especifica la forma en que se habre el archivo asi: `'r'` para lectura, `'w'` para escritura (borra el contenido del archivo) y `'a'` para escribir al final (append); adicionalmente, se puede agregar `'b'` para indicar que el archivo se abre en modo binario (por defecto se abre en mdoeo texto). `open` devuelve un objeto que permite manipuar el archivo. 

### Escritura de una variable con texto a un archivo

In [1]:
## Se almacena un texto en una variable.
txt = '''R is a programming language and software environment for statistical computing 
and graphics supported by the R Foundation for Statistical Computing.[3] The R language 
is widely used among statisticians and data miners for developing statistical software[4] 
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature 
databases show that R's popularity has increased substantially in recent years.[6]
'''

In [2]:
## Se verifica el contenido.
print(txt)

R is a programming language and software environment for statistical computing 
and graphics supported by the R Foundation for Statistical Computing.[3] The R language 
is widely used among statisticians and data miners for developing statistical software[4] 
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature 
databases show that R's popularity has increased substantially in recent years.[6]



In [3]:
## Se escribe el contenido de `txt` a un archivo en disco
open('files/wikipedia.txt', 'w').write(txt) 

433

In [4]:
## abre el archivo, lee todo el contenido del archivo y luego lo cierra.
open('files/wikipedia.txt', 'r').read() 

"R is a programming language and software environment for statistical computing \nand graphics supported by the R Foundation for Statistical Computing.[3] The R language \nis widely used among statisticians and data miners for developing statistical software[4] \nand data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature \ndatabases show that R's popularity has increased substantially in recent years.[6]\n"

### Escritura secuencial a un archivo

In [5]:
## Se abre el archivo para escritura
f = open('out.1', 'w') 

In [6]:
## impresión de varias lineas en un solo print 
print("linea 1", "linea 2", "linea 3", sep='\n', file=f) 

In [7]:
## impresión de una línea por print
print("linea 4", file=f)   
print("linea 5", file=f)
print("linea 6", file=f)

In [8]:
## impresión usando write
f.write('linea 7')

7

In [9]:
## cierra el archivo
f.close()

### Lectura de un archivo

In [10]:
## contenido del archivo
open('out.1', 'r').read()

'linea 1\nlinea 2\nlinea 3\nlinea 4\nlinea 5\nlinea 6\nlinea 7'

In [11]:
## impresión con formato del contenido de un archivo.
print(open('out.1', 'r').read())

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7


In [12]:
## forma alternativa (mas usual) 
with open('out.1', 'r') as f:
    print(f.read(), end='')    # el archivo se cierra al salir del bloque `with`

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7

In [13]:
f.closed # es una función que devuelve `True` cuando el archivo está cerrado. 

True

In [14]:
## Otra forma, observe el uso de `list`.
f = open('out.1', 'r')
x = list(f)
f.close()
x  # note que aparece el retorno de carro '\n' al final de cada línea

['linea 1\n',
 'linea 2\n',
 'linea 3\n',
 'linea 4\n',
 'linea 5\n',
 'linea 6\n',
 'linea 7']

### Lectura secuencial del contenido de un archivo linea por linea

In [15]:
## Lectura del contenido
## de un archivo línea a línea.
f = open('out.1', 'r')

In [16]:
## Lee la primera línea.
f.readline() 

'linea 1\n'

In [17]:
## lee la segunda línea.
f.readline() 

'linea 2\n'

In [18]:
## lee la tercera línea y así sucesivamente
## hasta alcanzar el final del archivo
f.readline() 

'linea 3\n'

In [19]:
f.close() # cierra el archivo.

### Lectura secuencial del contenido de un archivo usando un ciclo for

En el siguiente ejemplo se ilustra como usar un ciclo `for` para leer el contenido de un archivo.

In [20]:
## abre el archivo
f = open('out.1', 'r')

## se itera sobre cada linea del archivo
## una a la vez
for line in f:
    print(line, end='')
f.close()

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7

## Lectura y escritura de tablas de texto

> [`csv`](https://docs.python.org/3.5/library/csv.html)

En esta sección se aborda la lectura de archivos delimitados por caracteres. Los delimitadores incluyen el espacio en blanco, la coma y el punto y coma. El parámetro `delimiter` permite especificar el caracter delimitador, mientrasq que el parámetro `quoting` permite especificar los delimitadores para los strings.

Se crea una tabla para los realizar los ejemplos.

In [21]:
## crea la tabla de datos de prueba.
## cada fila es una lista
df = [["index", "name", "value"],
      [1, "A", 3.03],
      [2, "B", 5.14],
      [3, "C", 0.40],
      [4, "D", 1.13],
      [5, "E", 8.25]]
df

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

In [22]:
## importa la librería
import csv

### Archivos delimitados por espacios

In [23]:
## escribe el archivo en forma de tabla de texto
with open('files/data.txt', 'w') as f:             # abre el archivo para escritura
    x = csv.writer(f,                              # crea el objeto x
                   delimiter=' ',                  # delimitado por ' '
                   quoting=csv.QUOTE_NONNUMERIC)   # sin " " para los strings
    for r in df:
        x.writerow(r)

Note que los strings están entre comillas.

In [24]:
## verifica el archivo creado
print(open('files/data.txt', 'r').read())

"index" "name" "value"
1 "A" 3.03
2 "B" 5.14
3 "C" 0.4
4 "D" 1.13
5 "E" 8.25



In [27]:
## Lee el archivo como una tabla de texto
with open('files/data.txt', 'r') as f:  
    x = csv.reader(f, 
                    delimiter=' ', 
                    quoting=csv.QUOTE_NONNUMERIC) 

## verifica el archivo creado
open('files/data.txt', 'r').read()

'"index" "name" "value"\n1 "A" 3.03\n2 "B" 5.14\n3 "C" 0.4\n4 "D" 1.13\n5 "E" 8.25\n'

In [28]:
print(open('files/data.txt', 'r').read())

"index" "name" "value"
1 "A" 3.03
2 "B" 5.14
3 "C" 0.4
4 "D" 1.13
5 "E" 8.25



### Archivos delimitados por comas (CSV)

In [30]:
with open('files/data.csv', 'w') as f:
    x = csv.writer(f, 
                   delimiter = ',',
                   quoting=csv.QUOTE_NONNUMERIC)
    for r in df:
        x.writerow(r)

In [31]:
## verifica el archivo creado
open('files/data.csv', 'r').read()

'"index","name","value"\n1,"A",3.03\n2,"B",5.14\n3,"C",0.4\n4,"D",1.13\n5,"E",8.25\n'

In [32]:
print(open('files/data.csv', 'r').read())

"index","name","value"
1,"A",3.03
2,"B",5.14
3,"C",0.4
4,"D",1.13
5,"E",8.25



In [34]:
## lee el archivo csv 
with open('files/data.csv', 'r') as f:
    x = csv.reader(f, 
                   delimiter=',', 
                   quoting=csv.QUOTE_NONNUMERIC)
    
    ## se lee una linea a la vez
    for r in x:
        print(r)

['index', 'name', 'value']
[1.0, 'A', 3.03]
[2.0, 'B', 5.14]
[3.0, 'C', 0.4]
[4.0, 'D', 1.13]
[5.0, 'E', 8.25]


## Archivos en formato JSON

In [35]:
## importa la libreria
import json

In [36]:
## convierte los datos en string
json.dumps(df)

'[["index", "name", "value"], [1, "A", 3.03], [2, "B", 5.14], [3, "C", 0.4], [4, "D", 1.13], [5, "E", 8.25]]'

In [37]:
## mismo caso anterior pero con impresion 'bonita'
json.dumps(df, 
           sort_keys = True, 
           indent = 4)

'[\n    [\n        "index",\n        "name",\n        "value"\n    ],\n    [\n        1,\n        "A",\n        3.03\n    ],\n    [\n        2,\n        "B",\n        5.14\n    ],\n    [\n        3,\n        "C",\n        0.4\n    ],\n    [\n        4,\n        "D",\n        1.13\n    ],\n    [\n        5,\n        "E",\n        8.25\n    ]\n]'

In [38]:
y = json.dumps(df, 
               sort_keys = True, 
               indent = 4)
print(y)

[
    [
        "index",
        "name",
        "value"
    ],
    [
        1,
        "A",
        3.03
    ],
    [
        2,
        "B",
        5.14
    ],
    [
        3,
        "C",
        0.4
    ],
    [
        4,
        "D",
        1.13
    ],
    [
        5,
        "E",
        8.25
    ]
]


In [39]:
## convierte el string en datos
json.loads(y)

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

In [40]:
## convierte los datos en string y
## los guarda en un archivo 
with open('files/data.json', 'w') as f:
    json.dump(obj = df,   # datos 
              fp = f)     # archivo

In [42]:
open('files/data.csv', 'r').read()

'"index","name","value"\n1,"A",3.03\n2,"B",5.14\n3,"C",0.4\n4,"D",1.13\n5,"E",8.25\n'

In [41]:
## recupera los datos desde el archivo
with open('files/data.json', 'r') as f:
    x = json.load(fp = f)
x

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

## Formato binario nativo de Python

In [43]:
## carga la librería
import pickle

In [44]:
## salva el objeto en el disco
with open('files/data.pickle', 'wb') as f:
    pickle.dump(obj = df, file = f)

In [45]:
## borra la variable x
del df

In [46]:
whos

Variable   Type              Data/Info
--------------------------------------
csv        module            <module 'csv' from '/User<...>a3/lib/python3.6/csv.py'>
f          BufferedWriter    <_io.BufferedWriter name='files/data.pickle'>
json       module            <module 'json' from '/Use<...>hon3.6/json/__init__.py'>
line       str               linea 7
pickle     module            <module 'pickle' from '/U<...>lib/python3.6/pickle.py'>
r          list              n=3
txt        str               R is a programming langua<...>lly in recent years.[6]\n
x          list              n=6
y          str               [\n    [\n        "index"<...>,\n        8.25\n    ]\n]


In [47]:
## recupera el objeto del disco
with open('files/data.pickle', 'rb') as f:
    df = pickle.load(f)
    
print(df)

[['index', 'name', 'value'], [1, 'A', 3.03], [2, 'B', 5.14], [3, 'C', 0.4], [4, 'D', 1.13], [5, 'E', 8.25]]


---