## Introducción

- **I/O** significa _input/output_. 
- Escribir y leer datos desde archivos u otras fuentes, es fundamental en la programación, y más aún en programación científica.


## Leer archivos

In [1]:
%%file inout.dat
Hola, desde el archivo
Este es un archivo de texto
Escrito en ASCII

Writing inout.dat


Lee el archivo de una sola pasada

In [2]:
archivo = open('inout.dat')
print archivo.read()
archivo.close()

Hola, desde el archivo
Este es un archivo de texto
Escrito en ASCII


Línea por línea

In [3]:
archivo = open('inout.dat')
print archivo.readlines()
archivo.close()

['Hola, desde el archivo\n', 'Este es un archivo de texto\n', 'Escrito en ASCII']


Otra manera

In [4]:
for line in open('inout.dat'):
    print line.split()

['Hola,', 'desde', 'el', 'archivo']
['Este', 'es', 'un', 'archivo', 'de', 'texto']
['Escrito', 'en', 'ASCII']


## Escribir archivos

`write()` es lo contrario a `read()` (¡Vaya sorpresa!)

In [5]:
contents = open('inout.dat').read()
out = open('my_output.dat', 'w')
out.write(contents.replace(' ', '_'))
out.close()

In [6]:
!cat my_output.dat

Hola,_desde_el_archivo
Este_es_un_archivo_de_texto
Escrito_en_ASCII

<div class="alert alert-info">
**Ejercicio** Cambia la segunda línea del archivo a _¿Cómo has estado?_ ¿Qué sucede?
</div>

<div class="alert alert-info">
**Ejercicio** Escribe un archivo `CSV`. Calcula $y(x) = x^2 \cos x$ para los valores del $x \in {1..100}$. En la primera columna guarda $x$ y en la segunda $y(x)$.
</div>

## Numpy I/O

In [7]:
%pylab inline
import numpy as np
import matplotlib.pyplot as plt

Populating the interactive namespace from numpy and matplotlib


- `NumPy` permite escribir y leer los arreglos a archivo de varias maneras, como **texto** o en **binario**.
- Si escribes a un archivo usando el modo de **texto**, el número $\pi$, se escribirá como $3.141592653589793$. Algo que un humano puede leer (bajo ciertas condiciones, obvio), es decir, una cadena de texto. El modo de texto, ocupa más espacio, la precisión se puede perder (no todos los dígitos se escribirán al disco), pero puede ser editada a mano. Si guardas un arreglo, sólo se pueden guardar arreglos bidimensionales.
- En cambio, si usas el modo **binario** para escribir a archivo, se escribirá como una cadena de 8 bytes que será idéntica a como se guarda en la memoria de la computadora. Sus únicas desventaja es que no puede ser editado a mano y que es dependiente de `NumPy` (no puede ser leído por otro programa, sin un convertidor).

## Modo Texto

In [8]:
arr = np.arange(10).reshape(2, 5)
np.savetxt('test.out', arr, fmt='%.2e', header="My dataset")
!cat test.out

# My dataset
0.00e+00 1.00e+00 2.00e+00 3.00e+00 4.00e+00
5.00e+00 6.00e+00 7.00e+00 8.00e+00 9.00e+00


In [9]:
DataIn = np.loadtxt('test.out')
print DataIn.shape
print DataIn

(2, 5)
[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]]


In [10]:
print DataIn[1,:]

[ 5.  6.  7.  8.  9.]


#### Leyendo archivos CSV

In [11]:
%%file input.csv
# Mis datos de ejemplo
    0.0,  1.1,  0.1
    2.0,  1.9,  0.2
    4.0,  3.2,  0.1
    6.0,  4.0,  0.3
    8.0,  5.9,  0.3

Writing input.csv


In [12]:
!cat input.csv

# Mis datos de ejemplo
    0.0,  1.1,  0.1
    2.0,  1.9,  0.2
    4.0,  3.2,  0.1
    6.0,  4.0,  0.3
    8.0,  5.9,  0.3

In [13]:
x, y = np.loadtxt('input.csv',unpack=True, delimiter=',', usecols=[0,1])
print x,y

[ 0.  2.  4.  6.  8.] [ 1.1  1.9  3.2  4.   5.9]


## Modo Binario

Para guardar datos binarios, `NumPy` provee los métodos `np.save` y `np.savez`. El primero sólo guarda un arreglo y el archivo tendrá la extensión `.npy`, mientras que el segundo se puede utilizar para guardar varios arreglos a la vez con una extensión `.npz`.

In [14]:
arr2 = DataIn 
np.save('test.npy', arr2)
# Lo leemos de nuevo
arr2n = np.load('test.npy')
# Veamos si hay una diferencia...
print 'Any differences?', np.any(arr2-arr2n)

Any differences? False


In [15]:
np.savez('test.npz', arr, arr2)
arrays = np.load('test.npz')
arrays.files

['arr_1', 'arr_0']

In [16]:
np.savez('test.npz', array1=arr, array2=arr2)
arrays = np.load('test.npz')
arrays.files

['array2', 'array1']

In [17]:
print 'First row of first array:', arrays['array1'][0]
# Este es una manera equivalente de obtener el primer elemento
print 'First row of first array:', arrays.f.array1[0]

First row of first array: [0 1 2 3 4]
First row of first array: [0 1 2 3 4]


<div class="alert alert-info">
**Ejercicio**: <br/>
- Crea un arreglo bidimensional con 100 elementos flotantes al azar y guárdalos en formato de texto. <br/>

- Guárdalos también en formato binario. ¿Hay alguna diferencia entre ellos? <br/>

- Ahora crea un arreglo tridimensional con los elementos del 1 al 50 y guárdalos en formato binario ¿Qué pasa si los quieres guardar en formato de texto?
</div>