Crearemos un archivo de texto plano, de formato libre:

In [1]:
import numpy

In [6]:
a = numpy.random.normal(size=1500000)

In [3]:
a

array([-2.68046379, -0.30688883, -1.13742626, ...,  0.62040487,
        0.26269069,  0.55382876])

Para crear/leer un archivo plano en Python, puedo usar la función built-in open.

In [28]:
f = open("ejemplo.txt", "w") # Con esto creamos un archivo. Sobreescribimos si existe.

Para escribir en el archivo, utilizamos el método write que recibe strings como argumento.

In [29]:
f.write("# Este es un archivo de texto\n")  # ojo con el salto de línea \n 

30

In [30]:
f.write("# esta es otra línea\n")

21

In [31]:
# Es importante cerrar el archivo para que los procesos de escritura se completen:
f.close()

Para evitar perder información debido a olvidos de cerrar archivos, se recomienda utilizar `with`:

Ahora vamos a almacenar nuestros datos, de modo que cada línea se un registro y cada columna un campo, separados por espacio.

Dos columnas: número entero y valor

In [59]:
with open("datos.txt", "w") as f:
    for i in range(len(a)):
        f.write("{:06d} {:.6f}\n".format(i, a[i]))

Para leer un archivo, usamos el mismo procedimiento pero le damos el indicador le lectura 'r' a `open`

In [10]:
f = open("datos.txt", "r")
ar = f.readlines()  # esto lee todo el archivo y crea un lista de lineas tipo string.

`ar` es un objeto tipo lista, donde cada elemento correspone a una línea del archivo (string)

Si queremos regresar al inicio del archivo para volver a leer, usamos `seek`

In [11]:
f.seek(0) # con esto "reseteamos" nuestro archivo

0

También podemos usar `readline` para leer una única línea:

In [18]:
l = f.readline()

Esta `l` es una lista que podemos separa con el método de las strings `split`, y cada uno de esos elementos los podemos convertir a números conociento previamente el formato:

In [20]:
l.split()   # los elementos separados!

['000001', '1.513391']

In [22]:
type(l.split()[0])

str

In [21]:
l.split()[1]   # podemos seleccionar el que nos interesa!

'1.513391'

In [15]:
float(l.split()[1])  # y lo convertimos a flotante!

-0.750514

Utilizando estas herramientas, leemos el archivo de la forma mas "bruta" posible:

In [23]:
f.seek(0)

l1, l2 = [], []
for line in f.readlines():
    l1.append(int(line.split()[0]))
    l2.append(float(line.split()[1]))


Ahora me gustaría trabajar estos datos con alguna librería numérica como numpy.

In [26]:
import numpy as np

np2 = np.array(l2)

In [27]:
np2

array([-0.750514,  1.513391, -0.257402, ...,  0.629598,  0.037971,
        0.256897])

Sin embargo, es importante destacar que *numpy* trae sus propios métodos para cargar archivos de texto:

In [39]:
npdata1 = np.loadtxt("datos.txt")

In [40]:
npdata1

array([[ 0.000000e+00, -7.505140e-01],
       [ 1.000000e+00,  1.513391e+00],
       [ 2.000000e+00, -2.574020e-01],
       ...,
       [ 1.499997e+06,  6.295980e-01],
       [ 1.499998e+06,  3.797100e-02],
       [ 1.499999e+06,  2.568970e-01]])

In [41]:
npdata1.shape

(1500000, 2)

In [42]:
npdata1[4000]

array([4.00000e+03, 5.73016e-01])

Esta forma de cargar archivos realiza una organización "por registro", en donde cada elemento de mi array contiene todos los campos de ese registro.

Acceder al conjunto completo de los valores de un campo para **todos** los registros es mas complejo.

Numpy también nos permite leer de modo que se priorice la organización por *campo* en vez de registro.

In [43]:
npdata2 = np.loadtxt("datos.txt", unpack=True)

In [44]:
npdata2

array([[ 0.000000e+00,  1.000000e+00,  2.000000e+00, ...,  1.499997e+06,
         1.499998e+06,  1.499999e+06],
       [-7.505140e-01,  1.513391e+00, -2.574020e-01, ...,  6.295980e-01,
         3.797100e-02,  2.568970e-01]])

In [45]:
npdata2.shape

(2, 1500000)

Pandas también nos permite cargar archivos te texto plano, aunque está optimizado para leer CVS y sus varientes.

In [47]:
import pandas as pd

In [54]:
pd.read_csv?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mread_csv[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mfilepath_or_buffer[0m[0;34m:[0m [0;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0;34m*[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msep[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdelimiter[0m[0;34m:[0m [0;34m'str | None | lib.NoDefault'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mheader[0m[0;34m:[0m [0;34m"int | Sequence[int] | None | Literal['infer']"[0m [0;34m=[0m [0;34m'infer'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mnames[0m[0;34m:[0m [0;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [0;34m=[0m [0;34m<[0m[0mno_default[0m[0;34m>[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex_col[0m[0;34m:[0m [0;34m'IndexLabel | Literal[False] | None'[0m [0

In [67]:
pddata1 = pd.read_csv("datos.txt", header=None, index_col=0, sep=' ', names=['idx', 'rand'])

In [68]:
pddata1

Unnamed: 0_level_0,rand
idx,Unnamed: 1_level_1
0,-0.750514
1,1.513391
2,-0.257402
3,2.423730
4,-0.937215
...,...
1499995,-0.307417
1499996,-0.432064
1499997,0.629598
1499998,0.037971


Pandas también me permite utilizar iteradores para procesar archivos de texto cuya cantidad de datos es restrictiva según los recursos computacionales que tenemos (e.j. memoria RAM).

Se puede usar chuncks para leer un csv con pandas:

In [76]:
reader = pd.read_csv("datos.txt", header=None, index_col=0, sep=' ', names=['idx', 'rand'], chunksize=100000)

In [77]:
# ejemplo, calcularemos la suma de la columna de datos:
suma = 0
for piece in reader:
    suma += sum(piece['rand'])

Esto debería ser equivalente a tomar el DataFrame completo y sumar la columna rand.

In [79]:
npdata2[1].sum()

-647.982508

In [80]:
suma

-647.9825079999985