Creación de archivo de texto plano de formato libre:

In [1]:
import numpy as np 

In [2]:
a = np.random.normal(size=150000)

Para crear o leer un archivo de texto plano en Python puedo usar la función built-in "open"

In [3]:
f = open("ejemplo.txt", "w") #con esto creamos un archivo. Sobreescribimos si existe

Para escribir en el archivo usamos el método `write`` que recibe strings como argumento.

In [4]:
f.write("#Este es un archivo de texto\n") #recordar salto línea \n

29

In [5]:
f.write("esta es otra línea tolita joasjoas ekis de lol\n")

47

In [6]:
#Es importante cerrar el archivo para que los procesos de escritura se completen
f.close()

Para evitar perder información debido a olvidos de cerrar archivos se recomienda usar `with`

In [7]:
#Ahora almacenaremos los datos, de modo que cada línea sea un registro y cada columna un campo, separados por espacio
# dos columnas: número entero y valor
with open ("datos.txt", "w") as f:
    for i in range(len(a)):
        f.write("{:d} \t {:.6f}\n".format(i, a[i]))
        
#:d enteros, :.6f 6 decimales en el flotante, parte de 0

Para leer un archivo usamos el mismo procedimiento pero le damos el indicador de lectura 'r' a `open` 

In [8]:
f = open("datos.txt", "r")
ar = f.readlines() #esto lee todo el archivo y crea una lista de lineas tipo string

`ar` es un objeto tipo lista donde cada elemento corresponde a una línea del archivo (string).

Si queremos regresar al inicio del archivo para volver a leer, usamos `seek` 

In [9]:
f.seek(0) #con esto reseteamos el archivo

0

También podemos usar `readline` para leer una única línea:

In [10]:
l = f.readline()
l

'0 \t 0.057548\n'

`l` es una lista que podemos separar con el método de las strings `split`, y cada uno de esos elementos los podemos convertir a números conociendo previamente el formato:

In [11]:
l.split() #los elementos separados, el primero será el primer número y el último es el último número jaja lol
l 

'0 \t 0.057548\n'

In [12]:
l.split()[1] #podemos seleccionar el que nos interese

'0.057548'

In [13]:
float(l.split()[1]) #y aquí lo convertimos a flotante :o

0.057548

Con estas herramientos podemos leer el archivo de manera más bruta pero efectiva posible

In [15]:
f.seek(0)

l1, l2 = [], []
for line in f.readlines():
    l1.append(int(line.split()[0]))
    l2.append(float(line.split()[1]))

Ahora trabajaremos los datos con una librería numérica, ej: `numpy`.
Cabe destacar que `numpy` trae sus propios métodos para cargar archivos de texto

In [16]:
help(np.loadtxt)

Help on function loadtxt in module numpy:

loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None, *, like=None)
    Load data from a text file.
    
    Each row in the text file must have the same number of values.
    
    Parameters
    ----------
    fname : file, str, or pathlib.Path
        File, filename, or generator to read.  If the filename extension is
        ``.gz`` or ``.bz2``, the file is first decompressed. Note that
        generators should return byte strings.
    dtype : data-type, optional
        Data-type of the resulting array; default: float.  If this is a
        structured data-type, the resulting array will be 1-dimensional, and
        each row will be interpreted as an element of the array.  In this
        case, the number of columns used must match the number of fields in
        the data-type.
    comments : str or sequence of str, optional
  

In [18]:
npdata1 = np.loadtxt("datos.txt")

In [19]:
npdata1

array([[ 0.000000e+00,  5.754800e-02],
       [ 1.000000e+00,  1.759237e+00],
       [ 2.000000e+00, -5.839110e-01],
       ...,
       [ 1.499970e+05,  7.640090e-01],
       [ 1.499980e+05,  9.436540e-01],
       [ 1.499990e+05,  1.265512e+00]])

In [20]:
npdata1.shape

(150000, 2)

In [22]:
npdata1[4000]

array([ 4.000e+03, -1.849e-02])

Esta forma de cargar archivos realiza una organización "por registro", donde cada elemento del array contiene todos los **campos** de ese **registro**.


Pandas también permite cargar archivos de texto plano, aunque está optimizado para leer CSV

In [23]:
import pandas as pd

In [25]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer: Union[ForwardRef('PathLike[str]'), str, IO[~T], io.RawIOBase, io.BufferedIOBase, io.TextIOBase, _io.TextIOWrapper, mmap.mmap], sep=<object object at 0x10ffb20b0>, delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitesp

In [35]:
pddata1 = pd.read_csv('datos.txt', header=None, sep='\t', index_col=0, names=['index', 'value'])

In [36]:
pddata1

Unnamed: 0_level_0,value
index,Unnamed: 1_level_1
0,0.057548
1,1.759237
2,-0.583911
3,-1.167516
4,-0.029538
...,...
149995,-2.054361
149996,-1.418582
149997,0.764009
149998,0.943654


Pandas permite utilizar iteradores para procesar archivos de texto, cuya cantidad de datos es **restrictiva** según los recursos computacionales que tenemos (ej: RAM)
Se puede usar chunks para leer un csv con pandas

In [37]:
reader = pd.read_csv("datos.txt", header=None, index_col=0, sep=' ', names=["index", "value"], chunksize=100000)

In [38]:
#ejemplo: calcular la suma de la columna de datos
suma = 0
for i in reader:
    suma += sum(i['value'])

In [None]:
npdata2[1]