## Lectura y escritura de archivos de texto con **open**
La función Cell(open(<filename>, <mode>) permite abrir el archivo llamado <filename>; <mode> es una cadena de texto que especifica la forma en que se habre el archivo asi: 'r' para lectura, 'w' para escritura (borra el contenido del archivo) y 'a' para escribir al final (append); adicionalmente, se puede agregar 'b' para indicar que el archivo se abre en modo binario (por defecto se abre en mdoeo texto). open devuelve un objeto que permite manipuar el archivo.
    

## Escritura de una variable con texto a un archivo

In [74]:
## Se almacena un texto en una variable.
txt = '''R is a programming language and software environment for statistical computing
and graphics supported by the R Foundation for Statistical Computing.[3] The R language
is widely used among statisticians and data miners for developing statistical software[4]
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature
databases show that R's popularity has increased substantially in recent years.[6]
'''
print(txt)
print(len(txt))

R is a programming language and software environment for statistical computing
and graphics supported by the R Foundation for Statistical Computing.[3] The R language
is widely used among statisticians and data miners for developing statistical software[4]
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature
databases show that R's popularity has increased substantially in recent years.[6]

429


In [75]:
## Se escribe el contenido de `txt` a un archivo en disco
open('./wikipedia.txt', 'w').write(txt)

429

In [36]:
## abre el archivo, lee todo el contenido del archivo y luego lo cierra.
txt = open('C:/Users/Santiago Quintero/Desktop/Comandos Python/wikipedia.txt', 'r').read()
print(txt)
print(len(txt))

R is a programming language and software environment for statistical computing
and graphics supported by the R Foundation for Statistical Computing.[3] The R language
is widely used among statisticians and data miners for developing statistical software[4]
and data analysis.[5] Polls, surveys of data miners, and studies of scholarly literature
databases show that R's popularity has increased substantially in recent years.[6]

429


## Escritura secuencial a un archivo


In [31]:
## Se abre el archivo para escritura
f = open('out.txt', 'w')

In [32]:
## impresión de varias lineas en un solo print
print("linea 1", "linea 2", "linea 3", sep='\n', file=f)

In [33]:
## impresión de una línea por print
print("linea 4", file=f)
print("linea 5", file=f)
print("linea 6", file=f)

In [34]:
## impresión usando write
f.write('linea 7')

7

In [35]:
## cierra el archivo
f.close()

## Lectura de un archivo

In [42]:
## contenido del archivo
open('out.txt', 'r').read()

'linea 1\nlinea 2\nlinea 3\nlinea 4\nlinea 5\nlinea 6\nlinea 7'

In [43]:
## impresión con formato del contenido de un archivo.
print(open('out.txt', 'r').read())

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7


In [44]:
## forma alternativa (mas usual)
with open('out.txt', 'r') as f:
    print(f.read(), end='')    # el archivo se cierra al salir del bloque `with`

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7

In [45]:
f.closed # es una función que devuelve `True` cuando el archivo está cerrado.

True

In [47]:
## Otra forma, observe el uso de `list`.
f = open('out.txt', 'r')
x = list(f)
f.close()
x  # note que aparece el retorno de carro '\n' al final de cada línea

['linea 1\n',
 'linea 2\n',
 'linea 3\n',
 'linea 4\n',
 'linea 5\n',
 'linea 6\n',
 'linea 7']

## Lectura secuencial del contenido de un archivo línea por línea

In [48]:
## Lectura del contenido
## de un archivo línea a línea.
f = open('out.txt', 'r')

In [49]:
## Lee la primera línea.
f.readline()

'linea 1\n'

In [50]:

## lee la segunda línea.
f.readline()

'linea 2\n'

In [51]:
## lee la tercera línea y así sucesivamente
## hasta alcanzar el final del archivo
f.readline()

'linea 3\n'

In [53]:
f.close() # cierra el archivo.

## Lectura secuencial del contenido de un archivo usando un ciclo  for 
En el siguiente ejemplo se ilustra como usar un ciclo for para leer el contenido de un archivo.

In [60]:
## abre el archivo
f = open('out.txt', 'r')

## se itera sobre cada linea del archivo
## una a la vez
for line in f:
    print(line, end='')
f.close()

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7

##  Lectura y escritura de tablas de texto (Archivos delimitados por caracteres)
Los delimitadores incluyen el espacio en blanco, la coma y el punto y coma. El parámetro delimiter permite especificar el caracter delimitador, mientrasq que el parámetro quoting permite especificar los delimitadores para los strings.

In [135]:
## crea la tabla de datos de prueba.
## cada fila es una lista
df = [["index", "name", "value"],
      [1, "A", 3.03],
      [2, "B", 5.14],
      [3, "C", 0.40],
      [4, "D", 1.13],
      [5, "E", 8.25]]
df

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

In [98]:
## importa la librería
import csv

## Archivos delimitados por espacio

In [99]:
## escribe el archivo en forma de tabla de texto
with open('./data.txt', 'w') as f:             # abre el archivo para escritura
    x = csv.writer(f,                              # crea el objeto x
                   delimiter=' ',                  # delimitado por ' '
                   quoting=csv.QUOTE_NONNUMERIC)   # sin " " para los strings
    for r in df:
        x.writerow(r)

Note que los strings están entre comillas.

In [100]:
## verifica el archivo creado
print(open('./data.txt', 'r').read())

"index" "name" "value"

1 "A" 3.03

2 "B" 5.14

3 "C" 0.4

4 "D" 1.13

5 "E" 8.25




In [101]:
## Lee el archivo como una tabla de texto
with open('./data.txt', 'r') as f:
    x = csv.reader(f,
                    delimiter=' ',
                    quoting=csv.QUOTE_NONNUMERIC)

## verifica el archivo creado
open('./data.txt', 'r').read()

'"index" "name" "value"\n\n1 "A" 3.03\n\n2 "B" 5.14\n\n3 "C" 0.4\n\n4 "D" 1.13\n\n5 "E" 8.25\n\n'

In [102]:
print(open('./data.txt', 'r').read())

"index" "name" "value"

1 "A" 3.03

2 "B" 5.14

3 "C" 0.4

4 "D" 1.13

5 "E" 8.25




## Archivos delimitados por comas (CSV)

In [113]:
with open('./data.csv', 'w') as f:
    x = csv.writer(f,
                   delimiter = ',',
                   quoting=csv.QUOTE_NONNUMERIC)
    for r in df:
        x.writerow(r)

In [114]:
## verifica el archivo creado
open('./data.csv', 'r').read()

'"index","name","value"\n\n1,"A",3.03\n\n2,"B",5.14\n\n3,"C",0.4\n\n4,"D",1.13\n\n5,"E",8.25\n\n'

In [115]:
print(open('./data.csv', 'r').read())

"index","name","value"

1,"A",3.03

2,"B",5.14

3,"C",0.4

4,"D",1.13

5,"E",8.25




In [169]:
## lee el archivo csv
with open('./data.csv', 'r') as f:
    x = csv.reader(f,
                   delimiter=',',
                   quoting=csv.QUOTE_NONNUMERIC)

    cadena  = ''
    ## se lee una linea a la vez
    for r in x:
        cadena = cadena + str(r)
#print(cadena)
cadena = cadena.replace("[","")
cadena = cadena.replace("]","")
cadena = cadena.replace(",","")
cadena = cadena.upper()
#print(cadena.upper())

print(cadena)


#print(cadena.find("index"))
    
    

'INDEX' 'NAME' 'VALUE'1.0 'A' 3.032.0 'B' 5.143.0 'C' 0.44.0 'D' 1.135.0 'E' 8.25


## Archivos en formato JSON 

In [117]:
## importa la libreria
import json

In [118]:
## convierte los datos en string
json.dumps(df)

'[["index", "name", "value"], [1, "A", 3.03], [2, "B", 5.14], [3, "C", 0.4], [4, "D", 1.13], [5, "E", 8.25]]'

In [122]:
## mismo caso anterior pero con impresion 'bonita'
json.dumps(df,
           sort_keys = True,
           indent = 4)


'[\n    [\n        "index",\n        "name",\n        "value"\n    ],\n    [\n        1,\n        "A",\n        3.03\n    ],\n    [\n        2,\n        "B",\n        5.14\n    ],\n    [\n        3,\n        "C",\n        0.4\n    ],\n    [\n        4,\n        "D",\n        1.13\n    ],\n    [\n        5,\n        "E",\n        8.25\n    ]\n]'

In [120]:
y = json.dumps(df,
               sort_keys = True,
               indent = 4)
print(y)

[
    [
        "index",
        "name",
        "value"
    ],
    [
        1,
        "A",
        3.03
    ],
    [
        2,
        "B",
        5.14
    ],
    [
        3,
        "C",
        0.4
    ],
    [
        4,
        "D",
        1.13
    ],
    [
        5,
        "E",
        8.25
    ]
]


In [123]:
## convierte el string en datos
json.loads(y)

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

In [125]:
## convierte los datos en string y
## los guarda en un archivo
with open('./data.json', 'w') as f:
    json.dump(obj = df,   # datos
              fp = f)     # archivo

In [127]:
open('./data.csv', 'r').read()

'"index","name","value"\n\n1,"A",3.03\n\n2,"B",5.14\n\n3,"C",0.4\n\n4,"D",1.13\n\n5,"E",8.25\n\n'

In [141]:
## recupera los datos desde el archivo
with open('./data.json', 'r') as f:
    x = json.load(fp = f)
x

[['index', 'name', 'value'],
 [1, 'A', 3.03],
 [2, 'B', 5.14],
 [3, 'C', 0.4],
 [4, 'D', 1.13],
 [5, 'E', 8.25]]

# Ejemplo

In [278]:
## Se crea un directorio para el ejemplo.
!mkdir Datos 

A subdirectory or file Datos already exists.


In [279]:
%%writefile Datos/file1.csv
a,1,12
b,2,13
c,,'14'
0,\N,15
a,\N,'0'
e,,
0,
\N,,
,,
a,0,0
\n,\n,\n


Overwriting Datos/file1.csv


PermissionError: [Errno 13] Permission denied: 'Datos/file1.csv'

In [173]:
%%writefile Datos/file2.csv
b,1,12
a,2,13
d,,14
0,\N,15
\n
\n

e,,
,,,
K,3,\n

Writing Datos/file2.csv


In [174]:
%%writefile Datos/file3.csv
b;1;12
'a';4;13
a;3;13

'c';3;17
'a';'\n';'15'
E;2;0

Writing Datos/file3.csv


Los archivos tienen tres columnas. Los valores válidos para cada columna son los siguientes:

Columna 1: Letra en el conjunto {a, b, c, d, e} (en minúsculas).

Columna 2: Número entero.

Columna 3: Número entero.

El archivo final que se genera como resultado del proceso de ETL se debe llamar summary.csv, y es delimitado por comas. Para este archivo se aplican las siguientes reglas de negocio:

Los campos con valores nulos se indican con \N (mayúscula).

Las líneas en blanco deben ser eliminadas.

## Lectura de archivos

In [280]:
import glob

filenames = glob.glob('Datos/*.csv')
print(filenames)

['Datos\\file1.csv', 'Datos\\file2.csv', 'Datos\\file3.csv']


In [281]:
## Se crea una variable para almacenar el contenido de los archivos
text = []

## Para cada archivo en la lista de archivos
## se abre el archivo y se lee su contenido.
## La función readlines() devuelve el contenido del
## archivo como una lista de strings, donde cada
## string es una linea del archivo. Finalmente, el
## operador '+' concatena las listas.
for filename in filenames:
    with open(filename, 'rt') as f:
        text += f.readlines()

text

['a,1,12\n',
 'b,2,13\n',
 "c,,'14'\n",
 '0,\\N,15\n',
 "a,\\N,'0'\n",
 'e,,\n',
 '0,\n',
 '\\N,,\n',
 ',,\n',
 'a,0,0\n',
 '\\n,\\n,\\n\n',
 'b,1,12\n',
 'a,2,13\n',
 'd,,14\n',
 '0,\\N,15\n',
 '\\n\n',
 '\\n\n',
 '\n',
 'e,,\n',
 ',,,\n',
 'K,3,\\n\n',
 'b;1;12\n',
 "'a';4;13\n",
 'a;3;13\n',
 '\n',
 "'c';3;17\n",
 "'a';'\\n';'15'\n",
 'E;2;0\n']

In [282]:
## Note que se leyo tambien el retorno de carro '\n'.
## Se procede a eliminarlo. line[:-1] indica el
## contenido de line desde el primer caracter hasta
## el penúltimo
text = [line[:-1] for line in text]
text

['a,1,12',
 'b,2,13',
 "c,,'14'",
 '0,\\N,15',
 "a,\\N,'0'",
 'e,,',
 '0,',
 '\\N,,',
 ',,',
 'a,0,0',
 '\\n,\\n,\\n',
 'b,1,12',
 'a,2,13',
 'd,,14',
 '0,\\N,15',
 '\\n',
 '\\n',
 '',
 'e,,',
 ',,,',
 'K,3,\\n',
 'b;1;12',
 "'a';4;13",
 'a;3;13',
 '',
 "'c';3;17",
 "'a';'\\n';'15'",
 'E;2;0']

 ## Regla: Todos los registros deben tener tres (3) columnas

In [283]:
## Se separan los campos deliminados por comas
csv = [line.split(',') for line in text]

## Se imprimen las lineas que no tienen tres campos
for line in csv:
    if len(line) != 3:
        print(line)

['0', '']
['\\n']
['\\n']
['']
['', '', '', '']
['b;1;12']
["'a';4;13"]
['a;3;13']
['']
["'c';3;17"]
["'a';'\\n';'15'"]
['E;2;0']


In [284]:
## Hay archivos que están delimitados por ';'.
## Se reemplazan el ';' por ',' y se verifica nuevamente las lineas que tiene
text = [line.replace(';', ',') for line in text]

csv = [line.split(',') for line in text]
for line in csv:
    if len(line) != 3:
        print(line)

['0', '']
['\\n']
['\\n']
['']
['', '', '', '']
['']


In [285]:
## Hay lineas vacias

## Quita las lineas vacias
text = [line for line in text if line != '']

csv = [line.split(',') for line in text]
for line in csv:
    if len(line) != 3:
        print(line)

['0', '']
['\\n']
['\\n']
['', '', '', '']


In [286]:
## Se pueden eliminar lineas que no tienen tres campos

csv = [line.split(',') for line in text]
csv = [line for line in csv if len(line) == 3]
csv

[['a', '1', '12'],
 ['b', '2', '13'],
 ['c', '', "'14'"],
 ['0', '\\N', '15'],
 ['a', '\\N', "'0'"],
 ['e', '', ''],
 ['\\N', '', ''],
 ['', '', ''],
 ['a', '0', '0'],
 ['\\n', '\\n', '\\n'],
 ['b', '1', '12'],
 ['a', '2', '13'],
 ['d', '', '14'],
 ['0', '\\N', '15'],
 ['e', '', ''],
 ['K', '3', '\\n'],
 ['b', '1', '12'],
 ["'a'", '4', '13'],
 ['a', '3', '13'],
 ["'c'", '3', '17'],
 ["'a'", "'\\n'", "'15'"],
 ['E', '2', '0']]

## Los valores válidos de la columna 1 son {a, b, c, d, e} en minúsculas

In [287]:
## El primer paso es inspeccionar los valores de la columna 1 que no
## son válidos para determinar las acciones a tomar.

for line in csv:
    if line[0] not in ['a', 'b', 'c', 'd', 'e', '\\N']:
        print(line)

['0', '\\N', '15']
['', '', '']
['\\n', '\\n', '\\n']
['0', '\\N', '15']
['K', '3', '\\n']
["'a'", '4', '13']
["'c'", '3', '17']
["'a'", "'\\n'", "'15'"]
['E', '2', '0']


In [288]:
## Hay registros con letras delimitadas por comillas simples
csv = [ [line[0][1:2]] + line[1:] if len(line[0]) == 3 else line for line in csv]

## se imprimen los registros que continuan con problemas
for line in csv:
    if line[0] not in ['a', 'b', 'c', 'd', 'e', '\\N']:
        print(line)

['0', '\\N', '15']
['', '', '']
['\\n', '\\n', '\\n']
['0', '\\N', '15']
['K', '3', '\\n']
['E', '2', '0']


In [289]:
## Hay letras en mayúsculas
csv = [ [line[0].lower()] + line[1:] for line in csv]

for line in csv:
    if line[0] not in ['a', 'b', 'c', 'd', 'e', '\\N']:
        print(line)

['0', '\\N', '15']
['\\n', '', '']
['', '', '']
['\\n', '\\n', '\\n']
['0', '\\N', '15']
['k', '3', '\\n']


In [290]:
## Se toma la decisión de remplazar los valores inválidos
## en la columna 1 por \N
csv = [ ['\\N'] + line[1:] if line[0] not in ['a', 'b', 'c', 'd', 'e'] else line for line in csv]

for line in csv:
    if line[0] not in ['a', 'b', 'c', 'd', 'e', '\\N']:
        print(line)

In [291]:
## se visualilza el resultado
csv

[['a', '1', '12'],
 ['b', '2', '13'],
 ['c', '', "'14'"],
 ['\\N', '\\N', '15'],
 ['a', '\\N', "'0'"],
 ['e', '', ''],
 ['\\N', '', ''],
 ['\\N', '', ''],
 ['a', '0', '0'],
 ['\\N', '\\n', '\\n'],
 ['b', '1', '12'],
 ['a', '2', '13'],
 ['d', '', '14'],
 ['\\N', '\\N', '15'],
 ['e', '', ''],
 ['\\N', '3', '\\n'],
 ['b', '1', '12'],
 ['a', '4', '13'],
 ['a', '3', '13'],
 ['c', '3', '17'],
 ['a', "'\\n'", "'15'"],
 ['e', '2', '0']]

In [292]:
## Regla 2: los valores nulos se notan como '\N'

## Se reemplazan los '\n' por '\N'
## es mas simple procesar cada linea como un string
text = [','.join(line) for line in csv]
text = [line.replace('\\n', '\\N') for line in text]
csv = [line.split(',') for line in text]
csv

[['a', '1', '12'],
 ['b', '2', '13'],
 ['c', '', "'14'"],
 ['\\N', '\\N', '15'],
 ['a', '\\N', "'0'"],
 ['e', '', ''],
 ['\\N', '', ''],
 ['\\N', '', ''],
 ['a', '0', '0'],
 ['\\N', '\\N', '\\N'],
 ['b', '1', '12'],
 ['a', '2', '13'],
 ['d', '', '14'],
 ['\\N', '\\N', '15'],
 ['e', '', ''],
 ['\\N', '3', '\\N'],
 ['b', '1', '12'],
 ['a', '4', '13'],
 ['a', '3', '13'],
 ['c', '3', '17'],
 ['a', "'\\N'", "'15'"],
 ['e', '2', '0']]

In [293]:
## Los '' se reemplazan por '\N'
csv = [['\\N' if field == '' else field for field in line] for line in csv]
csv

[['a', '1', '12'],
 ['b', '2', '13'],
 ['c', '\\N', "'14'"],
 ['\\N', '\\N', '15'],
 ['a', '\\N', "'0'"],
 ['e', '\\N', '\\N'],
 ['\\N', '\\N', '\\N'],
 ['\\N', '\\N', '\\N'],
 ['a', '0', '0'],
 ['\\N', '\\N', '\\N'],
 ['b', '1', '12'],
 ['a', '2', '13'],
 ['d', '\\N', '14'],
 ['\\N', '\\N', '15'],
 ['e', '\\N', '\\N'],
 ['\\N', '3', '\\N'],
 ['b', '1', '12'],
 ['a', '4', '13'],
 ['a', '3', '13'],
 ['c', '3', '17'],
 ['a', "'\\N'", "'15'"],
 ['e', '2', '0']]

## Los valores de la columna 2 son enteros o nulos

In [294]:
## Se imprimen los registros con problemas
[line for line in csv if not line[1].isdigit() and line[1] != '\\N']

[['a', "'\\N'", "'15'"]]

In [295]:
## Hay nulos con comillas simples
text = [','.join(line) for line in csv]
text = [line.replace("'\\N'", '\\N') for line in text]
csv = [line.split(',') for line in text]
csv


[['a', '1', '12'],
 ['b', '2', '13'],
 ['c', '\\N', "'14'"],
 ['\\N', '\\N', '15'],
 ['a', '\\N', "'0'"],
 ['e', '\\N', '\\N'],
 ['\\N', '\\N', '\\N'],
 ['\\N', '\\N', '\\N'],
 ['a', '0', '0'],
 ['\\N', '\\N', '\\N'],
 ['b', '1', '12'],
 ['a', '2', '13'],
 ['d', '\\N', '14'],
 ['\\N', '\\N', '15'],
 ['e', '\\N', '\\N'],
 ['\\N', '3', '\\N'],
 ['b', '1', '12'],
 ['a', '4', '13'],
 ['a', '3', '13'],
 ['c', '3', '17'],
 ['a', '\\N', "'15'"],
 ['e', '2', '0']]

## Los valores de la columna 3 son enteros o nulos

In [296]:
## Se imprimen los registros con problemas
[line for line in csv if not line[2].isdigit() and line[2] != '\\N']

[['c', '\\N', "'14'"], ['a', '\\N', "'0'"], ['a', '\\N', "'15'"]]

In [297]:
csv = [line[:2] + [line[2][1:-1]] if (line[2][0] == "'" and line[2] != '\\N')  else line for line in csv ]

## Se genera el archivo de salida

In [298]:
text = [','.join(line) for line in csv]
text

['a,1,12',
 'b,2,13',
 'c,\\N,14',
 '\\N,\\N,15',
 'a,\\N,0',
 'e,\\N,\\N',
 '\\N,\\N,\\N',
 '\\N,\\N,\\N',
 'a,0,0',
 '\\N,\\N,\\N',
 'b,1,12',
 'a,2,13',
 'd,\\N,14',
 '\\N,\\N,15',
 'e,\\N,\\N',
 '\\N,3,\\N',
 'b,1,12',
 'a,4,13',
 'a,3,13',
 'c,3,17',
 'a,\\N,15',
 'e,2,0']

In [299]:
text = '\n'.join(text)

In [300]:
with open("summary.csv", "w") as f:
    f.write(text)

In [301]:
!cat summary.csv

'cat' is not recognized as an internal or external command,
operable program or batch file.


In [302]:

## limpia el directorio de trabajo
!rm -rf directory
!rm summary.csv

'rm' is not recognized as an internal or external command,
operable program or batch file.
'rm' is not recognized as an internal or external command,
operable program or batch file.
