# Resumen - Archivos y directorios con Python

Esta sección toma información de:

* `https://docs.python.org/es/3.8/library/pathlib.html`
* `https://docs.python.org/es/3.8/tutorial/inputoutput.html#reading-and-writing-files`

## 1.- Creación y lectura de Archivos

Con la función [open()](https://docs.python.org/es/3.8/library/functions.html#open) corresponde a una de las [Funciones Built-in](https://docs.python.org/es/3.8/library/functions.html) de Python (funciones y tipos que siempre están disponibles en el lenguaje), podemos crear un archivo. La opción `'w'` significa *abierto para escritura*.

Por su parte, con el método [write()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects) podemos sobreescribir el archivo:

In [1]:
file = 'workfile.txt'

string = '''Mi primera cadena
Para escribir mi primer documento con Python
'''
f = open(file, 'w')
f.write(string)
f.close()

### 1.1 Métodos de los objetos Archivo

(Ver: `https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects`)

Algunos metodos ya los hemos visto, como [open()](https://docs.python.org/es/3.8/library/functions.html#open) y [write()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects). Pero podemos encontrar otros como:

* `f.read()`
* `f.readline()`
* `list(f)` o `f.readlines()`
* `f.tell()`
* `f.seek(offset, whence)`

#### 1.1.1 Leyendo archivos con [read()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects)

Ahora, para leer el archivo puedo apelar de nuevo a [open()](https://docs.python.org/es/3.8/library/functions.html#open) en su opción `r`, para luego leer en contenido con [read()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects).

In [2]:
f = open(file, 'r')
lectura = f.read()
f.close()
print(lectura)

Mi primera cadena
Para escribir mi primer documento con Python



#### 1.1.2 Leyendo línea por línea con [readline()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects)

Apliquemos el método [readline()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects)

In [3]:
f = open(file, 'r')
lectura1 = f.readline()
lectura2 = f.readline()
f.close()

In [4]:
lectura1

'Mi primera cadena\n'

In [5]:
lectura2

'Para escribir mi primer documento con Python\n'

Pero quizá es más óptimo almacenar las líneas del archivo en una lista:

In [6]:
f = open(file, 'r')
for line in f:
    print(line, end='')
f.close()

Mi primera cadena
Para escribir mi primer documento con Python


#### 1.1.3 Separando líneas mediante [readlines()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects)

Aun que ya hay métodos diseñados que aligeran ese trabajo como [readlines()](https://docs.python.org/es/3.8/tutorial/inputoutput.html#methods-of-file-objects)

In [7]:
f = open(file, 'r')
Lista = f.readlines()
f.close()
print(Lista[1])

Para escribir mi primer documento con Python



> Nota: Más información de `open()` y sus opciones en: `https://docs.python.org/es/3.8/library/functions.html#open`

Naturalmente se puede obtener el número de líneas de un archivo

In [8]:
f = open(file, 'r')
print(len(f.readlines()))
f.close()

2


Así como obtener también el número de caracteres:

In [9]:
f = open(file, 'r')
print(len(f.read()))
f.close()

63


Con lo mostrado hasta el momento, el contenido de los archivos se reserva a dos tipos de datos: cadenas de caracteres y listas. De modo que se pueden aplicar todos los métodos asociados a estos tipos de datos. Se recomienda leer el apartado: [Métodos de cadena](https://docs.python.org/3.8/library/stdtypes.html#string-methods) de la documentacion sobre la Biblioteca Estándar de Python.

### 1.2 Métodos de cadenas aplicada a manipulación de archivos

#### 1.2.1 Contando las palabras del archivo con [split()](https://docs.python.org/es/3.8/library/stdtypes.html#str.split)

> `str.split(sep=None, maxsplit=-1)`

Retorna una lista con las palabras que componen la cadena de caracteres original.

In [10]:
f = open(file, 'r')
palabras = f.read().split()
f.close()
len(palabras)

10

#### 1.2.2 Separando líneas mediante [splitlines()](https://docs.python.org/es/3.8/library/stdtypes.html#str.splitlines)

> `str.splitlines([keepends])`

Retorna una lista con las líneas en la cadena, dividiendo por los saltos de línea

In [11]:
f = open(file, 'r')
texto = f.read()
f.close()

print(texto.splitlines())

['Mi primera cadena', 'Para escribir mi primer documento con Python']


#### 1.2.3 Buscar subcadenas dentro del contenido de un archivos con [find()](https://docs.python.org/es/3.8/library/stdtypes.html#str.find)

> `str.find(sub[, start[, end]])`

Retornan el menor índice de la cadena donde se puede encontrar la subcadena. El conteo comienza en 0.

In [12]:
f = open(file, 'r')
texto = f.read()
f.close()

print(texto)
print(texto.find("documento"))

Mi primera cadena
Para escribir mi primer documento con Python

42


> Nota: Por otro lado [rfind()](https://docs.python.org/es/3.8/library/stdtypes.html#str.rfind) retorna el mayor índice dentro de la cadena donde se puede encontrar la cadena sub

El siguiente código comprueba que la palabra "documento" efectivamente se encuentra en la posición 42 del conteo efectuado por el método find sobre el texto completo del archivo inspeccionado.

In [13]:
f = open(file, 'r')
print(f.read()[42:42 + len("documento")])
f.close()

documento


También hay otras alternativas mas sencillas pero un poco más limitadas como la siguiente:

In [14]:
f = open(file, 'r')
text = f.read()
f.close()

"documento" in texto

True

Sobre esta base naturalmente se puede desarrollar un código que busque de manera iterativa el número completo de ocurrencias de una palabra dentro del texto. Pero eso es un ejercicio que dejaremos para el lector.

#### 1.2.4 Reemplazando subcadenas con [replace()](https://docs.python.org/es/3.8/library/stdtypes.html#str.replace)

> `str.replace(old, new[, count])`

Retorna una copia de la cadena con todas las ocurrencias de la cadena *old* sustituidas por *new*. Si se utiliza el parámetro *count*, solo se cambian las primeras *count* ocurrencias.

In [15]:
subcadenas = ['documento', 'archivo']
old = subcadenas[1]
new = subcadenas[0]

f = open(file, 'r')
text = f.read()
f.close()

nuevo_texto = texto.replace(old, new)

f = open(file, 'w')
text = f.write(nuevo_texto)
f.close()

f = open(file, 'r')
text = f.read()
f.close()

print(text)

Mi primera cadena
Para escribir mi primer documento con Python



## 2.- Directorios y Archivos con la líbrería [os](https://docs.python.org/es/3.8/library/os.html#module-os)

In [16]:
import os

In [17]:
os.getcwd()

'c:\\JupyterNotebook\\Curso de Python - Notas\\Acceso a archivos y directorios'

In [18]:
os.listdir('.')

['0. Acceso a archivos y directorios.ipynb',
 '1. pathlib — Object-oriented filesystem paths.ipynb',
 '10. shutil — Operaciones de archivos de alto nivel.ipynb',
 '2. os.path — Manipulaciones comunes de nombre de ruta.ipynb',
 '3. fileinput — Iterar sobre líneas de múltiples flujos de entrada.ipynb',
 '4. stat — Interpretación de los resultados de stat().ipynb',
 '5. filecmp— Comparaciones de Archivo y Directorio.ipynb',
 '6. tempfile — Generar archivos y directorios temporales.ipynb',
 '7. glob — Expansión del patrón de nombres de ruta de estilo Unix.ipynb',
 '8. fnmatch — Coincidencia de patrones de nombre de archivos Unix.ipynb',
 '9. linecache — Acceso aleatorio a líneas de texto.ipynb',
 'carpeta de prueba',
 'Practicas.ipynb',
 'Resumen - Archivos y directorios.ipynb',
 'src',
 'test.py',
 'test.txt',
 'workfile.txt']

In [19]:
directorio = 'c:\\JupyterNotebook'
os.listdir(directorio)

['.ipynb_checkpoints',
 'Curso de Python - Notas',
 'Curso de Python - Notas.zip',
 'Primera carpeta de Pruebas con Jupyter',
 'Untitled.ipynb']

In [20]:
os.chdir(directorio)
os.getcwd()

'c:\\JupyterNotebook'

In [21]:
os.listdir()

['.ipynb_checkpoints',
 'Curso de Python - Notas',
 'Curso de Python - Notas.zip',
 'Primera carpeta de Pruebas con Jupyter',
 'Untitled.ipynb']

In [22]:
directorio_0 = 'C:\\JupyterNotebook\\Curso de Python - Notas\\Acceso a archivos y directorios'
os.chdir(directorio_0)
os.getcwd()

'C:\\JupyterNotebook\\Curso de Python - Notas\\Acceso a archivos y directorios'

In [34]:
carpeta_0 = 'carpeta de prueba'
subcarpeta_0 = 'sub carpeta 1'
archivo_0 = 'text.txt'

arbol = carpeta_0 + '\\' + subcarpeta_0

os.makedirs(arbol)

file = open(arbol + '\\' + archivo_0, 'w')
file.close()

In [None]:
old = arbol + '\\' + 'text.txt'
new = arbol + '\\' + 'test.txt'
os.rename(old, new)

In [36]:
os.remove(arbol + '\\' + archivo_0)

In [37]:
os.removedirs(arbol)

Es posible obtener los archivos de un directorio cuyo nombre contengan una determinada cadena:

In [66]:
Listado = os.listdir()
Listado1 = []
for x in Listado:
    if x.find('py') > 0:
        Listado1.append(x)
        print(x)

0. Acceso a archivos y directorios.ipynb
1. pathlib — Object-oriented filesystem paths.ipynb
10. shutil — Operaciones de archivos de alto nivel.ipynb
2. os.path — Manipulaciones comunes de nombre de ruta.ipynb
3. fileinput — Iterar sobre líneas de múltiples flujos de entrada.ipynb
4. stat — Interpretación de los resultados de stat().ipynb
5. filecmp— Comparaciones de Archivo y Directorio.ipynb
6. tempfile — Generar archivos y directorios temporales.ipynb
7. glob — Expansión del patrón de nombres de ruta de estilo Unix.ipynb
8. fnmatch — Coincidencia de patrones de nombre de archivos Unix.ipynb
9. linecache — Acceso aleatorio a líneas de texto.ipynb
Practicas.ipynb
Resumen - Archivos y directorios.ipynb
test.py


Pero quizá resulten convenientes los algoritmos de otras librerías como Pathlib, desarrollados para hacer eficientes estas tareas.

In [74]:
from pathlib import Path
Listado2 = list(Path('.').glob('*py*')) # list() es una funcion Build-in
Listado2

[WindowsPath('0. Acceso a archivos y directorios.ipynb'),
 WindowsPath('1. pathlib — Object-oriented filesystem paths.ipynb'),
 WindowsPath('10. shutil — Operaciones de archivos de alto nivel.ipynb'),
 WindowsPath('2. os.path — Manipulaciones comunes de nombre de ruta.ipynb'),
 WindowsPath('3. fileinput — Iterar sobre líneas de múltiples flujos de entrada.ipynb'),
 WindowsPath('4. stat — Interpretación de los resultados de stat().ipynb'),
 WindowsPath('5. filecmp— Comparaciones de Archivo y Directorio.ipynb'),
 WindowsPath('6. tempfile — Generar archivos y directorios temporales.ipynb'),
 WindowsPath('7. glob — Expansión del patrón de nombres de ruta de estilo Unix.ipynb'),
 WindowsPath('8. fnmatch — Coincidencia de patrones de nombre de archivos Unix.ipynb'),
 WindowsPath('9. linecache — Acceso aleatorio a líneas de texto.ipynb'),
 WindowsPath('Practicas.ipynb'),
 WindowsPath('Resumen - Archivos y directorios.ipynb'),
 WindowsPath('test.py')]

In [4]:
from filecmp import dircmp

dir1 = r'C:\Users\Hector Martinez\Downloads\Telegram Desktop\Edilis Espinoza 18367802 (updated 20221005)\20220905\Estudios\IMG_20220908_145302.jpg'
dir2 = r'C:\Users\Hector Martinez\Documents\Edilis Espinoza 18367802 (update 20221003)\20220905\Estudios\IMG_20220908_145302.jpg'


def print_diff_files(dcmp):
    for name in dcmp.diff_files:
        print("diff_file %s found in %s and %s" % (name, dcmp.left,
              dcmp.right))
    for sub_dcmp in dcmp.subdirs.values():
        print_diff_files(sub_dcmp)

dcmp = dircmp(dir1, dir2)
print_diff_files(dcmp) 