<h3>Automating Files and the Filesystem</h3>

<h2 style='color:gold'>Reading and Writing Files</h2>

<h4 style='color:DodgerBlue'>Working with files</h4>
<p style='color:Turquoise'>Podemos usar a função open para criar um file object qu tem metodos para ler e alterar dados dentro de um arquivo. A função recebe dois argumentos, path do arquivo e o modo ('r' read, 'w'write). O objeto tem um metodo 'read' para ler o arquivo.

In [1]:
file_path = 'projetofenix.txt'

In [2]:
open_file = open(file_path,'r')

In [3]:
text = open_file.read()

In [4]:
len(text)

859239

In [5]:
text[56]

'r'

In [6]:
open_file

<_io.TextIOWrapper name='projetofenix.txt' mode='r' encoding='UTF-8'>

In [7]:
open_file.close()

<p style='color:Turquoise'> O metodo readlines le todo o arquivo e separa cada linha em um item 

In [8]:
open_file = open(file_path,'r')

In [9]:
text = open_file.readlines()

In [10]:
len(text)

14030

In [11]:
text[100]

'Terça-feira, 2 de setembro\n'

In [12]:
open_file.close()

<p style='color:Turquoise'> Um comando conveniente é o with, com ele não precisamos escopamos o uso do arquivo e não precisamos fecha-lo apos o uso

In [13]:
with open (file_path,'r') as open_file:
    text = open_file.readlines()

In [14]:
text[1030]

'“Apenas um campo não faz sentido?”, pergunto, levantando as\n'

In [15]:
open_file.closed

True

<p style='color:Turquoise'> Todas as quebras de linha sao convertidas para \n no python. Se tentarmos abrir binaries provavelmente iremos corrompelos(tipo um jpeg ou pdf), para isso precisamos usar o modo 'b'.

In [16]:
file_path = 'projetofenix.pdf'

In [17]:
with open(file_path,'rb') as open_file:
    btext = open_file.read()

In [18]:
btext[0]

37

In [19]:
btext[:245]

b"%PDF-1.4\n%\xe2\xe3\xcf\xd3\n1 0 obj<</Author(\xfe\xff\x00G\x00e\x00n\x00e\x00 \x00K\x00i\x00m\x00 \x00&\x00 \x00K\x00e\x00v\x00i\x00n\x00 \x00B\x00e\x00h\x00r\x00 \x00&\x00 \x00G\x00e\x00o\x00r\x00g\x00e\x00 \x00S\x00p\x00a\x00f\x00f\x00o\x00r\x00d)/CreationDate(D:20211023015803+00'00')/Creator(\xfe\xff\x00c\x00a\x00l\x00i\x00b\x00r\x00e\x00 \x00\\(\x004\x00.\x009\x009\x00.\x004\x00\\)\x00 \x00[\x00h\x00t\x00t\x00p\x00s\x00:\x00/\x00/\x00c\x00a\x00l\x00i\x00b\x00r\x00e\x00-\x00e\x00b\x00o\x00o\x00k\x00.\x00"

<p style='color:Turquoise'> Podemos escrever nos arquivos com o modo 'w' write. No exemplo vamos setar um enviroment em run time, vamos criar o arquivo .envrc que vai ser usar os comandos para setar o ambiente "STAGE=PROD" e a id para "TABLE_ID=token-storage-1234"

In [20]:
text = '''export STAGE=PROD export TABLE_ID=token-storage-1234'''


In [21]:
with open('.envrc','w') as open_file:
    open_file.write(text) 

In [22]:
!cat .envrc

export STAGE=PROD export TABLE_ID=token-storage-1234

In [23]:
import subprocess
#subprocess.run(['python','tests.py'])

In [24]:
subprocess.run(['cat','.envrc'])

export STAGE=PROD export TABLE_ID=token-storage-1234

CompletedProcess(args=['cat', '.envrc'], returncode=0)

<p style='color:Turquoise'> Vamos cobrir mais a fundo pathlib (trata o objeto arquivo por debaixo dos panos) no capitulo 3, mas agora ja vamos apresentar 2 fucoes muito importantes, para ler e escrever

In [25]:
import pathlib

In [26]:
path = pathlib.Path('t.py')

In [27]:
path.read_text()

FileNotFoundError: [Errno 2] No such file or directory: 't.py'

<p style='color:Turquoise'> O metodo para usar com binarios é 'read_bytes'<br>
Para criar novos arquivos ou overwrite antigos, existem os metodos para text e binarios

In [None]:
path = pathlib.Path('configdealgo.config')

In [None]:
path.write_text('LOG:Debug')

<p style='color:Turquoise'> Para trabalharmops com JSON ou outros formatos um pouco mais complexos, usando os objetos de arquivo e metodos read, write, readlines... deixa nossa data meio suja e trabalhosa de se lidar, para simplificar muito podemos usar o modulo 'json'<br>
No exemplo vamos usar um arquivo policy AWS IAM que são em formato JSON.  

In [None]:
import json

In [None]:
with open('service-policy.json')as opened_file:
    policy = json.load(opened_file)

<p style='color:Turquoise'>usamos o modulo <b style="font-size:1.5rem">pprint</b> para parsear o json, esse metodo pprint pode deixar qualquer objeto python mais legivel

In [None]:
from pprint import pprint

In [None]:
pprint(policy)

<p style='color:Turquoise'>Para converter um python dictioary num json usamos o metodo dump do json module. É assim que atualizariamos essa policy da AWS IAM

In [None]:
with open('service-policy.json','w') as opened_file:
    policy = json.dump(policy,opened_file)

<p style='color:Turquoise'>Yaml é o superset do JSON que usa identacao para marcar os dados assim como python, 
a libraary mais utilizada para trabalharo com yaml é a <b style="font-size:1.5rem">PyYAML</b><br>
Na esta na livraria padrao do python, temos que instalar, pip install pyyaml

In [None]:
import yaml

In [None]:
with open('service-policy.json','r') as opened_file:
    verify_apache = yaml.safe_load(opened_file)

In [None]:
print(verify_apache)

<h2 style='color:gold'>Dealing with Large Files</h2>

<p style='color:Turquoise'>Quando vamos lidar com arquivos maiores precisamos fazer uso de esrategias mais performaticas, usar o garbage collector do python é uma excelente alternativa, pois nos ajuda a abrir um arquivo e utilizar linha por linha, carregando e depois jogando fora, dessa forma liberando memoria a cada linha processada

In [None]:
with open('projetofenix.txt','r') as source_file:
    with open('projetofenix_curto.txt','w') as target_file:
        for linha in source_file:
            target_file.write(linha)

<h2 style='color:gold'>Encrypting Text</h2>

<h4 style='color:DodgerBlue'>Hashing with Hashlib</h4>

In [None]:
import hashlib

In [None]:
secret = "This is the password or document text"

In [None]:
bsecret = secret.encode()

In [None]:
m = hashlib.md5()

In [None]:
m.update(bsecret)

In [None]:
m.digest()

<h4 style='color:DodgerBlue'>Encryption with Cryptography</h4>
<p style='color:Turquoise'>Muito popular o cryptography, usa uma serie de algoritimos de encription mas é simetrico, ou seja, sender e o receiver precisam ter a chave, o que se torna menos seguro. Mas é simples e rapido de usar, tornando um metodo utilizado para enviar arquivos grandes.

In [32]:
from cryptography.fernet import Fernet

In [33]:
key = Fernet.generate_key()

In [34]:
key

b'Mos96yHBUqIpYlA52kcKUEX_8hOzk0-TDXOKHovT5fM='


<p style='color:Turquoise'>Agora que tempos a chave, vamos encripta-la e de preferencia guarda em um local seguro, fazemos isso utilizando o modulo Fernet

In [45]:
#encypt key
f = Fernet(key)

In [47]:
# the data we will be moving
message = b"Secrets go here"

In [48]:
#encrypt the data, could be anything
encrypted = f.encrypt(message)

In [41]:
encrypted

b'gAAAAABl9uNq0jzlGASuk0kG5R6gIqKq8bO-Vr_RcF8jCzEmkqiBlhLHjDEtVE1ady13uVJPMA_26QumUrknnwqRqAsy_jYaAg=='


<p style='color:Turquoise'>Encriptação Asimetrica de chaves, é um metodo mais complexo e seguro onde temos, 2 chaves, uma publica e uma privada. Todos podem ter a publica, mas a privada é reservada para quem pode abrir e alterar o conteudo. RSA é a mais utilizada. 

In [49]:
from cryptography.hazmat.backends import default_backend

In [50]:
from cryptography.hazmat.primitives.asymmetric import rsa

In [51]:
private_key = rsa.generate_private_key(public_exponent=65537,
 key_size=4096,
backend=default_backend())

In [52]:
private_key

<cryptography.hazmat.bindings._rust.openssl.rsa.RSAPrivateKey at 0x7fab47bc4330>

In [53]:
public_key = private_key.public_key

In [56]:
public_key = private_key.public_key()

In [57]:
public_key

<cryptography.hazmat.bindings._rust.openssl.rsa.RSAPublicKey at 0x7fab47bc42f0>

<p style='color:Turquoise'> Usamos a chave publica para encriptar

In [58]:
#mensagem para ser encriptada
message = b"More secrets go here"

In [59]:
from cryptography.hazmat.primitives.asymmetric import padding

In [60]:
from cryptography.hazmat.primitives import hashes

In [63]:
encrypted = public_key.encrypt(message,
 padding.OAEP(mgf=padding.MGF1(algorithm=hashes.SHA256()),
 algorithm=hashes.SHA256(),
 label=None))

In [64]:
encrypted

b"~3E\xf2\x1dx\\\x15G\xb5\x8bJX\xbc \xe8\xb6\xaci\x89\xee^\x84\xa2M\xe1\x9fD\xb9\xa6\x12d\x0b(r9\xea\xd1\xd8\xa1\xbe1\xa2\x87\x01\xd1Nr\xe6\xb8\x81&\x89\xda\xb7\xdb\xa8\x11\xe8\x9dL\xafphq\x02\x17\x0c\xfb8?kd\t&o\x98\x97\xb0\xbf\t4Fj\xd0\xab\xf0\xd3\xfe \xa7\xd8P\xf3\x0e\x92\xb1\xab\xd8\x7fQx\xb2\xdb\x17\x1c\xd5\xfdTr\x9fy\xae\xf6 \xe8~0\xf5m\xfdTwtz<\xd3\x81\xaa\xde>\xc9\xd8(\x85R\x10o\x99\xbeJ\x85\xfbZ\x1e\xd6\xa7=n\x7f8\x01\xf9\x99\xcd\x908\xf97\x9c\xc3\x8c7\xa8s\x8d\x80f\x82\xcf\xd7#\xa9\xeb\x11/8kL\xe0 \x91\x12\xe8\x89\x89\x0b\xc5\x08\xe0\xb84\xc7\xdbE\x1f\xc8\x00\xd7\xc1lC\x88\xc5\xca\x9e\x11H>\xc2N\xd9\xbcOf\x96\x0f`-\xb5w\xc4$\x884\x06\x17r\xd4I\xf3\x9f\xc4\xae\xab%\xad\xc3\xb5\x95\xabI\x0e&\x03h\xcb\x8c\xbf\xa4n\xbb/\xc32\x9d?\xfbc\xc4\xea\xe5t\xab\xac\x02Q\x8d#\xb9\xa0\xf7N\x1e\xefpF\xbd\xaf\x89\xfc\xf6\x10fK\xfb\xa1\xf6]K,,\x92\xf0rc\xday\xb8\x04\xe2\xd2\xc3\xcdo\xce\xe30\x0b{\x15\x06\xd6\x8f?\x1e^c\x98\xd2\x0e\xbaGQC\x7fn\xbbK\xfb\xae\xf1z\x93o\x9c\x0er\xa5'\xe9<\xcd\xda\xb

<p style='color:Turquoise'> Usamos a chave privada para desencriptar

In [65]:
decrypted = private_key.decrypt(encrypted,
 padding.OAEP(mgf=padding.MGF1(algorithm=hashes.SHA256()),
 algorithm=hashes.SHA256(),
 label=None))

In [66]:
decrypted

b'More secrets go here'

<h2 style='color:gold'>The os Module</h2>
<p style='color:Turquoise'> O modulo OS lida com comandos low-level, que funcionam em windows e linux, porem temos que tomar cuidado com alguns comandos que podem ser diferentes dependendo do OS que a aplicação ira correr. <br>
<b>Abaixo veremos os comandos mais utilizados/importantes do modulo 'ol'

In [72]:
import os

In [79]:
os.listdir('.')

['projetofenix.pdf',
 'O_Projeto_Fenix_-_Edicao_Comemorativa_-_Gene-Kim.pdf:Zone.Identifier',
 '.envrc_backup',
 'what-devops.txt',
 'projetofenix_curto.txt',
 'verify-apache.yml',
 '.ipynb_checkpoints',
 'tests.py',
 'configdealgo.config',
 'nomemuda',
 '.envrc',
 'Automating Files and the Filesystem.ipynb',
 'service-policy.json',
 'projetofenix.txt']

In [80]:
os.rename('nomemuda','mudanome')

In [81]:
os.chmod('mudanome', 0o777)

In [82]:
os.mkdir('/tmp/holding')

In [84]:
os.makedirs('/home/andre/test')

In [86]:
os.remove('/home/andre/test/algum')

In [87]:
os.rmdir('/home/andre/test')

In [None]:
os.removedirs('/tmp/scripts/test/devops')

In [88]:
os.stat('projetofenix_curto.txt')

os.stat_result(st_mode=33188, st_ino=10278, st_dev=2080, st_nlink=1, st_uid=1000, st_gid=1000, st_size=893092, st_atime=1710674118, st_mtime=1710550702, st_ctime=1710550702)

<h2 style='color:gold'>Managing Files and Directories Using os.path</h2>
<p style='color:Turquoise'> O os.path é um submodulo que nos facilita trabalhar com paths, as 3 funcionalidades mais utilizadas são para cortar e colar pedaços de um path, os tres methodos do submodulo o.path que nos permitem fazer isso são; split, basename e dirname

In [89]:
cur_dir = os.getcwd()

In [91]:
cur_dir

'/home/andre/devops/courses/python-for-devops-book/02-automating-files'

In [92]:
os.path.split(cur_dir)

('/home/andre/devops/courses/python-for-devops-book', '02-automating-files')

In [95]:
os.path.dirname(cur_dir)

'/home/andre/devops/courses/python-for-devops-book'

In [96]:
os.path.basename(cur_dir)

'02-automating-files'

In [98]:
while os.path.basename(cur_dir):
    cur_dir = os.path.dirname(cur_dir)
    print(cur_dir)

/home/andre/devops/courses/python-for-devops-book
/home/andre/devops/courses
/home/andre/devops
/home/andre
/home
/


<p style='color:Turquoise'> Configurar com arquivos de texto nosso ambiente, programa, infra no runtime é pratica comum. Para isso procuramos por esses arquivos em multiplas localidades e ordenamos os locais onde será procurado primeiro por esses arquivos de configuração. Python não funciona como sistemas Unix, pois não expande os paths automaticamente, precisamos faze-lo manualmente.

In [101]:
import os

def find_rc(rc_name=".examplerc"):
    # Check for Env variable
    var_name = "EXAMPLERC_DIR"
    if var_name in os.environ:
        var_path = os.path.join(f"${var_name}", rc_name)
        config_path = os.path.expandvars(var_path)
        print(f"Checking {config_path}")
    if os.path.exists(config_path):
        return config_path
        # Check the current working directory
    config_path = os.path.join(os.getcwd(), rc_name)
    print(f"Checking {config_path}")

    if os.path.exists(config_path):
        return config_path
    
    # Check user home directory
    home_dir = os.path.expanduser("~/")
    config_path = os.path.join(home_dir, rc_name)
    print(f"Checking {config_path}")

    if os.path.exists(config_path):
        return config_path
    
    # Check Directory of This File
    file_path = os.path.abspath(__file__)
    parent_path = os.path.dirname(file_path)
    config_path = os.path.join(parent_path, rc_name)
    print(f"Checking {config_path}")
    if os.path.exists(config_path):
       return config_path
    
    print(f"File {rc_name} has not been found")

<p style='color:Turquoise'> O submodulo 'path' tambem oferece metodos para obter informção do path, como se é um arquivo, diretorio ou um mount, tambem podemos ver ultimo acesso, modificcaos, tamanho do arquivo...<br>
O exemplo abaixo anda todos os andares da tree de dirs, e retorna os files com seus tamanhos

In [None]:
#!/usr/bin/env python
import fire
import os
def walk_path(parent_path):
    
    print(f"Checking: {parent_path}")
    childs = os.listdir(parent_path)
    
    for child in childs:
        child_path = os.path.join(parent_path, child)
    
    if os.path.isfile(child_path):
        last_access = os.path.getatime(child_path)
        size = os.path.getsize(child_path)
        print(f"File: {child_path}")
        print(f"\tlast accessed: {last_access}")
        print(f"\tsize: {size}")    
    elif os.path.isdir(child_path):
        walk_path(child_path)
    
    if __name__ == '__main__':
        fire.Fire()

<p style='color:Turquoise'> Exemplos do uso de scripts assim são; identificarmos arquivos muito grandes que devem ser movidos, arquivos que nunca foram acessados, arquivos que nao sao acessado a muito tempo e talvez devessem ser deletados

<h2 style='color:gold'>Walking Directory Trees Using os.walk</h2>
<p style='color:Turquoise'> O os.path é um submodulo que nos facilita trabalhar com paths, 
as 3 funcionalidades mais utilizadas são para cortar e colar pedaços de um path, os tres methodos do submodulo o.path que nos permitem fazer isso são; split, basename e dirname

In [104]:
import os

def walk_path(parent_path):
    for parent_path, directories, files in os.walk(parent_path):
        print(f"Checking: {parent_path}")
    for file_name in files:
        file_path = os.path.join(parent_path, file_name)
    last_access = os.path.getatime(file_path)
    size = os.path.getsize(file_path)
    print(f"File: {file_path}")
    print(f"\tlast accessed: {last_access}")
    print(f"\tsize: {size}")


walk_path('/home/andre/devops/courses/python-for-devops-book/02-automating-files')

Checking: /home/andre/devops/courses/python-for-devops-book/02-automating-files
Checking: /home/andre/devops/courses/python-for-devops-book/02-automating-files/.ipynb_checkpoints
File: /home/andre/devops/courses/python-for-devops-book/02-automating-files/.ipynb_checkpoints/bookofdreams-checkpoint.txt
	last accessed: 1710418975.572891
	size: 18434


<h2 style='color:gold'>Paths as Objects with Pathlib</h2>
<p style='color:Turquoise'>A library pathlib, representa paths como objetos ao inves de strings como o 'path'

In [None]:

import os
import pathlib

def find_rc(rc_name=".examplerc"):
    # Check for Env variable
    var_name = "EXAMPLERC_DIR"
    example_dir = os.environ.get(var_name)
    if example_dir:
        dir_path = pathlib.Path(example_dir)
    
    config_path = dir_path / rc_name
    print(f"Checking {config_path}")
    
    if config_path.exists():
        return config_path.as_postix()
    # Check the current working directory
    config_path = pathlib.Path.cwd() / rc_name
    print(f"Checking {config_path}")
    if config_path.exists():
        return config_path.as_postix()
    # Check user home directory
    config_path = pathlib.Path.home() / rc_name
    print(f"Checking {config_path}")
    if config_path.exists():
        return config_path.as_postix()
    # Check Directory of This File
    file_path = pathlib.Path(__file__).resolve()
    parent_path = file_path.parent
    config_path = parent_path / rc_name
    print(f"Checking {config_path}")
    if config_path.exists():
        return config_path.as_postix()

<p style='color:Turquoise'>