# Arquivos e Banco de Dados (Arquivo)

In [1]:
from os.path import basename, exists
def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve
        local, _ = urlretrieve(url, filename)
        print("Downloaded " + str(local))
    return filename

In [2]:
download('https://github.com/AllenDowney/ThinkPython/raw/v3/photos.zip');

Downloaded photos.zip


In [3]:
!unzip -o photos.zip

Archive:  photos.zip
   creating: photos/
  inflating: photos/notes.txt        
   creating: photos/mar-2023/
  inflating: photos/mar-2023/photo2.jpg  
  inflating: photos/mar-2023/photo1.jpg  
   creating: photos/jan-2023/
  inflating: photos/jan-2023/photo3.jpg  
  inflating: photos/jan-2023/photo2.jpg  
  inflating: photos/jan-2023/photo1.jpg  
   creating: photos/feb-2023/
  inflating: photos/feb-2023/photo2.jpg  
  inflating: photos/feb-2023/photo1.jpg  


In [4]:
import os

In [5]:
os.getcwd()

'/home/c9af5883-4fd3-4090-b088-b74c8a86d5bc/Capitulo 13'

In [7]:
os.path.abspath('photo1.jpg')

'/home/c9af5883-4fd3-4090-b088-b74c8a86d5bc/Capitulo 13/photo1.jpg'

In [8]:
os.listdir('photos')

['feb-2023', 'jan-2023', 'mar-2023', 'notes.txt']

In [15]:
for i in os.listdir('photos'):
    print(i, "é arquivo?", os.path.isfile('photos/' + i))
    print(i, "é pasta?", os.path.isdir('photos/' + i))
    print('-'*30)

feb-2023 é arquivo? False
feb-2023 é pasta? True
------------------------------
jan-2023 é arquivo? False
jan-2023 é pasta? True
------------------------------
mar-2023 é arquivo? False
mar-2023 é pasta? True
------------------------------
notes.txt é arquivo? True
notes.txt é pasta? False
------------------------------


In [16]:
os.path.exists('photos/mar-2023')

True

In [17]:
os.path.exists('photos/notes.txt')

True

In [18]:
os.path.exists('photos/notes2.txt')

False

In [19]:
os.path.join('photos','jan-2023')

'photos/jan-2023'

In [24]:
'/'.join(['photos','jan-2023'])

'photos/jan-2023'

In [25]:
frase = "O aluno x está no curso y na faculdade z"

In [28]:
aluno = "Talita"
curso = "Python"
faculdade = "Impacta"

In [31]:
frase = "O aluno " + aluno + " está no curso "  + curso + " na faculdade " + faculdade

In [32]:
frase

'O aluno Talita está no curso Python na faculdade Impacta'

In [33]:
frase = f"O aluno {aluno} está no curso {curso} na faculdade {faculdade}"

In [34]:
frase

'O aluno Talita está no curso Python na faculdade Impacta'

In [35]:
periodo = 1.5
num_camelos = 23

In [36]:
arquivo = open('camelos_visualizados.txt','w')
arquivo.write(str(periodo))
arquivo.write(str(num_camelos))
arquivo.close()

In [37]:
arquivo = open('camelos_visualizados.txt','w')
arquivo.write(f"Total de anos visualização: {periodo}\n")
arquivo.write(f"Total camelos visualizados: {num_camelos}\n")
arquivo.close()

In [39]:
dados = open('camelos_visualizados.txt').read()
print(dados)

Total de anos visualização: 1.5
Total camelos visualizados: 23



In [41]:
lista = [1, 2, 3]
dicionario= {'fruta': 'banana'}
f"Isso é uma lista: {lista} e isso é um dicionário: {dicionario}"

"Isso é uma lista: [1, 2, 3] e isso é um dicionário: {'fruta': 'banana'}"

# YAML

In [42]:
config = {
    'photo_dir': 'photos',
    'data_dir': 'photo_info',
    'extensions': ['jpg','jpeg']
}

In [43]:
import yaml

In [44]:
nomearquivo = 'config.yaml'
escritor = open(nomearquivo,'w')
yaml.dump(config, escritor)

In [45]:
escritor.close()

In [46]:
arquivo = open(nomearquivo)
leitura_config = yaml.safe_load(arquivo)
leitura_config

{'data_dir': 'photo_info',
 'extensions': ['jpg', 'jpeg'],
 'photo_dir': 'photos'}

In [47]:
type(leitura_config)

dict

In [49]:
leitura_config['extensions']

['jpg', 'jpeg']

# Shelve

In [50]:
config['data_dir']

'photo_info'

In [51]:
os.makedirs(config['data_dir'], exist_ok=True)

In [52]:
db_arquivo = os.path.join(config['data_dir'], 'captions')
db_arquivo

'photo_info/captions'

In [53]:
import shelve

In [54]:
db = shelve.open(db_arquivo,'c')

In [55]:
db

<shelve.DbfilenameShelf at 0x7d5f96992da0>

In [56]:
db['jan-2023/photo1.jpg'] = 'Nariz de um gato'

In [57]:
chave = 'jan-2023/photo1.jpg'

In [58]:
db[chave]

'Nariz de um gato'

In [59]:
db[chave] = 'Zoom em um nariz de um gato'

In [60]:
db[chave]

'Zoom em um nariz de um gato'

In [61]:
db.keys()

KeysView(<shelve.DbfilenameShelf object at 0x7d5f96992da0>)

In [62]:
list(db.keys())

['jan-2023/photo1.jpg']

In [63]:
list(db.values())

['Zoom em um nariz de um gato']

In [65]:
list(db.items())

[('jan-2023/photo1.jpg', 'Zoom em um nariz de um gato')]

In [66]:
'jan-2023/photo1.jpg' in db

True

In [67]:
'jan-2023/photo2.jpg' in db

False

In [68]:
db.close()

# Verificando arquivos duplicados

In [8]:
arquivo1 = 'photos/jan-2023/photo1.jpg'
arquivo2 = 'photos/jan-2023/photo2.jpg'
arquivo9 = 'photos/jan-2023/photo9.jpg'

In [4]:
imagem1 = open(arquivo1, 'rb').read()
type(imagem1)

bytes

In [6]:
imagem2 = open(arquivo2, 'rb').read()
type(imagem2)

bytes

In [7]:
imagem1 == imagem2

False

In [9]:
imagem9 = open(arquivo9, 'rb').read()

In [12]:
imagem9 == imagem1

True

In [13]:
len(imagem1)

13732

In [15]:
len(imagem9)

13732

In [16]:
len(imagem2)

15077

In [17]:
import hashlib

In [18]:
md5_hash = hashlib.md5()

In [19]:
type(md5_hash)

_hashlib.HASH

In [20]:
md5_hash.hexdigest()

'd41d8cd98f00b204e9800998ecf8427e'

In [21]:
md5_hash.update(imagem1)

In [22]:
md5_hash.hexdigest()

'aa1d2fc25b7ae247b2931f5a0882fa37'

In [23]:
md5_hash.update(imagem2)

In [25]:
md5_hash.hexdigest()

'b7ba71f13590b60e97ceace3e64fb735'

In [26]:
imagem_hash = hashlib.md5()

In [28]:
imagem_hash.update(imagem9)

In [31]:
def md5_resumo(nomearquivo):
    binario = open(nomearquivo,'rb').read()
    md5_obj = hashlib.md5()
    md5_obj.update(binario)
    resumo = md5_obj.hexdigest()
    return resumo

In [33]:
md5_resumo(arquivo1)

'aa1d2fc25b7ae247b2931f5a0882fa37'

In [34]:
md5_resumo(arquivo9)

'aa1d2fc25b7ae247b2931f5a0882fa37'

In [35]:
md5_resumo(arquivo2)

'013454e5d7e34dc7c7592860ae649524'

# Diretórios ambulantes

In [36]:
def leitura(diretorio):
    for nome in os.listdir(diretorio):
        caminho = os.path.join(diretorio,nome)
        if os.path.isfile(caminho):
            print(caminho)
        elif os.path.isdir(caminho):
            leitura(caminho)
        

In [38]:
leitura('photos')

photos/feb-2023/photo2.jpg
photos/feb-2023/photo1.jpg
photos/feb-2023/.ipynb_checkpoints/photo1-checkpoint.jpg
photos/feb-2023/.ipynb_checkpoints/photo2-checkpoint.jpg
photos/jan-2023/photo2.jpg
photos/jan-2023/photo1.jpg
photos/jan-2023/photo3.jpg
photos/jan-2023/.ipynb_checkpoints/photo9-checkpoint.jpg
photos/jan-2023/.ipynb_checkpoints/photo1-checkpoint.jpg
photos/jan-2023/photo9.jpg
photos/mar-2023/photo2.jpg
photos/mar-2023/photo1.jpg
photos/notes.txt
