# Importando bibliotecas

Uma das grandes vantagens de Python é a extensa comunidade presente, que cria e mantém pacotes e bibliotecas para as mais variadas funções. Neste capítulo, aprenderemos como importar bibliotecas e exploraremos algumas bibliotecas embutidas. Para mais detalhes sobre importação, [veja a documentação oficial](https://docs.python.org/3/reference/import.html). Por trás dos panos, a operação de importação é bastante complexa, mas a interface para fazer tarefas simples é simples também.

Primeiro, vamos esclarecer alguns termos:

* módulo: um módulo contém objetos de Python, que é acessada pelo processo de importação. Uma analogia é considerar um módulo como um arquivo.
* pacote: é um módulo que contém submódulos e subpacotes. Serve para organizar os módulos. Uma analogia é considerar um pacote como uma pasta, que pode conter outras pastas (subpacotes) e arquivos (submódulos).
* importar: processo em que um módulo ganha acesso a código em outro módulo
* biblioteca: um termo menos preciso, e significa em essência um conjunto de módulos, como a biblioteca padrão (*standard library* - que chamei de bibliotecas embutidas).

Para importar um pacote, utilize a sintaxe: 

```python
import pacote
```

Como primeiro exemplo, vamos importar e descrever brevemente o pacote `os`.

In [19]:
import os

## Pacote `os`

[Link da documentação](https://docs.python.org/3/library/os.html)

O pacote `os` contém funções para interagir com o sistema operacional de maneira independente da plataforma. Por exemplo, Windows e Linux utilizam comandos diferentes para gerar arquivos, mudar de pastas, mas podemos abstrair isso utilizando as funções em `os`. Primeiro, vamos explorar como gerar algumas pastas.

### O conceito de *current working directory*

Podemos utilizar comandos para manipulação de pastas ou arquivos com caminhos absolutos ou relativos.

Note aqui que estamos presumindo o local em que as pastas serão geradas, que é o *current working directory* ou *CWD*. Essa variável pode ser obtida pelo comando `os.getcwd()`. Geralmente, essa é a pasta onde você executou o comando `python ...` ou, no caso do Jupyter Lab, a pasta onde o arquivo `.ipynb` se localiza. Vamos supor a seguinte estrutura:

```
--- raiz
      |
      +--pasta1
           |
           +--arquivo.py
```


Suponha que você quer rodar o arquivo `arquivo.py`. Se você abrir o terminal na `raiz`, poderá trocar para `pasta1` com `cd pasta1` e depois rodar `python ./arquivo.py` ou executar diretamente `python ./pasta1/arquivo.py`. No primeiro caso, *cwd* será `raiz/pasta1/` e no segundo caso será `raiz/`.

### Manipulação de pastas

`os.mkdir(caminho)` é utilizado para criar uma pasta especificada pelo caminho no argumento. Suponha que você queira criar esta estrutura com uma pasta aninhada na outra, e seu *cwd* é `raiz/`

```
--- raiz
      |
      +--pasta1
           |
           +--pasta2
```

Para isso, precisaremos do comando `os.mkdir('pasta1')` seguido de `os.mkdir('pasta1/pasta2')`. Isso é inconveniente se quisermos fazer estruturas mais complexas, pois muitos caminhos serão repetidos. Podemos então trocar o *cwd* com `os.chdir('pasta1')` e depois criar a segunda pasta com `os.mkdir('pasta2')`. Você pode voltar à pasta original com `os.chdir('..')` ou armazenar o *cwd* original em uma variável e retornar à ela depois de tudo.

Se você tentar criar `pasta2` diretamente, como `pasta1` não existe, `FileNotFoundError` será lançado. Caso você tente rodar novamente o domando, é possível que a pasta já exista e um erro `FileExistsError` será lançado.

Alternativamente, o comando `os.mkdirs(caminho)` é utilizado para criar uma pasta e todas as pastas necessárias para atingir. O argumento opcional `exist_ok`, por padrão `False`, evita que um erro seja lançado se alguma pasta já existir. Logo, o comando anterior se torna `os.mkdir('./pasta1/pasta2', exist_ok=True)`, e não precisamos 

Em paralelo a `os.mkdirs` e `os.mkdir`, temos `os.rmdirs` e `os.rmdir`, que removem pastas. 

Para renomear uma pasta, existe o comando `os.rename(origem, destino)`, que irá falhar se a pasta de destino já existir. Caso queira substituir, pode utiliar `os.replace(origem, destino)`. Estas funções também funcionam com arquivos.

### Manipulações de caminhos

Outra tarefa recorrente é a manipulação de caminhos. Utilizar manipulação de strings pode parecer tentador, mas é uma receita para frustração, especialmente se você deseja que seu programa seja utilizado em mais de um sistema operacional. O submódulo [`os.path`](https://docs.python.org/3/library/os.path.html) possui ferramentas para auxiliar nisso. O mais recomendado hoje em dia é utilizar o pacote `pathlib`, que exploraremos [em breve](sec:pathlib).

Aqui vão algumas funções úteis:

* `os.path.abspath` retorna o caminho absoluto dado um caminho relativo.
* `os.path.relpath` retorna um caminho relativo, referente ao *cwd*, dado um caminho absoluto.
* `os.path.basename` retorna o nome na base do caminho. Se for uma pasta, retorna o nome da pasta, se for um arquivo, retorna o nome do arquivo. Por exemplo, `os.path.basename(os.path.abspath('./Importando bibliotecas.ipynb'))` resulta em `'Importando bibliotecas.ipynb'`.
* `os.path.dirname` retorna o nome de todos os diretórios no caminho até o caminho da pasta ou arquivo fornecido.
* `os.path.exists`, `os.path.isfile` e `os.path.isdir` retornam `True` se o caminho fornecido é uma pasta ou arquivo existente, com diferenças óbvias pelo nome.
* `os.path.join` junta duas ou mais caminhos de maneira "inteligente", obedecendo o separador de pastas do sistema, em ordem. Não checa se o caminho final é válido, e não checa se você tentar "colocar" um arquivo dentro do outro.
* `os.path.split` retorna duas strings, a segunda sendo a última parte do caminho e a primeira sendo o resto, à esquerda. Se o caminho fornecido termina com uma barra, a segunda parte é uma string vazia.

### Percorrendo diretórios e pastas

Iterar sobre o conteúdo de pastas é algo relativamente comum. Por exemplo, você pode querer encontrar todos os arquivos `.csv` de uma pasta para tratá-los. Para isso, as funções `os.walk` e `os.scandir` podem ser utilizadas. `os.walk(caminho)` recebe um caminho e cria um gerador que fornece uma tupla com o caminho até a pasta, o nome das pastas dentro da pasta atual e o nome dos arquivos na pasta atual. `os.scandir` age de maneira um pouco diferente. Ele gera um iterador que retorna objetos `DirEntry`. Esses objetos contém informações sobre se algo é uma pasta ou um arquivo, e o *stats* do arquivo.

Isso ainda é um tanto laborioso. Para métodos melhores de se percorrer diretórios e encontrar arquivos, podemos utilizar o módulo [`glob`](sec:glob).

(sec:glob)=
## `glob`

[Link da documentação](https://docs.python.org/3/library/glob.html)

*glob*, que significa *global*, foi um programa criado há décadas para encontrar arquivos com base num padrão. A especificação desse padrão é bastante simples, e é capaz que você já tenha utilizado algo similar em sua vida. Os padrões são compostos por letras e números, e símbolos. As letras e números serão comparadas exatamente com os caminhos, e os símbolos são utilizados para generalizar um padrão. Os três símbolos são:

* `*`, significa "qualquer caracter, qualquer número de vezes. É de longe o símbolo mais frequentemente utilizado.
* `?`, significa "qualquer caracter, 1 vez.
* `[abc...]` significa qualquer caracter dentro dos colchetes, 1 vez.
* `[a-z]` significa qualquer caracter dentro da faixa de caracteres. `a-z` significa "todos os caracteres entre 'a' e 'z' minúsculos", `0-9` significa "todos os caracteres numéricos.

Além disso, você pode procurar por arquivos recursivamente utilizando o seguinte padrão: `**/`. Em Python, também é necessário utilizar o argumento `recursive=True` para procurar em subpastas.

Exemplos:

* `*.csv` irá corresponder a todos os arquivos que terminam com '.csv'.
* `exercício*.csv` irá corresponder a todos os arquivos que começam com 'exercício', terminam com '.csv' e possuem qualquer texto no interior. Então 'exercício1.csv' e 'exercício-treinamento-teste.csv' ambos correspondem à esse padrão.
* `.csv` irá corresponder somente ao arquivo cujo nome é '.csv', nada mais e nada menos.

Note que um arquivo pode ter duas extensões, como 'abc.tar.gz'. Se você quiser todos os arquivos 'tar', terá que utilizar `*.tar*`, mas isso poderá corresponder a, por exemplo, 'abc.tart' também.

Dentro do módulo `glob`, temos três funções. `glob`, `iglob` e `escape`. `glob` retorna uma lista com os caminhos dos arquivos, `iglob` retorna um iterador, portanto não avalia tudo de uma vez, e `escape` é utilizado para escapar símbolos que o *glob* utiliza e que podem existir em nomes de arquivos. Porém, é um pouco inconveniente ficar digitando `glob.glob` o tempo todo, e parece redundante. Por isso existe uma maneira de importar uma coisa específica de um pacote.

```python
from (pacote) import (objeto)
```

In [62]:
from glob import glob
exercícios = glob('../Capítulo05/dados/*.csv')
exercícios

['../Capítulo05/dados\\exercício1.csv', '../Capítulo05/dados\\exercício2.csv']

In [77]:
todos_py = glob('../**/*.py', recursive=True)
todos_py

['..\\Capítulo01\\Soluções dos exercícios\\complex_mod.py',
 '..\\Capítulo01\\Soluções dos exercícios\\pint.py',
 '..\\Capítulo02\\Soluções de exercícios\\prop_sympy.py',
 '..\\Capítulo02\\Soluções de exercícios\\prop_uncertainties.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\problema_gas_ideal.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\QuestionGenerator.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\test_gas_ideal.py',
 '..\\Capítulo04\\Soluções de exercícios\\convert_dict.py',
 '..\\Capítulo04\\Soluções de exercícios\\convert_pint.py',
 '..\\Capítulo05\\dados\\gerar_csv.py',
 '..\\Capítulo05\\Soluções de exercícios\\contagem_palavras.py',
 '..\\Capítulo05\\Soluções de exercícios\\criar_exceções.py',
 '..\\Capítulo05\\Soluções de exercícios\\ler_csv1.py',
 '..\\Capítulo05\\Soluções de exercícios\\ler_csv2.py',
 '..\\Capítulo05\\Soluções de exercícios\\molar_mass_calculator.py',
 '..\\Capítulo05\\Soluções de exercícios\\molar_mass_calculator2.py',
 '..\

(sec:pathlib)=
## `pathlib`

In [30]:
help(os.scandir)

Help on built-in function scandir in module nt:

scandir(path=None)
    Return an iterator of DirEntry objects for given path.
    
    path can be specified as either str, bytes, or a path-like object.  If path
    is bytes, the names of yielded DirEntry objects will also be bytes; in
    all other circumstances they will be str.
    
    If path is None, uses the path='.'.



In [43]:
it = os.scandir('..')
for i in range(100):
    print(i, next(it))

0 <DirEntry '.ipynb_checkpoints'>
1 <DirEntry 'Capítulo00'>
2 <DirEntry 'Capítulo01'>
3 <DirEntry 'Capítulo02'>
4 <DirEntry 'Capítulo03'>
5 <DirEntry 'Capítulo04'>
6 <DirEntry 'Capítulo05'>
7 <DirEntry 'Capítulo06'>
8 <DirEntry 'Capítulo07'>
9 <DirEntry 'Capítulo08'>
10 <DirEntry 'Capítulo09'>
11 <DirEntry 'Capítulo10'>
12 <DirEntry 'Capítulo11'>
13 <DirEntry 'Consolidação.txt'>
14 <DirEntry 'dados-1'>
15 <DirEntry 'dados-2'>
16 <DirEntry 'imagens'>
17 <DirEntry 'intro.md'>
18 <DirEntry 'Petrobras'>
19 <DirEntry 'references.bib'>
20 <DirEntry 'regex.txt'>
21 <DirEntry 'respostas'>
22 <DirEntry 'snippets'>
23 <DirEntry 'turtle.ipynb'>
24 <DirEntry '_build'>
25 <DirEntry '_config.yml'>
26 <DirEntry '_toc.yml'>


StopIteration: 

In [35]:
a = next(it)

In [42]:
a.inode()

7881299348973247

In [29]:
for i, (dirpath, dirname, filename) in enumerate(os.walk('..')):
    print(i, dirpath, dirname, filename)

0 .. ['.ipynb_checkpoints', 'Capítulo00', 'Capítulo01', 'Capítulo02', 'Capítulo03', 'Capítulo04', 'Capítulo05', 'Capítulo06', 'Capítulo07', 'Capítulo08', 'Capítulo09', 'Capítulo10', 'Capítulo11', 'dados-1', 'dados-2', 'imagens', 'Petrobras', 'respostas', 'snippets', '_build'] ['Consolidação.txt', 'intro.md', 'references.bib', 'regex.txt', 'turtle.ipynb', '_config.yml', '_toc.yml']
1 ..\.ipynb_checkpoints [] ['_toc-checkpoint.yml']
2 ..\Capítulo00 ['.ipynb_checkpoints', 'imagens'] ['plot_ebbinghaus.ipynb', 'plot_produtividade.ipynb', 'texto.md']
3 ..\Capítulo00\.ipynb_checkpoints [] ['Introdução-checkpoint.ipynb', 'Plot ebbinghaus-checkpoint.ipynb', 'Plot Produtividade-checkpoint.ipynb', 'plot_ebbinghaus-checkpoint.ipynb', 'plot_produtividade-checkpoint.ipynb', 'texto-checkpoint.md']
4 ..\Capítulo00\imagens [] ['ebbinghaus.png', 'Fluxograma.drawio', 'Fluxograma.png', 'produtividade.png']
5 ..\Capítulo01 ['.ipynb_checkpoints', 'Imagens', 'Soluções dos exercícios'] ['Extra-Operadores bit-

In [24]:
help(os.walk)

Help on function walk in module os:

walk(top, topdown=True, onerror=None, followlinks=False)
    Directory tree generator.
    
    For each directory in the directory tree rooted at top (including top
    itself, but excluding '.' and '..'), yields a 3-tuple
    
        dirpath, dirnames, filenames
    
    dirpath is a string, the path to the directory.  dirnames is a list of
    the names of the subdirectories in dirpath (including symlinks to directories,
    and excluding '.' and '..').
    filenames is a list of the names of the non-directory files in dirpath.
    Note that the names in the lists are just names, with no path components.
    To get a full path (which begins with top) to a file or directory in
    dirpath, do os.path.join(dirpath, name).
    
    If optional arg 'topdown' is true or not specified, the triple for a
    directory is generated before the triples for any of its subdirectories
    (directories are generated top down).  If topdown is false, the triple


In [23]:
os.system('dir')

0

Aqui, podemos acessar `Importando bibliotecas.ipynb` e verificar se é um arquivo de fato com a função `isfile` contida dentro do submódulo `path` de `os`. ([documentação](https://docs.python.org/3/library/os.path.html))

In [6]:
os.path.isfile('./Importando bibliotecas.ipynb')

True

In [9]:
os.path.isfile(os.getcwd())

False

Podemos expandir um caminho relativo para um caminho absoluto com `os.path.abspath`

In [11]:
os.path.abspath('./Importando bibliotecas.ipynb')

'C:\\Users\\karl.clinckspoor\\Downloads\\CursoPython\\Capítulos\\Capítulo06\\Importando bibliotecas.ipynb'

E voltar a um caminho relativo com `os.path.relpath`.

In [12]:
os.path.relpath(os.path.abspath('./Importando bibliotecas.ipynb'))

'Importando bibliotecas.ipynb'

E ver o tamanho do arquivo com 