(sec:import)=
# Importando bibliotecas e um tour da biblioteca padrão

Uma das grandes vantagens de Python é a extensa comunidade presente, que cria e mantém pacotes e bibliotecas para as mais variadas funções. Neste capítulo, aprenderemos como importar bibliotecas e exploraremos algumas bibliotecas embutidas. Para mais detalhes sobre importação, [veja a documentação oficial](https://docs.python.org/3/reference/import.html). Por trás dos panos, a operação de importação é bastante complexa, mas a interface para fazer tarefas simples é simples também.

Primeiro, vamos esclarecer alguns termos:

* módulo: um módulo contém objetos de Python, que é acessada pelo processo de importação. Uma analogia é considerar um módulo como um arquivo.
* pacote: é um módulo que contém submódulos e subpacotes. Serve para organizar os módulos. Uma analogia é considerar um pacote como uma pasta, que pode conter outras pastas (subpacotes) e arquivos (submódulos).
* importar: processo em que um módulo ganha acesso a código em outro módulo
* biblioteca: um termo menos preciso, e significa em essência um conjunto de módulos, como a biblioteca padrão (*standard library* - que chamei de bibliotecas embutidas).

Para importar um pacote, utilize a sintaxe: 

```python
import pacote
```

Se você quiser importar apenas uma parte do código de um módulo, você deve utilizar

```python
from pacote import parte
```

E então essa parte estará acessível a seu código, mas o pacote em si não, a não ser que você importe ele diretamente também. É possível importar várias partes de uma vez, como `from pacote import parte1, parte2, parte3`, e se quiser importar todos os elementos e colocá-los no escopo global, utilize `from pacote import *`. Isso não é recomendado de forma geral pois pode sobrescrever certas funções e dificulta saber de onde uma função veio. Por exemplo, os pacotes `math` e `cmath` possuem funções com nomes iguais, mas direcionadas a números reais e complexos, respectivamente. Se você utilizar `from math import *` e depois `from cmath import *`, você terá uma verdadeira salada de funções todas misturadas.

Você também pode alterar o nome de algo ao importá-lo. Isso é muito comum com certas bibliotecas, que possuem uma nomeação praticamente padrão:

```python
import pacote as novo_nome
```

```python
import pandas as pd
import numpy as np
```

E por fim, você pode importar um submódulo com esta sintaxe:

```python
import pacote.submódulo
```

e o submódulo estará disponível por seu nome completo, `pacote.submódulo`. Como isso é muitas vezes inconveniente, você pode renomear essa importação, como o exemplo anterior mostrou. 

```python
import matplotlib.pyplot as plt
```

Quando você importa um módulo, todo o código dentro dele é executado. Logo, se existir em algum local um comando `print('abc')`, no escopo global do pacote, esse comando será executado sempre que o pacote for importado. Por exemplo, suponha que você criou este arquivo inicialmente com o propósito de rodá-lo diretamente com `python arquivo.py`.

```python
# arquivo.py
def ação():
    print('Hello world!')

ação()
```

Posteriormente, você gostaria de importar a função `ação` para utilizar em outro projeto. Se você importar esse arquivo com `import arquivo`, a mensagem `Hello world!'` irá aparecer. Em outros casos, um erro poderá ocorrer e a importação não terá sido bem sucedida. Para impedir esses problemas de ocorrerem, utiliza-se a seguinte construção:

```python
# arquivo.py
def ação():
    print('Hello world!')

if __name__ == '__main__':
    ação()
```

A variável `__name__` é igual ao nome do pacote quando o arquivo é importado e é `__main__` quando um arquivo é rodado diretamente. Assim, a chamada da função `ação` só ocorrerá se `arquivo.py` for executado diretamente, e não importado.

O resto deste capítulo será dedicado à exploração de alguns pacotes da biblioteca padrão de Python.

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Este é um dos pacotes mais simples em Python e contém algumas instruções e metas para a linguagem. Outro pacote simples é

In [2]:
import antigravity

## Funções do sistema, manipulação de arquivos e pastas

### `os`

[Link da documentação](https://docs.python.org/3/library/os.html)

O pacote `os` contém funções para interagir com o sistema operacional de maneira independente da plataforma. Por exemplo, Windows e Linux utilizam comandos diferentes para gerar arquivos, mudar de pastas, mas podemos abstrair isso utilizando as funções em `os`. Primeiro, vamos explorar como gerar algumas pastas.

In [3]:
import os

#### O conceito de *current working directory*

Podemos utilizar comandos para manipulação de pastas ou arquivos com caminhos absolutos ou relativos.

Note aqui que estamos presumindo o local em que as pastas serão geradas, que é o *current working directory* ou *CWD*. Essa variável pode ser obtida pelo comando `os.getcwd()`. Geralmente, essa é a pasta onde você executou o comando `python ...` ou, no caso do Jupyter Lab, a pasta onde o arquivo `.ipynb` se localiza. Vamos supor a seguinte estrutura:

```
--- raiz
      |
      +--pasta1
           |
           +--arquivo.py
```


Suponha que você quer rodar o arquivo `arquivo.py`. Se você abrir o terminal na `raiz`, poderá trocar para `pasta1` com `cd pasta1` e depois rodar `python ./arquivo.py` ou executar diretamente `python ./pasta1/arquivo.py`. No primeiro caso, *cwd* será `raiz/pasta1/` e no segundo caso será `raiz/`.

#### Manipulação de pastas

`os.mkdir(caminho)` é utilizado para criar uma pasta especificada pelo caminho no argumento. Suponha que você queira criar esta estrutura com uma pasta aninhada na outra, e seu *cwd* é `raiz/`

```
--- raiz
      |
      +--pasta1
           |
           +--pasta2
```

Para isso, precisaremos do comando `os.mkdir('pasta1')` seguido de `os.mkdir('pasta1/pasta2')`. Isso é inconveniente se quisermos fazer estruturas mais complexas, pois muitos caminhos serão repetidos. Podemos então trocar o *cwd* com `os.chdir('pasta1')` e depois criar a segunda pasta com `os.mkdir('pasta2')`. Você pode voltar à pasta original com `os.chdir('..')` ou armazenar o *cwd* original em uma variável e retornar à ela depois de tudo.

Se você tentar criar `pasta2` diretamente, como `pasta1` não existe, `FileNotFoundError` será lançado. Caso você tente rodar novamente o domando, é possível que a pasta já exista e um erro `FileExistsError` será lançado.

Alternativamente, o comando `os.mkdirs(caminho)` é utilizado para criar uma pasta e todas as pastas necessárias para atingir. O argumento opcional `exist_ok`, por padrão `False`, evita que um erro seja lançado se alguma pasta já existir. Logo, o comando anterior se torna `os.mkdir('./pasta1/pasta2', exist_ok=True)`, e não precisamos 

Em paralelo a `os.mkdirs` e `os.mkdir`, temos `os.rmdirs` e `os.rmdir`, que removem pastas. 

Para renomear uma pasta, existe o comando `os.rename(origem, destino)`, que irá falhar se a pasta de destino já existir. Caso queira substituir, pode utiliar `os.replace(origem, destino)`. Estas funções também funcionam com arquivos.

#### Manipulações de caminhos

Outra tarefa recorrente é a manipulação de caminhos. Utilizar manipulação de strings pode parecer tentador, mas é uma receita para frustração, especialmente se você deseja que seu programa seja utilizado em mais de um sistema operacional. O submódulo [`os.path`](https://docs.python.org/3/library/os.path.html) possui ferramentas para auxiliar nisso. O mais recomendado hoje em dia é utilizar o pacote `pathlib`, que exploraremos [em breve](sec:pathlib).

Aqui vão algumas funções úteis:

* `os.path.abspath` retorna o caminho absoluto dado um caminho relativo.
* `os.path.relpath` retorna um caminho relativo, referente ao *cwd*, dado um caminho absoluto.
* `os.path.basename` retorna o nome na base do caminho. Se for uma pasta, retorna o nome da pasta, se for um arquivo, retorna o nome do arquivo. Por exemplo, `os.path.basename(os.path.abspath('./Importando bibliotecas.ipynb'))` resulta em `'Importando bibliotecas.ipynb'`.
* `os.path.dirname` retorna o nome de todos os diretórios no caminho até o caminho da pasta ou arquivo fornecido.
* `os.path.exists`, `os.path.isfile` e `os.path.isdir` retornam `True` se o caminho fornecido é uma pasta ou arquivo existente, com diferenças óbvias pelo nome.
* `os.path.join` junta duas ou mais caminhos de maneira "inteligente", obedecendo o separador de pastas do sistema, em ordem. Não checa se o caminho final é válido, e não checa se você tentar "colocar" um arquivo dentro do outro.
* `os.path.split` retorna duas strings, a segunda sendo a última parte do caminho e a primeira sendo o resto, à esquerda. Se o caminho fornecido termina com uma barra, a segunda parte é uma string vazia.

#### Percorrendo diretórios e pastas

Iterar sobre o conteúdo de pastas é algo relativamente comum. Por exemplo, você pode querer encontrar todos os arquivos `.csv` de uma pasta para tratá-los. Para isso, as funções `os.walk` e `os.scandir` podem ser utilizadas. `os.walk(caminho)` recebe um caminho e cria um gerador que fornece uma tupla com o caminho até a pasta, o nome das pastas dentro da pasta atual e o nome dos arquivos na pasta atual. `os.scandir` age de maneira um pouco diferente. Ele gera um iterador que retorna objetos `DirEntry`. Esses objetos contém informações sobre se algo é uma pasta ou um arquivo, e o *stats* do arquivo.

Isso ainda é um tanto laborioso. Para métodos melhores de se percorrer diretórios e encontrar arquivos, podemos utilizar o módulo [`glob`](sec:glob).

(sec:glob)=
### `glob`

[Link da documentação](https://docs.python.org/3/library/glob.html)

*glob*, que significa *global*, foi um programa criado há décadas para encontrar arquivos com base num padrão. A especificação desse padrão é bastante simples, e é capaz que você já tenha utilizado algo similar em sua vida. Os padrões são compostos por letras e números, e símbolos. As letras e números serão comparadas exatamente com os caminhos, e os símbolos são utilizados para generalizar um padrão. Os três símbolos são:

* `*`, significa "qualquer caracter, qualquer número de vezes. É de longe o símbolo mais frequentemente utilizado.
* `?`, significa "qualquer caracter, 1 vez.
* `[abc...]` significa qualquer caracter dentro dos colchetes, 1 vez.
* `[a-z]` significa qualquer caracter dentro da faixa de caracteres. `a-z` significa "todos os caracteres entre 'a' e 'z' minúsculos", `0-9` significa "todos os caracteres numéricos.

Além disso, você pode procurar por arquivos recursivamente utilizando o seguinte padrão: `**/`.

Exemplos:

* `*.csv` irá corresponder a todos os arquivos que terminam com '.csv'.
* `exercício*.csv` irá corresponder a todos os arquivos que começam com 'exercício', terminam com '.csv' e possuem qualquer texto no interior. Então 'exercício1.csv' e 'exercício-treinamento-teste.csv' ambos correspondem à esse padrão.
* `.csv` irá corresponder somente ao arquivo cujo nome é '.csv', nada mais e nada menos.

Note que um arquivo pode ter duas extensões, como 'abc.tar.gz'. Se você quiser todos os arquivos 'tar', terá que utilizar `*.tar*`, mas isso poderá corresponder a, por exemplo, 'abc.tart' também.

Dentro do módulo `glob`, temos três funções. `glob`, `iglob` e `escape`. `glob` retorna uma lista com os caminhos dos arquivos, `iglob` retorna um iterador, portanto não avalia tudo de uma vez, e `escape` é utilizado para escapar símbolos que o *glob* utiliza e que podem existir em nomes de arquivos. Podemos utilizar a função `glob` para encontrar todos os arquivos de exercícios do capítulo 5.

In [4]:
import glob

exercícios = glob.glob("../Capítulo05/dados/*.csv")
exercícios

['../Capítulo05/dados\\exercício1.csv', '../Capítulo05/dados\\exercício2.csv']

Porém, é um pouco inconveniente ficar digitando `glob.glob` o tempo todo. Existe uma maneira de importar seletivamente algumas objetos de um módulo, colocando-os no escopo global ao invés do módulo em si. Isso é feito com a seguinte sintaxe:

```python
from (pacote) import (objeto)
```

In [5]:
from glob import glob

exercícios = glob("../Capítulo05/dados/*.csv")
exercícios

['../Capítulo05/dados\\exercício1.csv', '../Capítulo05/dados\\exercício2.csv']

Como um último exemplo, vamos encontrar todos os arquivos `.py` criados neste livro. Para isso, vamos utilizar o padrão `**` e o argumento opcional `recursive=True`.

In [6]:
todos_py = glob("../**/*.py", recursive=True)
todos_py

['..\\Capítulo01\\Soluções dos exercícios\\complex_mod.py',
 '..\\Capítulo01\\Soluções dos exercícios\\pint.py',
 '..\\Capítulo02\\Soluções de exercícios\\prop_sympy.py',
 '..\\Capítulo02\\Soluções de exercícios\\prop_uncertainties.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\problema_gas_ideal.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\QuestionGenerator.py',
 '..\\Capítulo03\\Soluções de exercícios\\Gerador\\test_gas_ideal.py',
 '..\\Capítulo04\\Soluções de exercícios\\convert_dict.py',
 '..\\Capítulo04\\Soluções de exercícios\\convert_pint.py',
 '..\\Capítulo05\\dados\\gerar_csv.py',
 '..\\Capítulo05\\Soluções de exercícios\\contagem_palavras.py',
 '..\\Capítulo05\\Soluções de exercícios\\criar_exceções.py',
 '..\\Capítulo05\\Soluções de exercícios\\ler_csv1.py',
 '..\\Capítulo05\\Soluções de exercícios\\ler_csv2.py',
 '..\\Capítulo05\\Soluções de exercícios\\molar_mass_calculator.py',
 '..\\Capítulo05\\Soluções de exercícios\\molar_mass_calculator2.py',
 '..\

(sec:pathlib)=
### `pathlib`

[Link da documentação](https://docs.python.org/3/library/pathlib.html)

`pathlib` é uma biblioteca que utiliza objetos especiais para representar caminhos, ao invés de strings. Esses objetos `Path` podem ser manipulados com maior facilidade e podem ser utilizados, em muitos casos, no lugar de caminhos de strings. Senão, é possível convertê-los com `str(path)`. Por trás dos panos, `Path` utiliza `os.path`. Os paralelos entre a funcionalidade de cada um podem ser encontradas [aqui](https://docs.python.org/3/library/pathlib.html#correspondence-to-tools-in-the-os-module).

Existem basicamente dois tipos de objetos que são utilizados. Primeiro temos `PurePath`, que somente representa caminhos, e `Path`, que faz tudo que `PurePath` faz, e também consegue realizar algumas operações concretas. Por isso, irei focar em `Path` somente.

Primeiro, podemos criar um `Path` com o seguinte comando:

In [7]:
from pathlib import Path

p = Path(".")
p

WindowsPath('.')

Como estou em um ambiente Windows, um objeto `WindowsPath` é criado. Se estivesse em Linux, um `PosixPath` seria criado. Com esse objeto `p`, posso convertê-lo para um caminho absoluto com `p.absolute()`

In [8]:
p.absolute()

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06')

Note que isso só coloca o *cwd* antes do caminho fornecido. Se você quiser obter um caminho direto, é necessário utilizar `.resolve()` depois de `absolute`.

E posso concatenar caminhos utilizando uma divisão, como se a barra fosse um separador de pastas

In [9]:
teste = p.absolute() / "teste.txt"
teste

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06/teste.txt')

Posso checar se este arquivo existe com `teste.exists()`

In [10]:
teste.exists()

False

E como não existe, posso escrever algum texto nele com `write_text`, não necessitando que `open` seja utilizado. Se quiséssemos somente criar o arquivo, poderíamos utilizar `.touch()`.

In [11]:
teste.write_text("este é um teste", encoding="utf8")

15

Depois disso podemos confirmar que o arquivo foi criado

In [12]:
teste.exists()

True

E que seu conteúdo é o mesmo que escrevemos

In [13]:
teste.read_text(encoding="utf8")

'este é um teste'

E por fim, para limpar a pasta, podemos deletá-lo

In [14]:
teste.unlink()

E verificar novamente que ele não existe mais

In [15]:
teste.exists()

False

Se quisermos encontrar partes do caminho de um arquivo, temos os seguintes comandos.

`.stem` é uma propriedade que contém o nome do arquivo, sem extensão.

In [16]:
teste.stem

'teste'

`.name` é uma propriedade que contém o nome do arquivo e sua extensão.

In [17]:
teste.name

'teste.txt'

`.suffix` é a última extensão do arquivo

In [18]:
teste.suffix

'.txt'

`.suffixes` é a lista de extensões do arquivo, então `.tar.gz` retornaria `['.tar', '.gz']`.

In [19]:
(p / "arquivo.tar.gz").suffixes

['.tar', '.gz']

In [20]:
teste.suffixes

['.txt']

Podemos obter a pasta onde um arquivo está com `.parent`

In [21]:
teste.parent

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06')

Ou podemos utilizar `.parents`, que retorna um gerador que gradativamente gera os diretórios pai de cada parte.

In [22]:
list(teste.parents)

[WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06'),
 WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos'),
 WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython'),
 WindowsPath('C:/Users/karl.clinckspoor/Downloads'),
 WindowsPath('C:/Users/karl.clinckspoor'),
 WindowsPath('C:/Users'),
 WindowsPath('C:/')]

E por fim, podemos obter todas as partes de um caminho com `.parts`

In [23]:
teste.parts

('C:\\',
 'Users',
 'karl.clinckspoor',
 'Downloads',
 'CursoPython',
 'Capítulos',
 'Capítulo06',
 'teste.txt')

Podemos também criar e manipular pastas. Para criar, utilize `mkdir`.

In [24]:
pasta = p / "teste"
pasta.exists()

False

In [25]:
pasta.mkdir()
pasta.exists()

True

Podemos renomeá-la com `.rename()`. Essa função também funciona com arquivos. Como estamos mudando o caminho, podemos capturar a resposta de `.rename` para atualizar o caminho com o nome mais novo.

In [26]:
pasta = pasta.rename("teste_renomeado")

In [27]:
pasta

WindowsPath('teste_renomeado')

E podemos deletar a pasta com `rmdir`

In [28]:
pasta.rmdir()
pasta.exists()

False

Por fim, podemos manipular partes de um caminho com as funções que começam com `with`. Por exemplo:

In [29]:
teste.with_name("novo_nome.txt")

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06/novo_nome.txt')

In [30]:
teste.with_stem("novo_nome")

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06/novo_nome.txt')

In [31]:
teste.with_suffix(".csv")

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo06/teste.csv')

Por último, `Path` também possui a habilidade de fazer `glob`. A diferença é que um gerador é criado, não uma lista, então o comportamento é mais próximo a `glob.iglob`. Além disso, `glob.glob` por padrão não considera pastas escondidas, precedidas por um `.`, como `.ipynb_checkpoints`, mas `Path.glob` não só considera, mas não possui a opção para ignorá-las. Podemos verificar a equivalência dos dois comandos com esta linha de código.

In [32]:
(
    sorted(glob("../**/*.py", recursive=True, include_hidden=True))
    == sorted([str(i) for i in Path("..").glob("**/*.py")])
)

True

(sec:shutil)=
### `shutil`

Talvez um pouco confuso, `shutil` contém algumas funcionalidades extras, além daquelas presentes em `os.path` e em `pathlib`. Por exemplo, possui comandos para copiar arquivos ou árvores inteiras, zipar e dezipar arquivos, e outras funcionalidades.

Para copiar arquivos, você pode utilizar `shutil.copy` ou `shutil.copy2`, com a diferença que a segunda função tenta copiar os metadados do arquivo. Para copiar uma árvore de arquivos e pastas, `shutil.copytree` pode ser utilizado, e `shutil.rmtree` pode ser utilizado para remover uma árvore de arquivos. Aqui, entenda "árvore de arquivos" como arquivos e pastas aninhadas com qualquer complexidade. `shutil.move` tenta mover um arquivo ou pasta para outro lugar.

Além disso, `shutil.which` retorna o caminho de um comando se fosse executado no terminal. Por exemplo:

In [33]:
import shutil

shutil.which("python.exe")

'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\cursoPython\\python.exe'

Neste caso, o caminho específico do ambiente virtual deste curso foi retornado. Se você rodar isso, outro caminho será retornado.

Para zipar um arquivo ou uma série de arquivos, podemos utilizar `shutil.make_archive`. Vamos criar alguns arquivos de texto, zipá-los, e depois remover tudo.

In [34]:
pasta_destino = Path(".") / "teste_zip"
pasta_destino.mkdir(exist_ok=True)
for i in range(10):
    (pasta_destino / f"arquivo{i:02d}.txt").touch(exist_ok=True)

Podemos verificar os arquivos existentes com

In [35]:
list(pasta_destino.glob("*"))

[WindowsPath('teste_zip/arquivo00.txt'),
 WindowsPath('teste_zip/arquivo01.txt'),
 WindowsPath('teste_zip/arquivo02.txt'),
 WindowsPath('teste_zip/arquivo03.txt'),
 WindowsPath('teste_zip/arquivo04.txt'),
 WindowsPath('teste_zip/arquivo05.txt'),
 WindowsPath('teste_zip/arquivo06.txt'),
 WindowsPath('teste_zip/arquivo07.txt'),
 WindowsPath('teste_zip/arquivo08.txt'),
 WindowsPath('teste_zip/arquivo09.txt')]

In [36]:
caminho_zipado = shutil.make_archive("zipado", "zip", root_dir="teste_zip")

Agora você pode abrir o arquivo diretamente em seu explorer e verificar que todos os arquivos de texto que criamos foram parar no arquivo zipado. Podemos também utilizar o pacote `zipfile` para fazer isso.

In [37]:
import zipfile

arquivo_zipado = zipfile.ZipFile(caminho_zipado)
print(*arquivo_zipado.filelist, sep="\n")
arquivo_zipado.close()

<ZipInfo filename='arquivo00.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo01.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo02.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo03.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo04.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo05.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo06.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo07.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo08.txt' compress_type=deflate filemode='-rw-rw-rw-' file_size=0 compress_size=2>
<ZipInfo filename='arquivo09.txt' com

Vamos agora descompactar os arquivos com `shutil.unpack_archive`

In [38]:
caminho_deszipado = Path(".") / "deszipando"
caminho_deszipado.mkdir(exist_ok=True)
shutil.unpack_archive(caminho_zipado, extract_dir=caminho_deszipado)

E podemos ver o conteúdo dessa pasta com

In [39]:
list(caminho_deszipado.glob("*"))

[WindowsPath('deszipando/arquivo00.txt'),
 WindowsPath('deszipando/arquivo01.txt'),
 WindowsPath('deszipando/arquivo02.txt'),
 WindowsPath('deszipando/arquivo03.txt'),
 WindowsPath('deszipando/arquivo04.txt'),
 WindowsPath('deszipando/arquivo05.txt'),
 WindowsPath('deszipando/arquivo06.txt'),
 WindowsPath('deszipando/arquivo07.txt'),
 WindowsPath('deszipando/arquivo08.txt'),
 WindowsPath('deszipando/arquivo09.txt')]

E agora, por fim, vamos remover tudo que criamos com `rmtree`

In [40]:
shutil.rmtree(caminho_deszipado)
Path(caminho_zipado).unlink()
shutil.rmtree(pasta_destino)

### `sys`

[Link da documentação oficial](https://docs.python.org/3/library/sys.html)

O pacote `sys` possui informações sobre o interpretador Python e variáveis associadas a ele. Por exemplo, a variável `executable`

In [41]:
import sys

sys.executable

'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\python.exe'

Possui o caminho até o interpretador Python ativo. Algumas vezes quando tive problemas na instalação de pacotes, essa variável é muito útil para saber se você realmente está no ambiente apropriado.

Além disso, temos acesso a uma variável conhecida como `path`. Essa variável existe em outros contextos também, e é possível que você tenha visto uma referência a ela durante a instalação do Python. Nesse caso, se refere à variável de sistema `path`.

Em ambos os casos, essa variável controla a ordem e o local onde as coisas são procuradas. No caso do Python, é onde pacotes para importação são procurados, seguindo a ordem de início para o fim da lista. No caso da variável de sistema, é onde arquivos e executáveis mencionados no terminal são procurados. Se você não possui `python.exe` acessível por alguma pasta na lista `path` do Windows, e digitar `python.exe`, um erro de "comando não encontrado" ou similar será lançado.

In [42]:
sys.path

['C:\\Users\\karl.clinckspoor\\Downloads\\CursoPython\\Capítulos\\Capítulo06',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\python311.zip',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\DLLs',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython',
 '',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\win32',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\win32\\lib',
 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\Pythonwin']

No meu caso, os caminhos em `sys.path` se referem à pasta onde este jupyter notebook está localizado e os caminhos para encontrar bibliotecas.

Suponha que você queira importar uma resposta de um capítulo anterior, por exemplo, `molar_mass_calculator`. Se você utilizar `import molar_mass_calculator`, um erro `ModuleNotFoundError` será lançado. Porém, se você adicionar o caminho até a pasta onde esse arquivo se encontra, você conseguirá importá-lo. Veja o exemplo:

In [43]:
path = Path("../Capítulo05/Soluções de exercícios/").absolute().resolve()
path

WindowsPath('C:/Users/karl.clinckspoor/Downloads/CursoPython/Capítulos/Capítulo05/Soluções de exercícios')

In [44]:
sys.path.insert(0, str(path))
print(sys.path)

['C:\\Users\\karl.clinckspoor\\Downloads\\CursoPython\\Capítulos\\Capítulo05\\Soluções de exercícios', 'C:\\Users\\karl.clinckspoor\\Downloads\\CursoPython\\Capítulos\\Capítulo06', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\python311.zip', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\DLLs', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython', '', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\win32', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\win32\\lib', 'C:\\Users\\karl.clinckspoor\\AppData\\Local\\miniconda3\\envs\\CursoPython\\Lib\\site-packages\\Pythonwin']


In [45]:
import molar_mass_calculator

molar_mass_calculator.molar_mass_calculator("Fe2O3", molar_mass_calculator.massas_atômicas)

159.68699999999998

Note que eu tive que converter `Path` em uma `str` para poder adicionar a `sys.path`. Caso contrário, a entrada é ignorada.

Esta solução para o problema de importação deve ser considerada como um band-aid, não é algo definitivo. A solução definitiva é criar um pacote e instalá-lo, o que veremos [no futuro](cap:empacotamento).

Se você tentar importar alguns dos outros arquivos dessa pasta, como `ler_csv1`, você irá se deparar com um erro. Qual é esse erro e como você o consertaria? A resposta para isso está no início deste capítulo.

Além disso, se você quiser criar programas que aceitam argumentos pela linha de comando, você poderá utilizar `sys.argv` para acessá-los. O primeiro item dessa lista é o nome ou caminho do interpretador e os itens restantes são os argumentos fornecidos.

O que quero dizer com isso é o seguinte. Suponha que você escreva uma função que realiza uma tarefa. Por simplicidade, soma dois números. Ao invés de ter que iniciar um REPL ou criar um script novo, você pode escrever um script, e executá-lo diretamente do python, colocando os argumentos depois do nome do arquivo.

Eu fiz um script chamado `somar.py` que aceita dois números somente, e é rodado com `python somar.py 1 2`, que neste caso retorna `3.0`. O conteúdo do script é este:

```python
import sys

def somar(a, b):
    return a + b

if __name__ == '__main__':
    if len(sys.argv) != 3:
        print('Uso: python somar.py (valor1) (valor2)')
        sys.exit(1)
    print(somar(float(sys.argv[1]), float(sys.argv[2])))
```

Primeiro importei os pacotes que serão utilizados, neste caso, somente `sys`, depois defini a função e depois utilizei aquele artifício para impedir que um bloco de código seja executado se o arquivo não for chamado diretamente. Primeiro, eu checo o comprimento de `sys.argv`. Esse comprimento tem que ser 3, porque o primeiro argumento é o nome do arquivo (`somar.py` neste caso), o segundo argumento deve ser um número e o terceiro argumento é o outro número. Mais ou menos argumentos que isso não são suportados pelo script. Caso o número errado seja fornecido, eu descrevo brevemente como o script deve ser utilizado e depois saio do programa com `sys.exit`, que é como se fosse um `return`, mas para scripts. Ele aceita um número inteiro, que indica se ocorreu um problema. `0` significa sucesso, e aqui escolhi `1` para indicar o erro. Agora, caso a lista de argumentos é do comprimento apropriado, eu escrevo a soma deles.

Você deve imaginar que ter listas maiores de argumentos, com ordenação arbitrária, deve tornar a lógica de processamento de `sys.argv` bastante complexa. Existem bibliotecas para simplificar isso. A embutida, `argparse`, é um pouco engessada mas bastante capaz. Eu particularmente gosto da biblioteca `click`, que acho bastante simples de usar, muito mais que `argparse`, mas ela não é embutida. Logo, não utilize `sys.argv` para qualquer coisa mais complexa, poupe-se do trabalho.

A função `sys.getsizeof` nos permite encontrar o tamanho de um objeto em bytes. Isso é mais útil no nosso caso como algo ilustrativo. Essa função *não* retorna o tamanho de objetos referenciados por outros objetos, então uma lista aninhada não irá retornar o tamanho de todas as sublistas internas.

Você se lembra que eu mencionei que `range` é uma maneira mais eficiente de armazenar uma sequência de números que uma lista, no [capítulo 5](sec:range)? Vamos testar isso.

In [46]:
nums = range(10000)
lst_nums = list(nums)
sys.getsizeof(nums), sys.getsizeof(range(1000)), sys.getsizeof(lst_nums), sys.getsizeof(
    []
), sys.getsizeof([lst_nums])

(48, 48, 80056, 56, 64)

Vemos que dois `range` até 10000 e um até 1000 possuem exatamente o mesmo tamanho de 48 bytes, já a lista com os 10 mil números possui um tamanho de 80056 bytes, e uma lista vazia possui um tamanho de 56 bytes. Por fim, vemos que uma lista aninhada possui um tamanho de 64 bytes, 8 bytes a mais que uma lista vazia.

Veja agora o seguinte:

In [47]:
print(sys.getsizeof(lst_nums[0]), sys.getsizeof(lst_nums[-1]))

28 28


Cada um dos números em `lst_nums` ocupa 28 bytes, não 8. Esses 8 bytes a mais por entrada da lista são a maneira que ela tem para referenciar os números. Os números em si não são contabilizados, assim como o conteúdo da lista aninhada. Para sabermos o tamanho de tudo, precisaríamos iterar por todos os elementos.

In [48]:
true_size = sys.getsizeof(lst_nums) + sum(sys.getsizeof(i) for i in lst_nums)
true_size

360056

Ou seja, essa lista de números, contando seu conteúdo, é igual a aproximadamente 360 kilobytes. Aqui, presumimos que os objetos são diferentes. Se forem iguais, no caso de uma lista com 10000 `None`, cada um com 16 bytes, o "tamanho verdadeiro" não será 10000 * 16 + 80056=240056, mas 16 + 80056=80072, pois não há novos objetos na memória. Em suma, contabilizar memória não é tão simples quanto parece.

A função `sys.getrefcount` nos permite acessar quantos objetos estão referenciando outro. Quando um objeto não possui mais referências, ele é descartado.

In [49]:
a = []
b = [a]

sys.getrefcount(a), sys.getrefcount(b)

(3, 2)

Esperávamos 2 referências a `a` e uma referência a `b`, mas esse número é inflado porque referências são criadas (e depois removidas) quando enviamos esses objetos para `sys.getrefcount`.

Os objetos `sys.stdin`, `sys.stdout`, `sys.stderr`, que significam "standard in", "standard out" e "standard error" são objetos tipo arquivos que são utilizados internamente pelo python para implementar `input`, `print` e as mensagens de exceção. Podemos brincar com eles diretamente como se fossem arquivos mesmo.

In [50]:
sys.stdout.write("AAAA")

AAAA

4

In [51]:
sys.stderr.write("EEEE")

EEEE

4

Não podemos brincar com `stdin` sem ter que sair deste notebook, mas veja as respostas [nesta questão](https://stackoverflow.com/questions/1450393/how-do-i-read-from-stdin) para ver algumas coisas que você conseguiria fazer com `stdin`.

Por fim, `sys.version` retorna a versão de Python atual, mais alguns detalhes sobre compilação

In [52]:
sys.version

'3.11.3 | packaged by Anaconda, Inc. | (main, Apr 19 2023, 23:46:34) [MSC v.1916 64 bit (AMD64)]'

### `subprocess`

[Link da documentação oficial](https://docs.python.org/3/library/subprocess.html)

### `time`

[Link da documentação oficial](https://docs.python.org/3/library/time.html)

(sec:bibliotecas_mat)=
## Bibliotecas matemáticas

Python não está limitado às funções `sum`, `min` e `max`, existem bibliotecas para realizar operações matemáticas. Não irei descrevê-las com muito detalhe, mas irei mostrar alguns exemplos.

(sec:biblio_math)=
### `math`

[`Link da documentação oficial`](https://docs.python.org/3/library/math.html)

Essa biblioteca possui funções matemáticas, como funções trigonométricas, combinatória, raiz quadrada, logaritmos, constantes como $\pi$ e $e$. [`cmath`](https://docs.python.org/3/library/cmath.html) possui funções similares, mas aplicadas a números complexos. Veja alguns exemplos:

In [53]:
import math

Como funções trigonométricas, há seno, cosseno, tangente e $pi$. Há também as versões hiperbólicas e inversas (arcoseno, etc)

In [54]:
print(
    f"{math.sin(math.pi/4)=}",
    f"{math.cos(math.pi / 4)=}",
    f"{math.tan(math.pi / 4)=}",
    f"{math.asin(1) / (math.pi)=}",
    sep="\n",
)

math.sin(math.pi/4)=0.7071067811865476
math.cos(math.pi / 4)=0.7071067811865476
math.tan(math.pi / 4)=0.9999999999999999
math.asin(1) / (math.pi)=0.5


Por padrão, essas funções aceitam radianos. Para converter entre radianos e graus, há as funções:

In [55]:
print(math.radians(180), math.degrees(math.pi))

3.141592653589793 180.0


Funções teto e piso

In [56]:
print(math.ceil(3.7), math.floor(3.7), sep="\n")

4
3


Fatoriais

In [57]:
print(math.factorial(5), 5 * 4 * 3 * 2 * 1, sep="\n")

120
120


`math.frexp` retorna as partes que compõem um número `float`, a mantissa e o expoente, de forma que 
$$
\text{float} = \text{mantissa} \cdot 2 ^ {\text{expoente}}
$$

Esse resultado é *exato*, então você pode utilizar `==`.

In [58]:
num = 2e3
m, e = math.frexp(num)
print(num, m * 2**e, m * 2**e == num)

2000.0 2000.0 True


`math.modf` também separa um `float`, mas em sua parte inteira e fracionária.

In [59]:
math.modf(3.5)

(0.5, 3.0)

Uma função similar que não está em `math`, mas que acabei não mencionando antes, é `divmod`, que retorna uma dupla com a divisão inteira e o resto, e impede que você tenha que fazer `a // b, a % b` e duplicar uma computação.

In [60]:
divmod(10, 3)

(3, 1)

`math.comb(n, k)` retorna o número de combinações de $n$ elementos em grupos com $k$ elementos, sem repetição ou ordem.

In [61]:
math.comb(5, 4)

5

`math.perm(n, k)` faz o mesmo, mas considera a ordem.

In [62]:
math.perm(5, 4)

120

Em muitos locais deste livro eu utilizei 

```python
abs(real - computado) < tolerância_absoluta
```

para checar se o resultado de uma computação está dentro dos limites de tolerância, por conta das nuances de números flutuantes. A função `math.isclose` faz isso sozinha, e retorna `True` se os dois valores estão próximos em termos absolutos ou relativos.

In [63]:
math.isclose(0.1 + 0.2, 0.3, rel_tol=1e-3, abs_tol=1e-3), 0.1 + 0.2 == 0.3

(True, False)

Similar a `sum`, temos `math.prod`, que calcula a produtória.

In [64]:
sum(range(1, 5)), math.prod(range(1, 5))

(10, 24)

Para exponenciais, temos duas bases, $e$ e $2$

In [65]:
print(
    math.exp(1),
    math.exp2(1),
)

2.718281828459045 2.0


Para logaritmos temos três bases, $e$, $2$ e $10$

In [66]:
print(
    math.log(math.e),
    math.log2(2),
    math.log10(10),
)

1.0 1.0 1.0


E temos raízes quadradas e cúbicas

In [67]:
print(math.sqrt(4), math.cbrt(8))

2.0 2.0


`math.dist` calcula a distância euclidiana entre pontos n-dimensionais

In [68]:
print(math.dist((1, 2, 3), (4, 5, 6)), math.dist((1, 1), (2, 2)))

5.196152422706632 1.4142135623730951


Além de $\pi$, há a constante $e$, $\tau=2\pi$, $\infty$ e `nan`.

In [69]:
math.pi, math.e, math.tau, math.inf, math.nan

(3.141592653589793, 2.718281828459045, 6.283185307179586, inf, nan)

Essas duas últimas constantes *não* são números, e você não consegue fazer operações com elas que façam muito sentido. Geralmente servm como indicadores que algo deu errado. `nan`, que significa *not a number*, é similar a um `float`. [Não existe somente um único tipo de `nan`](https://en.wikipedia.org/wiki/NaN), mas muitos, então não é recomendado que você utilize `==`, mas sim `math.isnan`. De fato, qualquer operação matemática de números com `nan` irá falhar e resultar em outro `nan`, ou `False`, inclusive `==`.

In [70]:
print(math.nan * 5, math.nan == math.nan, math.isnan(math.nan), sep="\n")

nan
False
True


Dependendo da aplicação, `nan` pode ser utilizado como um indicador que um dado está ausente.

(sec:biblio_decimal)=
### `decimal`

[Link da documentação oficial](https://docs.python.org/3/library/decimal.html)

Este pacote permite que você trabalhe com números na base decimal, com precisão especificada, controle de arredondamento, e outras funções. É uma alternativa melhor que `float` para atividades que exigem maior precisão, como aplicações financeiras e de contabilidade. O objeto primário desse pacote é `Decimal`, que aceita `float`, `str` como argumentos e retorna um objeto `Decimal`, que é imutável. As configurações do pacote podem ser vistas e alteradas com `getcontext`.

In [71]:
from decimal import getcontext, Decimal as D

getcontext()

Context(prec=28, rounding=ROUND_HALF_EVEN, Emin=-999999, Emax=999999, capitals=1, clamp=0, flags=[], traps=[InvalidOperation, DivisionByZero, Overflow])

Por padrão, a precisão é de 28 casas

In [72]:
D(10) / D(3)

Decimal('3.333333333333333333333333333')

E podemos modificar isso alterando `getcontext().prec`. O limite é teoricamente arbitrariamente grande.

In [73]:
getcontext().prec = 5
print(D(10) / D(3))
getcontext().prec = 28

3.3333


Se você passar um número como string, o valor exato será utilizado. Se passar como um `float`, o número será um pouco diferente.

In [74]:
D("3.14"), D(3.14)

(Decimal('3.14'),
 Decimal('3.140000000000000124344978758017532527446746826171875'))

A precisão de `Decimal` permite que este tipo de comparação seja válida

In [75]:
D("0.1") + D("0.2") == D("0.3")

True

Porém, note que se você utilizar algumas funções matemáticas, como aquelas em `math`, os resultados não serão mais `Decimal`!

In [76]:
type(math.sqrt(D(4)))

float

Você deve utilizar os métodos embutidos em `Decimal` para isso.

In [77]:
D(4).sqrt()

Decimal('2')

Mais detalhes sobre essa biblioteca eu deixarei para seu estudo próprio. Em especial a seção de [receitas](https://docs.python.org/3/library/decimal.html#recipes) parece interessante.

(sec:biblio_fractions)=
### `fractions`

[Link da documentação oficial](https://docs.python.org/3/library/fractions.html)

Esse pacote permite que você trabalhe com frações, sem precisar arcar com a perda de precisão que ocorre na computação da divisão.

In [78]:
from fractions import Fraction as F

In [79]:
f1 = F("1/3")
f1

Fraction(1, 3)

In [80]:
f2 = F("1/2")
f1 + f2, f1 * f2, f1 / f2

(Fraction(5, 6), Fraction(1, 6), Fraction(2, 3))

In [81]:
f1 ** (1 / f2)

Fraction(1, 9)

(sec:biblio_random)=
### `random`

[Link da documentação oficial](https://docs.python.org/3/library/random.html)

Esse pacote fornece números pseudoaleatórios de várias maneiras.

O termo "pseudoaleatório" significa que, dada uma condição inicial (a semente, *seed*), os números aleatórios gerados posteriormente serão sempre iguais. Teoricamente, se você observar uma quantidade suficiente de números e sabendo o seu algoritmo de geração, você conseguiria descobrir a semente e todos os números futuros. Isso é algo bastante ruim para quem está interessado em segurança. Além disso, eventualmente os números começarão a se repetir.

Como computadores são muito bons em seguir ordens, não conseguem gerar números verdadeiramente aleatórios, mas a natureza consegue. Por exemplo, a empresa Cloudflare, que lida com criptografia, [utiliza uma parede de lâmpadas de lava para gerar seus números aleatórios](https://www.cloudflare.com/learning/ssl/lava-lamp-encryption/).

Mas `random` ser pseudoaleatório não é de todo mal. Isso significa que é possível termos reprodutibilidade nos números que geramos, se setarmos a semente para sempre o mesmo valor. Isso significa que esse módulo é *determinístico*.

Vejamos alguns dos métodos de `random`.

In [82]:
import random

random.seed(42)
print(random.random(), random.random())
random.seed(42)
print(random.random(), random.random())

0.6394267984578837 0.025010755222666936
0.6394267984578837 0.025010755222666936


`random.seed` seta a seed a um valor, e `random.random` retorna um `float` aleatório no intervalo de 0 a 1 (1 não incluso), com probabilidade uniforme. Veja que eu obtive os mesmos dois números em sequência após setar a semente.

Suponha que você queira que algo acontessa com uma probabilidade de 25%. Você pode utilizar a função `random` e checar se o número retornado é menor que 0.25. Vamos ver, estatisticamente, se isso é observado.

In [83]:
num = 10000
acertos = sum(random.random() < 0.25 for _ in range(num))
print(acertos / num)

0.248


Aqui, eu criei 10 mil números aleatórios entre 0 e 1 e chequei se eram menores que 0.25. Como eu não preciso do valor retornado por `range`, eu coloco-o na variável "lixo" `_`. O resultado disso é um `bool`, `True` ou `False`. Lembre-se que `True` tem, aritmeticamente, o mesmo valor que `1`, então se eu somo todos esses `bool`s, eu obtenho o número de "acertos", ou seja, quantas vezes o número escolhido foi menor que 0,25. Dividindo esse número pelo número total de números criados nos fornece a porcentagem final, que, de certa forma, prova a uniformidade dos números de `random.random`.

`random.uniform` funciona parecido com `random.random`, mas você pode escolher os limites.

In [84]:
[random.uniform(10, 20) for _ in range(5)]

[17.030908304080626,
 17.65574222858902,
 10.353620748657402,
 19.810560425427788,
 19.499077827948344]

`random.randint` retorna um número inteiro entre dois intervalos dados, ambos inclusos.

In [85]:
[random.randint(10, 20) for _ in range(5)]

[19, 19, 11, 18, 17]

`random.randrange` retorna um número inteiro entre dois intervalos, podendo fornecer um passo. É similar a escolher um número de um `range`.

In [86]:
[random.randrange(10, 20, 3) for _ in range(5)]

[13, 16, 10, 10, 10]

Há também funções não uniformes, como gaussianas e similares. Para podermos visualizar essas funções, vou recriar a função para criação de um histograma aqui.

In [87]:
def hist(nums, nbins=10, max_width=10, char="#"):
    nums.sort()
    max_num = nums[-1]
    min_num = nums[0]
    range_num = max_num - min_num
    divisor = range_num / nbins

    counts = []
    tempcount = 0
    position = min_num
    for num in nums:
        if num < position:
            tempcount += 1
            continue
        if num >= position:
            counts.append(tempcount)
            tempcount = 1
            position += divisor

    max_count = max(counts)
    for count in counts:
        print(int(max_width * count / max_count) * char)


std_hist_settings = dict(nbins=15, max_width=30)

As funções de distribuição que temos são:

* `random.gauss` e `random.normalvariate`
* `random.triangular` 
* `random.betavariate`
* `random.expovariate`
* `random.gammavariate`
* `random.lognormvariate`
* `random.vonmisesvariate`
* `random.weibullvariate`

As aplicações dessas distribuições dependem muito do seu problema, mas essas em especial são bastante frequentes em estatística.

In [88]:
hist([random.gauss() for _ in range(1000)], **std_hist_settings)




#
#######
#############
####################
##############################
###########################
#######################
###################
#######
####
#



In [89]:
hist([random.triangular() for _ in range(1000)], **std_hist_settings)


##
######
#######
###########
################
#################
####################
##############################
#######################
########################
##################
############
########
########
###


In [90]:
hist([random.betavariate(1, 2) for _ in range(1000)], **std_hist_settings)


##############################
#########################
#########################
#####################
#######################
###############
##################
#############
##########
#########
########
#####
###
#



In [91]:
hist([random.expovariate(1) for _ in range(1000)], **std_hist_settings)


##############################
#################
#########
#####
###
##
#








In [92]:
hist([random.gammavariate(1, 2) for _ in range(1000)], **std_hist_settings)


##############################
##################
#############
########
####
######
##
#

#






In [93]:
hist([random.lognormvariate(5, 0.3) for _ in range(1000)], **std_hist_settings)


#####
##################
#############################
##############################
########################
################
##########
####
###
#





In [94]:
hist([random.vonmisesvariate(5, 0.3) for _ in range(1000)], **std_hist_settings)


##################
#################
####################
############
#############
#####################
####################
######################
#####################
########################
############################
###########################
##############################
###########################
############################


In [95]:
hist([random.weibullvariate(5, 2) for _ in range(1000)], **std_hist_settings)


#######
##################
####################
########################
##############################
############################
############################
#################
###############
##########
#######
##
##
#


Por fim temos funções que agem em coleções, como listas. 

`random.choice` escolhe um número aleatório de uma lista.

In [96]:
alfabeto = "abcdefghijklmnopqrstuvwxyz"
random.choice(alfabeto)

'd'

`random.choices` faz o mesmo, mas aceita uma um número de elementos a serem escolhidos e um peso para eles, permitindo que você varie de uma distribuição homogênea para uma normal, por exemplo. As escolhas são feitas com reposição.

In [97]:
random.choices(alfabeto, k=5)

['u', 'z', 'x', 'l', 'l']

`random.sample` faz o mesmo que `random.choices`, mas não há reposição. Não dá a opção de colocar pesos aos números, mas é possível atribuir uma contagem à eles.

In [98]:
random.sample(alfabeto, k=5)

['i', 'r', 'l', 'z', 'a']

Por fim, temos `random.shuffle`, que aleatoriza uma lista *in-place*.

In [99]:
cartas = ["A", "K", "Q", "J", *range(10, 1, -1)]
random.shuffle(cartas)
cartas

[10, 5, 'Q', 'A', 'J', 8, 7, 'K', 9, 6, 3, 4, 2]

(sec:biblio_statistics)=
### `statistics`

[Link da documentação oficial](https://docs.python.org/3/library/statistics.html)

Esse módulo contém funções típicas de estatística, como médias, medianas, modas, quartis, desvio padrão e variância populacional e amostral, covariância e regressão linear, que funcionam com `Decimal` e `Fraction` também, e um objeto que representa uma distribuição normal, que lhe dá acesso a, por exemplo, as distribuições cumulativas. Vejamos alguns exemplos

In [100]:
nums = [random.normalvariate(mu=20, sigma=3) for _ in range(501)]
nums2 = nums + [random.normalvariate(mu=60, sigma=0.1) for _ in range(11)]
nums.sort()
nums2.sort()

In [101]:
import statistics

statistics.mean(nums), statistics.mean(nums2), statistics.median(nums), statistics.median(nums2)

(20.06009111822098, 20.919274992954882, 19.960371193203727, 20.013928403308764)

Veja neste exemplo como a média foi mais afetada pelos outliers presentes em `nums2` que a mediana, o que é o esperado. A mediana é um número da amostra, se ela tem um número ímpar de valores, ou a média entre os dois valores vizinhos ao "centro". Note que é **preciso** aplicar `sort` nas listas senão os valores obtidos são errôneos.

In [102]:
statistics.median(nums) in nums, nums.index(statistics.median(nums)), statistics.median(
    nums2
) in nums2

(True, 250, False)

Vemos que a mediana está precisamente no ponto central de `nums`, que tem 501 membros. Mas em `nums2`, isso não é mais válido, pois tem 512 membros.

Além dessas médias e medianas, temos:

In [103]:
(
    statistics.geometric_mean(nums),
    statistics.harmonic_mean(nums),
    statistics.median_low(nums2),
    statistics.median_high(nums2),
)

(19.820076973785806, 19.571595887277308, 20.009028973647638, 20.01882783296989)

`statistics.median_low` e `statistics.median_high` não fazem a interpolação e retornam o número à esquerda do ponto central (ou à direita), logo seus valores estão presentes nas listas.

In [104]:
statistics.median_low(nums2) in nums2, statistics.median_high(nums2) in nums2

(True, True)

Podemos subdividir mais ainda uma distribuição com os quantis, `os.quantiles`. O número de divisões pode ser controlada por `n`. Se selecionarmos `n=4`, dividiremos os valores em quatro quantis (chamados quartis) e a função irá retornar os pontos que delimitam os quarnis.

In [105]:
statistics.quantiles(nums, n=4)

[18.09621896301291, 19.960371193203727, 22.12044843049467]

Podemos verificar que, neste caso, o segundo quartil é igual à mediana.

In [106]:
statistics.quantiles(nums, n=4)[1] == statistics.median(nums)

True

Como medidas de largura de distribuição, temos `pstdev` e `stdev` e suas variâncias.

In [107]:
statistics.pstdev(nums), statistics.stdev(nums)

(3.066527016270046, 3.0695920115541573)

Para correlação temos `statistics.correlation`, que computa o coeficiente de correlação de Pearson.

In [108]:
XX = list(range(-10, 10))
YY1 = [i * 3 + 5 for i in XX]
YY2 = [i**2 * 3 + 5 for i in XX]
porc_ruido = 0.15
YY1_noise = [i * random.uniform(1 - porc_ruido, 1 + porc_ruido) for i in YY1]
YY2_noise = [i * random.uniform(1 - porc_ruido, 1 + porc_ruido) for i in YY2]

print(
    f"{statistics.correlation(XX, YY1)=}",
    f"{statistics.correlation(XX, YY1_noise)=}",
    f"{statistics.correlation(XX, YY2)=}",
    f"{statistics.correlation(XX, YY2_noise)=}",
    sep="\n",
)

statistics.correlation(XX, YY1)=1.0
statistics.correlation(XX, YY1_noise)=0.9965574836686486
statistics.correlation(XX, YY2)=-0.19104017997521752
statistics.correlation(XX, YY2_noise)=-0.20142111266073892


Vemos que a correlação é perfeita para o primeiro dado, é menor quando há um ruído embutido, e fica menor ainda quando a função não é nada linear. Podemos obter também a regressão linear com `statistics.linear_regression`. Isso retorna um objeto `LinearRegression` e podemos acessar suas propriedades como usualmente.

In [109]:
(
    statistics.linear_regression(XX, YY1),
    statistics.linear_regression(XX, YY1_noise),
)

(LinearRegression(slope=3.0, intercept=5.0),
 LinearRegression(slope=3.0572121277952604, intercept=5.26796872156766))

Podemos ver que, com a presença de ruído, o ajuste fica bastante alterado.

Por fim, a distribuição normal.

In [110]:
norm = statistics.NormalDist(mu=0, sigma=1)

Podemos visualizar a função de densidade de probabilidade, a função distribuição cumulativa, a inversa da função de distribuição cumulativa com os métodos `.pdf`, `.cdf` e `.inv_cdf`.

`.pdf` retorna a densidade de probabilidade do número fornecido. No caso de uma curva normal padronizada (média 0, desvio 1), o valor máximo é em $z=0$ e decai simétricamente ao redor disso.

In [111]:
norm.pdf(-3), norm.pdf(-2), norm.pdf(-1), norm.pdf(0), norm.pdf(1), norm.pdf(2), norm.pdf(3)

(0.0044318484119380075,
 0.05399096651318806,
 0.24197072451914337,
 0.3989422804014327,
 0.24197072451914337,
 0.05399096651318806,
 0.0044318484119380075)

`.cdf` retorna a integral de menos infinito até o ponto fornecido. No caso de uma curva normal padronizada, como é simétrica, esse valor é meio em 0. Os valores tradicionais de 5% do intervalo de confiança, considerando um intervalo bicaudal (2,5% para cada lado), ocorrem em -1,96 e 1,96.

In [112]:
norm.cdf(0), norm.cdf(-1.96), norm.cdf(1.96)

(0.5, 0.024997895148220373, 0.9750021048517796)

`.inv_cdf` retorna o valor de $z$ para encontrar a área requisitada. Note a relação dos valores dessas duas células.

In [113]:
norm.inv_cdf(0.5), norm.inv_cdf(0.025), norm.inv_cdf(0.975)

(0.0, -1.9599639845400538, 1.9599639845400536)

Se quiser normalizar um valor para a sua curva normal utilizada, pode utilizar `zscore`. Como `norm` aqui é padronizada, `zscore` retorna o valor fornecido.

In [114]:
norm.zscore(3)

3.0

Por fim, podemos computar a sobreposição de duas curvas normais com `.overlap`.

In [115]:
(
    norm.overlap(norm),
    norm.overlap(statistics.NormalDist(0.1)),
    norm.overlap(statistics.NormalDist(-0.1)),
    norm.overlap(statistics.NormalDist(-0.7)),
)

(1.0, 0.960122388323255, 0.960122388323255, 0.7263386976487619)