# Um projeto de *machine learning*

## Criando um pacote de código Python

Vamos agora mover o código de leitura dos dados para um pacote Python, de modo a tornar o código disponível para todos.

Códigos Python são organizados em *scripts*, *módulos* e *pacotes*. Além desses tipos de código, temos também os *notebooks*, que são interativos.

### Scripts

***Scripts*** são arquivos que contêm código Python e são executados diretamente. São arquivos com extensão `.py` feitos para serem executados pelo interpretador Python na linha de comando. Por exemplo:

- Crie um diretório `meu_projeto`. Nele vamos criar um arquivo `meu_script.py`. A estrutura de diretórios ficou assim:

    > ```text
    > meu_projeto/
    > └── meu_script.py
    > ```

- Eis um *script* Python (`meu_script.py`):

    > ```Python
    > '''Imprime uma saudação colorida na tela.
    > '''
    > import colorama
    > 
    > 
    > def main() -> None:
    >     '''Função principal do script.
    >     '''
    >     # Prepara a Colorama para funcionar corretamente,
    >     # especialmente em ambientes Windows.
    >     colorama.init()
    > 
    >     styling = colorama.Fore.RED + colorama.Back.YELLOW + colorama.Style.BRIGHT
    >     reset_styling = colorama.Style.RESET_ALL
    > 
    >     print(styling + 'Hello, World!' + reset_styling)
    > 
    >     colorama.deinit()
    > 
    > 
    > if __name__ == '__main__':
    >     main()
    > ```

- E podemos executar esse *script* na linha de comando:

    > ```bash
    > cd meu_projeto
    > python meu_script.py
    > ```

***

***Atividade***

Escreva e rode os códigos acima para verificar se funcionam.


### Módulos

**Módulos** são arquivos que contêm código Python e são importados por outros módulos ou scripts. São arquivos também com extensão `.py` mas cujo propósito é ser *importado* em outros códigos, veja um exemplo:

- No diretório `meu_projeto` adicione o arquivo `meu_modulo.py` abaixo. A estrutura de diretórios fica assim:

    ```text
    meu_projeto/
    ├── meu_modulo.py
    └── meu_script.py
    ```

- `meu_modulo.py`

    > ```Python
    > '''Módulo de exemplo para demonstrar a criação de pacotes.
    > '''
    > import colorama
    > 
    > 
    > def say_hello(name: str | None = 'world') -> None:
    >     '''Imprime uma saudação colorida na tela.
    > 
    >     Args:
    >         name (str, optional): Nome a ser saudado.
    >     '''
    >     # Prepara a Colorama para funcionar corretamente,
    >     # especialmente em ambientes Windows.
    >     colorama.init()
    > 
    >     styling = colorama.Fore.RED + colorama.Back.YELLOW + colorama.Style.BRIGHT
    >     reset_styling = colorama.Style.RESET_ALL
    > 
    >     print(styling + f'Hello, {name}' + reset_styling)
    > 
    >     colorama.deinit()
    > ```

- E agora modifique o *script* `meu_script.py` para que importe o módulo:

    > ```Python
    > '''Imprime uma saudação colorida na tela.
    > '''
    > import meu_modulo
    > 
    > def main() -> None:
    >     '''Função principal do script.
    >     '''
    >     meu_modulo.say_hello('Insper')
    > 
    > if __name__ == '__main__':
    >     main()
    > ```

***

***Atividade***

Escreva e rode os códigos acima para verificar se funcionam.

### Pacotes

**Pacotes** são diretórios que contêm módulos e um arquivo especial chamado `__init__.py` (note o uso de *underscores* duplos em ambos os lados. Em Python, esses *underscores* duplos são chamados de *dunders* - *double underscores*). Eis um exemplo:

- Nossa estrutura de arquivos seria assim:

    > ```text
    > meu_script.py
    > meu_pacote/
    > ├── __init__.py
    > └── meu_modulo.py
    > ```

- `meu_modulo.py` é o módulo acima

- `__init__.py` é um arquivo vazio

- `meu_script.py` é assim:

    > ```Python
    > '''Imprime uma saudação colorida na tela.
    > '''
    > import meu_package.meu_modulo as mm
    > 
    > def main() -> None:
    >     '''Função principal do script.
    >     '''
    >     mm.say_hello('Insper')
    > 
    > if __name__ == '__main__':
    >     main()
    > ```

***

***Atividade***

Escreva e rode os códigos acima para verificar se funcionam.

### Notebooks

E você está trabalhando aonde mesmo?

### Pacotes instaláveis

Quando fazemos um *pacote* Python, é importante que ele seja *localizável* pelos outros códigos. Pense em *pacotes* que você importa o tempo todo, como o *Pandas*. Este pacote não está no mesmo diretório que seu *script* ou *notebook*, como foi o caso do exemplo acima. Como ele é localizado então na hora de rodar seu código Python que importa o Pandas?

Existem algumas formas de tornar um código *localizável*:

- Colocar o diretório do seu pacote na variável de ambiente `PYTHONPATH`, ou

- Transformar seu pacote em um pacote *instalável*

Prefiro a segunda opção - ela permite que seu código evolua a ponto de um dia ser instalado diretamente do repositório central de pacotes Python, o PyPI!

Para tornar seu código instalável, você precisa criar um arquivo `pyproject.toml` no seu projeto, veja o exemplo:

- A estrutura de arquivos e diretórios do projeto fica assim:

    > ```text
    > meu_projeto/
    > ├── src/
    > │   └── meu_pacote/
    > │       ├── __init__.py
    > │       └── meu_modulo.py
    > ├── notebooks/
    > │   └── meu_notebook.ipynb
    > ├── scripts/
    > │   └── meu_script.py
    > ├── pyproject.toml
    > └── README.md
    > ```

onde `meu_modulo.py` e `meu_script` tem o conteúdo acima.

- O arquivo `pyproject.toml` armazena informações à respeito do seu projeto Python como um todo, incluindo instruções para instalação dos pacotes, configuração de ferramentas de teste, etc. Para nossos propósitos vamos fazer o arquivo `pyproject.toml` mais simples possível:

    > ```toml
    > [build-system]
    > requires = ["setuptools>=61.0"]
    > build-backend = "setuptools.build_meta"
    > 
    > [project]
    > name = "meu_pacote"
    > description = "Código do projeto Saudação"
    > version = "0.1.0"
    > readme = "README.md"
    > dependencies = ["colorama"]
    > ```

Agora você pode instalar o pacote no seu ambiente Python. 

- Inicie o seu ambiente. Por exemplo `conda activate ml`. É sempre uma péssima idéia instalar pacotes no ambiente global (o `base` do `conda`, ou o Python do sistema).

- Com o ambiente inicializado, mude seu diretório de trabalho no terminal para o diretório onde o arquivo `pyproject.toml` está.

- Agora execute o comando de instalação do seu pacote no seu ambiente Python:

    > ```bash
    > pip install -e .
    > ```

Com isso você está instruindo o comando `pip`, de gerenciamento de pacotes Python, a instalar o seu pacote. O *flag* `-e` significa "editável": você pode fazer alterações à vontade no seu pacote instalado, e essas alterações estarão disponíveis para seus outros códigos.

***

***Atividade***:

Escreva e rode os códigos acima para ver que funcionam.


Agora que você domina a criação de pacotes instaláveis Python, vamos criar o projeto "Car Prices".

***

***Atividade***

Crie a seguinte estrutura de diretórios para o seu projeto:

> ```text
> car_prices/
> ├── src/
> │   └── car_prices/
> │       ├── __init__.py
> │       └── dataset.py
> ├── notebooks/
> │   ├── .gitkeep
> │   └── test_reading.ipynb
> ├── scripts/
> │   ├── .gitkeep
> │   └── show_dataset_info.py
> ├── pyproject.toml
> └── README.md
> ```

Os arquivos `pyproject.toml`, `test_reading.ipynb` e `show_dataset_info.py` já estão implementados aqui nesta pasta, copie-os para o projeto.

Note que temos uma questão acerca da variável `DATA_DIR`, que não deve ser transferida. Para resolver essa questão em definitivo, adicionei um arquivo `.env_template` na raiz deste repositório. Copie este arquivo `.env_template` para `.env` e escreva o diretório onde os dados devem ser armazenados na variável `DATA_DIR` deste arquivo. Veja nos arquivos `test_reading.ipynb` e `show_dataset_info.py` como utilizar arquivos `.env` com a biblioteca `dotenv`. (Note que o arquivo `pyproject.toml` já inclui a dependência `python-dotenv` necessária.)

Agora transfira o código de leitura do *dataset* para o módulo `dataset.py`. 